fix(scores): pandas to read score column as float.

When loading a score file, indicate to pandas to interpret the score column as float (prevent issues when the first elements are empty).

fix(scores): pandas to read score column as float.
c60a6b16 · Yannick DAYER · 7717a1b9 · c60a6b16
Verified Commit c60a6b16 authored 1 year ago by Yannick DAYER
--- a/src/bob/bio/base/score/load.py
+++ b/src/bob/bio/base/score/load.py
@@ -9,6 +9,7 @@ import logging
 import os
 import tarfile
+from collections import defaultdict
 from pathlib import Path
 import dask.dataframe
@@ -162,7 +163,9 @@ def get_split_dataframe(filename):
        :ref:`bob.bio.base.pipeline_simple_advanced_features`)
    """
-    df = dask.dataframe.read_csv(filename)
+    df = dask.dataframe.read_csv(
+        filename, dtype=defaultdict(lambda: str, {"score": float})
+    )
    genuines = df[df.probe_subject_id == df.bio_ref_subject_id]
    impostors = df[df.probe_subject_id != df.bio_ref_subject_id]
@@ -195,7 +198,9 @@ def split_csv_scores(filename, score_column: str = "score"):
        :ref:`bob.bio.base.pipeline_simple_advanced_features`)
    """
-    df = dask.dataframe.read_csv(filename)
+    df = dask.dataframe.read_csv(
+        filename, dtype=defaultdict(lambda: str, {"score": float})
+    )
    genuines = df[df.probe_subject_id == df.bio_ref_subject_id]
    impostors = df[df.probe_subject_id != df.bio_ref_subject_id]