deepchecks · noamzbr · Dec 6, 2023 · Dec 5, 2023 · Dec 5, 2023 · Dec 5, 2023
@@ -43,14 +43,14 @@ def default_fill_na_per_column_type(df: pd.DataFrame, cat_features: t.Optional[t
 
 def default_fill_na_series(col: pd.Series, is_cat_column: t.Optional[bool] = None) -> t.Optional[pd.Series]:
     """Fill NaN values based on column type if possible otherwise returns None."""
-    if is_cat_column:
-        return col.astype('object').fillna('None')
+    if is_cat_column and 'None' not in col.astype('object').unique():
+            return col.astype('object').fillna('None')            
     elif is_numeric_dtype(col):
-        return col.astype('float64').fillna(col.mean())
-    else:
-        common_values_list = col.mode()
-        if isinstance(common_values_list, pd.Series) and len(common_values_list) > 0:
-            return col.fillna(common_values_list[0])
+        return col.astype('float64').fillna(np.nan)
+
+    common_values_list = col.mode()
+    if isinstance(common_values_list, pd.Series) and len(common_values_list) > 0:
+        return col.fillna(common_values_list[0])
     return None
 
 

@@ -49,7 +49,7 @@ def test_column_with_nones(tweet_emotion_train_test_textdata, tweet_emotion_trai
 
     # Assert
     assert_that(result.value['avg_score'], close_to(0.707, 0.01))
-    assert_that(len(result.value['weak_segments_list']), equal_to(8))
+    assert_that(len(result.value['weak_segments_list']), equal_to(4))
     assert_that(result.value['weak_segments_list'].iloc[0, 0], close_to(0.305, 0.01))
 
 
@@ -168,7 +168,7 @@ def test_multilabel_just_dance(just_dance_train_test_textdata, just_dance_train_
 
     # Assert
     assert_that(result.value['avg_score'], close_to(0.615, 0.001))
-    assert_that(len(result.value['weak_segments_list']), equal_to(5))
+    assert_that(len(result.value['weak_segments_list']), equal_to(3))
     assert_that(result.value['weak_segments_list'].iloc[0, 0], close_to(0.433, 0.01))