feat(datasets): Add cardiovascular data

ydataai · Nov 2, 2020 · cc3dc0f · cc3dc0f
1 parent cf2230b
commit cc3dc0f
Show file tree

Hide file tree

Showing 4 changed files with 83 additions and 1 deletion.
diff --git a/requirements.txt b/requirements.txt
@@ -3,4 +3,7 @@ numpy==1.17.4
 scikit-learn==0.22.2
 matplotlib==3.3.2
 tensorflow==2.1.2
-easydict
+tensorflow-privacy==0.5.1
+kaggle==1.5.9
+easydict
+pmlb
diff --git a/src/ydata_synthetic/preprocessing/adult.py b/src/ydata_synthetic/preprocessing/adult.py
@@ -0,0 +1,35 @@
+import pandas as pd
+
+from sklearn.preprocessing import OneHotEncoder, StandardScaler
+from sklearn.pipeline import Pipeline
+from sklearn.compose import ColumnTransformer
+
+from pmlb import fetch_data
+
+def transformations(auto=True):
+    if auto:
+        data = fetch_data('adult')
+    else:
+        data = fetch_data('adult')
+
+        numerical_features = ['age', 'fnlwgt', 
+                              'capital-gain', 'capital-loss',
+                              'hours-per-week']
+        numerical_transformer = Pipeline(steps=[
+            ('onehot', StandardScaler())])
+
+        categorical_features = ['workclass','education', 'marital-status', 
+                                'occupation', 'relationship',
+                                'race', 'sex']
+        categorical_transformer = Pipeline(steps=[
+            ('onehot', OneHotEncoder(handle_unknown='ignore'))])
+
+        preprocessor = ColumnTransformer(
+            transformers=[
+                ('num', numerical_transformer, numerical_features),
+                ('cat', categorical_transformer, categorical_features)])
+
+        processed_data = preprocessor.fit_transform(data)
+        processed_data = pd.DataFrame.sparse.from_spmatrix(preprocessor.fit_transform(processed_data))
+    return data, processed_data, preprocessor
+
diff --git a/src/ydata_synthetic/preprocessing/breast_cancer_wisconsin.py b/src/ydata_synthetic/preprocessing/breast_cancer_wisconsin.py
@@ -0,0 +1,19 @@
+import pandas as pd
+
+from sklearn.preprocessing import StandardScaler
+from sklearn.pipeline import Pipeline
+from sklearn.compose import ColumnTransformer
+
+from pmlb import fetch_data
+
+def transformations(auto=True):
+    if auto:
+        data = fetch_data('breast_cancer_wisconsin')
+    else:
+        data = fetch_data('breast_cancer_wisconsin')
+        scaler = StandardScaler()
+        processed_data = scaler.fit_transform(data)
+        processed_data = pd.DataFrame(processed_data)
+    return data, processed_data, scaler
+
+
diff --git a/src/ydata_synthetic/preprocessing/cardiovascular.py b/src/ydata_synthetic/preprocessing/cardiovascular.py
@@ -0,0 +1,25 @@
+import pandas as pd
+
+from sklearn.preprocessing import OneHotEncoder, StandardScaler
+from sklearn.pipeline import Pipeline
+from sklearn.compose import ColumnTransformer
+
+def transformations(data):
+    categorical_features = ['gender', 'cardio', 'active', 'alco', 'smoke', 'gluc',
+                'cholesterol']
+    numerical_features = [ 'height', 'weight', 'ap_hi', 'ap_lo']
+
+    numerical_transformer = Pipeline(steps=[
+        ('onehot', StandardScaler())])
+
+    categorical_transformer = Pipeline(steps=[
+        ('onehot', OneHotEncoder(handle_unknown='ignore'))])
+
+    preprocessor = ColumnTransformer(
+        transformers=[
+            ('num', numerical_transformer, numerical_features),
+            ('cat', categorical_transformer, categorical_features)])
+
+    processed_data = preprocessor.fit_transform(data)
+    processed_data = pd.DataFrame.sparse.from_spmatrix(preprocessor.fit_transform(processed_data))
+    return processed_data, preprocessor