INRIA · lesteve · Nov 18, 2020 · Nov 17, 2020 · glemaitre · Nov 17, 2020
diff --git a/notebooks/04_parameter_tuning.ipynb b/notebooks/04_parameter_tuning.ipynb
@@ -90,11 +90,12 @@
    "outputs": [],
    "source": [
     "from sklearn.compose import ColumnTransformer\n",
+    "from sklearn.compose import make_column_selector as selector\n",
+    "\n",
     "from sklearn.preprocessing import OrdinalEncoder\n",
     "\n",
-    "categorical_columns = [\n",
-    "    'workclass', 'education', 'marital-status', 'occupation',\n",
-    "    'relationship', 'race', 'native-country', 'sex']\n",
+    "categorical_columns_selector = selector(dtype_include=object)\n",
+    "categorical_columns = categorical_columns_selector(data)\n",
     "\n",
     "categories = [\n",
     "    data[column].unique() for column in data[categorical_columns]]\n",

diff --git a/notebooks/04_parameter_tuning_search.ipynb b/notebooks/04_parameter_tuning_search.ipynb
@@ -86,11 +86,12 @@
    "outputs": [],
    "source": [
     "from sklearn.compose import ColumnTransformer\n",
+    "from sklearn.compose import make_column_selector as selector\n",
+    "\n",
     "from sklearn.preprocessing import OrdinalEncoder\n",
     "\n",
-    "categorical_columns = [\n",
-    "    'workclass', 'education', 'marital-status', 'occupation',\n",
-    "    'relationship', 'race', 'native-country', 'sex']\n",
+    "categorical_columns_selector = selector(dtype_include=object)\n",
+    "categorical_columns = categorical_columns_selector(data)\n",
     "\n",
     "categories = [\n",
     "    data[column].unique() for column in data[categorical_columns]]\n",

diff --git a/notebooks/04_parameter_tuning_sol_02.ipynb b/notebooks/04_parameter_tuning_sol_02.ipynb
@@ -61,15 +61,16 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "categorical_columns = [\n",
-    "    'workclass', 'education', 'marital-status', 'occupation',\n",
-    "    'relationship', 'race', 'native-country', 'sex']\n",
+    "from sklearn.compose import make_column_selector as selector\n",
+    "\n",
+    "categorical_columns_selector = selector(dtype_include=object)\n",
+    "categorical_columns = categorical_columns_selector(data)\n",
     "\n",
     "categories = [data[column].unique()\n",
     "              for column in data[categorical_columns]]\n",
     "\n",
-    "numerical_columns = [\n",
-    "    'age', 'capital-gain', 'capital-loss', 'hours-per-week']\n",
+    "numerical_columns_selector = selector(dtype_exclude=object)\n",
+    "numerical_columns = numerical_columns_selector(data)\n",
     "\n",
     "from sklearn.preprocessing import OneHotEncoder\n",
     "from sklearn.preprocessing import StandardScaler\n",

diff --git a/python_scripts/04_parameter_tuning.py b/python_scripts/04_parameter_tuning.py
@@ -57,11 +57,12 @@
 
 # %%
 from sklearn.compose import ColumnTransformer
+from sklearn.compose import make_column_selector as selector
+
 from sklearn.preprocessing import OrdinalEncoder
 
-categorical_columns = [
-    'workclass', 'education', 'marital-status', 'occupation',
-    'relationship', 'race', 'native-country', 'sex']
+categorical_columns_selector = selector(dtype_include=object)
+categorical_columns = categorical_columns_selector(data)
 
 categories = [
     data[column].unique() for column in data[categorical_columns]]

diff --git a/python_scripts/04_parameter_tuning_search.py b/python_scripts/04_parameter_tuning_search.py
@@ -53,11 +53,12 @@
 
 # %%
 from sklearn.compose import ColumnTransformer
+from sklearn.compose import make_column_selector as selector
+
 from sklearn.preprocessing import OrdinalEncoder
 
-categorical_columns = [
-    'workclass', 'education', 'marital-status', 'occupation',
-    'relationship', 'race', 'native-country', 'sex']
+categorical_columns_selector = selector(dtype_include=object)
+categorical_columns = categorical_columns_selector(data)
 
 categories = [
     data[column].unique() for column in data[categorical_columns]]

diff --git a/python_scripts/04_parameter_tuning_sol_02.py b/python_scripts/04_parameter_tuning_sol_02.py
@@ -47,15 +47,16 @@
 # Start by defining the columns and the preprocessing pipelines to be applied
 # on each columns.
 # %%
-categorical_columns = [
-    'workclass', 'education', 'marital-status', 'occupation',
-    'relationship', 'race', 'native-country', 'sex']
+from sklearn.compose import make_column_selector as selector
+
+categorical_columns_selector = selector(dtype_include=object)
+categorical_columns = categorical_columns_selector(data)
 
 categories = [data[column].unique()
               for column in data[categorical_columns]]
 
-numerical_columns = [
-    'age', 'capital-gain', 'capital-loss', 'hours-per-week']
+numerical_columns_selector = selector(dtype_exclude=object)
+numerical_columns = numerical_columns_selector(data)
 
 from sklearn.preprocessing import OneHotEncoder
 from sklearn.preprocessing import StandardScaler