## TD 3

### GRID et RANDOM SEARCH CV

In [48]:
import pandas as pd
from sklearn.model_selection import train_test_split

# Chargement des données
horses = pd.read_csv('data/horse_clean.csv')

# Séparation des données en train et test
X_train, X_test, y_train, y_test = train_test_split(horses.drop('surgical_lesion_yes', axis=1), horses['surgical_lesion_yes'], test_size=0.2, random_state=42)

En utilisant la fonction `GridSearchCV` de `sklearn.model_selection`, déterminer les meilleurs hyperparamètres pour les algorithmes suivants :

DecisionTreeClassifier,
RandomForestClassifier,
GradientBoostingClassifier


Visualisez les résultats

### RandomizedSearchCV

Reprendre la question précédente en utilisant la fonction `RandomizedSearchCV` de `sklearn.model_selection`.

Comparer les résultats et le temps d'exécution des deux méthodes.

In [53]:
from sklearn.model_selection import RandomizedSearchCV


### Pipelines

In [85]:
horses = pd.read_csv('data/horse.csv')

# suppression des colonnes avec trop de valeurs manquantes & inutiles

horses.drop(['surgery', 'hospital_number', 'outcome', 'lesion_1',
             'lesion_2', 'lesion_3', 'cp_data'],
               axis=1, inplace=True
               )


horses.dropna(thresh=0.6*len(horses), axis=1, inplace=True)
# encodage des variables catégorielles

# suppression des lignes avec trop de valeurs manquantes
horsesf = pd.get_dummies(horses, drop_first=True)

# Séparation des données en train et test
X_train, X_test, y_train, y_test = train_test_split(
    horsesf.drop('surgical_lesion_yes', axis=1),
    horsesf['surgical_lesion_yes'],
    test_size=0.2, random_state=42)



A partir du dataframe, on va créer un pipeline qui va permettre de faire les transformations suivantes :
- Remplacer les valeurs manquantes à l'aide d'un [SimpleImputer](https://scikit-learn.org/stable/modules/generated/sklearn.impute.SimpleImputer.html)
- Entrainer un [DecisionTreeClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html)

Assemblez une pipeline à l'aide des fonctions çi-dessous.

In [83]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer

On importe notre fichier initial, et on créee nos échantillons d'entrainement et de test

Entrainons notre pipeline sur l'échantillon d'entrainement

Prédire les valeurs de l'échantillon de test, et calculer la précision de notre modèle.

#### Pipeline avec GridSearchCV

On va maintenant utiliser un GridSearchCV pour trouver les meilleurs paramètres pour notre modèle.

On va utiliser les paramètres suivants :
Pour le SimpleImputer :
- strategy : ['mean', 'median', 'most_frequent']

Pour le DecisionTreeClassifier :
- max_depth : [3, 10, 20,  30]

In [90]:
from sklearn.model_selection import GridSearchCV



Fitting 5 folds for each of 12 candidates, totalling 60 fits
0.7073581560283688
{'imputer__strategy': 'most_frequent', 'model__max_depth': 3}


### Encore plus de pipelines

On va maintenant essayer de créer une pipeline pour la totalité des transformations que l'on a faites jusqu'à présent sur nos données.

On va donc créer une pipeline qui va :
- Retirer les colonnes inutiles
- (optionel) Retirer les colonnes avec trop de valeurs manquantes
- Imputer les valeurs manquantes
- Transformer les variables catégorielles en variables numériques
    - Avec une regle pour les variables nominales
    - Avec une regle pour les variables ordinales
- Entrainer un DecisionTreeClassifier


In [None]:
import pandas as pd

# Pour faciliter la suite, on peut préciser le type de chaque colonne
horses = pd.read_csv('data/horse.csv',
            dtype= {'surgery': 'category',
                'age': 'category',
                'hospital_number': 'int64',
                'rectal_temp': 'float64',
                'pulse': 'float64',
                'respiratory_rate': 'float64',
                'temp_of_extremities': 'category',
                'peripheral_pulse': 'category',
                'mucous_membrane': 'category',
                'capillary_refill_time': 'category',
                'pain': 'category',
                'peristalsis': 'category',
                'abdominal_distention': 'category',
                'nasogastric_tube': 'category',
                'nasogastric_reflux': 'category',
                'nasogastric_reflux_ph': 'float64',
                'rectal_exam_feces': 'category',
                'abdomen': 'category',
                'packed_cell_volume': 'float64',
                'total_protein': 'float64',
                'abdomo_appearance': 'category',
                'abdomo_protein': 'float64',
                'outcome': 'category',
                'surgical_lesion': 'category',
                'lesion_1': 'category',
                'lesion_2': 'category',
                'lesion_3': 'category',
                'cp_data': 'category'
                }
            )

# echantillons
from sklearn.model_selection import train_test_split

# Séparation des données en train et test
X_train, X_test, y_train, y_test = train_test_split(
    horses.drop('surgical_lesion', axis=1),
    horses['surgical_lesion'],
    test_size=0.3,
    random_state=42
    )

y_train = pd.Series([1 if x == 'yes' else 0 for x in y_train])
y_test = pd.Series([1 if x == 'yes' else 0 for x in y_test])