# TD 2 : Machine Learning avec Sklearn
## Préparation des données

Importer le fichier de données (horses.csv) dans un DataFrame pandas.

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [8]:
horses = pd.read_csv('data/horse.csv')
# Transtypage des variables catégorielles
for col in horses.columns:
    if horses[col].dtype == 'object':
        horses[col] = horses[col].astype('category')
    else:
        horses[col] = horses[col].astype('float64')

In [3]:
horses.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 299 entries, 0 to 298
Data columns (total 28 columns):
 #   Column                 Non-Null Count  Dtype   
---  ------                 --------------  -----   
 0   surgery                299 non-null    category
 1   age                    299 non-null    category
 2   hospital_number        299 non-null    float64 
 3   rectal_temp            239 non-null    float64 
 4   pulse                  275 non-null    float64 
 5   respiratory_rate       241 non-null    float64 
 6   temp_of_extremities    243 non-null    category
 7   peripheral_pulse       230 non-null    category
 8   mucous_membrane        252 non-null    category
 9   capillary_refill_time  267 non-null    category
 10  pain                   244 non-null    category
 11  peristalsis            255 non-null    category
 12  abdominal_distention   243 non-null    category
 13  nasogastric_tube       195 non-null    category
 14  nasogastric_reflux     193 non-null    cat

Appliquer la préparation de données du TD1. (ou utilisez la baseline ci-dessous)

In [9]:
class Nettoyeur_perso():
    def __init__(self, col_a_retirer=None, seuil=0.6) -> None:
        self.col_a_retirer = col_a_retirer
        self.seuil = seuil
    
    def fit(self, X, y=None):
        self.X = X
        return self
    
    def transform(self, X, y=None):
        X = X.copy()
        X.drop(self.col_a_retirer,
            axis=1, inplace=True # inplace = True pour que la modification soit faite directement sur le dataframe
            )
        X = X.dropna(thresh=len(X)*self.seuil, axis=1)# Suppression des colonnes avec plus de 60% de valeurs manquantes
        for col in X.columns:
            if X[col].dtype != 'float64':
                X[col] = X.loc[:,col].fillna(X[col].mode()[0])# Remplacement des valeurs manquantes par le mode pour les variables catégorielles mode = valeur la plus fréquente
            else:
                X[col] = X.loc[:,col].fillna(X[col].mean())# Remplacement des valeurs manquantes par la moyenne pour les variables numériques
        return X
    
    def fit_transform(self, X, y=None):
        self.fit(X)
        return self.transform(X)

In [11]:
imputer = Nettoyeur_perso(col_a_retirer=['surgery', 'hospital_number', 'outcome', 'lesion_1', 
    'lesion_2', 'lesion_3', 'cp_data'],
    seuil=0.6)
horsesClean = imputer.fit_transform(horses)
print(horsesClean.shape)
horsesClean.head()

(299, 18)


Unnamed: 0,age,rectal_temp,pulse,respiratory_rate,temp_of_extremities,peripheral_pulse,mucous_membrane,capillary_refill_time,pain,peristalsis,abdominal_distention,nasogastric_tube,nasogastric_reflux,rectal_exam_feces,abdomen,packed_cell_volume,total_protein,surgical_lesion
0,adult,38.5,66.0,28.0,cool,reduced,normal_pink,more_3_sec,extreme_pain,absent,severe,slight,none,decreased,distend_large,45.0,8.4,no
1,adult,39.2,88.0,20.0,cool,normal,pale_cyanotic,less_3_sec,mild_pain,absent,slight,slight,none,absent,other,50.0,85.0,no
2,adult,38.3,40.0,24.0,normal,normal,pale_pink,less_3_sec,mild_pain,hypomotile,none,slight,none,normal,normal,33.0,6.7,no
3,young,39.1,164.0,84.0,cold,normal,dark_cyanotic,more_3_sec,depressed,absent,severe,none,less_1_liter,decreased,distend_large,48.0,7.2,yes
4,adult,37.3,104.0,35.0,cool,normal,dark_cyanotic,more_3_sec,mild_pain,hypomotile,none,slight,none,absent,distend_large,74.0,7.4,no


Il va être être nécessaire d'encoder nos données qualitatives :

Il existe plusieurs méthodes pour encoder des données qualitatives. 


Pour les variables nominales :

* [sklearn.preprocessing.LabelEncoder](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html)

* [pandas.get_dummies](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.get_dummies.html)

* ... bien d'autres sur [sklearn.preprocessing](https://scikit-learn.org/stable/modules/preprocessing.html#encoding-categorical-features)

Pour les variables ordinales :

* [sklearn.preprocessing.OrdinalEncoder](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OrdinalEncoder.html) pour les variables ordinales.



In [9]:
from sklearn.preprocessing import OrdinalEncoder

#TODO : encoder les variables ordinales à l'aide de OrdinalEncoder
#TODO : encoder les variables nominales à l'aide de get_dummies

Par simplicité, nous allons juger nos différents modèle à travers un validation holdout. Nous allons donc séparer notre jeu de données en deux parties : une partie pour l'entrainement et une partie pour le test.

[sklearn.model_selection.train_test_split](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html)

In [8]:
from sklearn.model_selection import train_test_split

#TODO : séparer les données en train et test

## Construction du modèle

## Apprentissage

#### Arbre de décision

Réalisez un arbre de décision avec la fonction [DecisionTreeClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html) de sklearn.

In [17]:
from sklearn.tree import DecisionTreeClassifier
# max_depth : profondeur maximale de l'arbre
# min_samples_split : nombre minimal d'observations pour pouvoir spliter un noeud
# min_samples_leaf : nombre minimal d'observations pour pouvoir créer un noeud
# splitter : critère de split
# random_state : graine pour la reproductibilité

# On instancie notre modèle

# On entraine notre modèle

# On prédit les valeurs de y pour X_test


##### Visualisation de l'arbre

In [7]:
from sklearn.tree import plot_tree

# On affiche l'arbre


##### Evaluation de l'arbre

In [1]:
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report

# TODO : afficher la matrice de confusion et le classification report

#### Bagging (Random Forest)

On va maintenant utiliser un modèle de bagging : le [Random Forest](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html).

Entrainez et évaluez un modèle de Random Forest.

In [6]:
from sklearn.ensemble import RandomForestClassifier

#TO DO : instancier et entrainer un modèle de forêt aléatoire

Bonus : Essayez de faire varier le nombre d'arbres dans le modèle et observez l'impact sur la performance du modèle.

Il est possible de visualiser l'importance des variables dans le modèle.

A l'aide de la fonction [feature_importances_](https://scikit-learn.org/stable/auto_examples/ensemble/plot_forest_importances.html) de sklearn.

Sur sklearn il existe aussi la fonction [permutation_importance](https://scikit-learn.org/stable/modules/permutation_importance.html) qui permet de calculer l'importance des variables.

In [2]:
from sklearn.inspection import permutation_importance


https://scikit-learn.org/stable/auto_examples/inspection/plot_permutation_importance.html

#### Bagging

On va maintenant utiliser un modèle de bagging : le [BaggingClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.BaggingClassifier.html).

In [3]:
from sklearn.ensemble import BaggingClassifier

#TO DO : instancier et entrainer un modèle de bagging

#### Boosting (Gradient Boosting)

Entrainez et évaluez un modèle de boosting avec la fonction [GradientBoostingClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingClassifier.html) de sklearn.

In [4]:
from sklearn.ensemble import GradientBoostingClassifier


Evaluation du modèle

#### xgboost

Entrainez et évaluez un modèle de boosting avec la fonction [XGBClassifier](https://xgboost.readthedocs.io/en/latest/python/python_api.html#xgboost.XGBClassifier) de xgboost.

In [5]:
from xgboost import XGBClassifier


essayez d'autres algorithmes de bagging/boosting:

* [sklearn.ensemble.BaggingClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.BaggingClassifier.html)

* [sklearn.ensemble.ExtraTreesClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.ExtraTreesClassifier.html)

* [sklearn.ensemble.HistGradientBoostingClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.HistGradientBoostingClassifier.html)