# <center>TD3: arbres de décision avec *scikit-learn* </center>



Nous allons utiliser *scikit-learn* pour mettre en place des arbres de décision. Voici le lien [doc](https://scikit-learn.org/stable/modules/tree.html) vers la documentation de *scikit-learn* concernant les arbres de décision 

In [2]:
# Importation des packages
from sklearn.tree import DecisionTreeClassifier
from sklearn import tree
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

## Première partie: utilisation de la classe *DecisionTreeClassifier*

Nous allons commencer à travailler avec le jeu de données *magasin.csv* que vous connaissez bien maintenant.
Déterminer un dataframe *X* qui contiendra toutes les variables caractéristiques et un dataframe *Y* la variable cible.

En vous aidant de la documentation de *scikit-learn*, entrainer le modèle (construction de l'arbre de décision) et faire afficher l'arbre de décision construit

Vous pouvez à l'aide du code ci-dessous avoir une meilleure représentation de l'arbre.
Comparer l'arbre obtenu à celui que vous aviez construit avec votre programme écrit à la main. Il y a des différences.
En étudiant dans la documentation, les hyperparamètres du modèle (paramètre du contructeur de *DecisionTreeClassifier*) que l'on a la possibilité  d'utiliser pour construire l'arbre, déterminer quelques différences.   

> Eh oui, on est loin d'avoir implémenter complètement cet algorithme !
> Il y a de nombreux critères à prendre en compte pour pouvoir optimiser l'apprentissage.

In [None]:
import graphviz
columns = X.columns[np.logical_not(X.columns == "Achat")]


dot_data = tree.export_graphviz(model_tree, out_file=None,
                                feature_names=columns.to_list(),
                                class_names=['non achat','achat'],
                                filled=True, rounded=True,
                                special_characters=True)
graph = graphviz.Source(dot_data)
#pour creer un pdf
#graph.render("magasin") 
graph

## Seconde partie: optimisation du modèle 
 
> dans le monde de l'apprentissage automatique, on adore les néologismes issus de la langue anglaise => vous verrez souvent ce terme: *fine-tuner* le modèle. 

Le but sera de tester différentes valeurs des hyperparamètres du modèle pour l'optimiser. On utilisera pour cela la technique de la validation croisée comme dans le TD précédent.
Nous utiliserons le jeu de données *iris* qui est plus volumineux que le premier utilisé. 

- charger le jeu de données *iris*
- déterminer un ensemble d'apprentissage et un ensemble de test (60% apprentissage et 40% test). Dans la méthode que vous utiliserez pour construire ces deux ensembles, intéressez vous au paramètre *random_state* et passez lui la valeur maximale suggérée.
> Le jeu de données *iris* est un jeu de données très simple dont le modèle est assez facile à déterminé. Si l'on veut voir une différence après la validation croisée sur les résultats de prédiction, il faut rendre l'apprentissage plus difficile d'où la répartition ensemble d'apprentissage et ensemble de test choisi.

- construire un arbre de décision relatif à ce jeu de donnée et faire afficher l'arbre
- calculer le score obtenu sur l'ensemble de test (exactitude)

> lancer plusieurs fois votre traitement (10 fois). Qu'observez vous par rapport à la valeur de l'exactitude de la prédiction sur l'ensemble de test ?

In [None]:
#TODO

Nous allons maintenant étudier 2 hyperparamètres du modèle: *max_depth* et *min_samples_leaf*
- regarder dans la documentation en quoi ces deux hyperparamètres influencent la construction de l'arbre. Vous pouvez tester à la main plusieurs de leurs valeurs pour visualiser les conséquences de leur modification sur le modèle obtenu.  
- déterminer à l'aide de la technique de la validation croisée, la meilleure valeur pour les 2 hyperparamètres précédents.
Vous utiliserai la classe *GridSearchCV* qui permet de réaliser tous les tests avec les hyperparamètres concernés et vous donnera les valeurs de ceux-ci optimisés pour maximiser l'exactitude
[documentation](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html)
et [exemple](https://www.mygreatlearning.com/blog/gridsearchcv/)


> Attention à l'interprétation: ce sont les meilleures valeurs des hyperparamètres de notre modèle pour le jeu de données que nous utilisons et avec la séparation que nous avons mis en place (60% apprentissage et 40% test)

Utiliser les valeurs des paramètres déterminées précédemment sur la partition initiale des données (60% apprentissage et 40% test). Que constatez vous ?

In [None]:
# TODO

## Un autre cas à étudier


Utiliser maintenant le jeu de données relatif au Titanic. Nous utiliserons les colonnes qui sont notées dans la cellule qui suit de ce notebook.

- séparer les données en 2 ensembles: apprentissage => 80% et test=> 20%
- construire l'arbre de décision
- calculer le score obtenu sur l'ensemble de test
- optimiser les hyperparamètres
- afficher le nouveau score obtenu et les valeurs des hyperparamètres déterminées par la phase d'optimisation (les hyperparamètres à optimiser sont donnés dans la cellule qui suit de ce notebook)

> attention: afin d'utiliser la classe *DecisionTreeClassifier*,  il faut que:
- toutes les valeurs liées aux caractéristiques du jeu de données soient des nombres
- qu'aucune valeur du jeu de données ne soit nulle (vide)  
*Pour la colonne *Age* vous remplacerez les valeurs nulles par la moyenne de l'âge des passagers.
Pour les valeurs nulles dans les autres colonnes, vous supprimerez la ligne du jeu de données qui correspond à cette valeur nulle.
Il faudra donc mettre en place un pré-traitement sur les données avant de construire l'arbre.*

In [None]:
# Charger le jeu de données complet
#TODO

# Prétraitement des données (nous allons utiliser uniquement ces colonnes)
selected_columns = ['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked' ,'Survived']

#TODO



## les hyperparametres à optimiser et les valeurs à prendre en compte
params = {
    'criterion':  ['gini', 'entropy'],
    'max_depth':  [None, 2, 4, 6, 8, 10],
    'max_features': [None, 'sqrt', 'log2', 0.2, 0.4, 0.6, 0.8],
    'splitter': ['best', 'random']
}
#TODO



### En Résumé:

Les arbres de décision ont plusieurs avantages qui les rendent intéressants dans des contextes où il est utile de comprendre la séquence de décisions prise par le modèle :

- Ils nécessitent peu de préparation des données (pas de normalisation, etc.).

- Le coût d’utilisation des arbres est logarithmique.

- Ils sont capables d’utiliser des données catégorielles et numériques.

- Ils sont capables de traiter des problèmes multi-classe.

- Le résultat est directement visualisable et facile à comprendre

**Ces modèles présentent néanmoins deux désavantages majeurs :**

- Sur-apprentissage : parfois les arbres générés sont trop complexes et généralisent mal. Choisir des bonnes valeurs pour les paramètres profondeur maximale (max_depth) et nombre minimal d’exemples par feuille (min_samples_leaf) permet d’éviter ce problème.

- Il peut arriver que les arbres générés ne soient pas équilibrés (ce qui implique que le temps de parcours n’est plus logarithmique). Il est donc recommandé d’ajuster le jeu de données avant la construction, pour éviter qu’une classe domine largement les autres (en termes de nombre d’exemples d’apprentissage).

