---
jupyter:
  jupytext:
    text_representation:
      extension: .md
      format_name: markdown
      format_version: '1.3'
      jupytext_version: 1.16.0
  kernelspec:
    display_name: Python 3
    language: python
    name: python3
---

<!-- #region id="bd6d5a06" -->
# Table des matières
- [Exemple de classification par forêt aléatoire](#exemple-de-classification-par-forêt-aléatoire)
  - [Lecture et préparation des données](#lecture-et-préparation-des-données)
      - [Lecture du jeu de données en format CSV](#lecture-de-la-base-de-données-en-format-csv)
      - [Affichage de statistiques sur les données](#affichage-de-statistiques-sur-les-données)
      - [Élimination d'une colonne inutile](#élimination-dune-colonne-inutile)
      - [Séparation des variables X et de la réponse y du jeu de données.](#séparation-des-variables-x-et-de-la-réponse-y-de-la-base-de-données)
      - [Vérification du débalancement des classes](#vérification-du-débalancement-des-classes)
      - [Génération stratifiée des ensembles d'entraînement ($80~\%$ des données) et de test ($20~\%$ restants)](#génération-stratifiée-des-ensembles-dentraînement-80-des-données-et-de-test-20-restants)
      - [Normalisation des données](#normalisation-des-données)
  - [Question](#question)
  - [Entraînement d'un classificateur de type forêt aléatoire](#entraînement-dun-classificateur-de-type-forêt-aléatoire)
      - [Sélection du classificateur](#sélection-du-classificateur)
      - [Entraînement du classificateur avec les données d'entraînement](#entraînement-du-classificateur-avec-les-données-dentraînement)
  - [Affichage des statistiques de classification](#affichage-des-statistiques-de-classification)
      - [Prédictions pour les ensembles d'entraînement et de test](#prédictions-pour-les-ensembles-dentraînement-et-de-test)
      - [Comparaison des valeurs d'exactitude](#comparaison-des-valeurs-dexactitude)
      - [Affichage du rapport sur les statistiques de classification](#affichage-du-rapport-sur-les-statistiques-de-classification)
  - [Identification des variables les plus importantes pour diagnostiquer le diabète](#identification-des-variables-les-plus-importantes-pour-diagnostiquer-le-diabète)
      - [Calcul de l'importance de chaque variable.](#calcul-de-limportance-de-chaque-variable)
    - [Affichage du diagrame d'importance, ou du spectre d'importance, des variables du jeu de données](#affichage-du-diagrame-dimportance-ou-du-spectre-dimportance-des-variables-de-la-base-de-données)
<!-- #endregion -->

<!-- #region id="aa9a3c2f" -->
---
# Exemple de classification par forêt aléatoire
---
<!-- #endregion -->

<!-- #region id="f83e124a" -->
<p>&nbsp;</p>
<div align="center">
    <img src= "../images/diabetes-blood-sample.jpeg"  width="500" />
    <div>
    <font size="0.5">Image Source: https://medicalfitness.com.au/type-1-and-2-diabetes-australia/</font>
    </div>
</div>
<!-- #endregion -->

<!-- #region id="4a5eb103" -->
Dans cette section, nous allons appliquer la classification par forêt aléatoire afin de prédire si un patient
est diabétique ou non en fonction de variables mesurés à la suite d'une visite médicale typique (prise
de pression, de sang, d'urine, de poids, etc.)

Ce type d'analyse a mené à une meilleure compréhension du diabète. C'est un bel exemple de l'utilisation de
l'apprentissage automatique en médecine. Dans ce problème, nous sommes confrontés à des données
disparates (taux de glucose dans le sang, indice de masse corporelle, épaisseur de la peau, etc.)

Comme on l'a vu dans les précédentes sections, la classification sert à prédire une *réponse* $y$, qui est
une variable ordinale ou catégorique (c.-à-d. une classe), en fonction de plusieurs variables $x_{i}$

$$y=f(x_{1}, \cdots, x_{N}, \Theta)$$

où $\Theta$ représente l'ensemble des paramètres de la fonction $f$.

Il est généralement impossible de modéliser exactement cette fonction dû au grand nombre de phénomènes
impliqués lors de la prise de données. La modélisation par forêt aléatoire permet de passer outre à la
modélisation analytique. Elle permet de modéliser un phénomène impliquant un très grand nombre d'interactions entre les
différentes variables sans avoir à les spécifier explicitement dans un modèle mathématique. C'est une des raisons
qui expliquent leur immense champ d'applications en sciences de la vie et en sciences sociales par exemple.

<!-- #endregion -->



In [None]:
%matplotlib inline

import sklearn
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import classification_report, accuracy_score
from sklearn.ensemble import RandomForestClassifier
from sklearn import datasets
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

sns.set(color_codes=True)

# Pour la reproductibilité des résultats
seed = 42
np.random.seed(seed)



<!-- #region id="8aadf220" -->
## Lecture et préparation des données
<!-- #endregion -->

<!-- #region id="b856da26" -->
<p>&nbsp;</p>
<div align="center">
    <img src= "../images/classifier-model.png"  width="500" />
    <div>
    <font size="0.5">Image Source: Google Image</font>
    </div>
</div>
<!-- #endregion -->

<!-- #region id="7897e110" -->
Le  jeu de données contient neuf variables, continues ou ordinales, qui ont été mesurées chez 768 sujets:


- Pregnancies: nombre de grossesses,
- Glucose: taux de glucose,
- BloodPressure: pression artérielle,
- SkinThickness: épaisseur de la peau,
- Insulin: taux d'insuline,
- BMI: indice de masse corporelle (IMC), 
- DiabetesPedigreeFunction: facteur de diabète,
- Age: âge,
- Outcome: résultat.


La dernière, Outcome, contient la réponse binaire que l'on veut prédire. Le patient est atteint
du diabète lorsque Outcome=1.

Les données originales ont été extraites du jeu de données
[diabetes](https://www.kaggle.com/uciml/pima-indians-diabetes-database). Celle-ci contient toutefois
plusieurs valeurs manquantes. Elle a été nettoyée en remplaçant, pour chaque variable sauf Pregnancies et Outcome, les valeurs manquantes par la valeur médiane des valeurs présentes. Dans ce qui suit, nous allons utiliser les données nettoyées.

Le but de notre analyse est de déterminer si un sujet est diabétique, ou non, en fonction de ces variables.

<!-- #endregion -->

<!-- #region id="dc7ea12a" -->
#### Lecture du jeu de données en format CSV
<!-- #endregion -->



In [None]:
df = pd.read_csv('/pax/shared/GIF-U014/diabetes_nettoyée.csv')



<!-- #region id="661fa91b" -->
#### Affichage de statistiques sur les données
<!-- #endregion -->



In [None]:
df.describe(include='all')



<!-- #region id="a0ffd894" -->
On voit que les valeurs couvrent différents ordres de grandeur. Il faudra les normaliser pour cette raison. Bien que les arbres décisionnels et les forêts aléatoires ne soient pas affectés par la normalisation, c'est une bonne habitude de normaliser ses données.

#### Élimination d'une colonne inutile

La colonne 'Unnamed: 0' contient un indice allant de 0 à 767. Elle est inutile.
<!-- #endregion -->



In [None]:
df.pop('Unnamed: 0');



<!-- #region id="464e5c08" -->
On voit que les valeurs couvrent différents ordres de grandeur. Il faudra les normaliser pour cette raison. Bien que les arbres décisionnels et les forêts aléatoires ne soient pas affectés par la normalisation, c'est une bonne habitude de normaliser ses données.

#### Séparation des variables X et de la réponse y du jeu de données
<!-- #endregion -->



In [None]:
X = df.drop(['Outcome'], axis=1)
y = df.Outcome

# Liste des variables utilisées
feature_list = list(X.columns)



<!-- #region id="89346c43" -->
#### Vérification du débalancement des classes

Affichons le nombre de données pour chacune.
<!-- #endregion -->



In [None]:
y.value_counts().plot(kind='bar').set_title('Diabetes Outcome');



<!-- #region id="55662d08" -->
La classe 0 comprend environ $65~\%$ des données. Il y a un léger débalancement des données dont nous allons tenir compte
pour la suite de l'analyse.

#### Génération stratifiée des ensembles d'entraînement ($80~\%$ des données) et de test ($20~\%$ restants)

Les données d'entraînement vont servir à entraînement le classificateur. C'est-à-dire, à estimer la valeur du seuil  $\tau$  de chaque noeud, dans chaque arbre décisionnel de la forêt. Les données de test vont ensuite servir à mesurer les performances du modèle entrainé à prédire correctement si une personne est atteinte ou non du diabète.

L'échantillonnage stratifié fait en sorte que les deux ensembles de données contiennent les mêmes proportions de sujets diabétiques et sains.

<!-- #endregion -->



In [None]:
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, stratify=y, random_state=seed
)



<!-- #region id="9815a089" -->
#### Normalisation des données

Les paramètres de la fonction de normalisation doivent être calculés à partir des données
d'entraînement **uniquement**. La même fonction est ensuite appliquée aux ensembles d'entraînement et de test. Il ne
faut pas normaliser les données avant de générer les ensembles d'entraînement et de test.

Selon la méthode StandardScaler, chaque colonne $x_i$ d'une matrice $X$ est transformée de la façon suivante

$$x'_i = \dfrac{x_i-\mu_i}{\sigma_i}$$

où $\mu_i$ et $\sigma_i$ sont la moyenne et l'écart-type des valeurs de $x_i$ calculées avec les données d'**entraînement**.

> À noter que les performances des arbres décisionnels et des forêts aléatoires ne sont pas affectées par la
normalisation! On va quand même normaliser les données dans ce qui suit afin de montrer la bonne
façon de procéder dans la pratique.
<!-- #endregion -->



In [None]:
scaler = StandardScaler()

X_train_s = scaler.fit_transform(X_train)
X_test_s = scaler.transform(X_test)



<!-- #region id="107d9537" -->
## Question

Pourquoi les paramètres de la fonction de normalisation doivent-ils être calculés uniquement à partir des données
d'entraînement?

**Réponse: Dans la pratique, on entraine un classificateur (ou un régresseur) après avoir fait subir
toutes les étapes du prétraitement des données à l'ensemble d'entraînement. Plus tard, lorsque vient le moment de
classifier de nouvelles données, celles-ci n'ont jamais été vues par le classificateur. Elles doivent subir
à leur tour toutes les étapes du prétraitement. L'idée d'utiliser un ensemble de test est justement de simuler
cette situation; il ne doit donc pas avoir participé à l'entraînement des fonctions de prétraitement
des données telles que la normalisation.**

<!-- #endregion -->

<!-- #region id="8260384f" -->
<a name="Entraînement"></a>
## Entraînement d'un classificateur de type forêt aléatoire

#### Sélection du classificateur
<!-- #endregion -->



In [None]:
clf = RandomForestClassifier(max_depth=4, min_samples_split=4, n_estimators=300)



<!-- #region id="830cff94" -->
#### Entraînement du classificateur avec les données d'entraînement

<!-- #endregion -->



In [None]:
clf.fit(X_train_s, y_train);



<!-- #region id="2c5266f0" -->
## Affichage des statistiques de classification

Nous allons maintenant calculer quelques métriques pour évaluer les performances en classification. Celles-ci sont
décrites dans le module sur les métriques de qualité en classification. Il est toutefois utile de les décrire ici brièvement afin de mieux comprendre nos résultats de classification:


- exactitude (*accuracy*): C'est la fraction des prédictions (sujets avec ou sans diabète) qui se sont avérées exactes,
- précision (*precision*): C'est la fraction des prédictions positives (sujets avec diabète) qui se sont avérées exactes,
- rappel (*recall*): C'est la fraction des sujets positifs (avec diabète) qui ont été détectés,
- score $F_1$: C'est la moyenne harmonique de la précision et du rappel. Il est défini comme suit.


$$F_1=\frac{2 *Précision *Rappel}{Précision + Rappel}$$

Dans une situation où il est difficile de choisir entre les métriques $Précision$ et $Rappel$, le
score $F_1$, qui les combine, est souvent préféré. Pourquoi ne pas simplement utiliser la moyenne arithmétique des deux métriques? Cela est dû au fait que chacune est un pourcentage et donc un ratio. On doit utiliser la moyenne harmonique
pour calculer la moyenne de ratios.

Voici un exemple. Supposons que la distance entre deux villes est de 120 km. À l'aller, le trajet dure 3 h et au retour il dure 2 h. La vitesse est de $v_a=40$ km/h à l'aller, et de $v_r=60$ km/h au retour. La vitesse moyenne est-elle réellement de $\bar{v}=(v_a+v_b)/2=50$ km/h? Non! Une distance totale de 240 km a été parcourue en 5 h. La vitesse moyenne est de
$\bar{v} = 240 \text{ km}/5\text{ h}=48\text{ km/h}$. La bonne réponse est la moyenne harmonique:


$$\begin{align}
\bar{v} &= \frac{2 v_{a} v_{r}}{v_{a} +v_{r}} \\
        &= \frac{2 \times 40 \times 60 }{40 + 60} \\
        &= 48
\end{align}$$

La différence entre 48 km/h et 50 km/h n'est pas grande, mais elle est réelle.
> À noter que l'on calcule souvent la moyenne arithmétique de pourcentages, qui sont des ratios. Ce n'est pas la bonne façon de procéder, mais c'est dans les habitudes.

Comme vous le voyez, il y a des subtilités dans les définitions des différentes métriques, mais elles sont importantes.

#### Prédictions pour les ensembles d'entraînement et de test

<!-- #endregion -->



In [None]:
pred_train = clf.predict(X_train_s)
pred_test = clf.predict(X_test_s)



<!-- #region id="2877532b" -->
#### Comparaison des valeurs d'exactitude
<!-- #endregion -->



In [None]:
print(
    "Exactitude sur les données d'entraînement: %0.1f %%"
    % (100 * accuracy_score(y_train, pred_train))
)

print(
    "Exactitude sur les données de test: %0.1f %%\n"
    % (100 * accuracy_score(y_test, pred_test))
)



<!-- #region id="1dc1bc77" -->
L'exactitude en entraînement est d'environ $83~\%$ alors que celle en test est d'environ $73~\%$.
Ainsi $73~\%$ des prédictions effectuées sur de nouveaux sujets, avec ou sans diabète, sont correctes.

#### Affichage du rapport sur les statistiques de classification

Celui-ci permet d'obtenir une comparaison plus fine des performances en test.
<!-- #endregion -->



In [None]:
print(classification_report(y_test, pred_test))



<!-- #region id="ef1c3780" -->
La proportion des résultats positifs qui correspondent réellement à des sujets diabétiques (la précision) est de $67~\%$.
La proportion des sujets diabétiques détectés et qui le sont réellement (le rappel ou *recall*) est de $48~\%$.

On observe des F1-scores de $81~\%$ pour les cas normaux et de $56~\%$ pour les cas diabétiques.
<!-- #endregion -->

<!-- #region id="ec376d01" -->
## Identification des variables les plus importantes pour diagnostiquer le diabète

<!-- #endregion -->

<!-- #region id="0188acbb" -->
<p>&nbsp;</p>
<div align="center">
    <img src= "../images/inspector-with-magnifying-glass.jpeg"  width="200" />
    <div>
    <font size="0.5">Image Source: http://clipart-library.com/clipart/1416328.htm</font>
    </div>
</div>

<!-- #endregion -->

<!-- #region id="eb1eb36d" -->
> À noter que cette section est similaire à celle dans le module montrant un exemple de régression par forêt aléatoire. Toutefois,
nous allons la revisiter, car les concepts qui y sont expliqués sont très utiles dans la pratique.

Les variables $x_{i}$ les plus importantes sont les plus utilisées pour prendre des décisions à travers les arbres décisionnels constituant la forêt.

L'importance de chaque variable correspond au nombre de fois qu'elle est utilisée dans la forêt aléatoire pour prendre une décision. Elle prend une valeur entre 0 et 1, où 0 indique qu'elle n'est jamais utilisée, et où 1 indique qu'elle est la seule utilisée parmi toutes. Dans ce dernier cas, la variable permet de prédire parfaitement la réponse.
La somme des importances sur l'ensemble des variables vaut 1.
<!-- #endregion -->

<!-- #region id="dcc5fb85" -->
#### Calcul de l'importance de chaque variable
<!-- #endregion -->



In [None]:
importances = list(clf.feature_importances_)

# Le nom de chaque variable est associé à son importance
feature_importances = [
    (feature, round(importance, 2))
    for feature, importance in zip(feature_list, importances)
]

# Ordonnancement des valeurs d'importance en ordre décroissant
feature_importances = sorted(feature_importances, key=lambda x: x[1], reverse=True)



<!-- #region id="3a4a6006" -->
### Affichage du diagrame d'importance, ou du spectre d'importance, des variables du jeu de données

On veut déterminer lesquelles sont les plus importantes et combien il y en a.
<!-- #endregion -->



In [None]:
indices = np.argsort(importances)[::-1]

plt.style.use('fivethirtyeight')

var = list(range(len(importances)))
plt.bar(var, np.array(importances)[indices.astype(int)], orientation='vertical')
plt.xticks(var, np.array(feature_list)[indices.astype(int)], rotation='vertical')
plt.ylabel('Importance', fontsize=16)
plt.xlabel('Variable', fontsize=16)
plt.title('Importance des variables', fontsize=16);



<!-- #region id="b934ad71" -->
On remarque qu'il n'y a pas de séparation franche entre les variables. Toutefois, il semble y avoir un léger 'coude'
dans la distribution à la quatrième variable. Ainsi, les quatre premières variables semblent être les plus
importantes, soit en ordre décroissant:


- le taux de glucose,
- l'indice de masse corporelle (BMI),
- l'âge,
- le taux d'insuline.


Notez bien que ces résultats ne sont valides que **pour ce  jeu de données** et pour le type de prétraitement utilisé. En effet, l'ordre précis des variables indicatrices peut légèrement changer en fonction du type de prétraitement ou du classificateur utilisés.
<!-- #endregion -->

