
<img src="https://datascientest.fr/train/assets/logo_datascientest.png" width="400">

<hr style="border-width:2px;border-color:#75DFC1">
<center><H1> Introduction au Machine Learning avec Scikit-learn </H1></center> 
<center><H2> Partie II : Modèles simples de classification </H2></center>
<hr style="border-width:2px;border-color:#75DFC1">

> Pour cette seconde partie d'introduction au module `scikit-learn`, nous allons nous intéresser au deuxième type de problème en Machine Learning : le problème de **classification**.
> 
> L'objectif de cette introduction est :
>> * D'introduire le problème de classification.
>>
>>
>> * D'apprendre à utiliser le module `scikit-learn` pour construire un modèle de classification, aussi appelé «classifieur».
>>
>>
>> * D'introduire des métriques utiles à l'évaluation des performances du modèle.

## Introduction à la classification

### Objectif de la classification

> En Apprentissage supervisé, l'objectif est de prédire la valeur d'une variable cible à partir de variables explicatives.
>> * Dans un problème de **régression**, la variable cible prend des **valeurs continues**. Ces valeurs sont numériques : prix d'une maison, quantité d'oxygène dans l'air d'une ville, etc... <br> La variable cible peut donc prendre une **infinité de valeurs**.
>>
>>
>> * Dans un problème de **classification**, la variable cible prend des **valeurs discrètes**. Ces valeurs peuvent être numériques ou littérales mais dans les deux cas, la variable cible prend un **nombre fini de valeurs**. <br>
> Les différentes valeurs prises par la variable cible sont ce qu'on appelle des **classes**. 
>
> **L'objectif de la classification consiste donc à prédire la classe d'une observation à partir de ses variables explicatives.**

### Un exemple de classification

> Prenons un exemple de classification **binaire**, autrement dit où il y a **deux** classes. <br>
> Nous cherchons à déterminer si l'eau d'un ruisseau est potable ou non en fonction de sa concentration en substances toxiques et de sa teneur en sels minéraux. 
>
> Les deux classes sont donc **'potable'** et **'non potable'**. 
>
> <br>
> <img src = 'https://assets-datascientest.s3-eu-west-1.amazonaws.com/train/sklearn_intro_classification_binaire.png' style = "height:400px">
> <br>
>
> Sur la figure ci-dessus, chaque point représente un ruisseau dont la position sur le plan est définie par ses valeurs de concentration en substances toxiques et de teneur en sels minéraux. 
> 
> L'objectif sera de construire un **modèle capable d'attribuer une des deux classes** ('potable'/'non potable') à un ruisseau dont on ne connait que ces deux variables.
>
> La figure ci-dessus suggère l'existence de deux zones permettant de classifier les ruisseaux facilement :
>> * Une zone où les ruisseaux sont potables (en haut à gauche).
>>
>>
>> * Une zone où les ruisseaux sont non potables (en bas à droite).
>
> Nous aimerions créer un modèle capable de **séparer le jeu de données en deux parties** correspondant à ces zones. 
>
> Une technique simple serait de séparer les deux zones à **l'aide d'une ligne**.

* **(a)** Exécuter la cellule suivante pour afficher la figure interactive.
> * Les points **oranges** sont les ruisseaux **potables** et les points **bleus** sont les ruisseaux **non-potables**.
> 
> * La **flèche rouge** correspond à un **vecteur** défini par $w = (w_1, w_2)$. La ligne rouge correspond au plan orthogonal (i.e. perpendiculaire) à $w$. Vous pouvez modifier les coordonnées du vecteur $w$ de deux façons :
>> * En faisant défiler les curseurs `w_1` et `w_2`.
>>
>>
>> * En cliquant sur les valeurs à droite des curseurs puis en insérant directement la valeur souhaitée.


* **(b)** Essayer de trouver un vecteur $w$ tel que **le plan orthogonal à $w$ sépare parfaitement les deux classes de ruisseau**.


* **(c)** Une solution possible est donnée par le vecteur $w = (-1.47, 0.84)$. Est-ce que le vecteur $w = (1.47, -0.84)$ donne aussi une solution ?



In [1]:
from classification_widgets import linear_classification

linear_classification()


Figure(axes=[Axis(grid_lines='none', label='Toxic Substance Concentration', num_ticks=0, scale=LinearScale(max…

interactive(children=(FloatSlider(value=1.0, description='w1', max=4.0, min=-4.0, step=0.01), FloatSlider(valu…


> La classification que nous venons de faire est de type **linéaire**, c'est-à-dire que nous avons utilisé un plan linéaire pour séparer nos classes.
>
> Ainsi, l'objectif des modèles de classification linéaires est de trouver le vecteur $w$ permettant de séparer au mieux les différentes classes. <br>
> Chaque modèle de type linéaire dispose de sa propre technique pour trouver ce vecteur.
>
> Il existe aussi des modèles de classification non-linéaires, que nous verrons plus tard.
>
> <br>
> <img src = 'https://assets-datascientest.s3-eu-west-1.amazonaws.com/train/sklearn_intro_classification_lin_non_lin.png' style = "height:400px">

## 1. Utilisation de `scikit-learn` pour la classification

> Nous allons maintenant introduire les principaux outils du module `scikit-learn` essentiels à la résolution d'un problème de classification.
>
> Dans cet exercice, nous utiliserons le jeu de données [Congressional Voting Records](https://archive.ics.uci.edu/ml/datasets/congressional+voting+records) qui contient un nombre de votes faits par les membres du Congrès de la Chambre des Représentants des États-Unis.
>
> L'objectif de notre problème de classification sera de **prédire le parti politique** ("démocrate" ou "républicain") des membres de la Chambre des Représentants en fonction de leurs votes sur des sujets comme l'éducation, la santé, le budget, etc... 
>
> Les variables explicatives seront donc les votes sur différents sujets et la variable cible sera le parti politique "démocrate" ou "républicain".
>
> Pour résoudre ce problème nous allons utiliser un modèle de classification linéaire : la **Régression Logistique**.


### Préparation des données

* **(a)** Exécuter la cellule suivante pour importer les modules `pandas` et `numpy` nécessaires à la suite de l'exercice.



In [2]:
import pandas as pd
import numpy as np
%matplotlib inline



* **(b)** Charger les données contenues dans le fichier `'votes.csv'` dans un `DataFrame` nommé `votes`. 



In [3]:
# Insérez votre code ici





In [4]:
votes = pd.read_csv('votes.csv')



Afin de visualiser brièvement nos données :

* **(c)** Afficher le nombre de lignes et de colonnes de `votes`.


* **(d)** Afficher un aperçu des 20 premières lignes de `votes`.



In [5]:
# Insérez votre code ici





In [6]:
# Dimensions du DataFrame
print('Le DataFrame possède', votes.shape[0], 'lignes et', votes.shape[1], 'colonnes.')

# Affichage des 20 premières lignes
votes.head(20)


Le DataFrame possède 435 lignes et 17 colonnes.


Unnamed: 0,party,infants,water,budget,physician,salvador,religious,satellite,aid,missile,immigration,synfuels,education,superfund,crime,duty_free_exports,eaa_rsa
0,republican,n,y,n,y,y,y,n,n,n,y,n,y,y,y,n,y
1,republican,n,y,n,y,y,y,n,n,n,n,n,y,y,y,n,n
2,democrat,n,y,y,n,y,y,n,n,n,n,y,n,y,y,n,n
3,democrat,n,y,y,n,n,y,n,n,n,n,y,n,y,n,n,y
4,democrat,y,y,y,n,y,y,n,n,n,n,y,n,y,y,y,y
5,democrat,n,y,y,n,y,y,n,n,n,n,n,n,y,y,y,y
6,democrat,n,y,n,y,y,y,n,n,n,n,n,n,n,y,y,y
7,republican,n,y,n,y,y,y,n,n,n,n,n,n,y,y,n,y
8,republican,n,y,n,y,y,y,n,n,n,n,n,y,y,y,n,y
9,democrat,y,y,y,n,n,n,y,y,y,n,n,n,n,n,n,n



> * La première colonne **`"party"`** contient le nom du **parti politique** auquel chaque membre du Congrès de la Chambre des Représentants appartient.  
>
>
> * Les **16 colonnes** suivantes contiennent les votes de chaque membre du Congrès sur des propositions de lois : 
>> * `'y'` indique que l'élu a voté **pour** la proposition de loi.
>>
>>
>> * `'n'` indique que l'élu a voté **contre** la proposition de loi.
>
> Afin d'utiliser les données dans un modèle de classification, il est nécessaire de transformer ces colonnes en valeurs **numériques** binaires, autrement dit soit 0 soit 1.

* **(e)** Pour chacune des colonnes 1 à 16 (la colonne 0 étant notre variable cible), remplacer les valeurs `'y'` par 1 et `'n'` par 0. Pour cela, on peut s'aider de la méthode **`replace`** de la classe `DataFrame`.


* **(f)** Afficher les 10 premières lignes du `DataFrame` modifié.



In [7]:
# Insérez votre code ici





In [8]:
# Remplacement des valeurs
votes = votes.replace(('y', 'n'), (1, 0))

# Affichage du DataFrame
votes.head(10)


Unnamed: 0,party,infants,water,budget,physician,salvador,religious,satellite,aid,missile,immigration,synfuels,education,superfund,crime,duty_free_exports,eaa_rsa
0,republican,0,1,0,1,1,1,0,0,0,1,0,1,1,1,0,1
1,republican,0,1,0,1,1,1,0,0,0,0,0,1,1,1,0,0
2,democrat,0,1,1,0,1,1,0,0,0,0,1,0,1,1,0,0
3,democrat,0,1,1,0,0,1,0,0,0,0,1,0,1,0,0,1
4,democrat,1,1,1,0,1,1,0,0,0,0,1,0,1,1,1,1
5,democrat,0,1,1,0,1,1,0,0,0,0,0,0,1,1,1,1
6,democrat,0,1,0,1,1,1,0,0,0,0,0,0,0,1,1,1
7,republican,0,1,0,1,1,1,0,0,0,0,0,0,1,1,0,1
8,republican,0,1,0,1,1,1,0,0,0,0,0,1,1,1,0,1
9,democrat,1,1,1,0,0,0,1,1,1,0,0,0,0,0,0,0



* **(g)** Dans un `DataFrame` nommé `X`, stocker les variables **explicatives** du jeu de données (toutes les colonnes sauf `'party'`). Pour cela, vous pourrez vous aider de la méthode **`drop`** d'un `DataFrame`.


* **(h)** Dans une `Series` nommé `y`, stocker la **variable cible** (`'party'`).



In [9]:
# Insérez votre code ici





In [10]:
# Séparation des données

X = votes.drop(['party'], axis = 1)
y = votes['party']



> Comme pour la régression, nous allons devoir séparer le jeu de données en 2 parties : un jeu **d'entraînement** et un jeu de **test**. Pour rappel :
>> * Le jeu d'entraînement sert à **entraîner le modèle** de classification, c'est-à-dire trouver les paramètres du modèle qui séparent au mieux les classes.
>>
>>
>> * Le jeu de test sert à **évaluer** le modèle sur des données qu'il n'a jamais vues. Cette évaluation nous permettra de juger sur la capacité à **généraliser** du modèle.

* **(i)** Importer la fonction `train_test_split` du sous module `sklearn.model_selection`. On rappelle que cette fonction s'utilise ainsi :
>```python
>X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2)
>```


* **(j)** Séparer les données en un jeu d'entraînement `(X_train, y_train)` et un jeu de test `(X_test, y_test)` en gardant 20% des données pour l'échantillon de test.
> Pour éliminer l'aléa de la fonction `train_test_split`, vous pouvez utiliser le paramètre `random_state` avec une valeur entière (par exemple `random_state = 2`). <br>
> Ainsi, à chaque fois que vous utiliserez la fonction avec l'argument `random_state = 2`, les jeux de données produits seront les mêmes.



In [11]:
# Insérez votre code ici





In [12]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 2)



> Le modèle de régression logistique est étroitement lié au modèle de **régression linéaire** vu dans le précédent notebook. 
>
> Il ne faut pas les **confondre** puisqu'ils ne résolvent pas les mêmes types de problèmes :
>> * La régression **logistique** est utilisée pour la classification (prédire des classes).
>>
>>
>> * La régression **linéaire** est utilisée pour la régression (prédire une variable quantitative).
>
> Le modèle de régression linéaire était défini par la formule suivante :
> $$ y \approx \beta_0 + \sum_{j=1}^p \beta_j x_j $$
>
> La régression logistique n'estime plus $y$ directement mais la **probabilité** que $y$ soit égal à 0 ou 1. <br>
> Ainsi, le modèle est défini par la formule :
> $$P(y = 1) = f(\beta_0 + \sum_{j=1}^p \beta_j x_j)$$
>
> Où $$f(x) = \frac{1}{1 + e^{-x}}$$
>
> La fonction $f$, souvent appelée **sigmoïde** ou **fonction logistique**, permet de transformer la combinaison linéaire $\beta_0 + \sum_{j=1}^p \beta_j x_j$ en une valeur comprise entre 0 et 1 que l'on pourra interpréter comme une **probabilité** :
>> * Si $\beta_0 + \sum_{j=1}^p \beta_j x_j$ est positif, alors $P(y = 1) \gt 0.5$, donc la classe prédite de l'observation sera 1.
>>
>>
>> * Si $\beta_0 + \sum_{j=1}^p \beta_j x_j$ est négatif, alors $P(y = 1) \lt 0.5$, c'est-à-dire que $P(y = 0) \gt 0.5$, donc la classe prédite de l'observation sera 0.

* **(k)** Importer la classe `LogisticRegression` du sous-module `linear_model` de `scikit-learn`.


* **(l)** Instancier un modèle `LogisticRegression` nommé **`logreg`** sans préciser d'arguments du constructeur.


* **(m)** Entraîner le modèle sur le jeu de données d'entraînement grâce à la méthode `fit` de la classe `LogisticRegression`.


* **(n)** Effectuer une prédiction sur les données de **test**. Stocker ces prédictions dans **`y_pred_test_logreg`** et afficher les 10 premières prédictions.



In [13]:
# Insérez votre code ici





In [14]:
# Importation de la classe LogisticRegression sous-module linear_model de sklearn
from sklearn.linear_model import LogisticRegression

# Instanciation du modèle
logreg = LogisticRegression()

# Entraînement du modèle sur le jeu d'entraînement
logreg.fit(X_train, y_train)

# Prédiction sur les données de test
y_pred_test_logreg = logreg.predict(X_test)

# Affichage des 10 premières prédictions
print(y_pred_test_logreg[:10])


['democrat' 'republican' 'democrat' 'democrat' 'democrat' 'democrat'
 'democrat' 'democrat' 'republican' 'democrat']



## 2. Evaluer la performance d'un modèle de classification

> Il existe différentes métriques pour évaluer les performances de modèles de classification comme :
>> * L'**accuracy**.
>> 
>>
>> * La **précision et le rappel** (*precision* et *recall* en anglais).
>
> 
> Chaque métrique évalue la performance du modèle avec une approche différente.
>
> Afin d'expliquer ces notions, nous allons introduire 4 termes très importants. 
>
> **Arbitrairement**, nous allons choisir que la classe **'republican' sera la classe positive** (1) et **'democrat' sera la classe négative** (0).
>
> Ainsi, nous appellerons :
>> * **Vrai positif (VP)** une observation classée **positive** ('republican') par le modèle et qui est effectivement **positive** ('republican').
>>
>>
>> * **Faux positif (FP)** une observation classée **positive** ('republican') par le modèle mais qui était en réalité **négative** ('democrat').
>>
>>
>> * **Vrai négatif (VN)** une observation classée **négative** ('democrat') par le modèle et qui est effectivement **négative** ('democrat').
>>
>>
>> * **Faux négatif (FN)** une observation classée **négative** ('democrat') par le modèle mais qui était en réalité **positive** ('republican').
>
> <br>
> <img src = "https://assets-datascientest.s3-eu-west-1.amazonaws.com/train/sklearn_intro_positif_negatif.png" style = "height:300px'">
> <br>
>
> L'**accuracy** est la métrique la plus couramment utilisée pour évaluer un modèle. <br>
> Elle correspond simplement au taux de prédictions **correctes** effectuées par le modèle.
>
> On suppose que l'on dispose de $n$ observations. <br>
> On note $\mathrm{VP}$ le nombre de Vrais Positifs et $\mathrm{VN}$ le nombre de Vrais Négatifs.<br>
> L'accuracy est alors donnée par :
> $$\mathrm{accuracy} = \frac{\mathrm{VP} + \mathrm{VN}}{n}$$
> 
> La **précision** est une métrique qui répond à la question : **Parmi toutes les prédictions positives du modèle, combien sont de vrais positifs ?**
>
> Si on note $\mathrm{FP}$ le nombre de Faux Positifs du modèle, alors la précision est donnée par :
> $$\mathrm{precision} = \frac{\mathrm{VP}}{\mathrm{VP} + \mathrm{FP}}$$
>
> Un score de précision élevé nous informe que le modèle ne classe pas aveuglément toutes les observations comme positives.
> 
> Le **rappel** est une métrique qui quantifie la proportion d'observations réellement positives qui ont été correctement classifiées positives par le modèle.
>
> Si on note $\mathrm{FN}$ le nombre de Faux Négatifs, alors le rappel est donné par :
> $$\mathrm{rappel} = \frac{\mathrm{VP}}{\mathrm{VP} + \mathrm{FN}}$$
>
> Un score de rappel élevé nous informe que le modèle est capable de bien détecter les observations réellement positives.
>
> La **matrice de confusion** compte pour un jeu de données les valeurs de VP, VN, FP et FN, ce qui nous permet de calculer les trois métriques précédentes :
>
> $$
\mathrm{Confusion Matrix} = \begin{bmatrix}
                                    \mathrm{VN} & \mathrm{FP} \\
                                    \mathrm{FN} & \mathrm{VP}
                                \end{bmatrix}
 $$
>
> La fonction **`confusion_matrix`** du sous-module `sklearn.metrics` permet de générer la matrice de confusion à partir des **prédictions** d'un modèle :
>
> ```python
> confusion_matrix(y_true, y_pred)
>
> ```
>
>> * **`y_true`** contient les **vraies** valeurs de y.
>>
>>
>> * **`y_pred`** contient les valeurs **prédites** par le modèle.
>
> L'affichage de la matrice de confusion peut se faire aussi avec la fonction **`pd.crosstab`** :

* **(a)** Importer les fonctions **`accuracy_score`**, **`precision_score`** et **`recall_score`** du sous-module `sklearn.metrics`.


* **(b)** Afficher la matrice de confusion des prédictions du modèle **`logreg`** à l'aide de **`pd.crosstab`**.


* **(c)** Calculer l'accuracy, la précision et le rappel des prédictions du modèle **`logreg`**. Pour utiliser les métriques `precision_score` et `recall_score`, il faudra renseigner l'argument **`pos_label = 'republican'`** afin de préciser que la classe `'republican'` est la classe positive.

In [15]:
# Insérez votre code ici





In [16]:
from sklearn.metrics import accuracy_score, precision_score, recall_score

# Calcul et affichage de la matrice de confusion
print(pd.crosstab(y_test, y_pred_test_logreg, rownames=['Realité'], colnames=['Prédiction']))

# Calcul de l'accuracy, precision et rappel
print("\nLogReg Accuracy:", accuracy_score(y_test, y_pred_test_logreg))

print("\nLogReg Précision:", precision_score(y_test, y_pred_test_logreg, pos_label = 'republican'))

print("\nLogReg Rappel:", recall_score(y_test, y_pred_test_logreg, pos_label = 'republican'))


Prédiction  democrat  republican
Realité                         
democrat          49           4
republican         2          32

LogReg Accuracy: 0.9310344827586207

LogReg Précision: 0.8888888888888888

LogReg Rappel: 0.9411764705882353



# Recap

> Scikit-learn propose de nombreux modèles de classification comme **`LogisticRegression`**.
>
> L'utilisation de ces modèles se fait de la même façon pour **tous** les modèles de scikit-learn :
>> * **Instanciation** du modèle.
>>
>> 
>> * **Entraînement** du modèle : **`model.fit(X_train, y_train)`**.
>>
>>
>> * **Prédiction** : **`model.predict(X_test)`**.
>
> La prédiction sur le jeu de test nous permet d'**évaluer** la performance du modèle grâce à des **métriques** adaptées.
>
> Les métriques que nous avons vues s'utilisent pour la classification **binaire** et se calculent grâce à 4 valeurs :
>> * Vrais Positifs :  Prédiction = **+** | Réalité = **+**
>>
>>
>> * Vrais Négatifs : Prédiction = **-** | Réalité = **-**
>>
>>
>> * Faux Positifs :  Prédiction = **+** | Réalité = **-**
>>
>>
>> * Faux Négatifs :  Prédiction = **-** | Réalité = **+**
>
> Toutes ces valeurs peuvent se calculer à l'aide de la **matrice de confusion** générée par la fonction **`confusion_matrix`** du sous-module `sklearn.metrics` ou par la fonction **`pd.crosstab`**.
> 
> Grâce à ces valeurs, nous pouvons calculer des métriques comme :
>> * L'**accuracy** : La proportion d'observations correctement classifiées.
>>
>>
>> * La **précision** : La proportion de vrais positifs parmi toutes les prédictions positives du modèle.
>>
>>
>> * Le **rappel** : La proportion d'observations réellement positives qui ont été correctement classifiées positives par le modèle.
>
> Toutes ces métriques peuvent s'obtenir à l'aide de la fonction **`classification_report`** du sous-module **`sklearn.metrics`**.
>
# Conclusion et ressources

> Ce module a permis de présenter le langage de programmation Python et d'introduire ses principales librairies très utiles dans la suite (Numpy, Pandas, scikit-learn). La librairie Pandas permet notamment d'obtenir des données sous forme de dataframes facilement manipulables.
>
> **Si vous voulez découvrir des méthodes un peu plus poussées et dans la continuité de ce module, vous pouvez vous tourner vers le module "105 Data Quality".**
>
> **Si vous voulez appliquer les méthodes présentées à d'autres dataframes, vous pouvez le faire avec le module "Bac à sable". Ce module est constitué d'un notebook vierge dans lequel des données sont disponibles et sur lequel vous pouvez coder librement.**