

---


# **Introduction au Machine Learning avec Scikit-learn**
## **Partie II : Mod√®les simples de classification**


---

Pour cette seconde partie d'introduction au module `scikit-learn`, nous allons nous int√©resser au deuxi√®me type de probl√®me en Machine Learning : le probl√®me de **classification**.

L'objectif de cette introduction est :

- D'introduire le probl√®me de classification.
- D'apprendre √† utiliser le module `scikit-learn` pour construire un mod√®le de classification, aussi appel√© ¬´classifieur¬ª.
- D'introduire des m√©triques utiles √† l'√©valuation des performances du mod√®le.

## **Introduction √† la classification**
### **Objectif de la classification**

En Apprentissage supervis√©, l'objectif est de pr√©dire la valeur d'une variable cible √† partir de variables explicatives.

- Dans un probl√®me de **r√©gression**, la variable cible prend des **valeurs continues**. Ces valeurs sont num√©riques : prix d'une maison, quantit√© d'oxyg√®ne dans l'air d'une ville, etc...
La variable cible peut donc prendre une **infinit√© de valeurs.**

- Dans un probl√®me de **classification**, la variable cible prend des **valeurs discr√®tes**. Ces valeurs peuvent √™tre num√©riques ou litt√©rales mais dans les deux cas, la variable cible prend un **nombre fini de valeurs**.
Les diff√©rentes valeurs prises par la variable cible sont ce qu'on appelle des **classes**.

**L'objectif de la classification consiste donc √† pr√©dire la classe d'une observation √† partir de ses variables explicatives.**

### **Un exemple de classification**
Prenons un exemple de classification **binaire**, autrement dit o√π il y a **deux** classes.
Nous cherchons √† d√©terminer si l'eau d'un ruisseau est potable ou non en fonction de sa concentration en substances toxiques et de sa teneur en sels min√©raux.

Les deux classes sont donc **'potable'** et **'non potable'**.

![sklearn_intro_classification_binaire](https://github.com/diaBabPro/colabs/blob/main/sklearn_intro_classification_binaire.png?raw=true)

Sur la figure ci-dessus, chaque point repr√©sente un ruisseau dont la position sur le plan est d√©finie par ses valeurs de concentration en substances toxiques et de teneur en sels min√©raux.

L'objectif sera de construire un **mod√®le capable d'attribuer une des deux classes** ('potable'/'non potable') √† un ruisseau dont on ne connait que ces deux variables.

La figure ci-dessus sugg√®re l'existence de deux zones permettant de classifier les ruisseaux facilement :

- Une zone o√π les ruisseaux sont potables (en haut √† gauche).
- Une zone o√π les ruisseaux sont non potables (en bas √† droite).

Nous aimerions cr√©er un mod√®le capable de **s√©parer le jeu de donn√©es en deux parties** correspondant √† ces zones.

Une technique simple serait de s√©parer les deux zones √† **l'aide d'une ligne**.

- **(a)** Ex√©cuter la cellule suivante pour afficher la figure interactive.

> - Les points **oranges** sont les ruisseaux **potables** et les points **bleus** sont les ruisseaux **non-potables**.
> - La **fl√®che rouge** correspond √† un **vecteur** d√©fini par  $ùë§=(ùë§1,ùë§2)$
 . La ligne rouge correspond au plan orthogonal (i.e. perpendiculaire) √†  ùë§
 . Vous pouvez modifier les coordonn√©es du vecteur  ùë§
  de deux fa√ßons :
    - En faisant d√©filer les curseurs `w_1` et `w_2`.
    - En cliquant sur les valeurs √† droite des curseurs puis en ins√©rant directement la valeur souhait√©e.

- **(b)** Essayer de trouver un vecteur  ùë§
  tel que **le plan orthogonal √†  ùë§
  s√©pare parfaitement les deux classes de ruisseau**.
- **(c)** Une solution possible est donn√©e par le vecteur  $ùë§=(‚àí1.47,0.84)$
 . Est-ce que le vecteur  $ùë§=(1.47,‚àí0.84)$
  donne aussi une solution ?

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from ipywidgets import interact, FloatSlider

def linear_classification():
    np.random.seed(42)
    n_points = 100

    X_potable = np.random.multivariate_normal([-1, 1], [[0.2, 0], [0, 0.2]], n_points)

    X_non_potable = np.random.multivariate_normal([1, -1], [[0.2, 0], [0, 0.2]], n_points)

    X = np.vstack([X_potable, X_non_potable])
    y = np.hstack([np.ones(n_points), -1 * np.ones(n_points)])

    def plot_classification(w1, w2):
        plt.figure(figsize=(8, 6))

        plt.scatter(X_potable[:, 0], X_potable[:, 1], color='orange', label='Potable')
        plt.scatter(X_non_potable[:, 0], X_non_potable[:, 1], color='blue', label='Non-potable')

        w = np.array([w1, w2])
        slope = -w[0] / w[1]
        intercept = 0

        x_vals = np.linspace(-3, 3, 100)
        y_vals = slope * x_vals + intercept
        plt.plot(x_vals, y_vals, 'r', label=f'S√©paration: w=({w1:.2f}, {w2:.2f})')

        plt.quiver(0, 0, w[0], w[1], angles='xy', scale_units='xy', scale=1, color='red')

        plt.xlim(-3, 3)
        plt.ylim(-3, 3)
        plt.axhline(0, color='black',linewidth=0.5)
        plt.axvline(0, color='black',linewidth=0.5)
        plt.xlabel('Feature 1')
        plt.ylabel('Feature 2')
        plt.legend(loc='upper right')
        plt.title('Classification des ruisseaux')
        plt.grid(True)
        plt.show()

    interact(plot_classification, w1=FloatSlider(min=-3, max=3, step=0.01, value=-1.47), w2=FloatSlider(min=-3, max=3, step=0.01, value=0.84))

linear_classification()

La classification que nous venons de faire est de type lin√©aire, c'est-√†-dire que nous avons utilis√© un plan lin√©aire pour s√©parer nos classes.

Ainsi, l'objectif des mod√®les de classification lin√©aires est de trouver le vecteur  ùë§
  permettant de s√©parer au mieux les diff√©rentes classes.
Chaque mod√®le de type lin√©aire dispose de sa propre technique pour trouver ce vecteur.

Il existe aussi des mod√®les de classification non-lin√©aires, que nous verrons plus tard.

![sklearn_intro_classification_lin_non_lin](https://github.com/diaBabPro/colabs/blob/main/sklearn_intro_classification_lin_non_lin.png?raw=true)


## **1.   Utilisation de `scikit-learn` pour la classification**


Nous allons maintenant introduire les principaux outils du module `scikit-learn` essentiels √† la r√©solution d'un probl√®me de classification.

Dans cet exercice, nous utiliserons le jeu de donn√©es [Congressional Voting Records](https://archive.ics.uci.edu/ml/datasets/congressional+voting+records) qui contient un nombre de votes faits par les membres du Congr√®s de la Chambre des Repr√©sentants des √âtats-Unis.

L'objectif de notre probl√®me de classification sera de **pr√©dire le parti politique** ("d√©mocrate" ou "r√©publicain") des membres de la Chambre des Repr√©sentants en fonction de leurs votes sur des sujets comme l'√©ducation, la sant√©, le budget, etc...

Les variables explicatives seront donc les votes sur diff√©rents sujets et la variable cible sera le parti politique "d√©mocrate" ou "r√©publicain".

Pour r√©soudre ce probl√®me nous allons utiliser un mod√®le de classification lin√©aire : la **R√©gression Logistique**.

### **Pr√©paration des donn√©es**
- **(a)** Ex√©cuter la cellule suivante pour importer les modules `pandas` et `numpy` n√©cessaires √† la suite de l'exercice.

In [None]:
import pandas as pd
import numpy as np
%matplotlib inline

- **(b)** Charger les donn√©es contenues dans le fichier `'votes.csv'` dans un `DataFrame` nomm√© votes.

In [None]:
# Ins√©rez votre code ici

Afin de visualiser bri√®vement nos donn√©es :

- **(c)** Afficher le nombre de lignes et de colonnes de `votes`.
- **(d)** Afficher un aper√ßu des 20 premi√®res lignes de `votes`.

In [None]:
# Ins√©rez votre code ici

- La premi√®re colonne **`"party"`** contient le nom du **parti politique** auquel chaque membre du Congr√®s de la Chambre des Repr√©sentants appartient.
- Les **16 colonnes** suivantes contiennent les votes de chaque membre du Congr√®s sur des propositions de lois :
  - `'y'` indique que l'√©lu a vot√© **pour** la proposition de loi.
  - `'n'` indique que l'√©lu a vot√© **contre** la proposition de loi.
Afin d'utiliser les donn√©es dans un mod√®le de classification, il est n√©cessaire de transformer ces colonnes en valeurs **num√©riques** binaires, autrement dit soit 0 soit 1.

- **(e)** Pour chacune des colonnes 1 √† 16 (la colonne 0 √©tant notre variable cible), remplacer les valeurs `'y'` par 1 et `'n'` par 0. Pour cela, on peut s'aider de la m√©thode **`replace`** de la classe `DataFrame`.
- **(f)** Afficher les 10 premi√®res lignes du `DataFrame` modifi√©.

In [None]:
# Ins√©rez votre code ici

- **(g)** Dans un `DataFrame` nomm√© `X`, stocker les variables **explicatives** du jeu de donn√©es (toutes les colonnes sauf `'party'`). Pour cela, vous pourrez vous aider de la m√©thode **`drop`** d'un `DataFrame`.
- **(h)** Dans une `Series` nomm√© `y`, stocker la **variable cible** (`'party'`).

In [None]:
# Ins√©rez votre code ici

Comme pour la r√©gression, nous allons devoir s√©parer le jeu de donn√©es en 2 parties : un jeu **d'entra√Ænement** et un jeu de **test**. Pour rappel :

>- Le jeu d'entra√Ænement sert √† **entra√Æner le mod√®le** de classification, c'est-√†-dire trouver les param√®tres du mod√®le qui s√©parent au mieux les classes.
>- Le jeu de test sert √† **√©valuer** le mod√®le sur des donn√©es qu'il n'a jamais vues. Cette √©valuation nous permettra de juger sur la capacit√© √† **g√©n√©raliser** du mod√®le.

- **(i)** Importer la fonction `train_test_split` du sous module `sklearn.model_selection`. On rappelle que cette fonction s'utilise ainsi :

```python
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2)
```

- **(j)** S√©parer les donn√©es en un jeu d'entra√Ænement `(X_train, y_train)` et un jeu de test `(X_test, y_test)` en gardant 20% des donn√©es pour l'√©chantillon de test.

>Pour √©liminer l'al√©a de la fonction `train_test_split`, vous pouvez utiliser le param√®tre `random_state` avec une valeur enti√®re (par exemple random_state = 2).
Ainsi, √† chaque fois que vous utiliserez la fonction avec l'argument `random_state = 2`, les jeux de donn√©es produits seront les m√™mes.

In [None]:
# Ins√©rez votre code ici

Le mod√®le de r√©gression logistique est √©troitement li√© au mod√®le de **r√©gression lin√©aire** vu dans le pr√©c√©dent notebook.

Il ne faut pas les **confondre** puisqu'ils ne r√©solvent pas les m√™mes types de probl√®mes :

La r√©gression **logistique** est utilis√©e pour la classification (pr√©dire des classes).
La r√©gression **lin√©aire** est utilis√©e pour la r√©gression (pr√©dire une variable quantitative).
Le mod√®le de r√©gression lin√©aire √©tait d√©fini par la formule suivante :
$ùë¶‚âàŒ≤0+\sum_{j=1}^{p} Œ≤ùëóùë•ùëó$

La r√©gression logistique n'estime plus  ùë¶
  directement mais la **probabilit√©** que  ùë¶
  soit √©gal √† 0 ou 1.
Ainsi, le mod√®le est d√©fini par la formule :

$ùëÉ(ùë¶=1)=ùëì(ùõΩ0+\sum_{j=1}^{p}ùõΩùëóùë•ùëó)$

O√π

$f(x) = \frac{1}{1 + e^{-x}}$


La fonction  ùëì
 , souvent appel√©e **sigmo√Øde** ou **fonction logistique**, permet de transformer la combinaison lin√©aire  $ùë¶‚âàŒ≤0+\sum_{j=1}^{p} Œ≤ùëóùë•ùëó$
  en une valeur comprise entre 0 et 1 que l'on pourra interpr√©ter comme une **probabilit√©** :

- Si  $ùë¶‚âàŒ≤0+\sum_{j=1}^{p} Œ≤ùëóùë•ùëó$
  est positif, alors  $ùëÉ(ùë¶=1)>0.5$
 , donc la classe pr√©dite de l'observation sera 1.

- Si  $ùë¶‚âàŒ≤0+\sum_{j=1}^{p} Œ≤ùëóùë•ùëó$
  est n√©gatif, alors  $ùëÉ(ùë¶=1)<0.5$
 , c'est-√†-dire que  $ùëÉ(ùë¶=0)>0.5$
 , donc la classe pr√©dite de l'observation sera 0.

- **(k)** Importer la classe `LogisticRegression` du sous-module `linear_model` de `scikit-learn`.
- **(l)** Instancier un mod√®le `LogisticRegression` nomm√© **`logreg`** sans pr√©ciser d'arguments du constructeur.
- **(m)** Entra√Æner le mod√®le sur le jeu de donn√©es d'entra√Ænement gr√¢ce √† la m√©thode `fit` de la classe `LogisticRegression`.
- **(n)** Effectuer une pr√©diction sur les donn√©es de **test**. Stocker ces pr√©dictions dans **`y_pred_test_logreg`** et afficher les 10 premi√®res pr√©dictions.

In [None]:
# Ins√©rez votre code ici

## **2. Evaluer la performance d'un mod√®le de classification**

Il existe diff√©rentes m√©triques pour √©valuer les performances de mod√®les de classification comme :

- L'**accuracy**.
- La **pr√©cision et le rappel** (precision et *recall* en anglais).

Chaque m√©trique √©value la performance du mod√®le avec une approche diff√©rente.

Afin d'expliquer ces notions, nous allons introduire 4 termes tr√®s importants.

**Arbitrairement**, nous allons choisir que la classe **'republican' sera la classe positive** (1) et **'democrat' sera la classe n√©gative** (0).

Ainsi, nous appellerons :

- **Vrai positif (VP)** une observation class√©e **positive** ('republican') par le mod√®le et qui est effectivement **positive** ('republican').
- **Faux positif (FP)** une observation class√©e **positive** ('republican') par le mod√®le mais qui √©tait en r√©alit√© **n√©gative** ('democrat').
- **Vrai n√©gatif (VN)** une observation class√©e **n√©gative** ('democrat') par le mod√®le et qui est effectivement **n√©gative** ('democrat').
- **Faux n√©gatif (FN)** une observation class√©e **n√©gative** ('democrat') par le mod√®le mais qui √©tait en r√©alit√© **positive** ('republican').

![sklearn_intro_positif_negatif](https://github.com/diaBabPro/colabs/blob/main/sklearn_intro_positif_negatif.png?raw=true)

L'**accuracy** est la m√©trique la plus couramment utilis√©e pour √©valuer un mod√®le.
Elle correspond simplement au taux de pr√©dictions **correctes** effectu√©es par le mod√®le.

On suppose que l'on dispose de  ùëõ
  observations.
On note  VP
  le nombre de Vrais Positifs et  VN
  le nombre de Vrais N√©gatifs.
L'accuracy est alors donn√©e par :

$accuracy=\frac{VP+VN}{ùëõ}$

La **pr√©cision** est une m√©trique qui r√©pond √† la question : **Parmi toutes les pr√©dictions positives du mod√®le, combien sont de vrais positifs ?**

Si on note  FP
  le nombre de Faux Positifs du mod√®le, alors la pr√©cision est donn√©e par :

$precision=\frac{VP}{VP+FP}$

Un score de pr√©cision √©lev√© nous informe que le mod√®le ne classe pas aveugl√©ment toutes les observations comme positives.

Le **rappel** est une m√©trique qui quantifie la proportion d'observations r√©ellement positives qui ont √©t√© correctement classifi√©es positives par le mod√®le.

Si on note  FN
  le nombre de Faux N√©gatifs, alors le rappel est donn√© par :

$rappel=\frac{VP}{VP+FN}$

Un score de rappel √©lev√© nous informe que le mod√®le est capable de bien d√©tecter les observations r√©ellement positives.

La **matrice de confusion** compte pour un jeu de donn√©es les valeurs de VP, VN, FP et FN, ce qui nous permet de calculer les trois m√©triques pr√©c√©dentes :

$\text{Confusion Matrix} =
\begin{pmatrix}
\text{VN} & \text{FP} \\
\text{FN} & \text{VP}
\end{pmatrix}$

La fonction **`confusion_matrix`** du sous-module `sklearn.metrics` permet de g√©n√©rer la matrice de confusion √† partir des pr√©dictions d'un mod√®le :

```python
confusion_matrix(y_true, y_pred)
```

>- **`y_true`** contient les **vraies** valeurs de y.
>- **`y_pred`** contient les valeurs **pr√©dites** par le mod√®le.

L'affichage de la matrice de confusion peut se faire aussi avec la fonction **pd.crosstab** :

- **(a)** Importer les fonctions **`accuracy_score`**, **`precision_score`** et **`recall_score`** du sous-module `sklearn.metrics`.
- **(b)** Afficher la matrice de confusion des pr√©dictions du mod√®le **`logreg`** √† l'aide de **`pd.crosstab`**.
- **(c)** Calculer l'accuracy, la pr√©cision et le rappel des pr√©dictions du mod√®le **`logreg`**. Pour utiliser les m√©triques `precision_score` et `recall_score`, il faudra renseigner l'argument **`pos_label = 'republican'`** afin de pr√©ciser que la classe `'republican'` est la classe positive.

In [None]:
# Ins√©rez votre code ici

## **Recap**
Scikit-learn propose de nombreux mod√®les de classification comme **`LogisticRegression`**.

L'utilisation de ces mod√®les se fait de la m√™me fa√ßon pour **tous** les mod√®les de scikit-learn :

- **Instanciation** du mod√®le.
- **Entra√Ænement** du mod√®le : **`model.fit(X_train, y_train)`**.
- **Pr√©diction** : **`model.predict(X_test)`**.

La pr√©diction sur le jeu de test nous permet d'**√©valuer** la performance du mod√®le gr√¢ce √† des **m√©triques** adapt√©es.

Les m√©triques que nous avons vues s'utilisent pour la classification **binaire** et se calculent gr√¢ce √† 4 valeurs :

- Vrais Positifs : Pr√©diction = + | R√©alit√© = +
- Vrais N√©gatifs : Pr√©diction = - | R√©alit√© = -
- Faux Positifs : Pr√©diction = + | R√©alit√© = -
- Faux N√©gatifs : Pr√©diction = - | R√©alit√© = +

Toutes ces valeurs peuvent se calculer √† l'aide de la **matrice de confusion** g√©n√©r√©e par la fonction **`confusion_matrix`** du sous-module `sklearn.metrics` ou par la fonction **`pd.crosstab`**.

Gr√¢ce √† ces valeurs, nous pouvons calculer des m√©triques comme :

- L'**accuracy** : La proportion d'observations correctement classifi√©es.
- La **pr√©cision** : La proportion de vrais positifs parmi toutes les pr√©dictions positives du mod√®le.
- Le **rappel** : La proportion d'observations r√©ellement positives qui ont √©t√© correctement classifi√©es positives par le mod√®le.

Toutes ces m√©triques peuvent s'obtenir √† l'aide de la fonction **`classification_report`** du sous-module **`sklearn.metrics`**.