

---


# **Introduction au Machine Learning avec scikit-learn**
##**R√©gression lin√©aire**


---

### **Introduction**

Ce notebook introduit les concepts du Machine Learning et plus particuli√®rement de la r√©gression lin√©aire, afin de montrer √† quel point Python est un langage de programmation adapt√© aux probl√©matiques d'apprentissage automatique.

Le Machine Learning est un sous-domaine de l'Intelligence Artificielle, qui donne la capacit√© √† l'ordinateur d'apprendre √† effectuer automatiquement des t√¢ches √† partir de donn√©es. Quand la t√¢che √† effectuer est la pr√©diction d'une variable, nous parlons d'apprentissage supervis√©.

La r√©gression lin√©aire est l'un des premiers mod√®les pr√©dictifs d'apprentissage supervis√© √† avoir √©t√© √©tudi√©. Ce mod√®le permet de pr√©dire une variable quantitative. C'est aujourd'hui le mod√®le le plus populaire pour les applications pratiques gr√¢ce √† sa simplicit√©.

Dans le mod√®le de r√©gression lin√©naire, nous disposons de  ùë¶
  la variable quantitative √† pr√©dire (appel√©e variable cible) et de variables explicatives permettant la pr√©diction.

#### **R√©gression Lin√©aire Univari√©e**

Dans le mod√®le lin√©aire univari√©, nous disposons de deux variables,  ùë¶
  appel√©e variable cible ou target et  ùë•
  appel√©e variable *explicative*.
La r√©gression lin√©aire consiste √† mod√©liser le lien entre ces deux variables par une fonction affine. Ainsi, la formule du mod√®le lin√©aire univari√© est donn√©e par :

$ùë¶‚âàùõΩ1ùë•+ùõΩ0$

o√π :
- ùë¶
  est la variable que nous voulons pr√©dire.
- ùë•
  est la variable explicative.
- ùõΩ1
  et  ùõΩ0
  sont les param√®tres de la fonction affine.  ùõΩ1
  d√©finira sa **pente** et  ùõΩ0
  d√©finira son ordonn√©e √† l'origine (√©galement appel√©e **biais**).

**Le but de la r√©gression lin√©aire est d'estimer les meilleurs param√®tres  ùõΩ0
  et  ùõΩ1
  pour pr√©dire la variable  ùë¶
  √† partir d'une valeur donn√©e de  ùë•
 .**

Pour avoir une intuition de la R√©gression Lin√©aire Univari√©e, regardons l'exemple interactif ci-dessous.

- **(a)** Ex√©cuter la cellule suivante pour afficher la figure interactive. Dans cette figure, nous avons simul√© un jeu de donn√©es.
- **(b)** Essayez de trouver √† l'aide des curseurs de l'onglet `R√©gression` les param√®tres  ùõΩ0
  et  ùõΩ1
  qui se rapprochent le mieux de tous les points de l'ensemble de donn√©es.
- **(c)** Quel est l'effet de chacun des param√®tres sur la fonction de r√©gression ?

In [None]:
from widgets import regression_widget

regression_widget()

### **R√©gression Lin√©aire Multiple**
La r√©gression lin√©aire multiple consiste √† mod√©liser le lien entre une variable cible  ùë¶
  et **plusieurs variables explicatives**  $ùë•1
 ,  ùë•2
 , ... , ùë•ùëù$
 , souvent appel√©es features en anglais :

$ùë¶‚âàŒ≤0+Œ≤1ùë•1+Œ≤2ùë•2+‚ãØ+Œ≤ùëùùë•ùëù ‚âàŒ≤0+\sum_{j=1}^{p} Œ≤ùëóùë•ùëó$

Il y a maintenant  ùëù+1
  param√®tres  ùõΩùëó
  √† trouver.

### **Utilisation de scikit-learn pour la r√©gression lin√©aire**

Nous allons maintenant apprendre √† utiliser la biblioth√®que **`scikit-learn`** afin de r√©soudre un probl√®me de Machine Learning. Nous verrons notamment √† quel point cette librairie est utile pour pr√©parer les donn√©es puis pour mettre en place des mod√®les.

Nous nous pla√ßons dans le cadre d'un projet donc l'objectif est de pr√©dire le **prix de vente d'une voiture** en fonction de ses **caract√©ristiques**. La variable √† pr√©dire est quantitative et nous faisons donc face √† une probl√©matique de r√©gression.

### **Importation du jeu de donn√©es**
Le jeu de donn√©es que nous utiliserons dans la suite contient de nombreuses caract√©ristiques √† propos de diff√©rentes voitures de 1985.

Par simplicit√©, seules les variables num√©riques ont √©t√© gard√©es et les lignes comprenant des valeurs manquantes ont √©t√© supprim√©es.

- **(a)** Importer le module `pandas` sous l'alias `pd`.
- **(b)** Dans un `DataFrame` nomm√© `df`, importer le jeu de donn√©es `automobiles.csv` √† l'aide de la fonction `read_csv` de `pandas`. Ce fichier se trouve dans le m√™me dossier que l'environnement d'ex√©cution de ce notebook.
- **(c)** Afficher les 5 premi√®res lignes de `df` pour v√©rifier que l'importation s'est bien d√©roul√©e.

In [None]:
# Ins√©rez votre code ici

- La variable `symboling` correspond au degr√© de risque vis-√†-vis de l'assureur (risque d'accident, panne, etc).
- La variable `normalized_losses` est le co√ªt moyen relatif par an d'assurance du v√©hicule. Cette valeur est normalis√©e par rapport aux voitures de m√™me type (SUV, utilitaire, sportive, etc).
- Les 13 variables suivantes concernent les caract√©ristiques techniques des voitures comme la largeur, la longueur, la cylindr√©e du moteur, la puissance en chevaux, etc.
- La derni√®re variable `price` correspond au prix de vente du v√©hicule. C'est la variable que nous chercherons √† pr√©dire.

###**S√©paration des variables explicatives de la variable cible**

Nous allons maintenant cr√©er deux `DataFrames`, un contenant les variables explicatives et un autre contenant la variable cible `price`.

- **(d)** Dans un `DataFrame` nomm√© `X`, faire une copie des variables explicatives de notre jeu de donn√©es, c'est-√†-dire toutes les variables **sauf** `price`.
- **(e)** Dans une `Series` nomm√© `y`, faire une copie de la variable cible `price`.

In [None]:
# Ins√©rez votre code ici

### **S√©paration des donn√©es en jeu d'entra√Ænement et de test**

Nous allons maintenant s√©parer notre jeu de donn√©es en deux parties. Une partie d'**entra√Ænement** et une partie de **test**. Cette √©tape est **extr√™mement** importante en Data Science.

En effet, comme leurs noms l'indiquent :

- la partie d'entra√Ænement sert √† ¬´ entra√Æner ¬ª le mod√®le, c'est-√†-dire trouver les param√®tres  ùõΩ0
 , ...,  ùõΩùëù
  optimaux pour ce jeu de donn√©es.
- la partie de test sert √† ¬´ tester ¬ª le mod√®le entra√Æn√© en √©valuant sa capacit√© √† **g√©n√©raliser** ses pr√©dictions sur des donn√©es qu'il n'a encore **jamais vues**.

Une fonction tr√®s utile pour effectuer cette op√©ration est la fonction `train_test_split` du sous-module `model_selection` de **`scikit-learn`**.

- **(f)** Ex√©cuter la cellule suivante pour importer la fonction `train_test_split`.

In [None]:
from sklearn.model_selection import train_test_split

Cette fonction s'utilise ainsi :

```python
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 42)
```

- `X_train` et `y_train` sont les variables explicatives et cible du jeu de donn√©es d'**entra√Ænement**.
- `X_test` et `y_test` sont les variables explicatives et cible du jeu de donn√©es de **test**.
- L'argument `test_size` correspond √† la **proportion** du jeu de donn√©es que nous voulons garder pour le jeu de test. Dans l'exemple pr√©c√©dent, cette proportion correspond √† 20% du jeu de donn√©es initial.
- L'argument `random_state` permet de s'assurer que le d√©coupage des donn√©es puisse √™tre reproduit. En effet, l'op√©ration √©tant al√©atoire, 2 d√©coupages successifs donneront en th√©orie 2 r√©sultats diff√©rents. Tant que la valeur du `random_state` est la m√™me (peu importe cette valeur), le r√©sultat de la fonction train_test_split restera le m√™me.

- **(g)** √Ä l'aide de la fonction `train_test_split`, s√©parer le jeu de donn√©es en une partie d'entra√Ænement (`X_train`,`y_train`) et une partie de test (`X_test`, `y_test`) de sorte que la partie de test contienne **15% du jeu de donn√©es initial**. Pr√©ciser le param√®tre `random_state = 42`.

In [None]:
# Ins√©rez votre code ici

### **Cr√©ation du mod√®le de r√©gression**

Pour entra√Æner un mod√®le de r√©gression lin√©aire sur ce jeu de donn√©es, nous allons utiliser la classe **`LinearRegression`** contenue dans le sous-module `linear_model` de `scikit-learn`.

- **(h)** Ex√©cuter la cellule suivante pour importer la classe `LinearRegression`.

In [None]:
from sklearn.linear_model import LinearRegression

L'API de `scikit-learn` permet d'entra√Æner et √©valuer des mod√®les tr√®s facilement. Toutes les classes de mod√®les de scikit-learn disposent des deux m√©thodes suivantes :

- **`fit`** : Entra√Æne le mod√®le sur un jeu de donn√©es.
- **`predict`** : Effectue une pr√©diction √† partir de variables explicatives.
Voici un exemple d'utilisation d'un mod√®le avec scikit-learn :

```python
# Instanciation du mod√®le
linreg = LinearRegression()  

# Entra√Ænement du mod√®le sur le jeu d'entra√Ænement
linreg.fit(X_train, y_train)        

# Pr√©diction de la variable cible pour le jeu de donn√©es test. Ces pr√©dictions sont stock√©es dans y_pred
y_pred = linreg.predict(X_test)             
```

- **(i)** Instancier un mod√®le `LinearRegression` nomm√© **`lr`**.
- **(j)** Entra√Æner `lr` sur le jeu de donn√©es d'entra√Ænement.
- **(k)** Effectuer une pr√©diction sur les donn√©es d'entra√Ænement. Stocker ces pr√©dictions dans `y_pred_train`.
- **(l)** Effectuer une pr√©diction sur les donn√©es de test. Stocker ces pr√©dictions dans `y_pred_test`.

In [None]:
# Ins√©rez votre code ici

### **Evaluation de la performance du mod√®le**
Afin d'√©valuer la **qualit√© des pr√©dictions du mod√®le** obtenues gr√¢ce aux param√®tres  $ùõΩ0
 , ...,  ùõΩùëó$
 , il existe plusieurs m√©triques (ou metrics en anglais) dans la biblioth√®que `scikit-learn`.

L'une des m√©triques les plus utilis√©es pour la r√©gression est l'**Erreur Quadratique Moyenne** (ou *Mean Squared Error* en anglais) qui existe sous le nom de `mean_squared_error` dans le sous-module `metrics` de `scikit-learn`.

Cette fonction consiste √† calculer la moyenne des √©carts entre les **vraies valeurs** de la variable cible et les **valeurs pr√©dites** gr√¢ce √† la fonction de r√©gression. L'erreur quadratique moyenne n'est en fait que la moyenne de ces distances √©lev√©es au carr√©.

La fonction `mean_squared_error` de `scikit-learn` s'utilise ainsi :
```python
mean_squared_error(y_true, y_pred)
```
o√π :

>- `y_true` correspond aux vraies valeurs de la variable cible.
>- `y_pred` correspond aux valeurs pr√©dites par notre mod√®le.

- **(o)** Importer la fonction **`mean_squared_error`** √† partir du sous-module `sklearn.metrics`.
- **(p)** √âvaluer la qualit√© de pr√©diction du mod√®le sur **les donn√©es d'entra√Ænement**. Stocker le r√©sultat dans une variable nomm√©e `mse_train`.
- **(q)** √âvaluer la qualit√© de pr√©diction du mod√®le sur **les donn√©es de test**. Stocker le r√©sultat dans une variable nomm√©e `mse_test`.

In [None]:
# Ins√©rez votre code ici

L'erreur quadratique moyenne que vous trouverez devrait √™tre de plusieurs millions sur les donn√©es de test, ce qui peut √™tre difficile √† interpr√©ter.

C'est pourquoi nous allons utiliser une autre m√©trique, l'**erreur absolue moyenne** (*Mean Absolute Error* en anglais) qui calcule directement les √©carts en valeur absolue entre les vraies valeurs de la variable cible et les valeurs pr√©dites.

- **(s)** Importer la fonction `mean_absolute_error` √† partir du sous-module `sklearn.metrics`.
- **(t)** √âvaluer la qualit√© de pr√©diction sur les donn√©es de test et d'entra√Ænement √† l'aide de l'erreur absolue moyenne.
- **(u)** √Ä partir du `DataFrame` `df`, calculer le prix d'achat moyen sur tous les v√©hicules. Est-ce que les pr√©dictions du mod√®le vous paraissent fiables ?

In [None]:
# Ins√©rez votre code ici

### **Conclusion et recap**

Dans ce notebook, nous avons introduit la r√©solution d'un probl√®me de Machine Learning.

Les diff√©rentes √©tapes que nous avons √©tudi√©es sont les √©tapes classiques de tout projet :

- Exploration des donn√©es avec la librairie `Pandas`

- Pr√©paration des donn√©es en s√©parant les variables explicatives de la variable cible

- S√©paration du jeu de donn√©es en deux (un jeu d'entra√Ænement et un jeu de test) √† l'aide de la fonction `train_test_split` de la librairie `scikit-learn`

- Identification du type de probl√®me : ici une r√©gression

- Instanciation d'un mod√®le comme `LinearRegression` avec la librairie `scikit-learn`

- Entrainement du mod√®le sur le jeu de donn√©es d'entra√Ænement √† l'aide de la m√©thode `fit`

- Pr√©diction sur les donn√©es de test gr√¢ce √† la m√©thode `predict`

- Evaluation des performances du mod√®le en calculant l'erreur entre ces pr√©dictions et les v√©ritables valeurs de la variable cible des donn√©es de test. L'√©valuation pour un mod√®le de r√©gression se fait facilement gr√¢ce aux fonctions `mean_squared_error` ou `mean_absolute_error` du sous-module `metrics` de scikit-learn.

Dans le prochain notebook, nous effectuerons les m√™me √©tapes mais pour la r√©solution d'un probl√®me de Machine Learning de classification.