

---


# **Introduction au Machine Learning avec scikit-learn**
##**Régression linéaire**


---

### **Introduction**

Ce notebook introduit les concepts du Machine Learning et plus particulièrement de la régression linéaire, afin de montrer à quel point Python est un langage de programmation adapté aux problématiques d'apprentissage automatique.

Le Machine Learning est un sous-domaine de l'Intelligence Artificielle, qui donne la capacité à l'ordinateur d'apprendre à effectuer automatiquement des tâches à partir de données. Quand la tâche à effectuer est la prédiction d'une variable, nous parlons d'apprentissage supervisé.

La régression linéaire est l'un des premiers modèles prédictifs d'apprentissage supervisé à avoir été étudié. Ce modèle permet de prédire une variable quantitative. C'est aujourd'hui le modèle le plus populaire pour les applications pratiques grâce à sa simplicité.

Dans le modèle de régression linénaire, nous disposons de  𝑦
  la variable quantitative à prédire (appelée variable cible) et de variables explicatives permettant la prédiction.

#### **Régression Linéaire Univariée**

Dans le modèle linéaire univarié, nous disposons de deux variables,  𝑦
  appelée variable cible ou target et  𝑥
  appelée variable *explicative*.
La régression linéaire consiste à modéliser le lien entre ces deux variables par une fonction affine. Ainsi, la formule du modèle linéaire univarié est donnée par :

$𝑦≈𝛽1𝑥+𝛽0$

où :
- 𝑦
  est la variable que nous voulons prédire.
- 𝑥
  est la variable explicative.
- 𝛽1
  et  𝛽0
  sont les paramètres de la fonction affine.  𝛽1
  définira sa **pente** et  𝛽0
  définira son ordonnée à l'origine (également appelée **biais**).

**Le but de la régression linéaire est d'estimer les meilleurs paramètres  𝛽0
  et  𝛽1
  pour prédire la variable  𝑦
  à partir d'une valeur donnée de  𝑥
 .**

Pour avoir une intuition de la Régression Linéaire Univariée, regardons l'exemple interactif ci-dessous.

- **(a)** Exécuter la cellule suivante pour afficher la figure interactive. Dans cette figure, nous avons simulé un jeu de données.
- **(b)** Essayez de trouver à l'aide des curseurs de l'onglet `Régression` les paramètres  𝛽0
  et  𝛽1
  qui se rapprochent le mieux de tous les points de l'ensemble de données.
- **(c)** Quel est l'effet de chacun des paramètres sur la fonction de régression ?

In [None]:
from widgets import regression_widget

regression_widget()

### **Régression Linéaire Multiple**
La régression linéaire multiple consiste à modéliser le lien entre une variable cible  𝑦
  et **plusieurs variables explicatives**  $𝑥1
 ,  𝑥2
 , ... , 𝑥𝑝$
 , souvent appelées features en anglais :

$𝑦≈β0+β1𝑥1+β2𝑥2+⋯+β𝑝𝑥𝑝 ≈β0+\sum_{j=1}^{p} β𝑗𝑥𝑗$

Il y a maintenant  𝑝+1
  paramètres  𝛽𝑗
  à trouver.

### **Utilisation de scikit-learn pour la régression linéaire**

Nous allons maintenant apprendre à utiliser la bibliothèque **`scikit-learn`** afin de résoudre un problème de Machine Learning. Nous verrons notamment à quel point cette librairie est utile pour préparer les données puis pour mettre en place des modèles.

Nous nous plaçons dans le cadre d'un projet donc l'objectif est de prédire le **prix de vente d'une voiture** en fonction de ses **caractéristiques**. La variable à prédire est quantitative et nous faisons donc face à une problématique de régression.

### **Importation du jeu de données**
Le jeu de données que nous utiliserons dans la suite contient de nombreuses caractéristiques à propos de différentes voitures de 1985.

Par simplicité, seules les variables numériques ont été gardées et les lignes comprenant des valeurs manquantes ont été supprimées.

- **(a)** Importer le module `pandas` sous l'alias `pd`.
- **(b)** Dans un `DataFrame` nommé `df`, importer le jeu de données `automobiles.csv` à l'aide de la fonction `read_csv` de `pandas`. Ce fichier se trouve dans le même dossier que l'environnement d'exécution de ce notebook.
- **(c)** Afficher les 5 premières lignes de `df` pour vérifier que l'importation s'est bien déroulée.

In [None]:
# Insérez votre code ici

- La variable `symboling` correspond au degré de risque vis-à-vis de l'assureur (risque d'accident, panne, etc).
- La variable `normalized_losses` est le coût moyen relatif par an d'assurance du véhicule. Cette valeur est normalisée par rapport aux voitures de même type (SUV, utilitaire, sportive, etc).
- Les 13 variables suivantes concernent les caractéristiques techniques des voitures comme la largeur, la longueur, la cylindrée du moteur, la puissance en chevaux, etc.
- La dernière variable `price` correspond au prix de vente du véhicule. C'est la variable que nous chercherons à prédire.

###**Séparation des variables explicatives de la variable cible**

Nous allons maintenant créer deux `DataFrames`, un contenant les variables explicatives et un autre contenant la variable cible `price`.

- **(d)** Dans un `DataFrame` nommé `X`, faire une copie des variables explicatives de notre jeu de données, c'est-à-dire toutes les variables **sauf** `price`.
- **(e)** Dans une `Series` nommé `y`, faire une copie de la variable cible `price`.

In [None]:
# Insérez votre code ici

### **Séparation des données en jeu d'entraînement et de test**

Nous allons maintenant séparer notre jeu de données en deux parties. Une partie d'**entraînement** et une partie de **test**. Cette étape est **extrêmement** importante en Data Science.

En effet, comme leurs noms l'indiquent :

- la partie d'entraînement sert à « entraîner » le modèle, c'est-à-dire trouver les paramètres  𝛽0
 , ...,  𝛽𝑝
  optimaux pour ce jeu de données.
- la partie de test sert à « tester » le modèle entraîné en évaluant sa capacité à **généraliser** ses prédictions sur des données qu'il n'a encore **jamais vues**.

Une fonction très utile pour effectuer cette opération est la fonction `train_test_split` du sous-module `model_selection` de **`scikit-learn`**.

- **(f)** Exécuter la cellule suivante pour importer la fonction `train_test_split`.

In [None]:
from sklearn.model_selection import train_test_split

Cette fonction s'utilise ainsi :

```python
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 42)
```

- `X_train` et `y_train` sont les variables explicatives et cible du jeu de données d'**entraînement**.
- `X_test` et `y_test` sont les variables explicatives et cible du jeu de données de **test**.
- L'argument `test_size` correspond à la **proportion** du jeu de données que nous voulons garder pour le jeu de test. Dans l'exemple précédent, cette proportion correspond à 20% du jeu de données initial.
- L'argument `random_state` permet de s'assurer que le découpage des données puisse être reproduit. En effet, l'opération étant aléatoire, 2 découpages successifs donneront en théorie 2 résultats différents. Tant que la valeur du `random_state` est la même (peu importe cette valeur), le résultat de la fonction train_test_split restera le même.

- **(g)** À l'aide de la fonction `train_test_split`, séparer le jeu de données en une partie d'entraînement (`X_train`,`y_train`) et une partie de test (`X_test`, `y_test`) de sorte que la partie de test contienne **15% du jeu de données initial**. Préciser le paramètre `random_state = 42`.

In [None]:
# Insérez votre code ici

### **Création du modèle de régression**

Pour entraîner un modèle de régression linéaire sur ce jeu de données, nous allons utiliser la classe **`LinearRegression`** contenue dans le sous-module `linear_model` de `scikit-learn`.

- **(h)** Exécuter la cellule suivante pour importer la classe `LinearRegression`.

In [None]:
from sklearn.linear_model import LinearRegression

L'API de `scikit-learn` permet d'entraîner et évaluer des modèles très facilement. Toutes les classes de modèles de scikit-learn disposent des deux méthodes suivantes :

- **`fit`** : Entraîne le modèle sur un jeu de données.
- **`predict`** : Effectue une prédiction à partir de variables explicatives.
Voici un exemple d'utilisation d'un modèle avec scikit-learn :

```python
# Instanciation du modèle
linreg = LinearRegression()  

# Entraînement du modèle sur le jeu d'entraînement
linreg.fit(X_train, y_train)        

# Prédiction de la variable cible pour le jeu de données test. Ces prédictions sont stockées dans y_pred
y_pred = linreg.predict(X_test)             
```

- **(i)** Instancier un modèle `LinearRegression` nommé **`lr`**.
- **(j)** Entraîner `lr` sur le jeu de données d'entraînement.
- **(k)** Effectuer une prédiction sur les données d'entraînement. Stocker ces prédictions dans `y_pred_train`.
- **(l)** Effectuer une prédiction sur les données de test. Stocker ces prédictions dans `y_pred_test`.

In [None]:
# Insérez votre code ici

### **Evaluation de la performance du modèle**
Afin d'évaluer la **qualité des prédictions du modèle** obtenues grâce aux paramètres  $𝛽0
 , ...,  𝛽𝑗$
 , il existe plusieurs métriques (ou metrics en anglais) dans la bibliothèque `scikit-learn`.

L'une des métriques les plus utilisées pour la régression est l'**Erreur Quadratique Moyenne** (ou *Mean Squared Error* en anglais) qui existe sous le nom de `mean_squared_error` dans le sous-module `metrics` de `scikit-learn`.

Cette fonction consiste à calculer la moyenne des écarts entre les **vraies valeurs** de la variable cible et les **valeurs prédites** grâce à la fonction de régression. L'erreur quadratique moyenne n'est en fait que la moyenne de ces distances élevées au carré.

La fonction `mean_squared_error` de `scikit-learn` s'utilise ainsi :
```python
mean_squared_error(y_true, y_pred)
```
où :

>- `y_true` correspond aux vraies valeurs de la variable cible.
>- `y_pred` correspond aux valeurs prédites par notre modèle.

- **(o)** Importer la fonction **`mean_squared_error`** à partir du sous-module `sklearn.metrics`.
- **(p)** Évaluer la qualité de prédiction du modèle sur **les données d'entraînement**. Stocker le résultat dans une variable nommée `mse_train`.
- **(q)** Évaluer la qualité de prédiction du modèle sur **les données de test**. Stocker le résultat dans une variable nommée `mse_test`.

In [None]:
# Insérez votre code ici

L'erreur quadratique moyenne que vous trouverez devrait être de plusieurs millions sur les données de test, ce qui peut être difficile à interpréter.

C'est pourquoi nous allons utiliser une autre métrique, l'**erreur absolue moyenne** (*Mean Absolute Error* en anglais) qui calcule directement les écarts en valeur absolue entre les vraies valeurs de la variable cible et les valeurs prédites.

- **(s)** Importer la fonction `mean_absolute_error` à partir du sous-module `sklearn.metrics`.
- **(t)** Évaluer la qualité de prédiction sur les données de test et d'entraînement à l'aide de l'erreur absolue moyenne.
- **(u)** À partir du `DataFrame` `df`, calculer le prix d'achat moyen sur tous les véhicules. Est-ce que les prédictions du modèle vous paraissent fiables ?

In [None]:
# Insérez votre code ici

### **Conclusion et recap**

Dans ce notebook, nous avons introduit la résolution d'un problème de Machine Learning.

Les différentes étapes que nous avons étudiées sont les étapes classiques de tout projet :

- Exploration des données avec la librairie `Pandas`

- Préparation des données en séparant les variables explicatives de la variable cible

- Séparation du jeu de données en deux (un jeu d'entraînement et un jeu de test) à l'aide de la fonction `train_test_split` de la librairie `scikit-learn`

- Identification du type de problème : ici une régression

- Instanciation d'un modèle comme `LinearRegression` avec la librairie `scikit-learn`

- Entrainement du modèle sur le jeu de données d'entraînement à l'aide de la méthode `fit`

- Prédiction sur les données de test grâce à la méthode `predict`

- Evaluation des performances du modèle en calculant l'erreur entre ces prédictions et les véritables valeurs de la variable cible des données de test. L'évaluation pour un modèle de régression se fait facilement grâce aux fonctions `mean_squared_error` ou `mean_absolute_error` du sous-module `metrics` de scikit-learn.

Dans le prochain notebook, nous effectuerons les même étapes mais pour la résolution d'un problème de Machine Learning de classification.