<hr style="border-width:2px;border-color:#75DFC1">
<center><h1> Introduction au Machine Learning avec scikit-learn </h1></center>
<center><h2> Régression linéaire </h2></center>
<hr style="border-width:2px;border-color:#75DFC1">



## Introduction

> L'objectif de cet exercice est de se familiariser avec la régression linéaire. <br>
> La régression linéaire est l'un des premiers modèles prédictifs à avoir été étudié et est aujourd'hui le modèle le plus populaire pour les applications pratiques grâce à sa simplicité.

### Régression Linéaire Univariée

> Dans le modèle linéaire univarié, nous disposons de deux variables, $y$ appelée variable cible ou *target* et $x$ appelée variable *explicative*. <br>
> La régression linéaire consiste à modéliser le lien entre ces deux variables par une fonction affine. Ainsi, la formule du modèle linéaire univarié est donnée par :
> $$y \approx \beta_1 x + \beta_0 $$
> où :
>> * $y$ est la variable que nous voulons prédire.
>>
>>
>> * $x$ est la variable explicative.
>>
>>
>> * $\beta_1$ et $\beta_0$ sont les paramètres de la fonction affine. $\beta_1$ définira sa **pente** et $\beta_0$ définira son ordonnée à l'origine (également appelée **biais**).
>
> **Le but de la régression linéaire est d'estimer les meilleurs paramètres $\beta_0$ et $\beta_1$ pour prédire la variable $y$ à partir d'une valeur donnée de $x$**.
>
> Pour avoir une intuition de la Régression Linéaire Univariée, regardons l'exemple interactif ci-dessous.

* **(a)** Exécuter la cellule suivante pour afficher la figure interactive. Dans cette figure, nous avons simulé un jeu de données.


* **(b)** Essayez de trouver à l'aide des curseurs de l'onglet `Régression` les paramètres $\beta_0$ et $\beta_1$ qui se rapprochent le mieux de tous les points de l'ensemble de données.


* **(c)** Quel est l'effet de chacun des paramètres sur la fonction de régression ? 



In [None]:
from widgets import regression_widget

regression_widget()



###  Régression Linéaire Multiple

> La régression linéaire multiple consiste à modéliser le lien entre une variable cible $y$ et **plusieurs variables explicatives** $x_1$, $x_2$, ... ,$x_p$, souvent appelées *features* en anglais :
> $$
\begin{align}
    y & \approx β_0 + β_1 x_1 + β_2 x_2 + ⋯ + β_p x_p \\
      & \approx β_0+ \sum_{j=1}^{p} β_j x_j 
\end{align}
$$
>
> Il y a maintenant $p + 1$ paramètres $\beta_j$ à trouver.


## 1. Utilisation de scikit-learn pour la régression linéaire

> Nous allons maintenant apprendre à utiliser la bibliothèque **`scikit-learn`** afin de résoudre un problème de Machine Learning avec une **régression linéaire**.
>
> Au cours des exercices suivants, l'objectif sera de prédire le **prix de vente d'une voiture** en fonction de ses **caractéristiques**.

### Importation du jeu de données 

> Le jeu de données que nous utiliserons dans la suite contient de nombreuses caractéristiques à propos de différentes voitures de 1985.
>
> Par simplicité, seules les variables numériques ont été gardées et les lignes comprenant des valeurs manquantes ont été supprimées.

* **(a)** Importer le module `pandas` sous l'alias `pd`.


* **(b)** Dans un `DataFrame` nommé `df`, importer le jeu de données `automobiles.csv` à l'aide de la fonction `read_csv` de `pandas`. Ce fichier se trouve dans le même dossier que l'environnement d'exécution de ce notebook.


* **(c)** Afficher les 5 premières lignes de `df` pour vérifier que l'importation s'est bien déroulée.



In [None]:
# To Do 



> * La variable `symboling` correspond au degré de risque vis-à-vis de l'assureur (risque d'accident, panne, etc).
>
>
> * La variable `normalized_losses` est le coût moyen relatif par an d'assurance du véhicule. Cette valeur est normalisée par rapport aux voitures de même type (SUV, utilitaire, sportive, etc).
>
>
> * Les 13 variables suivantes concernent les caractéristiques techniques des voitures comme la largeur, la longueur, la cylindrée du moteur, la puissance en chevaux, etc.<br>
>
>
> * La dernière variable `price` correspond au prix de vente du véhicule. C'est la variable que nous chercherons à prédire.


### Séparation des variables explicatives de la variable cible

> Nous allons maintenant créer deux `DataFrames`, un contenant les variables explicatives et un autre contenant la variable cible `price`.

* **(d)** Dans un `DataFrame` nommé `X`, faire une copie des variables explicatives de notre jeu de données, c'est-à-dire toutes les variables **sauf** `price`.


* **(e)** Dans un `DataFrame` nommé `y`, faire une copie de la variable cible `price`.



In [None]:
# To Do 




### Séparation des données en jeu d'entraînement et de test

> Nous allons maintenant séparer notre jeu de données en deux parties. Une partie d'**entraînement** et une partie de **test**. Cette étape est **extrêmement** importante en Data Science.
>
> En effet, comme leurs noms l'indiquent : 
>> * la partie d'entraînement sert à « entraîner » le modèle, c'est-à-dire trouver les paramètres $\beta_0$, ..., $\beta_p$ optimaux pour ce jeu de données.
>>
>>
>> * la partie de test sert à « tester » le modèle entraîné en évaluant sa capacité à **généraliser** ses prédictions sur des données qu'il n'a encore **jamais vues**.
>
> Une fonction très utile pour effectuer cette opération est la fonction `train_test_split` du sous-module `model_selection` de **`scikit-learn`**.

* **(f)** Exécuter la cellule suivante pour importer la fonction `train_test_split`.



In [None]:
# To Do 


> Cette fonction s'utilise ainsi :
>
> ```python
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2)
> ```
>
>> * `X_train` et `y_train` sont les variables explicatives et cible du jeu de données d'**entraînement**.
>>
>>
>> * `X_test` et `y_test` sont les variables explicatives et cible du jeu de données de **test**.
>>
>>
>> * L'argument `test_size` correspond à la **proportion** du jeu de données que nous voulons garder pour le jeu de test. Dans l'exemple précédent, cette proportion correspond à 20% du jeu de données initial.

* **(g)** À l'aide de la fonction `train_test_split`, séparer le jeu de données en une partie d'entraînement (`X_train`,`y_train`)  et une partie de test (`X_test`, `y_test`) de sorte que la partie de test contienne **15% du jeu de données initial** avec un `random_state` de 20.



In [None]:
# To Do 


### Création du modèle de régression

> Pour entraîner un modèle de régression linéaire sur ce jeu de données, nous allons utiliser la classe **`LinearRegression`** contenue dans le sous-module `linear_model` de `scikit-learn`. 

* **(h)** Exécuter la cellule suivante pour importer la classe `LinearRegression`.



In [None]:
# To Do 


> L'API de `scikit-learn` permet d'entraîner et évaluer des modèles très facilement. Toutes les classes de modèles de scikit-learn disposent des deux méthodes suivantes :
>> * **`fit`** : Entraîne le modèle sur un jeu de données. 
>>
>>
>> * **`predict`** : Effectue une prédiction à partir de variables explicatives. 
>
> Voici un exemple d'utilisation d'un modèle avec scikit-learn :
> 
> ```python
># Instanciation du modèle
> linreg = LinearRegression()      
>    
># Entraînement du modèle sur le jeu d'entraînement
> linreg.fit(X_train, y_train)        
>  
># Prédiction de la variable cible pour le jeu de données test. Ces prédictions sont stockées dans y_pred
> y_pred = linreg.predict(X_test)                                           
>    ```

* **(i)** Instancier un modèle `LinearRegression` nommé **`lr`**.


* **(j)** Entraîner `lr` sur le jeu de données d'entraînement.


* **(k)** Effectuer une prédiction sur les données d'entraînement. Stocker ces prédictions dans `y_pred_train`.


* **(l)** Effectuer une prédiction sur les données de test. Stocker ces prédictions dans `y_pred_test`.



In [None]:
# To Do 


### Evaluation de la performance du modèle

> Afin d'évaluer la **qualité des prédictions du modèle** obtenues grâce aux paramètres $\beta_0$, ..., $\beta_j$, il existe plusieurs métriques (ou *metrics* en anglais) dans la bibliothèque `scikit-learn`.
>
> L'une des métriques les plus utilisées pour la régression est l'**Erreur Quadratique Moyenne** (ou *Mean Squared Error* en anglais) qui existe sous le nom de `mean_squared_error` dans le sous-module `metrics` de `scikit-learn`.
>
> Cette fonction consiste à calculer la moyenne des distances entre les **variables cibles** et les **prédictions obtenues** grâce à la fonction de régression. 
>
> La figure interactive suivante permet de visualiser comment est calculée cette erreur en fonction de $\beta_1$ :
>> * Les points **bleus** représentent le **jeu de données** pour lequel on veut évaluer la qualité des prédictions. En général il s'agit du jeu de données **test**.
>>
>>
>> * La droite **rouge** est la fonction de régression paramétrée par $\beta_1$. Dans cet exemple, $\beta_0$ est fixé à 0 pour simplifier l'illustration.
>>
>>
>> * Les traits verts sont les distances entre la **variable cible** et les prédictions obtenues grâce à la fonction de régression paramétrisée par $\beta_1$. 
>
> **L'erreur quadratique moyenne n'est en fait que la moyenne de ces distances élevées au carré.**

* **(m)** Exécuter la cellule suivante pour afficher la figure interactive.


* **(n)** A l'aide du curseur se trouvant sous la figure, essayer de trouver une valeur de $\beta_1$ qui minimise l'erreur quadratique moyenne. Est-ce que cette valeur est unique ?



In [None]:
from widgets import interactive_MSE

interactive_MSE()



> La fonction `mean_squared_error` de `scikit-learn` s'utilise ainsi :
>
> ```python
    mean_squared_error(y_true, y_pred)
> ```
> où :
>> * `y_true` correspond aux vraies valeurs de la variable cible.
>>
>>
>> * `y_pred` correspond aux valeurs prédites par notre modèle.

* **(o)** Importer la fonction **`mean_squared_error`** à partir du sous-module `sklearn.metrics`.


* **(p)** Évaluer la qualité de prédiction du modèle sur **les données d'entraînement**. Stocker le résultat dans une variable nommée `mse_train`.


* **(q)** Évaluer la qualité de prédiction du modèle sur **les données de test**. Stocker le résultat dans une variable nommée `mse_test`.


* **(r)** Pourquoi la MSE est-elle supérieure sur les données de test ?



In [None]:
# To Do 


> L'erreur quadratique moyenne que vous trouverez devrait être de plusieurs millions sur les données de test, ce qui peut être difficile à interpréter. 
>
> C'est pourquoi nous allons utiliser une autre métrique, l'**erreur absolue moyenne** (*Mean Absolute Error* en anglais) qui est à la même échelle que la variable cible.

* **(s)** Importer la fonction `mean_absolute_error` à partir du sous-module `sklearn.metrics`.


* **(t)** Évaluer la qualité de prédiction sur les données de test et d'entraînement à l'aide de l'erreur absolue moyenne. 


* **(u)** À partir du `DataFrame` `df`, calculer le prix d'achat moyen sur tous les véhicules. Est-ce que les prédictions du modèle vous paraissent fiables ?



In [None]:
# To Do 


## 2. Surapprentissage sur les données avec un autre modèle de régression


> Nous venons de voir qu'avec la classe `LinearRegression` de `scikit-learn`, le modèle parvenait à apprendre sur les données d'entraînement et à généraliser sur les données de test avec une erreur de 20% en moyenne.
>
> Dans ce qui suit nous allons créer un autre modèle de régression qui apprend très bien sur les données d'entraînement mais qui généralise très mal sur les données test : c'est ce qu'on appelle du **surapprentissage** ou de l'***overfitting*** en anglais.
>
> Pour cela nous allons utiliser un modèle de Machine Learning appelé Gradient Boosting Regressor connu pour ses propriétés de surapprentissage.


* **(a)** Exécuter la cellule suivante pour importer la classe `GradientBoostingRegressor` contenue dans le sous-module `ensemble` de `scikit-learn` et instancier un modèle `GradientBoostingRegressor` nommé **`gbr`**.



In [None]:
from sklearn.ensemble import GradientBoostingRegressor

# Ces arguments ont été choisis pour surapprendre le plus possible
# Ne pas les utiliser en pratique
gbr = GradientBoostingRegressor(n_estimators = 1000,
                                max_depth = 10000,
                                max_features = 15,
                                validation_fraction = 0)



* **(b)** Entraîner le modèle **`gbr`** grâce à sa méthode **`fit`**.


* **(c)** Effectuer une prédiction sur les données de test et d'entraînement. Stocker ces prédictions dans `y_pred_test_gbr` et `y_pred_train_gbr`.



In [None]:
# To Do 


> Après avoir défini notre modèle, l'avoir entraîné sur les données d'entraînement et avoir réalisé les prédictions, il faut ensuite évaluer ses performances.

* **(d)** Calculer la MSE sur les données d'**entraînement** et les données de **test** grâce à la fonction `mean_squared_error` puis afficher les résultats.


* **(e)** Calculer la MAE pour les données d'**entraînement**  et les données de **test** grâce à la fonction `mean_absolute_error` puis afficher les résultats.


* **(f)** Après avoir calculé la moyenne de la colonne `price`, calculer l'**erreur moyenne du modèle** sur les données du jeu de test.



In [None]:
# To Do 


> Voici un exemple de résultats que nous pourrions obtenir avec ces deux modèles.
> 
> Pour la **régression linéaire avec `LinearRegression`** nous avions :
>> * MAE train lr: 1680.4078748721086
>>
>>
>> * MAE test lr: 1773.9135394428085
> 
> Pour la **régression avec `GradientBoostingRegressor`** nous avons :
>> * MAE train gbr: 20.740740828767215
>>
>>
>> * MAE test gbr: 1442.6573741134125  
> 
> L'erreur absolue moyenne obtenue sur le jeu d'entraînement par le modèle `GradientBoostingRegressor` est de seulement 20.7 contre 1680 pour la régression linéaire. <br>
> Le modèle `GradientBoostingRegressor` est très puissant et est capable d'apprendre les données d'entraînement **"par cœur"** ce qui explique cette différence de performance.
> 
> C'est pour cette raison que la performance du modèle doit être évaluée sur le jeu de données de **test**. En effet, l'erreur absolue moyenne du modèle `GradientBoostingRegressor` est de 1442, ce qui est **très loin** de la performance obtenue sur les données d'entraînement. 
> 
> Ceci est un exemple de **surapprentissage flagrant**. <br>
> Même si la performance du `GradientBoostingRegressor` est supérieure à celle de la régression linéaire sur les données de test, il faut **toujours se méfier** d'une performance trop élevée. 

## 3. Pour aller plus loin : la Régression Linéaire Polynomiale

> Dans de nombreux cas, la relation entre les variables $x$ et $y$ **n'est pas linéaire**. <br>
> Ceci ne nous permet pas d'utiliser la régression linéaire pour prédire $y$. Nous pourrions alors proposer un **modèle quadratique** tel que :
> $$y = \beta_0 + \beta_1 x +\beta_2 x^2 $$

* **(a)** Exécuter la cellule suivante pour afficher la figure interactive.


* **(b)** Trouver les paramètres optimaux pour $\beta_0$, $\beta_1$ et $\beta_2$ qui approximent le mieux le nuage de points.


* **(c)** Fixer $\beta_2$ à 0 et faire varier $\beta_0$ et $\beta_1$. Quel modèle reconnaissez-vous ?



In [None]:
from widgets import polynomial_regression

polynomial_regression()



> La régression linéaire polynomiale revient à effectuer une regression linéaire classique à partir de **fonctions polynomiales de la variable explicative** de degré arbitraire. <br>
> La régression polynomiale est beaucoup plus flexible que la regression linéaire classique car elle peut approcher tout type de fonction continue.
>
> Lorsque nous disposons de plusieurs variables explicatives, les variables polynomiales peuvent aussi être calculées par des produits entre les variables explicatives. <br>
> Par exemple, si nous disposons de trois variables, alors le modèle de la régression polynomiale d'ordre 2 devient :
>
> $$ y \approx \beta_0 + \beta_1 x_1^2 + \beta_2 x_2^2 + \beta_3 x_3^2 + \beta_4 x_1 x_2 + \beta_5 x_2 x_3 + \beta_6 x_1 x_3 $$
>
> Si nous avions plus de variables explicatives ou voulions monter le degré de la régression polynomiale, le nombre de variables polynomiales **exploserait**, ce qui peut soulever un problème de **surapprentissage**.

* **(d)** Exécuter la cellule suivante pour afficher la figure interactive.
>Le nuage de points a été généré avec la même tendance que la figure précédente. La ligne rouge correspond à la fonction de régression polynomiale optimale obtenue sur ces données.


* **(e)** En prenant en compte le nuage de points de la figure précédente, trouver le **degré** de la régression polynomiale qui capture le mieux la tendance du nuage de points.


* **(f)** Fixer `d` à 20. Pensez-vous que cette fonction de regression donnerait de bonnes prédictions sur le nuage de point de la figure précédente ?



In [None]:
from widgets import polynomial_regression2

polynomial_regression2()



> Pour entraîner un modèle de régression Polynomiale avec scikit-learn, nous devons d'abord calculer les **variables polynomiales** des données. <br>
> Ceci se fait grâce à la classe **`PolynomialFeatures`** du sous-module `preprocessing` :
>
> ```python
> from sklearn.preprocessing import PolynomialFeatures
>
> poly_feature_extractor = PolynomialFeatures(degree = 2)
> ```
>
> Le paramètre **`degree`** définit le **degré** des features polynomiaux à calculer.
>
> L'objet `poly_feature_extractor` **n'est pas un modèle de prédiction**. <br>
> Ce type d'objet est appelé **`Transformer`** et son utilisation se fait à l'aide de deux méthodes :
>> * **`fit`** : **ne fait rien** dans ce cas. Cette méthode sert en général à calculer les paramètres nécessaires pour appliquer une transformation sur les données.
>>
>>
>> * **`transform`** : Applique la transformation au jeu de données. Dans ce cas, la méthode renvoie les features polynomiaux du jeu de données.
>
> Ces deux méthodes peuvent être appelées simultanément à l'aide de la méthode **`fit_transform`**. <br>
> Nous pouvons calculer les features polynomiaux sur `X_train` et `X_test` ainsi :
>
> ```python
> X_train_poly = poly_feature_extractor.fit_transform(X_train)
>
> X_test_poly = poly_feature_extractor.transform(X_test)
> ```

* **(g)** Importer la classe `PolynomialFeatures` du sous-module `preprocessing`.


* **(h)** Instancier un objet de la classe `PolynomialFeatures` avec l'argument **`degree = 3`** et le nommer `poly_feature_extractor`.


* **(i)** Appliquer la transformation de `poly_feature_extractor` sur `X_train` et `X_test` et stocker les résultats dans `X_train_poly` et `X_test_poly`.



In [None]:
# To Do 


* **(j)** Entraîner un modèle de régression linéaire sur les données (`X_train_poly`, `y_train`). 


* **(k)** Évaluer ses performances sur les données d'entraînement et les données de test (`X_test_poly`, `y_test`). Sommes-nous dans un régime de surapprentissage ?



In [None]:
# To Do 


## Conclusion et recap

> Dans ce cours, vous avez été introduits à la résolution d'un problème de régression grâce au Machine Learning.
> 
> Nous avons utilisé la bibliothèque `scikit-learn` pour instancier des modèles de régression comme `LinearRegression` ou `GradientBoostingRegressor` et appliquer des transformations sur les données comme l'extraction de variables polynomiales.
> 
> Les **différentes étapes** que nous avons étudiées sont la base de toute résolution d'un problème de Machine Learning :
>> * On prépare les données en séparant les variables **explicatives** de la variable **cible**.
>> 
>> 
>> * On **sépare** le jeu de données en deux (un jeu d'**entraînement** et un jeu de **test**) à l'aide de la fonction `train_test_split` du sous-module `sklearn.model_selection`.
>> 
>> 
>> * On **instancie** un modèle comme `LinearRegression` ou `GradientBoostingRegressor` grâce au constructeur de la classe.
>> 
>> 
>> * On **entraîne** le modèle sur le jeu de données d'entraînement à l'aide de la méthode **`fit`**.
>> 
>> 
>> * On effectue une **prédiction** sur les données de test grâce à la méthode **`predict`**.
>> 
>> 
>> * On **évalue les performances** de notre modèle en calculant l'erreur entre ces prédictions et les véritables valeurs de la variable cible des données de **test**. 
>
> L'évaluation de performances pour un modèle de régression se fait facilement grâce aux fonctions **`mean_squared_error`** ou **`mean_absolute_error`** du sous-module `metrics` de scikit-learn.

