# L3 - Math3-ML - MACHINE LEARNING
## Objectifs du TP6 - régression avec sklearn


Actuellement, l'apprentissage statistique (machine learning) en python se fait essentiellement avec le package très complet nommé `scikit-learn`. Ainsi durant les TP 4, 5 et 6 nous verrons comment l'utiliser dans les différents cas statistiques que nous pouvons rencontrer. 

![](apprentissage1.png)

Durant le TP6 nous nous concentrerons sur les cas de la régression. 

En reprenant les notations standards, soit $X \in \mathbb{R}^{n \times p}$ une matrice exprimant $p$ variables pour $n$ individus. Soit $Y \in \mathbb{R}^n$ une variable continue réponse que nous essayons à prédire. 

Ce TP a pour but d'explorer le traitement des features (nettoyage et préparation), de comparer et comprendre certains algorithmes de regression. 

# Préparation du jeu de données 

Pour commencer ce TP nous allons utiliser les données immobiliaires en californie. Le but ici est de prédire le prix d'une maison californienne. 

Récuperer le fichier csv disponible sur moodle et importer le. On mettra dans une variable `target` la variable `target` et garderons les autres variables dans une matrice $X$. 

In [1]:
import pandas as pd
import numpy as np 
import sklearn

Explorer le jeu de données pour nettoyer les données: 

- traiter les valeurs NaN 
- traiter les valeurs abérantes 

Il y a plusieurs façon de traiter les données manquantes ou abérantes. Soient en retirant les features (ou ligne) qui sont concernés ou bien en remplaçant ces valeurs par des indicateurs statistiques (moyenne, médianne ...) des features concernées.

# Création de nouvelles features

Dans le cadre de la prédiction, chaque choix de variable va avoir de l'importance. 
Ainsi il va être parfois utile de modifier certaines variables : 
   - transformer en variables binaires des variables catégorielles (fonction `get_dummies`)
   - faire des transformations de certaines variables (comme appliquer les taux d'inflation à un prix)
   - catégoriser certaines variables continues (comme définir des tranches d'âge) 
   - ajouter des informations externes (la météo, positions géographiques, etc) 
   
Il y a mille façons de faire cela. Seule l'imagination et créativité de l'ingénieur fait office de limitation dans l'exploration de nouvelles features. 

Pour cette partie soyez créatifs! 

Justifier des features que vous souhaitez garder. Pour cela vous pouvez vous baser sur des outils statistiques pour les justifier. Par exemple, il n'est pas utile de garder deux features qui apportent la même information.

# Choix de l'algorithme

Il existe plusieurs algorithmes de regression. Pour ce TP nous nous contenterons de ceux implémenter dans le package `sklearn`. 

Le but ici étant de faire la prédiction du prix des maisons californiennes, nous voulons donc améliorer notre score de prédiction. Afin de bien comparer toutes les démarches mises en place il faut fixer un environnement. Ici nous allons choisir la métrique [RMSE](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_squared_error.html#sklearn.metrics.mean_squared_error) pour ses bonnes propriétés. 
De plus, il est important d'avoir une baseline afin d'avoir déjà un score à améliorer. 
Dans notre cas nous allons utiliser la regression linéaire. 



In [13]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression


X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5, random_state=0)
LR = LinearRegression()
y_pred = LR.fit(X_train, y_train).predict(X_test)


In [14]:
from sklearn.metrics import mean_squared_error
mean_squared_error(y_test, y_pred)

0.5666151356233775

Il va être interessant ici de choisir le bon algorithme et les bonnes features. 

Ainsi les leviers d'action possible sont : 

- le choix de l'algorithme
- les hyperparamètres de l'algorithme choisi
- les features mises en entrée de l'algorithme (dans la variable X)

Ainsi afin d'améliorer votre prédiction, il va être interessant de revenir souvent sur vos choix afin d'améliorer vos modèles. 

## Validation croisée 

La validation croisée permet d'éviter l'overfitting. 

In [20]:
from sklearn.model_selection import cross_val_score
LR = LinearRegression()
print(np.mean(-1 * cross_val_score(LR, X, y, cv = 5, scoring = 'neg_mean_squared_error')))

0.5718398160092207


Afin de trouver les bons hyperparamètres, il va être important de faire une bonne grille de recherche de parmaètres. Pour cela, vous pouvez utiliser la fonction [GridSearchCV](https://scikit-learn.org/stable/modules/grid_search.html). 

Essayer de trouver quel est le meilleur algorithme, le meilleur jeu d'hyperparamètre et les meilleures features pour faire les meilleures prédictions ? 