In [None]:
import numpy as np
import matplotlib.pyplot as plt 
import seaborn as sns
import pandas as pd
from sklearn import datasets, linear_model

# Regression

## Echauffement

Le but de cet échauffement va être de prendre en main Scikit-Learn dans le cas de la régression linéaire par moindres carrées.

### Evaluation d'un modèle de regression

Pour évaluer la qualité de la prédiction, on peut utiliser différents critères.

Dans un premier temps, on introduit :
$$ \mathrm {ESS} =\mathrm {SCE} =\sum _{i=1}^{n}({\hat {y_{i}}}-{\bar {y}})^{2}$$ 
qui est la variation expliquée par la régression (Explained Sum of Squares , en français SCE Somme des Carrés Expliquée [par la régression], comparaison à la moyenne).
$$ \mathrm {RSS} =\mathrm {SCR} =\sum _{i=1}^{n}(y_{i}-{\hat {y_{i}}})^{2}$$ 
qui est la variation expliquée par les résidus (Residuals Sum of Squares, en français SCR Somme des Carrés Résiduelle).
$$\mathrm {TSS} =\mathrm {SCT} =\mathrm {ESS} +\mathrm {RSS}$$ 
qui est la variation totale (Total Sum of Squares, en français SCT Somme des Carrés Totale).

Un résidu correspond à la différence entre la valeur prédite et la valeur réelle.

Nous pouvons alors définir le coefficient de détermination (R2) comme le ratio entre la somme des carrés des écarts à la moyenne des valeurs prédites par la régression et la somme des carrés des écarts à la moyenne totale :

$$ {\displaystyle R^{2}={\frac {\mathrm {ESS} }{\mathrm {TSS} }}={\frac {\mathrm {TSS} -\mathrm {RSS} }{\mathrm {TSS} }}={\frac {\sum _{i=1}^{n}({\hat {y_{i}}}-{\bar {y}})^{2}}{\sum _{i=1}^{n}(y_{i}-{\bar {y}})^{2}}}=1-{\frac {\sum _{i=1}^{n}(y_{i}-{\hat {y_{i}}})^{2}}{\sum _{i=1}^{n}(y_{i}-{\bar {y}})^{2}}}={\frac {\operatorname {cov} (\mathrm {X} ,\mathrm {Y} )^{2}}{\operatorname {var} (\mathrm {X} )\operatorname {var} (\mathrm {Y} )}}}$$

Le coefficient de détermination varie entre 0 et 1. Lorsqu'il est proche de 0, le pouvoir prédictif du modèle est faible et lorsqu'il est proche de 1, le pouvoir prédictif du modèle est fort. 

### Exercice

Pour le jeu de données synthétique ci-dessous :
* appliquer un modèle de régression linéaire et mesurer son R2 de deux manières différences (Indication : regarder la documentation de la régression linéaire de scikit learn et ré-utiliser ce que vous avez fait avant)
* Calculer les ESS, TSS et RSS. Etant donné que l'on a un très bon modèle, que dire de ces métriques.
* Avec votre modèle, créer un graphe des résidus (i.e modèle - prédiction).
* Avec votre modèle, créer un histogramme des résidus. Observations ?


In [None]:
n_samples = 1000

X, y, coef = datasets.make_regression(
    n_samples=n_samples,
    n_features=1,
    n_informative=1,
    noise=10,
    coef=True,
    random_state=0,
)

# Fit LSR using all data
lr = COMPLETEME
# Predict data of estimated models
line_X = np.arange(X.min(), X.max())[:, np.newaxis]
line_y = lr.predict(line_X)

# Compare estimated coefficients
print("Estimated coefficients (true, linear regression):")
print(coef, lr.coef_,)
plt.scatter(
    X, y, color="yellowgreen", marker=".", label="Data"
)

plt.plot(line_X, line_y, color="navy", linewidth=2, label="Linear regressor")

plt.legend(loc="lower right")
plt.xlabel("Input")
plt.ylabel("Response")
plt.show()

plt.figure()
plt.legend(loc="lower right")
plt.plot(COMPLETEME)
plt.xlabel("Input")
plt.ylabel("Residuals")

## Miles-Per-Gallon

Le but de cette section est de proposer un modèle qui permettra de comparer les performances d'une voiture moderne comparée à celles disponibles dans les années 80.

La voiture cible est une Renault Mégane 3 1.5dCI Eco 2, qui a pour caractéristiques :
* Consommation ville (pire scénario possible) : 5.1L/100km
* Consommation mixte : 4.4L/100km
* Poids : 1743 kg
* Année : 2009
* Cylindres : 4
* Puissance : 85ch (on rigole pas au fond)
* Cylindrée : 1461 $cm^3$
* Acceleration (400m DA) : 19.6s

Question : est-ce qu'une Mégane de 2009 a consommation plus avantageuses que des voitures des années 70-80 ?

Suggestions :
* Certaines données ont moins d'importances que d'autres, à vous de choisir les "bonnes".
* A vous de vous renseigner sur la signification des colonnes.
* Les variables discrètes peuvent être encodées avec des vecteurs one-hot, si besoin est.

In [None]:
mpg = sns.load_dataset("mpg")
mpg

### Nettoyage

Les vraies datasets sont généralement "sales", ou en tout cas incomplets. La première étape consiste donc à nettoyer, c'est à dire vérifier où les valeurs manquent, et quelle solution apporté.

In [None]:
mpg[mpg.isnull().any(axis=1)]

Vu le faible nombre (6/397), on peut se permettre de supprimer ces données sans impact statistique.

In [None]:
mpg = mpg.dropna()

In [None]:
mpg_stats = mpg.describe()
mpg_stats.pop("mpg")
mpg_stats = mpg_stats.transpose()
mpg_stats

## Au boulot...

Les données sont propres. A vous de jouer !

Le but est de proposer un modèle d'estimation du MPG à partir de données d'entrées liées à un ensemble d’entraînement et de l'appliquer pour voir si les voitures "modernes" sont devenues vraiment mieux sur ce point.

Toutefois, on suggère les tâches suivantes pour arriver à une réponse :
* Visualisation de "MPG", "Cylinders", "Displacement" et "Weight" (quelle visualisation irait bien ?)
* Evaluation statistiques (hors MPG, qui est la cible, voir au dessus)
* Normalisation des données (i.e moyenne et écart type 1)
* Selection des données (utiliser une heatmap pour voir la corrélation entre les données)
* Appliquer un système de validation pour montrer que votre modèle est capable de généraliser.
* Appliquer un modèle de regression aux données choisies et traitées (Indication : il n'y a pas que les moindres carrés dans la vie, mais c'est un bon début en particulier pour comparer à des méthodes plus évoluées)
* Conclure par rapport à la Mégane contre les vieilles voitures (Indication : estimer le mpg de la Mégane avec votre modèle puis comparer à la fiche technique, ensuite conclure).