# TP -- Regression Linéaire -- sklearn + Regularisation

In [None]:
import numpy as np
import pandas as pd
import sklearn
import sklearn.model_selection
import sklearn.linear_model
import sklearn.preprocessing

In [None]:
import matplotlib.pyplot as plt
import matplotlib.cm as cm
plt.ion()

### Remarque: les parties sont indépendantes

# Partie 1 - mise en pratique

Puisqu'on n'a jamais fait de régression linéaire en TD, et qu'on en a parlé, mais assez rapidement, en cours, on commence par une illustration de ce que peut faire la régression linéaire, sur un cas concret:

C'est le fameux *boston house market* data set: 

https://www.kaggle.com/vikrishnan/boston-house-prices/ 

On s'inspire assez amplement de la solution de l'autrice du dataset, au moins pour ce qui est du chargement des données:

https://www.kaggle.com/vikrishnan/house-sales-price-using-regression

En gros, on a des données sur différents quartiers de Boston, et pour chaque quartier, on a le prix médian des maisons (ou appartements). On cherche à comprendre comment certains facteurs du voisinage déterminent le prix des maisons d'un quartier. Ou bien plus simplement, dans le cadre de ce DM, on se contente de tenter de prédire le prix des maisons en fonction des données fournies en entrée.

Comme d'habitude, on a $N$ points dans l'ensemble d'entraînement, chaque point de donnée est en dimension $D$, et les labels à prédire sont des valeurs continues, $y_n\in \mathbb{R}$.

## Partie 1.0 - petite démo de statistiques descriptives

Ici, vous n'avez rien à faire, juste à lire ce qu'on vous présente (ce sera bien pratique pour les projets!)

In [None]:
# chargement des données
filename = "TP-RegressionLineaire-data-partie1-housing.csv"
names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV']
dataset = pd.read_csv(filename, delim_whitespace=True, names=names)
dataset.head(4)

In [None]:
print(dataset.shape)

In [None]:
# on consulte les types ds données:
dataset.dtypes


'RM' is the average number of rooms among homes in the neighborhood.

'LSTAT' is the percentage of homeowners in the neighborhood considered "lower class" (working poor).

'PTRATIO' is the ratio of students to teachers in primary and secondary schools in the neighborhood.




                          

In [None]:
# aperçu des stats de chaque colonne
pd.set_option('precision', 1)
dataset.describe()

In [None]:
# Data visualizations

# histograms
dataset.hist(bins=10,figsize=(12,10),grid=False);

In [None]:
# on calcule les corréaltions entre colonnes (coeff. de correlation de Pearson)
pd.set_option('precision', 2)
dataset.corr(method='pearson')

In [None]:
## encore une visu des corrélations (ça peut etre bienlong à executer)
# import seaborn as sns
# sns.pairplot(dataset)

In [None]:
# On accède aux noms des colonnes ainsi:
dataset.columns

In [None]:
dataset.columns[-1]

In [None]:
## les colonnes (sauf la dernière) correspondent aux variables explicatives du prix (features)
features = dataset.columns[:-1]

# la derniere colonne, MEDV, correspond à la valeur médiane (Median Value) des maisons dans un quartier
label = dataset.columns[-1]

In [None]:
## on convertit les tableaux pandas en tabeaux numpy
X = dataset[features].values
Y = dataset[label].values

## Partie 1.1 - entrainement, validation, test

**C'est à vous de jouer !**

Il va vous falloir: (il y a des bouts de codes donnés, plus bas)
- Séparer les données en entrainement/test (30% pour le test, 70% l'entrainement)
- Utiliser le modèle d'apprentissage `sklearn.linear_model.Ridge`, qui correspond à la regression linéaire avec régularisation de type Ridge, c.a.d. de type $\alpha ||\vec{w}||_2^2$. Ce modèle dépend d'un hyper-paramètre $\alpha$ `alpha`, qui correspond au niveau de régularisation  (souvent noté $\lambda$ (lambda) en cours).
- Appliquer la cross-validation sur l'ensemble dit "d'entrainement" (les 70%). Utilisez 5 "plis" (*fold*). Cela va permettre de trouver la meilleure valeur possible pour l'hyper-paramètre `alpha`.
- Une fois la valeur idéale de $\alpha=\alpha^*$ trouvée, entrainer le modèle sur l'ensemble de l'ensemble d'entrainement (la totalité des 70%) et mesurer le score sur l'ensemble de test (et tant qu'à faire, aussi sur l'ensemble d'entrainement).

------
- Séparer les données en entrainement/test (30% pour le test, 70% l'entrainement)

On fait le fameux train-test split (séparation des données en ensemble d'entrainement+ensemble de test)

Indice: utilser, si vous le souhaitez, la méthode  `sklearn.model_selection.train_test_split`

In [None]:
test_ratio = ??
seed = 7
X_train, X_test, Y_train, Y_test =  ??

Je suis concerné aussi, mais je pense que c'est jouable dans la mesure où ce qui compte c'est l'évolution-----

- Utiliser le modèle d'apprentissage `sklearn.linear_model.Ridge`, qui correspond à la regression linéaire avec régularisation de type Ridge, c.a.d. de type $\alpha ||\vec{w}||_2^2$. Ce modèle dépend d'un hyper-paramètre $\alpha$ `alpha`, qui correspond au niveau de régularisation  (souvent noté $\lambda$ (lambda) en cours).

- Concrètement:
    - utiliser `np.logspace` pour générer des valeurs de alpha à explorer. Par exemple, ` np.logspace(-5,-2, num=4)` génère des nombres de 10⁻⁵ à 10⁻² (ce n'est pas forcément la bonne plage de valeurs, à vous de voir !)
    - définir un modèle: ce sera `sklearn.linear_model.Ridge(alpha=alpha)`
    - Définir une découpe en plis. On va utilsier `sklearn.model_selection.cross_val_score`. Il y a 2 arguments optionels importants: 
        - `cv=...` Là il faut passer un objet du genre de `sklearn.model_selection.KFold(n_splits=num_folds)` en entrée.
        - `scoring=...` Là il faut passer une méthode de scoring. On va utiliser l'erreur quadratique moyenne, `'neg_mean_squared_error'`

In [None]:
np.logspace(-5,-2, num=4)

In [None]:
alpha_values = ??

In [None]:
# exemple de definition d'un modèle
alpha=3
monModele =  ??

In [None]:
num_folds = 10
kfold = ??
kfold

In [None]:
monScoring = 'neg_mean_squared_error' # (RMS=Root Mean Squared)

Pour choisir parmi les possiblités standard de scoring, on peut aller voir:

https://scikit-learn.org/stable/modules/model_evaluation.html


In [None]:
for alpha in alpha_values:
    monModele = ??
    cv_results = sklearn.model_selection.cross_val_score(??,??,??, cv=??, scoring=??)
    msg = "%s %f, erreur quad. moyenne: %f +/- (%f)" % ("regression lineaire:, alpha=",alpha, -cv_results.mean(), cv_results.std())
    print(msg)

-------- 

- Une fois la valeur idéale de $\alpha=\alpha^*$ trouvée, entrainer le modèle sur l'ensemble de l'ensemble d'entrainement (la totalité des 70%) et mesurer le score sur l'ensemble de test (et tant qu'à faire, aussi sur l'ensemble d'entrainement).

In [None]:
alpha_etoile = ??
monModele = ??

In [None]:
monModele.fit(X_train, Y_train)
Y_train_pred = monModele.predict(X_train)
print("train error", sklearn.metrics.mean_squared_error(Y_train_pred, Y_train))

Y_test_pred = monModele.predict(X_test)
print("test error", sklearn.metrics.mean_squared_error(Y_test_pred, Y_test))

#### Aide:

le résultat attendu est de l'ordre de :

## Partie 1.2 visualisation et exploitation des résultats 

Ici on va se limiter à très peu de choses:
    - comparer les Y_train_pred aux Y_train
    - comparer les Y_test_pred aux Y_test
    


In [None]:
xmin= min(Y_train.min(), Y_train_pred.min() )-1
xmax= max(Y_train.max(), Y_train_pred.max() )+1

In [None]:
fig = plt.figure(1)
plt.scatter(??, ??, marker='x', label='train')
plt.scatter(??, ??, marker='+', label='test')
plt.plot([xmin,xmax], [xmin,xmax], lw=3, color='k', ls='--') ## droite separatrice d'equation x2=x1

# ?labe -> xlabel ou ylabel: a vous de voir
plt.?label('verite terrain')
plt.?label('prediction du modele') 
plt.legend()
ax = fig.add_subplot(111)
ax.set_aspect('equal') # on veut une figure carrée et pas allongée.
# plt.xlim([xmin,xmax])
# plt.ylim([xmin,xmax])

Commentaire:

