# Introduction à l'apprentissage automatique - Jour 1 - Régression

Dans ce notebook, vous allez apprendre :
* à vous servir d'un notebook Jupyter pour garder une trace de l'analyse de vos données ;
* à étudier un problème de régression.
    
Ce notebook a été créé par [Chloé-Agathe Azencott](http://cazencott.info).

Ce noteboook utilise les librairies suivantes :
* python 3.7.7
* numpy 1.18.4
* matplotlib 3.2.1
* scikit-learn 0.23.1

Pour vérifier quelles versions de ces librairies vous utilisez, faites tourner la cellue ci-dessous en cliquant dessus puis en cliquant sur le bouton "Play" dans le menu au-dessus de cette fenêtre, ou en tapant Shift+Enter.

In [None]:
import sys
print(sys.version)

import numpy
print(numpy.__version__)

import matplotlib
print(matplotlib.__version__)

import sklearn
print(sklearn.__version__)

# 1.  Le notebook Jupyter

Jupyter est une application web qui vous permet de créer et partager des documents appelés _notebooks_ (tels que ce notebook .ipynb) qui contient du code modifiable et exécutable, des visualisations, et du texte explicatoire qui peut être formaté avec une syntaxe markdown simple et contenir des équations.

Quelques éléments concernant l'utilisation des notebooks Jupyter :
* Chaque bloc éditable est contenu dans une cellule (_cell_). Un cellule peut contenit du texte brut (_raw text_), du code, ou du texte formatté avec la syntaxe markdown, comme cette cellule. Pour plus d'information sur la syntaxe markdown, suivez le [guide](http://jupyter-notebook.readthedocs.io/en/latest/examples/Notebook/Working%20With%20Markdown%20Cells.html) !
* Pour exécuter une cellule, il suffit de cliquer dessus et de taper Shift+Enter (ou d'utiliser le bouton Play dans la barre de menu).
* Pour créer une nouvelle cellule vide en-dessous de celle que vous allez exécuter, utilisez Alt+Enter au lieu de Shift+Enter.
* Le menu Insert vous permet aussi d'insérer de nouvelles cellules avant ou après la cellue courante.
* Si le notebook ne répond plus, vous pouvez le redémarrer par le menu Kernel --> Restart.

Quelques éléments concernant l'utilisation d'un notebook Jupyter avec Python :
* Une cellule de code Python se comporte comme un shell Python interactif (et en particulier comme ipython, sur lequel est basé Jupyter). En particulier : 
  * Tabulation permet d'auto-compléter le mot-clé que vous avez commencé à taper
  * Taper un point d'interrogation après le nom d'un objet charge l'aide interactive pour cette fonction.
* Jupyter a des commandes Python spéciales (des raccourcis, en quelque sorte) qui s'appellent des _magics_. Par exemple, `%bash` permet d'exécuter du code bash (donc comme si vous étiez dans un terminal), `%paste` permet de coller un block de code précédemment copié (depuis le notebook ou une autre application) en conservant son formatage (et en particulier les indentations), et `%matplotlib inline` permet d'importer la librairie de visualisation de matplotlib et d'afficher les graphiques créés non pas dans une nouvelle fenêtre mais à l'intérieur du notebook. Vous trouverez une liste complète de _magics_ sur http://ipython.readthedocs.io/en/stable/interactive/magics.html 


### Ressources 
* Pour en savoir plus sur le shell python interactif : http://ipython.readthedocs.io/en/stable/interactive/tutorial.html
* Pour en savoir plus sur Jupyter : https://jupyter.org/
* Python et Python Scientifique : http://www.scipy-lectures.org/
* Pour une introduction rapide aux différences entre shell python, shell python interactif, et notebook : https://www.youtube.com/watch?v=ULzWaZQa1Dc (en français)

# 2. Le problème du jour 

Nous allons travailler avec un jeu de données contenant des informations physico-chimiques sur un certain nombre de vins portugais (vinho verde), ainsi que les notes qui leur ont été attribuées par des gens qui les ont goûtés. Notre but est d'automatiser ce processus : nous voulons prédire directement la note des vins à partir de leurs caractéristiques physico-chimiques, afin d'assister les œnologues, améliorer la production de vin, et cibler les goûts de consomateurs de niche.

Ce jeu de données est disponible sur l'archive UCI de jeux de données de machine learning, sur laquelle vous trouverez de nombreux jeux de données classiques : http://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/. Pas besoin de le télécharger, il est déjà dans votre répertoire.

# 3. Préparer les données

## 3.1 Charger les librairies de science des données
Nous allons commencer par importer les librairies nécessaires à notre analyse.

La commande `%pylab inline` est une commande magique de Jupyter. Elle est équivalente à :

```python 
  import numpy as np
  import matplotlib.plot as plt```

Numpy (Numerical Python) est la librairie Python de référence pour le calcul numérique, et en particulier pour la manipulation de vecteurs et matrices. Elle propose dans une certaine mesure des fonctionalités similaires à celles de Matlab.

Matplotlib est une librairie de visualisation de données qui permet de tracer des graphiques.

Le mot-clé `inline` précise que nous voulons que les figures apparaissent au sein du notebook et non pas dans une fenêtre séparée.

In [None]:
%pylab inline 

Pour manipuler les données, nous allons utiliser la librairie pandas :

In [None]:
import pandas

## 3.2 Charger les données

Regardez le fichier `data/winequality-white.csv` (vous pouvez l'ouvrir avec un éditeur de texte, ou un logiciel tableur, ou en ligne de commande avec la commande `less`.) Il contient une première ligne (header) décrivant les colonnes, puis une ligne par vin. Nous allons le charger avec pandas :

In [None]:
data = pandas.read_csv('data/winequality-white.csv', # nom du fichier
                       sep=";" # séparateur de colonnes
                      )

Nous pouvons maintenant examiner ce fichier directement dans notre notebook, par exemple en en regardant les premières lignes :

In [None]:
data.head()

`data` contient 12 colonnes. Les 11 premières (de "fixed acidity" à "alcohol") décrivent les caractéristiques physico-chimiques de nos vins, et la dernière ("quality") sa note.

Notre première tâche est de séparer ce tableau en la matrice de données X et le vecteur d'étiquettes y.

__Question 1 :__ Quelles colonnes de `data` doivent former X ? Quelles colonnes doivent former y ?

__Réponse :__ _Écrire ici votre réponse._

In [None]:
# Sélectionner toutes les lignes de `data` et toutes ses colonnes sauf la dernière :
X = data.values[:, :-1]

# Sélectionner toutes les lignes de `data` et sa dernière colonne uniquement :
y = data.values[:, -1]

Les objets X et y que nous venons de créer sont des __arrays numpy__. Observons leurs dimensions :

In [None]:
print(type(X))
print(X.shape)

X est un objet de type ndarray, de forme 4898 x 11. Il représente une matrice de 4898 lignes et 11 colonnes.

In [None]:
print(type(y))
print(y.shape)

y est un objet de type ndarray, de forme 4898. Il représente un vecteur de 4898 entrées.

__Question 2 :__ Combien d'échantillons (examples) notre jeu de données contient-il ? Combien de variables ?

__Réponse :__ _Écrire ici votre réponse._

## 3.3 Séparer les données en un jeu d'entraînement et un jeu de test

Pour pouvoir évaluer un modèle d'apprentissage de façon non-biaisée, nous avons besoin de créer un jeu de test contenant des données sur lequel le modèle n'a pas été entraîné. Ce jeu de test correspond à des données « nouvelles ».

Nous pourrions faire cette séparation « à la main », mais c'est une des nombreuses fonctionalités proposées par la librairie d'apprentissage statistique scikit-learn. [La documentation de cette librairie](http://scikit-learn.org/stable/documentation.html) vous sera très utile au cours de cette séance pratique et, de manière plus générale, pour comprendre les algorithmes d'apprentissage automatique.

Plus précisément, nous allons utiliser la fonction [train_test_split](http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html) du module `model_selection` de scikit-learn :

In [None]:
from sklearn import model_selection

X_train, X_test, y_train, y_test = \
    model_selection.train_test_split(X, y,
                                    test_size=0.3 # 30% des données dans le jeu de test
                                    )

__Question 3 :__ Combien d'échantillons le jeu d'entraînement (X_train, y_train) contient-il ? Et le jeu de test (X_test, y_test) ?

In [None]:
# Écrire ici le code permettant de répondre à la question.

# 4. Régression linéaire 

Nous sommes maintenant prêts à entraîner notre premier modèle d'apprentissage statistique ! Il va s'agir d'un modèle de régression linéaire.

L'algorithme permettant d'entraîner une régression linéaire se trouve dans le module [linear models](http://scikit-learn.org/stable/modules/linear_model.html#linear-model) de scikit-learn.

In [None]:
from sklearn import linear_model

## 4.1 Entraîner une régression linéaire

In [None]:
# Créer un modèle de régression linéaire 
model = linear_model.LinearRegression()

# Entraîner ce modèle sur (X_train, y_train)
model.fit(X_train, y_train)

## 4.2 Évaluer le modèle 

Le module [metrics](http://scikit-learn.org/stable/modules/classes.html#module-sklearn.metrics) de scikit-learn nous permet d'évaluer facilement un modèle sur un jeu de données. Nous avons ici un problème de __régression__. Une des métriques appropriées est l'erreur quadratique moyenne (MSE). Pour d'autres métriques, voir http://scikit-learn.org/stable/modules/model_evaluation.html#scoring-parameter.

Rappelez-vous, nous évaluons le modèle sur le jeu de test !

In [None]:
from sklearn import metrics

# Prédire les étiquettes du jeu de test
y_pred = model.predict(X_test)

# Calculer la MSE du modèle sur le jeu de test
print("MSE (test) : %0.3f" % metrics.mean_squared_error(y_test, y_pred))

__Question 4 :__ Pensez-vous que ce score est plutôt bon ? Plutôt mauvais ?

__Réponse :__ _Écrire ici votre réponse._

Nous pouvons aussi comparer visuellement les étiquettes prédites aux étiquettes réelles :

In [None]:
# Créer une figure de taille 6 x 6
fig = plt.figure(figsize=(6, 6))

# Créer un nuage de points ("scatterplot") présentant, pour chaque échantillon du jeu de test,
# son étiquette prédite (en ordonnée) versus son étiquette réelle (en abcisse)
plt.scatter(y_test, y_pred)

# Étiqueter les axes
tmp = plt.xlabel("Etiquette reelle", fontsize=14)
tmp = plt.ylabel("Etiquette predite", fontsize=14)

__Question 5 :__ Pensez-vous que les prédictions sont plutôt bonnes ? Plutôt mauvaises ? 

__Réponse :__ _Écrire ici votre réponse._

__Question 6 :__ Que pensez-vous du choix d'aborder ce problème comme un problème de régression ? Quelle(s) alternative(s) pouvez-vous suggérer ?

__Réponse :__ _Écrire ici votre réponse._

## 4.3 Visualiser le modèle 

### Afficher les coefficients du modèle de régression linéaire

Un des avantages des modèles linéaires est leur __interprétabilité__ : nous pouvons visualiser les coefficients de régression affectés à chacune des variables, et en tirer des conclusions sur leur importance relative.

In [None]:
# Calculer le nombre de variable
num_features = X_train.shape[1]

# Afficher pour chaque variable son coefficient dans le modèle
plt.scatter(range(num_features), # en abcisse : indices des variables
            model.coef_ # en ordonnées : leur poids dans le modèle
           )

# Étiqueter les graduations de l'axe des abcsisses
tmp = plt.xticks(range(num_features), # une marque par variable
                 list(data.columns),  # afficher le nom de la variable
                 rotation=90, # tourner les étiquettes de 90 degrés
                 fontsize=14)

# Étiqueter les axes
tmp = plt.xlabel('Variable', fontsize=14)
tmp = plt.ylabel('Coefficient', fontsize=14)

__Question 7 :__ D'après ce graphique, quelle(s) variable(s) semble(nt) avoir le plus d'importance dans le modèle ?

__Réponse :__ _Écrire ici votre réponse._

### Échelles des variables 

La variable `density` a un coefficient beaucoup plus important (en valeur absolue) que les autres. Mais est-elle pour autant la plus importante ? Il nous faut prendre en compte _l'échelle_ des valeurs prises par les différentes variables.

Nous avons la chance ici d'avoir un petit nombre de variables dans nos données. Nous pouvons donc facilement les examiner grâce à des histogrammes. Nous allons disposer ces 11 histogrammes sur une grille de taille 3 lignes x 4 colonnes :

In [None]:
# créer une figure de taille 16x12
fig = plt.figure(figsize=(16, 12))

# pour chaque variable
for feat_idx in range(X_train.shape[1]):
    # créer une sous-figure à la position (feat_idx+1) d'une grille 3x4 
    ax = fig.add_subplot(3, 4, (feat_idx+1))
    # afficher l'histogramme de la variable feat_idx
    h = ax.hist(X_train[:, feat_idx], # la colonne d'indice feat_idx de notre jeu d'entraînement
                bins=50, # le nombre de barres à créer
                color='steelblue', # la couleur de la barre
                edgecolor='none')
    # utiliser le nom de la variable comme titre de l'histogramme
    ax.set_title(data.columns[feat_idx], # le texte
                 fontsize=14 # la taille de police à utiliser
                )

Chaque barre d'un histogramme correspond à une petite fourchette de valeur (équivalente à la largeur de sa base). Sa hauteur donne le nombre d'échantillons dans `X_train` pour lesquels la variable considérée prend une valeur dans cette fourchette.

__Question 8 :__ Comparez les valeurs prises par la variable `density` avec celles prises par la variable `free sulphur dioxide`. Pensez-vous toujours que `density` est la variable la plus importante du modèle ?

__Réponse :__ _Écrire ici votre réponse._

# 5. Standardisation des variables

## 5.1 Centrer-réduire les données

Nous venons d'observer que le fait d'avoir des variables qui suivent des étendues de valeurs différentes limite l'interprétabilité du modèle.

Cela pose en fait aussi problème en ce qui concerne la performance des modèles entraînés. C'est pour cela qu'il est préférable de __standardiser__ ses données, ou encore de les __centrer-réduire__ ("standardiser" est un anglicisme), pour faire en sorte que toutes les variables aient une moyenne de 0 (elles sont centrées) et un écart-type de 1 (c'est la réduction). Cela permet de rendre toutes les variables comparables entre elles. 

C'est encore une fois quelque chose que nous pouvons faire avec scikit-learn, grâce au module [preprocessing.StandardScaler](http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html).

In [None]:
from sklearn import preprocessing

# Créer un "standardiseur" et le calibrer sur les données d'entraînement
std_scale = preprocessing.StandardScaler().fit(X_train)

# Appliquer la standardisation aux données d'entraînement
X_train_std = std_scale.transform(X_train)

# Appliquer la standardisation aux données de test
X_test_std = std_scale.transform(X_test)

__Question 9 :__ Pourquoi a-t-on calibré `std_scale` (c'est-à-dire calculé les moyennes et écart-types de chaque variable) sur les données d'entraînement uniquement ?

__Réponse :__ _Écrire ici votre réponse._

Nous pouvons maintenant visualiser les variables centrées-réduites (en remplaçant `X_train` par `X_train_std` dans le code précédent) :

In [None]:
# créer une figure de taille 16x12
fig = plt.figure(figsize=(16, 12))

# pour chaque variable
for feat_idx in range(X_train_std.shape[1]):
    # créer une sous-figure à la position (feat_idx+1) d'une grille 3x4 
    ax = fig.add_subplot(3, 4, (feat_idx+1))
    # afficher l'histogramme de la variable feat_idx
    h = ax.hist(X_train_std[:, feat_idx], # la colonne d'indice feat_idx de notre jeu d'entraînement
                bins=50, # le nombre de barres à créer
                color='steelblue', # la couleur de la barre
                edgecolor='none')
    # utiliser le nom de la variable comme titre de l'histogramme
    ax.set_title(data.columns[feat_idx], # le texte
                 fontsize=14 # la taille de police à utiliser                
                )

__Question 10 :__ Comparer les étendues de valeurs de `density` et de `free sulfur dioxide` centrées-réduites, entre elles et avec leurs équivalents non centrées-réduites.

__Réponse :__ _Écrire ici votre réponse._

## 5.2 Régression linéaire sur les données centrées-réduites 

Nous allons maintenant recommencer notre analyse de la régression linéaire, sur les données centrées-réduites.

In [None]:
# Créer un modèle de régression linéaire 
model_cr = linear_model.LinearRegression()

# Entraîner ce modèle sur (X_train_std, y_train)
model_cr.fit(X_train_std, y_train)

In [None]:
from sklearn import metrics

# Prédire les étiquettes du jeu de test centré-réduit
y_pred_cr = model_cr.predict(X_test_std)

# Calculer la MSE du modèle sur le jeu de test centré-réduit
print("MSE (test, centré-réduit) : %0.3f" % metrics.mean_squared_error(y_test, y_pred_cr))

__Question 11 :__ Comparer la MSE obtenue sur les données centrées-réduites à celle obtenue sur les données initiales.

__Réponse :__ _Écrire ici votre réponse._

En fait, centrer-réduire les données ne change pas la régression linéaire, au sens où le modèle appris fait exactement les mêmes prédictions. Nous pouvons le vérifier sur nos données, en calculant la norme de la différence entre les prédictions faites sur les données initiales (`y_pred`) et celles faites sur les données centrées-réduites (`y_pred_cr`). (Cette norme est la somme des carrés des différences entre les prédictions.)

In [None]:
print("%.3e" % np.linalg.norm(y_pred - y_pred_cr))

__Question 12 :__ Pourquoi la régression linéaire ne change-t-elle pas si les données sont centrées-réduites ?

__Réponse :__ _Écrire ici votre réponse._

Maintenant que les variables ont toutes été ramenées à la même échelle, nous pouvons comparer de nouveaux les poids du modèle de régression :

In [None]:
# Calculer le nombre de variables
num_features = X_train.shape[1]

# Afficher pour chaque variable son coefficient dans le modèle
plt.scatter(range(num_features), # en abcisse : indices des variables
            model_cr.coef_ # en ordonnées : leur poids dans le modèle
           )

# Étiqueter les graduations de l'axe des abcsisses
tmp = plt.xticks(range(num_features), # une marque par variable
                 list(data.columns),  # afficher le nom de la variable
                 rotation=90, # tourner les étiquettes de 90 degrés
                 fontsize=14)

# Étiqueter les axes
tmp = plt.xlabel('Variable', fontsize=14)
tmp = plt.ylabel('Coefficient', fontsize=14)

__Question 13 :__ D'après ce graphique, quelles sont maintenant les variables qui semblent avoir le plus d'importance dans le modèle ?

__Réponse :__ _Écrire ici votre réponse._

# 6. Sélection de modèle

## 6.1 Mettre en place une validation croisée

Nous allons maintenant utiliser d'autres algorithmes pour créer de nouveaux modèles. Il va nous falloir choisir entre ces différents modèles : c'est ce que l'on appelle la __sélection de modèle.__ 
Attention ! Nous ne pouvons pas utiliser le jeu de test pour cette étape de sélection, car sinon nous pourrions biaiser le modèle et surapprendre.
Pour comparer nos modèles __sur le jeu d'entraînement__, nous allons utiliser une __validation croisée__, encore une fois grâce au module [http://scikit-learn.org/stable/model_selection.html#model-selection](model-selection) de scikit-learn.

In [None]:
from sklearn import model_selection

# Créer un objet KFold qui permettra de cross-valider en 5 folds
kf = model_selection.KFold(n_splits=5,  # 5 folds
                           shuffle=True # mélanger les échantillons avant de créer les folds
                          )

# Utiliser kf pour partager le jeu d'entraînement en 5 folds. 
# kf.split retourne un iterateur (consommé après une boucle).
# Pour pouvoir se servir plusieurs fois des mêmes folds, nous transformons cet itérateur en liste d'indices :
kf_indices = list(kf.split(X_train))

In [None]:
# Combien d'éléments cette liste contient-elle ?
print(len(kf_indices))
# Quel est le type du premier élément ?
print(type(kf_indices[0]))

In [None]:
# kf_indices est donc une liste de 5 tuples.
# Quel est le type des éléments formant un de ces tuples ?
print(type(kf_indices[0][0]))

In [None]:
# kf_indices est une liste de 5 tuples de deux arrays
# Quelles sont les tailles de ces arrays (pour le premier tuple) ?
print(kf_indices[0][0].shape)
print(kf_indices[0][1].shape)

`kf_indices` contient 5 paires de deux vecteurs d'indices. Chacune de ces paires correspond à un fold. Le premier vecteur donne les indices des échantillons formant la partie entraînement de ce fold. Le deuxième donne les indices des échantillons formant la partie test de ce fold.

__Question 14 :__ Combien de fois chaque échantillon apparaît-il dans la partie entraînement d'un fold ? Dans la partie test ? (Il n'est pas nécessaire d'écrire de code pour répondre.)

__Réponse :__ _Écrire ici votre réponse._

## 6.2 Validation croisée pour la régression linéaire 

Nous devons maintenant reprendre notre travail sur la régression linéaire. Heureusement, scikit-learn nous permet grâce à [cross_val_score](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_val_score.html) d'évaluer la performance en validation croisée d'un modèle de régression linéaire sans que nous ne devions nous-même entraîner et évaluer le modèle sur chaque fold, puis combiner les résultats.

In [None]:
# Créer un modèle de régression linéaire 
model_linreg = linear_model.LinearRegression()

# L'évaluer en validation croisée
nmse_linreg = model_selection.cross_val_score(model_linreg, # modèle à entraîner
                                      X_train_std, y=y_train, # jeu d'entrainement
                                      scoring='neg_mean_squared_error', # score à utiliser
                                      cv=kf_indices # validation croisée à utiliser
                                      )
# Afficher nmse_linreg
print(["%.3f" % value for value in nmse_linreg])

`nmse_linreg` contient l'opposé de l'erreur quadratique moyenne sur chacun des 5 folds.

__Question 15 :__ Pourquoi donc _l'opposé_ de l'erreur quadratique moyenne ?

__Réponse :__ _Écrire ici votre réponse._

Nous pouvons maintenant calculer la moyenne sur nos 5 folds de validation croisée de l'erreur quadratique moyenne d'une régression linéaire, et l'écart-type de cette valeur. L'écart-type nous indique à quel point les 5 valeurs fluctuent autour de leur moyenne :

In [None]:
print("MSE de la régression linéaire : %.3f +/- %.3f" % (np.mean(-nmse_linreg), # moyenne
                                                         np.std(-nmse_linreg) # écart-type
                                                        ))

__Question 16 :__ Comparez la MSE obtenue précédemment sur le jeu de test à celle obtenue en validation croisée. Pensez-vous que la régression linéaire surapprend ?

__Réponse :__ _Écrire ici votre réponse._

## 6.3 Validation croisée pour la régression ridge

Nous allons maintenant évaluer un modèle de régression linéaire régularisée ridge -- voir la section [ridge regression]( http://scikit-learn.org/stable/modules/linear_model.html#ridge-regression) de scikit-learn. 

### Évaluation de plusieurs modèles

La régression ridge a un __hyperparamètre__, appelé $\alpha$ dans scikit-learn, qui contrôle la quantité de régularisation utilisée. Nous allons tester plusieurs valeurs pour $\alpha$, et créer pour cela 50 valeurs équiréparties (en échelle logarithmique) entre $10^{-1}$ and $10^4$ :

In [None]:
# 50 valeurs de alpha :
alphas = np.logspace(-1, 4, 50)

nmse_per_alpha = [] # pour enregistrer les valeurs de -MSE values pour chacune des 50 valeurs de alpha
weights_per_alpha = [] # pour enregistrer les coefficients associés à chaque variable,  
                       # pour les 50 valeurs de alpha
for alf in alphas:
    # Créer un modèle de régression ridge
    model_ridge = linear_model.Ridge(alpha=alf)
    
    # Calculer la performance en validation croisée du modèle
    nmse = model_selection.cross_val_score(model_ridge, 
                                           X_train_std, y=y_train, 
                                           scoring='neg_mean_squared_error', 
                                           cv=kf_indices)
    nmse_per_alpha.append(nmse)
    
    # Entrainer le modèle sur le jeu d'entrainement total 
    model_ridge.fit(X_train_std, y_train)
    
    # Enregistrer les coefficients de régression 
    weights_per_alpha.append(model_ridge.coef_)

### Évolution de l'erreur du modèle en fonction de alpha

Nous pouvons maintenant regarder comment l'erreur du modèle de régression ridge évolue en fonction de $\alpha$ :

In [None]:
plt.plot(alphas, # abcisse
         np.mean(-np.array(nmse_per_alpha), axis=1) # ordonnée : MSE moyenne
        )
plt.xscale('log') # utiliser une échelle logarithmique en abcisse

# Étiqueter les axes
tmp = plt.xlabel('Valeur de alpha', fontsize=14)
tmp = plt.ylabel('MSE moyenne', fontsize=14)

# Titre
tmp = plt.title("Regression ridge", fontsize=14)

Pour avoir encore plus d'information, nous pouvons aussi afficher des barres d'erreur sur chacun des points.

Il est classique d'utiliser $2 \sigma / \sqrt{n}$ comme hauteur de barre d'erreur, ou $\sigma$ est l'écart-type et $n$ le nombre de mesures.

In [None]:
plt.errorbar(alphas, # abcisse
             np.mean(-np.array(nmse_per_alpha), axis=1), # ordonnée : MSE moyenne
             yerr=np.std(-np.array(nmse_per_alpha), axis=1)/np.sqrt(5) # barre d'erreur verticale
            )
plt.xscale('log') # utiliser une échelle logarithmique en abcisse

# Étiqueter les axes
tmp = plt.xlabel('Valeur de alpha', fontsize=14)
tmp = plt.ylabel('MSE moyenne', fontsize=14)

# Titre
tmp = plt.title("Regression ridge", fontsize=14)

__Question 15 :__ Comment l'erreur du modèle (en validation croisée) évolue-t-elle en fonction de la quantité de régularisation ?

__Réponse :__ _Écrire ici votre réponse._

__Question 16 :__ Ces résultats pour la régression ridge vous semblent-ils cohérents avec la MSE en validation croisée obtenue pour la régression linéaire non-régularisée ?

__Réponse :__ _Écrire ici votre réponse._

### Évolution des coefficients de régression en fonction de alpha

Nous pouvons aussi regarder l'évolution, pour chaque variable, du coefficient lui correspondant dans le modèle final, en fonction de $\alpha$ :

In [None]:
# Créer une figure
fig = plt.figure(figsize=(8, 5))

lines = plt.plot(alphas, # abcisse = valeurs de alpha
                 weights_per_alpha # ordonnée = valeurs des coefficients de régression
                ) 
plt.xscale('log') # échelle logarithmique en abcisse

# Afficher la légende
tmp = plt.legend(lines, # récupérer l'identifiant 
                 list(data.columns), # nom de chaque variable
                 frameon=False, # pas de cadre autour de la légende
                 loc=(1, 0),  # placer la légende à droite de l'image
                 fontsize=14)

tmp = plt.xlabel('alpha', fontsize=14)
tmp = plt.ylabel('Coefficient', fontsize=14)

tmp = plt.title('Regression ridge', fontsize=16)

__Question 17 :__ Comment les coefficients du modèle évoluent-t-ils en fonction de la quantité de régularisation ?

__Réponse :__ _Écrire ici votre réponse._

__Question 18 :__ Ces coefficients pour la régression ridge vous semblent-ils cohérents avec ceux obtenus pour la régression linéaire non-régularisée ?

__Réponse :__ _Écrire ici votre réponse._

### Modèle optimal de régression ridge

Nous pouvons maintenant sélectionner, parmi nos 50 modèles de régression ridge, celui qui a la plus petite erreur en validation croisée :

In [None]:
# Trouver l'index de la valeur optimale de alpha
best_ridge_idx = np.argmin(-np.mean(nmse_per_alpha))

# Valeur de alpha optimale
print("Valeur de alpha optimale (regression ridge) : %.3e" % alphas[best_ridge_idx])

# MSE correspondante
print("Erreur (validation croisée) du modele de regression ridge optimal : %.3f +/- %.3f" % \
     (np.mean(-np.array(nmse_per_alpha)[best_ridge_idx]), # valeur moyenne
      np.std(-np.array(nmse_per_alpha)[best_ridge_idx]) # écart-type
     ))

## 6.4 Validation croisée pour le lasso

Nous allons maintenant évaluer un modèle de régression linéaire régularisée lasso -- voir la section [Lasso](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Lasso.html) de scikit-learn. 

La régression lasso a aussi un __hyperparamètre__, appelé $\alpha$ dans scikit-learn, qui contrôle la quantité de régularisation utilisée. Nous allons reproduire l'analyse effectuée pour la régression ridge. 

Remarquez que nous utilisons ici une grille de valeurs de $\alpha$ différente de celle de la régression ridge.

### Évaluation de plusieurs modèles

In [None]:
# 50 valeurs de alpha :
alphas = np.logspace(-3, 1, 50)

nmse_per_alpha_lasso = [] # pour enregistrer les valeurs de -MSE values pour chacune des 50 valeurs de alpha
weights_per_alpha_lasso = [] # pour enregistrer les coefficients associés à chaque variable,  
                       # pour les 50 valeurs de alpha
for alf in alphas:
    # Créer un modèle de régression ridge
    model_lasso = linear_model.Lasso(alpha=alf)
    
    # Calculer la performance en validation croisée du modèle
    nmse = model_selection.cross_val_score(model_lasso, 
                                           X_train_std, y=y_train, 
                                           scoring='neg_mean_squared_error', 
                                           cv=kf_indices)
    nmse_per_alpha_lasso.append(nmse)
    
    # Entrainer le modèle sur le jeu d'entrainement total 
    model_lasso.fit(X_train_std, y_train)
    
    # Enregistrer les coefficients de régression 
    weights_per_alpha_lasso.append(model_lasso.coef_)

### Évolution de l'erreur du modèle en fonction de alpha

Nous pouvons maintenant regarder comment l'erreur du modèle de lasso évolue en fonction de $\alpha$ :

In [None]:
plt.errorbar(alphas, # abcisse
             np.mean(-np.array(nmse_per_alpha_lasso), axis=1), # ordonnée : MSE moyenne
             yerr=np.std(-np.array(nmse_per_alpha_lasso), axis=1)/np.sqrt(5) # barre d'erreur verticale
            )
plt.xscale('log') # utiliser une échelle logarithmique en abcisse

# Étiqueter les axes
tmp = plt.xlabel('Valeur de alpha', fontsize=14)
tmp = plt.ylabel('MSE moyenne', fontsize=14)

# Titre
tmp = plt.title("Lasso", fontsize=14)

__Question 19 :__ Comment l'erreur du modèle (en validation croisée) évolue-t-elle en fonction de la quantité de régularisation ?

__Réponse :__ _Écrire ici votre réponse._

__Question 20 :__ Ces résultats pour le lasso vous semblent-ils cohérents avec la MSE en validation croisée obtenue pour la régression linéaire non-régularisée ?

__Réponse :__ _Écrire ici votre réponse._

### Évolution des coefficients de régression en fonction de alpha

Nous pouvons aussi regarder l'évolution, pour chaque variable, du coefficient lui correspondant dans le modèle final, en fonction de $\alpha$ :

In [None]:
# Créer une figure
fig = plt.figure(figsize=(8, 5))

lines = plt.plot(alphas, # abcisse = valeurs de alpha
                 weights_per_alpha_lasso # ordonnée = valeurs des coefficients de régression
                ) 
plt.xscale('log') # échelle logarithmique en abcisse

# Afficher la légende
tmp = plt.legend(lines, # récupérer l'identifiant 
                 list(data.columns), # nom de chaque variable
                 frameon=False, # pas de cadre autour de la légende
                 loc=(1, 0),  # placer la légende à droite de l'image
                 fontsize=14)

tmp = plt.xlabel('alpha', fontsize=14)
tmp = plt.ylabel('Coefficient', fontsize=14)

tmp = plt.title('Lasso', fontsize=16)

__Question 21 :__ Comment les coefficients du modèle évoluent-t-ils en fonction de la quantité de régularisation ?

__Réponse :__ _Écrire ici votre réponse._

__Question 22 :__ Ces coefficients pour le lasso vous semblent-ils cohérents avec ceux obtenus pour la régression linéaire non-régularisée ?

__Réponse :__ _Écrire ici votre réponse._

__Question 23 :__ Si vous deviez choisir uniquement deux variables pour construire un modèle, lesquelles utiliseriez-vous ?

__Réponse :__ _Écrire ici votre réponse._

### Modèle optimal de lasso

Nous pouvons maintenant sélectionner, parmi nos 50 modèles de lasso, celui qui a la plus petite erreur en validation croisée :

In [None]:
# Trouver l'index de la valeur optimale de alpha
best_lasso_idx = np.argmin(-np.mean(nmse_per_alpha_lasso))

# Valeur de alpha optimale
print("Valeur de alpha optimale (régression ridge) : %.3e" % alphas[best_lasso_idx])

# MSE correspondante
print("Erreur (validation croisée) du modèle de régression ridge optimal : %.3f +/- %.3f" % \
     (np.mean(-np.array(nmse_per_alpha_lasso)[best_lasso_idx]), # valeur moyenne
      np.std(-np.array(nmse_per_alpha_lasso)[best_lasso_idx]) # écart-type
     ))

__Remarque :__ Ce problème est un cas de figure assez simple, avec très peu de variables. C'est pour cela que la régularisation ne semble pas apporter grand chose.

# 7. Un cas p >> n

Pour illustrer l'intérêt de la régularisation sur un exemple en grande dimension, nous utilisons ici des données d'expressions de gène mesurées sur des tumeurs de l'endomètre et de l'ovaire. Les données proviennent initialement de http://gemler.fzv.uni-mb.si/index.php mais ont été transformées pour faciliter le travail.

Les données contiennent l'expression de 3.000 gènes, mesurées pour 61 tumeurs de l'endomètre et 123 de l'utérus. L'expression d'un gène est une mesure de la quantité d'ARN messager produite par transcription à partir de ce gène ; l'ARN messager sera ensuite traduit en une protéine, qui assurera une fonction dans l'organisme. La quantité d'ARN messager est indicavtive (la biologie n'est pas si simple) de la quantité de protéine que l'on peut espérer obtenir, mais est beaucoup plus facile à mesurer.  

Il s'agit ici de classifier les échantillons entre ceux issus d'une tumeur de l'utérus et ceux issu d'une tumeur de l'endomètre, et donc d'un problème de _classification_ et non pas de régression.

In [None]:
%pylab inline

In [None]:
# Charger les données
X = np.loadtxt('data/small_Endometrium_Uterus.csv',  delimiter=',', skiprows=1, usecols=range(1, 3001))
y = np.loadtxt('data/small_Endometrium_Uterus.csv', delimiter=',', 
               skiprows=1, usecols=[3001], dtype='bytes').astype('str')
# Convert 'Endometrium' to 0 and 'Uterus' to 1\n
y = np.where(y=='Endometrium', 0, 1)

In [None]:
from sklearn import model_selection

X_train, X_test, y_train, y_test = \
    model_selection.train_test_split(X, y,
                                    test_size=0.3 # 30% des données dans le jeu de test
                                    )

In [None]:
from sklearn import preprocessing

# Créer un "standardiseur" et le calibrer sur les données d'entraînement
std_scale = preprocessing.StandardScaler().fit(X_train)

# Appliquer la standardisation aux données d'entraînement
X_train_std = std_scale.transform(X_train)

# Appliquer la standardisation aux données de test
X_test_std = std_scale.transform(X_test)

In [None]:
from sklearn import model_selection

# Créer un objet KFold qui permettra de cross-valider en 5 folds
kf = model_selection.KFold(n_splits=5,  # 5 folds
                           shuffle=True # mélanger les échantillons avant de créer les folds
                          )

# Utiliser kf pour partager le jeu d'entraînement en 5 folds. 
# kf.split retourne un iterateur (consommé après une boucle).
# Pour pouvoir se servir plusieurs fois des mêmes folds, nous transformons cet itérateur en liste d'indices :
kf_indices = list(kf.split(X_train))

In [None]:
from sklearn import linear_model

# Créer un modèle de régression logistique non régularisée
model_logreg = linear_model.LogisticRegression(C=1e10)

# L'évaluer en validation croisée
acc_logreg = model_selection.cross_val_score(model_logreg, # modèle à entraîner
                                      X_train_std, y=y_train, # jeu d'entrainement
                                      scoring='accuracy', # score à utiliser
                                      cv=kf_indices # validation croisée à utiliser
                                      )
# Afficher acc_loreg
print(["%.3f" % value for value in acc_logreg])

In [None]:
# 50 valeurs de alpha :
alphas = np.logspace(-6, 8, 50)

acc_per_alpha_l2 = [] # pour enregistrer les valeurs d'accuracy pour chacune des 50 valeurs de alpha

for alf in alphas:
    # Créer un modèle de régression logistique régularisée l1
    model_l2 = linear_model.LogisticRegression(C=1./alf, penalty='l2')
    
    # Calculer la performance en validation croisée du modèle
    acc = model_selection.cross_val_score(model_l2, 
                                           X_train_std, y=y_train, 
                                           scoring='accuracy', 
                                           cv=kf_indices)
    acc_per_alpha_l2.append(acc)
    
    # Entrainer le modèle sur le jeu d'entrainement total 
    model_l2.fit(X_train_std, y_train)

In [None]:
plt.errorbar(alphas, # abcisse
             np.mean(np.array(acc_per_alpha_l2), axis=1), # ordonnée : MSE moyenne
             yerr=np.std(np.array(acc_per_alpha_l2), axis=1)/np.sqrt(5) # barre d'erreur verticale
            )
plt.xscale('log') # utiliser une échelle logarithmique en abcisse

plt.plot(alphas, [np.mean(acc_logreg) for a in alphas])

# Étiqueter les axes
tmp = plt.xlabel('Valeur de alpha', fontsize=14)
tmp = plt.ylabel('Accuracy moyenne', fontsize=14)

# Titre
tmp = plt.title("Regression logistique l2", fontsize=14)

In [None]:
# 50 valeurs de alpha :
alphas = np.logspace(-10, 2, 50)

acc_per_alpha_lasso = [] # pour enregistrer les valeurs d'accuracy pour chacune des 50 valeurs de alpha

for alf in alphas:
    # Créer un modèle de régression logistique régularisée l1
    model_lasso = linear_model.LogisticRegression(C=1./alf, penalty='l1', solver='liblinear')
    
    # Calculer la performance en validation croisée du modèle
    acc = model_selection.cross_val_score(model_lasso, 
                                           X_train_std, y=y_train, 
                                           scoring='accuracy', 
                                           cv=kf_indices)
    acc_per_alpha_lasso.append(acc)
    
    # Entrainer le modèle sur le jeu d'entrainement total 
    model_lasso.fit(X_train_std, y_train)

In [None]:
plt.errorbar(alphas, # abcisse
             np.mean(np.array(acc_per_alpha_lasso), axis=1), # ordonnée : MSE moyenne
             yerr=np.std(np.array(acc_per_alpha_lasso), axis=1)/np.sqrt(5) # barre d'erreur verticale
            )
plt.xscale('log') # utiliser une échelle logarithmique en abcisse

plt.plot(alphas, [np.mean(acc_logreg) for a in alphas])

# Étiqueter les axes
tmp = plt.xlabel('Valeur de alpha', fontsize=14)
tmp = plt.ylabel('Accuracy moyenne', fontsize=14)

# Titre
tmp = plt.title("Regression logistique l1", fontsize=14)