# TP: Régression logistique et `scikit-learn` 



Dans ce premier TP, nous mettons en oeuvre un modèle de régression logistique pour la prédiction de labels binaires $y \in \{0,1\}$. On rappelle que la régression logistique repose sur une modélisation probabiliste, et donc plutôt que de prédire simplement 0 ou 1, on calcule pour chaque observation $x$ une probabilité dans $[0,1]$ qui correspond à un estimateur $\mathbf{P}(y=1|x)$. 

Les données utilisées dans ce TP proviennent d'un jeu de données classique qui s'appelle "Census Income" dataset (également connu sous le nom de "Adult Income" et disponible sur le site [https://archive.ics.uci.edu/ml/datasets/adult](https://archive.ics.uci.edu/ml/datasets/adult)).

Ce dataset a été extrait par Barry Becker du recensement américain de 1994 et est souvent utilisé pour des tâches de classification binaire, où l'objectif est de **prédire si un individu gagne plus ou moins de $50\,000$ dollars par an**, en se basant sur les caractéristiques démographiques et professionnelles disponibles. Les **caractéristiques sont qualitatives et quantitatives** et incluent l'âge, le niveau d'éducation, le statut matrimonial, la profession, le pays d'origine, le sexe, le capital investi, le nombre d'heures de travail par semaine, etc.

Le fichier `data/adult_clean.csv` a été obtenu en nettoyant les fichiers publics (voir le notebook `day1_preparation_data.ipynb`): on a retiré les données manquantes et les doublons. 

## Le jeu de données

On utilise le module `pandas` qui est une bibliothèque open-source populaire en Python, largement utilisée pour la manipulation et l'analyse des données. Ce module fournit des structures de données flexibles et performantes: 
- les **DataFrames** qui sont similaires aux tables de base de données ou aux feuilles de calcul Excel
- les **Series** qui sont des tableaux unidimensionnels avec étiquettes.

In [None]:
import numpy as np
import pandas as pd

### Chargement 

- Importer les données du fichier `data/adult_clean.csv` sous forme d'un `DataFrame` pandas que l'on nomme `dataset`. 
- Visualiser les premières lignes de `dataset`, noter le nombre de caractéristiques (et leurs noms) et le nom de la variable à prédire.
- Quel est le nombre total de données (de lignes) du `dataset`, et la proportion de données `<=50K` et `>50K`. 

### Solution

In [None]:
# on visualise les premières lignes du fichier pour voir la structure
# ici le format est classique: la "," est le séparateur et la première ligne contient le nom des colonnes
filename = "data/adult_clean.csv"
with open(filename, 'r') as f:
    for line, k  in zip(f, range(5)): 
        print(line.strip())

In [None]:
# on crée l'objet dataset via l'appel de la fonction `read_csv` du module pandas
dataset = pd.read_csv(filename)

In [None]:
# on visualise les 5 premières lignes du `dataset`
dataset.head(5)

In [None]:
# on utiliser la méthode `value_counts` pour obtenir des informations sur les données à prédire 
dataset["class"].value_counts()

**Remarque** : Pour lister toutes les méthodes/attributs utilisables pour un objet on peut utiliser la fonction `dir` par exemple 
```python
print(dir(dataset))
```
Pour ne lister que les méthodes/attributs *publiques* on peut filtrer le résultat par exemple 
```python
print([m for m in dir(dataset) if m.startswith('_') == False])
```

In [None]:
print([m for m in dir(dataset) if m.startswith('_') == False])

### Exploration, visualisation 

- Familiarisez-vous avec les données (à l'aide de `shape`, `dtypes`, `describe`, `value_counts`).
- Visualiser quelques caractéristiques en séparant les 2 groupes `<=50K` et `>50K`.
- Séparer les données en 3 dataframes qu'on nomme :

    - `quantitative`: dataframe avec toutes les covariables quantitatives
    - `qualitative`: dataframe avec toutes les covariables qualitatives
    - `category` : pour les labels observés `class`

### Solution

In [None]:
dataset.shape

In [None]:
dataset.describe()

In [None]:
dataset.describe(include='O')

In [None]:
dataset["sex"].value_counts()

In [None]:
dataset["race"].value_counts()

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
sns.set_theme()

In [None]:
sns.histplot(data=dataset, x="age", hue="class", 
             multiple="stack", alpha=0.5, discrete=True);

In [None]:
ax = sns.histplot(data=dataset, x="sex", hue="class", 
                  multiple="stack", alpha=0.5, discrete=True)

In [None]:
ax = sns.histplot(data=dataset, x="education", hue="class", 
                  multiple="stack", alpha=0.5, discrete=True)
ax.tick_params(axis='x', rotation=90)

In [None]:
ax = sns.scatterplot(data=dataset, x="age", y="hours-per-week",
                     hue="class", alpha=0.5)

In [None]:
quant_columns = [ "age", "capital-gain", "capital-loss", "hours-per-week" ]
quali_columns = [ "workclass", "education", "marital-status", "occupation", 
                  "relationship", "race", "sex", "native-country" ]
quantitative = dataset[quant_columns]
qualitative = dataset[quali_columns]
category = dataset["class"]

**Remarque** :
On pourrait automatiser en utilisant par exemple 

```python
quantitative = dataset.columns[dataset.dtypes == 'int64']
qualitative = dataset.columns[dataset.dtypes == 'object'][:-2]
```


### Pré-traitement des données

On ne travaille que très rarement sur des donnnées brutes. 

Pour des  **variables quantitatives**, il est important de les  **standardiser** (centrer et réduire) afin de les ramener à  des échelles comparables. Cela diminue également les problèmes numériques. 

Pour une **variable qualitative** ou **catégorielle**, il n'y a en général pas  d'ordre naturel de ses modalités. Donc il ne faut pas bêtement remplacer des catégories *A*, *B*, *C*,... par 1, 2, 3,... Le problème est que dans un modèle de régression, on va calculer par exemple des moyennes sur ces valeurs, mais en général *B* n'est pas la moyenne de *A* et *C* (alors que c'est le cas pour la valeur 2 par rapport à 1 et 3). Il nous faut alors un encodage qui est invariant à l'ordre des modalités. On utilise  le **one-hot encoding** qui consiste à transformer une variable qualitative en plusieurs variables binaires dites **dummies**. Une variable avec K modalités est transformée en K-1 variables binaires. Chacune de ces variables binaires indique pour une catégorie spécifiée si la variable observée est égale à cette catégorie ou pas. Il suffit de K-1 variables binaires pour encoder K catégories, car l'information sur la K-ième catégorie peut être déduite des K-1 autres variables binaires. Donc, si on utilisait K variables binaires, on introduirait des corrélations entre les colonnes, ce qu'il faut éviter dans un cadre de régression.

En vue de la régression logistique on effectue le pré-traitement suivant: définir les variables 
- `labels` en remplaçant les classes `<=50K` et `>50K` par les valeurs numériques 0 et 1
- `quantitative_norm` obtenu en renormalisant le dataset `quantitative`
- `qualitative_enc` obtenu par l'appel de `get_dummies` du module `pandas` sur le dataset `qualitative` 

### Solution

In [None]:
labels = category.replace({ '<=50K': 0, '>50K': 1 }) 

In [None]:
quantitative_norm = (quantitative - quantitative.mean()) / quantitative.std()
quantitative_norm.describe()

In [None]:
qualitative_enc = pd.get_dummies(qualitative)
qualitative_enc.describe()

**Remarque 1**: 
La valeur 98 correspond à la somme des valeurs possibles par covariable qualitative. On peut le vérifier aisément:
```python
counter = 0
for col in qualitative:
    print(col, dataset[col].unique().shape[0])
    counter += dataset[col].unique().shape[0]
print(counter)
```


**Remarque 2**:
On pourrait utiliser les fonctions `StandardScaler` et `OneHotEncoder` du module `scikit-learn` mais l'usage est d'utiliser ces fonctions à travers un pipeline pour automatiser le processus. On verra l'utilisation un peu plus loin. 

Si vous executez les lignes suivantes, vous remarquerez que `quantitative_norm2` est un tableau `numpy` (il a perdu sa structure de données de `DataFrame`) et `qualitative_enc2` est une matrice creuse (sparse matrix) de `scipy`. 
```python
from sklearn.preprocessing import OneHotEncoder, StandardScaler

quantitative_preprocessor = StandardScaler()
qualitative_preprocessor = OneHotEncoder()

quantitative_norm2 = quantitative_preprocessor.fit_transform(quantitative)
qualitative_enc2 = qualitative_preprocessor.fit_transform(qualitative)
```

Si on reconstruit des `DataFrame` à partir de ces tableaux numériques on peut vérifier que ces fonctions donnent des sorties similaires à notre traitement manuel:
```python
np.sum((quantitative_norm - pd.DataFrame(quantitative_norm2, columns=quantitative.columns))**2)
qualitative_enc.equals(
    pd.DataFrame(qualitative_enc2.todense().astype(bool), columns=qualitative_enc.columns)
)
```

**Attention**:
On normalise et on encode sur l'ensemble des données! 

## Echantillons: apprentissage et test 

On rappelle que la modélisation se fait en trois temps :
- on sépare les données : TRAIN / TEST
- on apprend le modèle sur TRAIN
- on évalue la performance du modèle appris sur TEST

On coupe les données de façon aléatoire en deux groupes. 
Le plus souvent, on les sépare Cen 80% pour l'apprentissage et 20% pour le test. D'autres pourcentages courants sont 67-33 ou 50-50.
On   utilise la  fonction `train_test_split` du package `sklearn.model_selection` pour séparer aléatoirement les données. 

Même si le split est aléatoire, on souhaite que les deux échantillons soient tous les deux représentatifs du problème. En particulier, on voudrait qu'ils contiennent le même pourcentage de labels 0 et 1, ce qui est notamment important quand  les labels ne sont pas équilibrés (pas 50-50).

Ici, la proportion de 1, individus qui sont dans la catégorie `>50K` est d'environ 0.25 (le vérifier!).

Si le taux n'est pas très élevé, une coupe totalement aléatoire des données risque de produire des sous-échantillons où l'un des deux ne contient que peu de labels qui valent 1. Cela peut être problématique pour l'apprentissage du modèle comme pour l'évaluation de la méthode.

En pratique, dans des problèmes de classification, on force alors la même répartition des labels dans les deux échantillons TRAIN et TEST, via l'option `stratify`.

### Création des échantillons 

Utiliser la fonction `train_test_split` du module `scikit-learn` pour créer à partir de nos données `quantitative_norm`, `qualitative_enc` et `labels` les 4 variables suivantes: 
- `x_train` et `y_train` qui contiennent 80% du jeu de données pour l'apprentissage du modèle de régression logistique 
- `x_test` et `y_test` qui contiennent les 20% restants pour le test.

### Solution

In [None]:
from sklearn.model_selection import train_test_split

# split TRAIN / TEST
x_train, x_test, y_train, y_test = train_test_split(
    pd.concat([quantitative_norm, qualitative_enc], axis=1),
    labels,
    stratify=labels,
    test_size = 0.2,
    random_state = 42
)

In [None]:
y_train

**Remarque**:
Dans cette première approche nous utilisons la fonction `train_test_split` du module `scikit-learn`. En pratique il est préférable d'utiliser une approche par validation croisée qui permet d'évaluer la performance de généralisation du modèle. 

## Régression logistique

Le but de ce TP est de fitter un modèle de régression logistique à ces données afin de prédire le label (`<=50K` ou `>50K`) pour des  nouveaux individus à partir de leurs caractéristiques. Nous commençons par le modèle simple qui prend en compte toutes les variables.

### Création du modèle et estimation

- Utiliser la fonction `LogisticRegression` de `sklearn.linear_model` pour effectuer une régression logistique simple (i.e. sans pénalisation). Fitter le modèle sur les données `train`. Visualiser les coefficients estimés (intercept et variables).

### Solution

In [None]:
from sklearn.linear_model import LogisticRegression

# Définition du modèle de régression logistique : sans pénalisation 
model = LogisticRegression(penalty=None, max_iter=1000)
# sans l'option max_iter, on peut avoir un nb max d'itérations insuffisant pour atteindre la convergence
# On estime les paramètres de ce modèle sur les données 
model.fit(x_train, y_train)

# Résultats de la régression logistique
# On visualise l'intercept b et les 32 coefficients w_i estimés pour les 32 variables 
print("intercept:", model.intercept_)
print("coefficients:", model.coef_.shape, "\n", model.coef_)

In [None]:
model

### Estimation

- Sur le jeu `test`, calculer les probabilités que `>50K` pour chaque individu (`predict_proba()`) et les prédictions (`predict()`) que l'on obtient par seuillage des probabilités au seuil de $t = 1/2$.
- Faire varier le seuil $t \in [0,1]$, comparer le nombre moyen de positifs prédits par rapport à celui connu dans `y_test`. 

### Solution

La méthode `predict_proba` renvoie 2 colonnes: la première est la probabilité d'être `<50K` (label 0, négatif) et la seconde la probabilité d'être `>=50K` (label 1, positif). A partir de ces probas on peut "décider" en fixant un seuil $t \in [0,1]$ d'être ou non dans une des 2 catégories. 

In [None]:
seuil_t = 0.5   # à modifier pour voir l'influence de ce paramètre 
pred_prob = model.predict_proba(x_test)
pred_t = pred_prob[:, 1] > seuil_t  # ce vecteur de booléen est la prédiction obtenue avec le seuil t 
print(f"La proportion de positifs >=50K prédits avec le seuil t={seuil_t} est:", pred_t.mean())

La méthode `predict` renvoie directement la prédiction obtenue avec le seuil $t = 0.5$. 

In [None]:
pred = model.predict(x_test)
print(f"La proportion de positifs >=50K prédits par le modèle est:", pred.mean())

In [None]:
print("La proportion de positifs >=50K dans y_test est:", np.mean(y_test.to_numpy()))

## Mesures de qualité du classifieur 

Le module `metrics` de `scikit-learn` contient plusieurs fonctions qui permettent d'évaluer la qualité des prédictions d'un modèle. Ces métriques sont détaillées dans les sections sur les métriques de classification, les métriques de classement multi-label, les métriques de régression et les métriques de clustering.

In [None]:
import sklearn.metrics as metrics
print(dir(metrics))

### Accuracy score  

Le taux de précision (_accuracy score_) est la mesure de performance qui représente la proportion d'échantillons correctement classés par le modèle parmi l'ensemble total des échantillons. Ce taux est un pourcentage, où une valeur de 100% signifie que toutes les prédictions du modèle sont correctes.

- Implémenter à la main (en `numpy`) le calcul de ce score pour les données de test.
- Obtenir ce score via l'appel de `accuracy_score` du module `sklearn.metrics` et via la méthode `score` de l'objet `model`.
- Comparer ce score à un estimateur trivial qui consiste à toujours renvoyer la classe la plus fréquente.

### Solution

In [None]:
# accuracy calculé à la main
y_predicted = model.predict(x_test)
accuracy = np.mean(y_predicted == y_test)
print(f"Accuracy: {accuracy:.3f}")

In [None]:
# accuracy avec sklearn.metrics
from sklearn.metrics import accuracy_score
accuracy = accuracy_score(y_test, y_predicted)
print(f"Accuracy: {accuracy:.3f}")

In [None]:
# accuracy avec score
print(f"Accuracy: {model.score(x_test, y_test):.3f}")

Comme la proportion de personnes dans la classe `<=50K` est d'environ 75%, un  classifieur trivial consiste à décider de prédire toujours `<=50K` quelque soit les valeurs des variables. L'accuracy de ce classifieur est alors de 75% :

In [None]:
dummy_accuracy = np.mean(np.zeros_like(y_test) == y_test)
print(f"Accuracy of the dummy classifier: {dummy_accuracy:.3f}")

In [None]:
from sklearn.dummy import DummyClassifier

dummy_classifier = DummyClassifier(strategy="most_frequent")
dummy_classifier.fit(x_train, y_train)
print(f"Accuracy of the dummy classifier: {dummy_classifier.score(x_test, y_test):.3f}")

Il est alors important de noter qu'un classifieur trivial peut déjà avoir une accuracy assez élevée ! 
Et du coup, dans notre cas, une accuracy de 84% est   moins impressionnante qu'à première vue.
Il faut alors toujours comparer l'accuracy d'un classifieur à celle d'une méthode baseline. 

### Matrice de confusion, recall, precision

La matrice de confusion permet de visualiser les performances du modèle en termes de prédictions correctes (vrais positifs et vrais négatifs) et d'erreurs de prédiction (faux positifs et faux négatifs). La représentation classique se fait sous forme d'une matrice où les nombres sur la diagonale sont liés aux prédictions correctes, tandis que les nombres hors de la diagonale sont liés aux prédictions incorrectes. Plus précisément: 

- le coin inférieur droit représente les **vrais positifs** (TP): les personnes de la classe `>50K` prédites comme telles par le modèle 
- le coin supérieur gauche représente les **vrais négatifs** (TN): les personnes de la classe `<=50K` prédites comme telles par le modèle 
- le coin supérieur droit représente les **faux positifs** (FP): les personnes de la classe `<=50K` prédites comme étant `>50K`
- le coin inférieur gauche représente les **faux négatifs** (FN): les personnes de la classe `>50K` prédites comme étant `<=50K`

**Attention**:
Dans la page wikipedia et dans les slides la matrice est "inversée": les vrais positifs sont en haut à gauche... 

A partir de ces données on peut construire 2 métriques: 
- le **recall** est défini par TP/(TP+FN): il mesure la capacité du classifieur à identifier tous les exemples positifs réels, c'est-à-dire sa sensibilité ou son taux de détection. Dans notre cadre, le recall est le taux d'individus identifiés comme `>50K` par le classifeur parmi tous les individus avec `>50K` dans `y_test`.
- la **precision** est définie par TP/(TP+FP): elle mesure la capacité du classifieur à ne prédire positif que lorsque la prédiction est vraiment correcte, c'est-à-dire sa spécificité.  P. ex.  le classifieur qui prédit systématiquement `>50K` pour tous les individus a un  recall  de 100%, mais sa precision est de 0%. Donc, on veut que les deux scores, le recall et la precision, d'un classifieur soient élevés.

- Tracer la matrice de confusion en utilisant `ConfusionMatrixDisplay` et donner les scores `recall` et `precision`.

### Solution

In [None]:
from sklearn.metrics import ConfusionMatrixDisplay

ConfusionMatrixDisplay.from_estimator(model, x_test, y_test)
plt.grid(False)

In [None]:
from sklearn.metrics import precision_score, recall_score

precision = precision_score(y_test, y_predicted)
recall = recall_score(y_test, y_predicted)

print(f"Precision score: {precision:.3f}")
print(f"Recall score: {recall:.3f}")

### Courbe ROC, AUC

Les valeurs prédites `y_predicted` ci-dessus ont été obtenues en seuillant les probabilités de `>50K` calculées par le modèle de régression logistique avec le seuil par defaut $t=1/2$.  Or, en variant le seuil $t$ il est possible que le classifieur associé ait des meilleurs scores.

La courbe ROC est une courbe paramétrique, paramétrée par $t \in [0,1]$. Elle représente les points (FP, TP) pour tout seuil $t\in[0,1]$. 

Avec le seuil $t=0$, le classifieur prédit `<=50K` systématiquement, donc il n'y a pas de positifs et on a TP = 0 et FP = 0. En revanche, avec un seuil de $t=1$, le classifieur prédit toujours `>50K` et donc on a TP = 1 et FP = 1. Toutes les courbes ROC commencent donc au point $(0,0)$ et se terminent au point $(1, 1)$.

Si la courbe est élevée, le modèle a une très bonne performance quelque soit le seuil. Cela est mesuré par l'aire sous la courbe (AUC). L'AUC permet de comparer deux modèles, ou un modèle sur des jeux de données différentes, comme les données train et test.

- Utiliser la fonction `RocCurveDisplay` pour tracer la courbe ROC de notre modèle pour les données train et les données test. Sur quelles données observe-t-on une meilleure performance ?

### Solution

In [None]:
from sklearn.metrics import RocCurveDisplay

fig, ax = plt.subplots()
RocCurveDisplay.from_estimator(model, x_test, y_test, name="Test", ax=ax)
RocCurveDisplay.from_estimator(model, x_train, y_train, name="Train", ax=ax)
RocCurveDisplay.from_estimator(dummy_classifier, x_test, y_test, linestyle="--", color='grey', ax=ax)
ax.set_xlabel("False positive rate")
ax.set_ylabel("True positive rate")
ax.set_title("Receiver Operating Characteristic curve")
ax.legend()
plt.show()

### Courbe precision/recall, AP

Un autre outil de comparaison est la courbe precision/recall qui représente les points des coordonnées (recall, precision) pour tout seuil $t\in[0,1]$. L'interprétation est la même : plus la courbe est élevée (ou plus l'aire sous la courbe est grande), mieux c'est.

Noter que contrairement à la courbe ROC, la courbe precision/recall n'est pas toujours monotone.

Tracer la courbe precision/recall de notre modèle sur les données test en utilisant la fonction `PrecisionRecallDisplay`.


### Solution

In [None]:
from sklearn.metrics import PrecisionRecallDisplay

fig, ax = plt.subplots()
PrecisionRecallDisplay.from_estimator(model, x_test, y_test, ax=ax)
#PrecisionRecallDisplay.from_estimator(dummy_classifier, x_test, y_test, linestyle="--", ax=ax)
# il n'est pas recommandé de tracer la courbe du dummy_classifier car l'interprétation est douteuse...
ax.set_xlabel("Recall")
ax.set_ylabel("Precision")
ax.set_ylim(0, 1.1)
ax.set_title("Precision-recall curve")
ax.legend()
plt.show()

## Régression logistique avec pénalisations

### Régression ridge

Nous allons utiliser une pénalité en norme 2 (dite $\ell_2$ ou Ridge) sur les coefficients de la régression. Cette pénalité Ridge a tendance à "rétrecir" les valeurs des coefficients (on parle de shrinkage) et régularise la solution. 

- Mettre en oeuvre la régression logistique avec pénalité $\ell_2$ sur les données d'apprentissage. On utilisera toujours la fonction `LogisticRegression`avec  l'option `penalty='l2'`. On utilisera une pénalité assez forte, p. ex. `C=0.01`. 
- Comparer les valeurs des coefficients avec le cas sans pénalité (visualisez l'effet de shrinkage). 
- Évaluer les performances du classifieur sur les données de test.
- Pour les deux classifieurs (avec et sans pénalisation $\ell_2$), comparer les courbes de score sur les données `test` ainsi que les performances en termes de courbes (ROC ou precision-recall) et d'AUC. 

### Solution

In [None]:
C_ridge = 0.01
model_ridge = LogisticRegression(penalty='l2', C=C_ridge, max_iter=1000, solver='liblinear')
model_ridge.fit(x_train, y_train)

In [None]:
def extract_coeff(model, name=None):
    return pd.DataFrame({ 
        "feature": model.feature_names_in_, 
        "value": np.abs(model.coef_.flatten()), 
        "method": name, 
    })

In [None]:
extract_coeff(model, "no penality")

In [None]:
print(f"Nombre de coefficients non nuls avec pénalité Ridge (C={C_ridge}):", np.sum(extract_coeff(model_ridge)["value"] > 0))

In [None]:
df1 = extract_coeff(model, "no penality").sort_values("value", ascending=False)[:20]
df2 = extract_coeff(model_ridge, f"ridge C={C_ridge}")
df2 = df2[df2["feature"].isin(df1["feature"])]

In [None]:
ax = sns.barplot(data=pd.concat([df1, df2]), x="feature", y="value", hue="method")
ax.tick_params(axis='x', rotation=90)

In [None]:
y_predicted_ridge = model_ridge.predict(x_test)

precision_ridge = precision_score(y_test, y_predicted_ridge)
recall_ridge = recall_score(y_test, y_predicted_ridge)

print(f"Precision score: {precision_ridge:.3f}")
print(f"Recall score: {recall_ridge:.3f}")

In [None]:
fig, ax = plt.subplots()
RocCurveDisplay.from_estimator(model, x_test, y_test, name="no penality", ax=ax)
RocCurveDisplay.from_estimator(model_ridge, x_test, y_test, name=f"ridge C={C_ridge}", ax=ax)
ax.set_xlabel("False positive rate")
ax.set_ylabel("True positive rate")
ax.set_title("Receiver Operating Characteristic curve")
ax.legend()
plt.show()

In [None]:
fig, ax = plt.subplots()
PrecisionRecallDisplay.from_estimator(model, x_test, y_test, name="no penality",ax=ax)
PrecisionRecallDisplay.from_estimator(model_ridge, x_test, y_test, name=f"ridge C={C_ridge}",ax=ax)
ax.set_xlabel("Recall")
ax.set_ylabel("Precision")
ax.set_ylim(0, 1.1)
ax.set_title("Precision-recall curve")
ax.legend()
plt.show()

### Régression lasso

Dans cette partie, on va mettre en oeuvre une pénalité $\ell_1$ dans la régression logistique. Cela peut permettre de faire de la sélection de variables : les variables peu informatives pour la prédiction ne seront plus du tout utilisées (coefficient $w_i$ estimé à 0). On peut ainsi construire un estimateur plus parcimonieux. 

- Mettre en oeuvre la régression logistique avec pénalité $\ell_1$ sur les données d'apprentissage (avec l'option le `solver='liblinear'`).
- Comparer les valeurs des coefficients avec le cas sans pénalité et avec pénalité $\ell_2$ (visualiser l'effet d'annulation des coefficients). Tester différentes valeurs de $C$.
- Pour l'ensemble des classifieurs (avec et sans pénalisation $\ell_1$ et $\ell_2$), comparer les performances en termes de courbes (ROC et precision-recall) et d'AUC. 

### Solution

In [None]:
C_lasso = 0.01
model_lasso = LogisticRegression(penalty='l1', C=C_lasso, max_iter=1000, solver='liblinear')
model_lasso.fit(x_train, y_train)

In [None]:
print(f"Nombre de coefficients non nuls avec pénalité Lasso (C={C_lasso}):", np.sum(extract_coeff(model_lasso)["value"] > 0))

In [None]:
df3 = extract_coeff(model_lasso, f"lasso C={C_lasso}")
df3 = df3[df3["feature"].isin(df1["feature"])]

In [None]:
ax = sns.barplot(data=pd.concat([df1, df2, df3]), x="feature", y="value", hue="method")
ax.tick_params(axis='x', rotation=90)

In [None]:
y_predicted_lasso = model_lasso.predict(x_test)

precision_lasso = precision_score(y_test, y_predicted_lasso)
recall_lasso = recall_score(y_test, y_predicted_lasso)

print(f"Precision score: {precision_lasso:.3f}")
print(f"Recall score: {recall_lasso:.3f}")

In [None]:
fig, ax = plt.subplots()
RocCurveDisplay.from_estimator(model, x_test, y_test, name="no penality", ax=ax)
RocCurveDisplay.from_estimator(model_ridge, x_test, y_test, name=f"ridge C={C_ridge}", ax=ax)
RocCurveDisplay.from_estimator(model_lasso, x_test, y_test, name=f"lasso C={C_lasso}", ax=ax)
ax.set_xlabel("False positive rate")
ax.set_ylabel("True positive rate")
ax.set_title("Receiver Operating Characteristic curve")
ax.legend()
plt.show()

In [None]:
from sklearn.metrics import PrecisionRecallDisplay

fig, ax = plt.subplots()
PrecisionRecallDisplay.from_estimator(model, x_test, y_test, name="no penality", ax=ax)
PrecisionRecallDisplay.from_estimator(model_ridge, x_test, y_test, name=f"ridge C={C_ridge}", ax=ax)
PrecisionRecallDisplay.from_estimator(model_lasso, x_test, y_test, name=f"lasso C={C_lasso}", ax=ax)
ax.set_xlabel("Recall")
ax.set_ylabel("Precision")
ax.set_ylim(0, 1.1)
ax.set_title("Precision-recall curve")
ax.legend()
plt.show()

### Chemins de régularisation pour le Lasso

Le but est de visualiser l'effet de la **constante de pénalisation** sur l'évolution des coefficients $w_i$, à travers les **chemins de régularisation**. Lorsque la pénalité est très forte (i.e $C$ très petite), aucune  variable n'est sélectionnée (tous les coefficients $w_i$ sont estimés à 0). Dans ce cas, la fonction de régression logistique est constante (on a seulement l'intercept) et le lien entre $y$ et $X$ est très mal appris. Puis au fur et à mesure que $C$ augmente, on inclue de plus en plus de variables dans notre modèle de régression logistique. Lorsque $C$ est très grande, on ne pénalise plus et on retrouve les résultats de la régression logistique simple. 

- Fixer une grille de valeurs de $C$, estimer le modèle lasso pour chaque constante $C$ et afficher les coefficients en fonction de $C$. 

### Solution

In [None]:
%%time
n_grid = 13
n_coef = model.coef_.shape[1]
C_grid = np.logspace(-4, 1, n_grid)
coefs = np.empty((n_grid, n_coef))
for k, C in enumerate(C_grid): 
    model_ = LogisticRegression(penalty='l1', C=C, max_iter=1000, solver='liblinear')
    model_.fit(x_train, y_train)
    coefs[k] = model_.coef_

In [None]:
fig, ax = plt.subplots(figsize=(8,6), layout="tight")
ax.semilogx(C_grid, coefs)
ax.set_ylim(-3, 3)
ax.set_xlabel("Constante de pénalisation")
ax.set_ylabel("Valeur du coefficient")
fig.suptitle(fr"Evolution des {n_coef} coefficients avec pénalisation $\ell_1$")
plt.show()

## Validation croisée

Le processus de validation croisée consiste à diviser l'ensemble de données disponible en deux parties : un ensemble d'entraînement (training set) et un ensemble de validation (validation set). Le modèle est alors entraîné sur l'ensemble d'entraînement et évalué sur l'ensemble de validation. Cette procédure est répétée plusieurs fois en changeant les partitions d'entraînement et de validation, de sorte que chaque exemple de données soit utilisé à la fois pour l'entraînement et pour la validation.

La validation croisée est utilisée pour évaluer les performances d'un modèle, estimer sa capacité à généraliser et guider les choix d'hyperparamètres afin d'obtenir un bon modèle. Elle aide à éviter le surapprentissage et à évaluer la robustesse du modèle face à de nouvelles données.

### Stabilité des prédictions

- Utiliser la fonction `cross_validate` du module `sklearn.model_selection` pour obtenir un intervale de confiance de l'accuracy score. On fera cette étude sur le modèle de régression logistique simple `model` et celui avec pénalité $\ell_1$ `model_lasso`.

### Solution

In [None]:
%%time
data = pd.concat([quantitative_norm, qualitative_enc], axis=1)
from sklearn.model_selection import cross_validate

cv_results = cross_validate(model, data, labels, cv=8)
cv_results

In [None]:
scores = cv_results["test_score"]
print("The mean cross-validation accuracy is: "
      f"{scores.mean():.3f} ± {scores.std():.3f}")

In [None]:
%%time
data = pd.concat([quantitative_norm, qualitative_enc], axis=1)
from sklearn.model_selection import cross_validate

cv_results = cross_validate(model_lasso, data, labels, cv=8)
cv_results

In [None]:
scores = cv_results["test_score"]
print("The mean cross-validation accuracy is: "
      f"{scores.mean():.3f} ± {scores.std():.3f}")

### Choix de la constante de pénalisation

On peut aussi la validation croisée pour choisir un hyperparamètre. Dans cette partie, nous allons mettre en oeuvre le choix de la constante de pénalisation par **validation croisée**. 
Nous le ferons dans le cadre d'une pénalité $\ell_1$, mais on pourrait faire exactement la même chose avec un autre type de pénalité. 

Par défaut, la fonction `LogisticRegression` ne sait pas choisir la constante de pénalisation automatiquement et par défaut cette constante est fixée à 1. Ce choix n'a pas de justification et n'a donc aucune raison d'être utilisé. 

- Utiliser la fonction `LogisticRegressionCV` pour choisir la constante $C$ qui maximise le score AUC (aire sous la courbe ROC) dans une grille de valeur de $C$ fixée.

### Solution

In [None]:
%%time
from sklearn.linear_model import LogisticRegressionCV

C_grid = np.logspace(-4, 1, 14)
cv = 8

# Modèle de régression logistique avec pénalité l1 
# validation croisée pour le choix automatique de la constante de pénalité C
model_lasso_cv = LogisticRegressionCV(penalty='l1', tol=1e-3, Cs=C_grid, cv=8,
                                      solver='liblinear', scoring='roc_auc') 
model_lasso_cv.fit(x_train, y_train)

# résultats intermédiaires de calculs de ROC-AUC sur chacun des cv-folds
crit = model_lasso_cv.scores_[1]
print(crit)

In [None]:
print("La valeur de C 'optimale' avec pénalité lasso est: ", model_lasso_cv.C_[0])

In [None]:
y_predicted_lasso_cv = model_lasso_cv.predict(x_test)

precision_lasso_cv = precision_score(y_test, y_predicted_lasso_cv)
recall_lasso_cv = recall_score(y_test, y_predicted_lasso_cv)

print(f"Precision score: {precision_lasso_cv:.3f}")
print(f"Recall score: {recall_lasso_cv:.3f}")

## `scikit-learn` et automatisation: `pipeline`

En `scikit-learn`, un _pipeline_ est une séquence ordonnée d'étapes de prétraitement des données et de modélisation regroupées en une seule entité. Il permet de définir et d'automatiser un flux de travail cohérent pour le traitement des données et l'entraînement d'un modèle.

Il se compose en général de plusieurs étapes:
- transformations des données :  normalisation des variables, l'imputation des valeurs manquantes, la réduction de dimension, etc. Elles permettent de préparer les données avant de les fournir au modèle.
- le modèle d'apprentissage automatique.
- la validation croisée : pour évaluer les performances du modèle.

L'avantage d'utiliser un pipeline est qu'il permet de regrouper toutes ces étapes en une seule entité. 

### Création d'un pipeline pour notre régression logistique 

- Définir à partir des classes `OneHotEncoder`, `StandardScaler` de `sklearn.preprocessing` et `ColumnTransformer` de `sklearn.compose` un préprocesseur qui réalise les mêmes transformations que celles faites dans la section 1.1.5 (Pré-traitement des données). Attention, la transformation `OneHotEncoder` doit s'appliquer uniquement aux données qualitatives et la transformation `StandardScaler` doit s'appliquer uniquement aux données quantitatives. 
- Créer un pipeline avec la fonction `make_pipeline` de `sklearn.pipeline` pour définir un modèle de régression logistique avec prétraitement des données automatique (fait par le préprocesseur).

### Solution

In [None]:
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import make_pipeline
from sklearn.linear_model import LogisticRegression

quantitative_preprocessor = StandardScaler()
qualitative_preprocessor = OneHotEncoder(handle_unknown="ignore")

preprocessor = ColumnTransformer([
    ('standard_scaler', quantitative_preprocessor, quantitative.columns),
    ('one-hot-encoder', qualitative_preprocessor, qualitative.columns)
])

model_pipe = make_pipeline(preprocessor, LogisticRegression(penalty=None, max_iter=1000))
model_pipe 

### Utilisation du pipeline 

- Faire une estimation du modèle. Attention, quelles données doivent être utilisées ?
- Faire des prédictions et calculer les différents scores sur le jeu de test.
- Faire une étape de validation croisée. 

### Solution

In [None]:
# on retravaille à partir des données avant prétraitement 
data = pd.concat([quantitative, qualitative], axis=1)

x_train, x_test, y_train, y_test = train_test_split(data, labels,  stratify=labels,
                                                    test_size = 0.2, random_state = 42)

In [None]:
model_pipe.fit(x_train, y_train)

In [None]:
model_pipe.named_steps['logisticregression'].intercept_

In [None]:
model_pipe.named_steps['logisticregression'].coef_

In [None]:
y_predicted = model_pipe.predict(x_test)

accuracy = accuracy_score(y_test, y_predicted)
precision = precision_score(y_test, y_predicted)
recall = recall_score(y_test, y_predicted)

print(f"Accuracy score: {accuracy:.3f}")
print(f"Precision score: {precision:.3f}")
print(f"Recall score: {recall:.3f}")

In [None]:
model_pipe.score(x_test, y_test)

In [None]:
cv_results = cross_validate(model_pipe, data, labels, cv=5)
cv_results

In [None]:
scores = cv_results["test_score"]
print("The mean cross-validation accuracy is: "
      f"{scores.mean():.3f} ± {scores.std():.3f}")

### Avec une autre méthode de classification: Gradient Boosting

L'avantage d'utiliser un module riche comme `scikit-learn` est qu'on peut facilement changer une brique pour tester d'autres modèles. Ici on propose de remplacer la brique `LogisticRegression` par une méthode basée sur les arbres de décisions. Les arbres de décisions et les méthodes de "boosting" seront expliquées dans le second cours mais voyons les résultats que l'on peut obtenir. 

- Utiliser le préprocesseur `OneHotEncoder` avec l'option `sparse_output` à `False` et la classe `HistGradientBoostingClassifier` du module `sklearn.ensemble` pour composer un pipeline que l'on nomme `model_gradboost`.

- Comparer les courbes ROC et Precision/Recall obtenues avec cet estimateur et la régression logistique. 

### Solution

In [None]:
from sklearn.ensemble import HistGradientBoostingClassifier

quantitative_preprocessor = StandardScaler()
qualitative_preprocessor = OneHotEncoder(handle_unknown="ignore", 
                                         sparse_output=False)

preprocessor = ColumnTransformer([
    ('standard_scaler', quantitative_preprocessor, quantitative.columns),
    ('ordinal-encoder', qualitative_preprocessor, qualitative.columns)],
)

model_gradboost = make_pipeline(preprocessor, HistGradientBoostingClassifier())
model_gradboost.fit(x_train, y_train)

**Remarque:** dans la [documentation officielle](https://scikit-learn.org/stable/auto_examples/ensemble/plot_gradient_boosting_categorical.html#sphx-glr-auto-examples-ensemble-plot-gradient-boosting-categorical-py) il est conseillé d'utiliser un autre préprocesseur pour les données qualitatives. Il s'agit de l'encodage `OrdinalEncoder`. Par cohérence avec la régression logistique on garde le `OneHotEncoder`.

In [None]:
fig, ax = plt.subplots()
RocCurveDisplay.from_estimator(model_pipe, x_test, y_test, 
                               name="Logistic Regression", ax=ax)
RocCurveDisplay.from_estimator(model_gradboost, x_test, y_test, 
                               name="Gradient Boosting", ax=ax)
ax.set_xlabel("False positive rate")
ax.set_ylabel("True positive rate")
ax.set_title("Receiver Operating Characteristic curve on Test set")
ax.legend()
plt.show()

In [None]:
fig, ax = plt.subplots()
PrecisionRecallDisplay.from_estimator(model_pipe, x_test, y_test, 
                                      name="Logistic Regression", ax=ax)
PrecisionRecallDisplay.from_estimator(model_gradboost, x_test, y_test, 
                                      name="Gradient Boosting", ax=ax)
ax.set_xlabel("Recall")
ax.set_ylabel("Precision")
ax.set_ylim(0, 1.1)
ax.set_title("Precision-recall curve on Test set")
ax.legend()
plt.show()