# ML avec Scikit-learn
Scikit-learn est une bibliothèque d'apprentissage assez facile pour ceux qui travaillent en python.
L'organisation de son API a servi d'inspiration pour plusieurs bibliothèques de deep learning comme par exemple `tf.keras`, qu'on utilisera plus tard.

Ce notebook reprend des conceptes fondamentaux pour l'utilisation de `sklearn`. Il se base sur le guide "Getting started" disponible sur https://scikit-learn.org/stable/getting_started.html

Vous pouvez toujours vous référer à leur documentation claire et extensive:
- [Tutoriels](https://scikit-learn.org/stable/tutorial/index.html)
- [Examples](https://scikit-learn.org/stable/auto_examples/index.html)
- [User guide](https://scikit-learn.org/stable/user_guide.html)
- [Documentation de l'API](https://scikit-learn.org/stable/modules/classes.html)
- [Glossary](https://scikit-learn.org/stable/glossary.html)

In [None]:
import numpy as np
from matplotlib import pyplot as plt
import pandas as pd

SEED = 211

rng = np.random.RandomState(SEED)

## Estimator

Scikit-learn fournit plusieurs modèles de machine learning implementés selon une interface comune: des [estimators](https://scikit-learn.org/stable/glossary.html#term-estimators).

### Fit
Un estimator peut etre entrainée avec la méthode `fit`. Voici un exemple avec un estimator du type `LogisticRegression`.

In [None]:
from sklearn.linear_model import LogisticRegression

# modèle: estimator
estimator = LogisticRegression(random_state=rng)

# données X et y
X = [[-1, 2, 3], [11, 12, 13]]  # 2 samples, 3 features
y = [0, 1]  # classes of each sample

# fit estimator
estimator.fit(X, y)

Voir doc: 
- [`linear_model`](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.linear_model)
- [`LogisticRegression`](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html#sklearn.linear_model.LogisticRegression)

### Predict
On peut utiliser le modèle entrainé pour faire des predictions sur les données avec la méthode `predict`.

In [None]:
estimator.predict(X)  # predict classes of the training data

In [None]:
estimator.predict([[4, 5, 6], [14, 15, 16]])  # predict classes of new data

### Score
La plupart des estimators possède une méthode `score` qui calcule la performance du modèle sur des données fournis. La metrique d'évaluation dépend de la nature de l'estimator. Dans la plupart des cas:
- Classifiers: accuracy : $1-\frac{\text{nbr. of wrong predictions}}{\text{total nbr. of samples}} $(voir [doc](https://scikit-learn.org/stable/modules/generated/sklearn.base.ClassifierMixin.html#sklearn.base.ClassifierMixin))
- Regressors: R² coefficient : $1 - \frac{\text{sum of squared errors}}{\text{sum of mean-centered squares}}$ (voir [doc](https://scikit-learn.org/stable/modules/generated/sklearn.base.RegressorMixin.html#sklearn.base.RegressorMixin))

In [None]:
estimator.score(X, y)

## Métriques d'évaluation

- Voir doc: [`metrics`](https://scikit-learn.org/stable/modules/classes.html#sklearn-metrics-metrics)

In [None]:
from sklearn.datasets import make_classification

# génération de données aleatoires
X, y = make_classification(random_state=rng)

In [None]:
from sklearn.linear_model import LogisticRegression

estimator = LogisticRegression(random_state=rng)

estimator.fit(X, y)

In [None]:
from sklearn.metrics import accuracy_score

y_pred = estimator.predict(X)
accuracy_score(y, y_pred)

In [None]:
from sklearn.metrics import classification_report

print(classification_report(y, y_pred))

## Transformers et  pre-processors

Scikit-learn fournit aussi differentes mèthodes pour appliquer des pré-traitements et transformations sur les données: des [`transformers`](https://scikit-learn.org/stable/glossary.html#term-transformer)

Ils sont des estimators (héritent aussi de [`BaseEstimator`](https://scikit-learn.org/stable/modules/generated/sklearn.base.BaseEstimator.html)) mais ne possedent pas de méthode `predict`.
Apres un `fit`, on appele la mèthode `transform` pour appliquer la transformation sur les donnèes.

In [None]:
from sklearn.preprocessing import StandardScaler

X = [[0, 15], [1, -10]]
# scale data according to computed scaling values
scaler = StandardScaler().fit(X)
scaler.transform(X)

On peut aussi executer les deux étapes en un seul appel à `fit_transform`.

In [None]:
from sklearn.preprocessing import StandardScaler

X = [[0, 15], [1, -10]]
# scale data according to computed scaling values
StandardScaler().fit_transform(X)

### Exemple : scaling des attributs

Un pre-traitement très courant est celui de remetre les attributs sur une échelle commune. Les exemples précédents ont appliqué une normalisation standard: moyenne=0 et stdev=1.

Une autre possibilité: remmetre les valeurs entre 0 et 1 à l'aide du `MinMaxScaler`.

In [None]:
from sklearn.preprocessing import MinMaxScaler

X = [[0, 15], [1, -10]]
# scale data according to computed scaling values
MinMaxScaler().fit_transform(X)

Voir doc [`preprocessing`](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.preprocessing) pour d'autres pré-traitements.

### Exemple : reduction de dimensionalité
On peut utiliser certains estimateurs pour reduire à deux dimensions des données, afin de les visualiser sur un plan. 
Par exemple, on peut s'utiliser de la décomposition ACP: [`PCA`](https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html#sklearn.decomposition.PCA).

In [None]:
# génération de données aleatoires
X, y = make_classification(random_state=rng)

In [None]:
X.shape, y.shape

In [None]:
plt.scatter(np.arange(len(y)), y, c=y)
plt.title("Étiquettes y pour les échantillons")

In [None]:
from sklearn.decomposition import PCA

transformer = PCA(n_components=2, random_state=rng)

X_2d = transformer.fit_transform(X)

In [None]:
plt.scatter(X_2d[:, 0], X_2d[:, 1], c=y)
plt.xlabel("ACP 1")
plt.ylabel("ACP 2")

## Séparation en train et test

In [None]:
# génération de données aleatoires
X, y = make_classification(random_state=rng)
X.shape, y.shape

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

In [None]:
X_train.shape, y_train.shape

In [None]:
X_test.shape, y_test.shape

## Exemple: dataset Iris

Vous pouvez explorer ce dataset sur cet autre notebook: https://scikit-learn.org/stable/_downloads/26998096b90db15754e891c733ae032c/plot_iris_dataset.ipynb

Autres datasets d'exemple sont disponibles dans le module [`datasets`](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.datasets).

In [None]:
from sklearn.datasets import load_iris

dataset = load_iris()
print(dataset.DESCR)

In [None]:
dataset.target_names

In [None]:
dataset.feature_names

### Création de X et y

In [None]:
X = dataset.data
y = dataset.target

### Séparation en train et test

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=rng)

### Scaling des attributs

In [None]:
scaler = StandardScaler().fit(X_train)
X_train_s = scaler.transform(X_train)

### Entrainement de l'estimateur

In [None]:
estimator = LogisticRegression(random_state=rng)

estimator.fit(X_train_s, y_train)

### Prédictions et évaluation

In [None]:
estimator.predict(X_train_s)

In [None]:
estimator.score(X_train_s, y_train)

Le plus important est de evaluer sur le test set.

In [None]:
y_pred = estimator.predict(scaler.transform(X_test))
y_pred

In [None]:
estimator.score(scaler.transform(X_test), y_test)

In [None]:
print(classification_report(y_test, y_pred))

## Enchainement d'étapes avec pipeline

Voir doc: [`pipeline`](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.pipeline)

In [None]:
from sklearn.pipeline import make_pipeline

# create a pipeline object
pipe = make_pipeline(StandardScaler(), LogisticRegression())

In [None]:
# load the iris dataset and split it into train and test sets
X, y = load_iris(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

In [None]:
# fit the whole pipeline
pipe.fit(X_train, y_train)

In [None]:
# we can now use it like any other estimator
accuracy_score(y_test, pipe.predict(X_test))

In [None]:
print(classification_report(y_test, pipe.predict(X_test)))

## Cross-validation
Voir doc: [`cross_validate`](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_validate.html#sklearn.model_selection.cross_validate)

In [None]:
from sklearn.model_selection import cross_validate

cv_results = cross_validate(
    pipe, X_train, y_train, cv=5, return_train_score=True, return_estimator=True
)
cv_results

In [None]:
df = pd.DataFrame(cv_results)
df

In [None]:
df.plot.bar(y=["train_score", "test_score"])

In [None]:
df.plot.box(y=["train_score", "test_score"])

## Recherche d'hyperparamètres
Voir doc: [`RandomizedSearchCV`](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.RandomizedSearchCV.html#sklearn.model_selection.RandomizedSearchCV)


In [None]:
pipe.get_params()

In [None]:
from scipy.stats import uniform

param_distributions = {
    'logisticregression__C': uniform(0.1, 10),
}

In [None]:
from sklearn.model_selection import RandomizedSearchCV


hpsearch = RandomizedSearchCV(
    estimator=pipe,
    cv=5,
    n_iter=5,
    param_distributions=param_distributions,
)

In [None]:
hpsearch.fit(X, y)

In [None]:
df = pd.DataFrame(hpsearch.cv_results_)
df