# Introduction à `scikit-learn`

Dans cette séance, vous allez découvrir le module `scikit-learn` et le manipuler pour réaliser plusieurs tâches d'apprentissage automatique.

## 1. Chargement et préparation des données

Pour ce TP, vous allez travailler avec le jeu de données Iris. 

**Question 1.1.** Utilisez la documentation de `scikit-learn` pour découvrir comment charger ce jeu de données en mémoire dans des `numpy.array` nommés `X` (pour les variables explicatives) et `y` (pour la variable cible).

**Question 1.2.** Combien d'individus composent ce jeu de données ? Combien de variables explicatives a-t-on ? Et de quel type de problème (régression, classification, ...) s'agit-il ?

**Question 1.3.** Est-il nécessaire de pré-traiter les données ? Si oui, faites-le en vous assurant que chaque atttribut soit de moyenne nulle et de variance unitaire. Vérifiez l'effet du prétraitement.

**Question 1.4.** Visualisez vos données dans le premier plan de l'ACP. Vous utiliserez la classe [`PCA`](https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html) pour calculer les coordonnées de vos individus dans le premier plan de l'ACP.

**Question 1.5.** Y a-t-il une classe qui semble facilement séparable des deux autres ? Si oui, laquelle ?

_VOTRE RÉPONSE ICI_

## 2. Classification non supervisée (_Clustering_)

Dans cette partie, vous allez de nouveau travailler sur le jeu de données en dimension 4 standardisé.

**Question 2.1.** Appliquez un _clustering_ $k$-means pour isoler 4 sous-groupes de données dans ce jeu de données.

Les objets de type `KMeans`, une fois fittés, disposent d'un attribut `labels_` qui donne les affectations des individus d’entraînement aux clusters.

**Question 2.2.** Visualisez les clusters obtenus (vous pourrez utiliser les données représentées dans le premier plan de l'ACP pour cela).

**Question 2.3.** Répétez l'opération avec un autre algorithme de _clustering_ de votre choix.

## 3. Classification supervisée

Vous allez maintenant entraîner des modèles de classification supervisée sur ces données Iris.

**Question 3.1.** Que devez-vous faire pour être capables d'évaluer de manière fiable les performances des modèles ?

_VOTRE RÉPONSE ICI_

**Question 3.2.** Consultez la documentation du sous-module [`model_selection`](https://scikit-learn.org/stable/api/sklearn.model_selection.html) et trouvez comment diviser votre jeu de données en données d'apprentissage d'une part et de test d'autre part.

**Question 3.3.** Évaluez la performance d'un modèle de [SVM](https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html) à noyau Gaussien sur cette tâche.

**Question 3.4.** Faites de même avec un modèle de forêt aléatoire.

## 4. La notion de _pipeline_

Dans la partie précédente, vous avez peut-être commis une faute **impardonnable** : si vous avez travaillé avec les données mises à l'échelle, vous avez (peut-être sans vous en rendre compte) utilisé de l'information issue du jeu de test lors de l'apprentissage. En effet, les paramètres de mise à l'échelle des données ont été calculés (en début de séance) sur le jeu de données complet (et donc notamment des données qui se sont ensuite retrouvées dans le jeu de test).

Pour éviter ce genre de mésaventures, `scikit-learn` permet de créer des _pipelines_, c'est-à-dire des enchaînements de traitements (par exemple pré-traitement suivi de classification supervisée) encapsulés dans un seul objet.

**Question 4.1.** Créez un _pipeline_ pour évaluer de manière plus fiable la performance d'une forêt aléatoire sur la tâche ci-dessus.

## 5. La sélection de modèle

Une étape important en apprentissage automatique est la sélection de modèle, et notamment le choix d'hyper-paramètres performants pour une méthode donnée.

Cela se fait à l'aide de la classe [`GridSearchCV`](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html).

**Question 5.1.** Pour le modèle SVM utilisé plus haut, évaluez s'il est préférable d'utiliser un noyau linéaire ou Gaussien et quelle valeur il faut fixer pour l'hyper-paramètre $C$.

## 6. La parallélisation

Dans cette partie, vous allez paralléliser certains des traitements effectués plus haut. Si vous souhaitez paralléliser des traitements à l'aide du backend `dask`, il vous faudra exécuter la commande suivante dans un terminal :

```
pip install "dask[distributed]"
```

puis explicitement créer un objet de type `Client` dask :

```python
from dask.distributed import Client

client = Client(processes=False)
```

**Question 6.1.** D'après [la documentation (User Guide)](https://scikit-learn.org/stable/modules/clustering.html#k-means), quel moyen a-t-on pour paralléliser l'algorithme des $k$-means en `scikit-learn` ? Mettez en oeuvre une parallélisation sur 4 coeurs de ce que vous aviez fait à la question 2.1.

**Question 6.2.** Même question pour l'algorithme DBSCAN que vous avez peut-être utilisé à la question 2.3.

**Question 6.3.** Parallélisez sur 4 coeurs une recherche d'hyper-paramètre pour une classification aux [$k$-plus proches voisins](https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html).

## Exercice de synthèse

**Question.** En utilisant les données disponibles à l'adresse <https://www.kaggle.com/competitions/titanic>, comparez plusieurs modèles et concluez quant à leurs performances relatives. Vous implémenterez notamment une classe `CustomMLPClassifier` en vous basant sur le code ci-dessous pour inclure un réseau de neurones de type Perceptron Multi-Couches dans votre comparaison.

In [None]:
from keras.layers import Dense
from keras.models import Sequential
from sklearn.base import BaseEstimator

class CustomMLPClassifier(BaseEstimator):
    # À vous de modifier le __init__ pour permettre de fixer les 
    # hyper-paramètres qui vous semblent les plus importants
    def __init__(self):
        pass
    
    def fit(self, X_train, y_train):
        list_layers = []
        # À vous de jouer ici
        # ...
        self.model_ = Sequential(list_layers)

        self.model_.compile(loss="binary_crossentropy", optimizer="adam")
        self.model_.fit(X_train, y_train, epochs=10, verbose=0)
    
    def predict(self, X_test):
        return (self.model_(X_test).numpy() > 0.5).astype(int)

