# Travaux pratiques - Évaluation de modèles géospatiaux (1h30)

**L’objectif** de cette deuxième séance de travaux pratiques est de vous faire manipuler des données réelles pour une tâche de classification de couverture des sols à partir d'images aériennes ou satellitaires.

Références externes utiles :
- [Documentation NumPy](https://docs.scipy.org/doc/numpy/user/index.html)  
- [Documentation SciPy](https://docs.scipy.org/doc/scipy/reference/)  
- [Documentation MatPlotLib](http://matplotlib.org/)  
- [Documentation de scikit-learn](http://scikit-learn.org/stable/index.html)  

In [None]:
import matplotlib.pyplot as plt
import numpy as np
import sklearn

## Partie 2 : Évaluation des modèles et corrélations spatiales

### 2.1. Exploration du jeu de données (10 minutes)

Pour commencer, nous allons considérer le jeu de données *Pavia University*. Il s'agit d'une image hyperspectrale annotée de $610\times340$ pixels, comprenant 103 bandes spectrales. L'acquisitition a été réalisée à l'aide du spectromètre ROSIS-3, et couvre une partie de l'université de Pavie en Italie. Le jeu de données total comporte ainsi 42776 pixels annotés dans 9 classes différentes : *asphalt*, *meadows*, *gravel*, *trees*, *metal sheet*, *bare soil*, *bitumen*, *brick*, et *shadow*.

In [None]:
from scipy.io import loadmat
from urllib.request import urlretrieve
urlretrieve("https://www.ehu.eus/ccwintco/uploads/e/ee/PaviaU.mat", "PaviaU.mat")
urlretrieve("https://www.ehu.eus/ccwintco/uploads/5/50/PaviaU_gt.mat", "PaviaU_gt.mat")

In [None]:
pavia_image = loadmat("PaviaU.mat")["paviaU"]
pavia_gt = loadmat("PaviaU_gt.mat")["paviaU_gt"]

In [None]:
rgb_bands = (55,41,12)
pavia_rgb = pavia_image[:,:,rgb_bands]

fig = plt.figure(figsize=(12, 12))
fig.add_subplot(1,2,1)
plt.imshow((pavia_rgb - pavia_rgb.min()) / pavia_rgb.max())
plt.title("Image pseudo-RGB")
fig.add_subplot(1,2,2)
plt.imshow(pavia_gt, cmap="Pastel1")
plt.title("Vérité terrain")
plt.show()

#### Question 2.1.1

À l'aide de Matplotlib, tracez le spectre de quelques pixels (choisissez des pixels se trouvant dans des classes différentes).

Nous pouvons maintenant mettre en forme le jeu de données pour son traitement avec scikit-learn. L'opération dans notre cas consiste à formater les pixels (de train puis de test) sous forme d'une liste de vecteurs (chaque vecteur correspondant aux réflectances de 103 bandes spectrales). C'est donc un simple redimensionnement avec numpy. Attention toutefois, une subtilité de ce jeu de données est que la classe 0 correspond en réalité aux pixels *non annotés* : il faut donc les retirer (on ne souhaite ni s'entraîner dessus, ni s'évaluer dessus).

In [None]:
# Le jeu de données contient seulement les pixels pour lesquels la vérité terrain est non-nulle 
X = pavia_image[pavia_gt != 0].reshape(-1, 103)
y = pavia_gt[pavia_gt != 0].reshape(-1)

nonzero_coordinates = np.nonzero(pavia_gt)
coordinates = np.array(list(zip(*nonzero_coordinates)))

Pour commencer, tirons aléatoirement 10% des pixels dans l'image pour constituer un jeu d'apprentissage. Le reste des pixels constituera le jeu de test.

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, X_coords_train, X_coords_test, y_train, y_test = train_test_split(X, coordinates, y, train_size=0.1)

#### Question 2.1.2

Que représente la matrice `coordinates` ?

### 2.2. Autocorrélation spatiale (15 minutes)

**Question 2.2.1**

Appliquer une classification par k-plus proches voisins avec $k=5$ en utilisant comme *features* d'entrée le spectre représenté par chaque pixel. La documentation du module *[Neighbors](https://scikit-learn.org/stable/modules/neighbors.html)* de scikit-learn peut être utile.

**Question 2.2.2**

Appliquer une classification par k-plus proche voisin avec $k=5$ en utilisant comme *features* d'entrée les **coordonnées** des pixels (et pas les valeurs de réflectance).

**Question 2.2.3**

Que peut-on en déduire sur les corrélations spatiales dans le jeu de données ? Comment faut-il diviser le jeu de données en train/test pour que l'évaluation ne soit pas biaisée ?

#### 2.3. Validation croisée (30 minutes)

Pour que notre évaluation soit plus rigoureuse, nous allons donc séparer le jeu de données, de façon plus ou moins arbitraire, en créant une grille rectangulaire de 10 cases. Chaque bloc de la grille sera soit en train, soit en test :

In [None]:
groups_2d = np.zeros_like(pavia_gt)
h, w = groups_2d.shape
idx = 0
for i in range(0, h, h // 5):
    for j in range(0, w, int(w / 2)):
        groups_2d[i:i+h//5, j:j+int(w / 2)] = idx
        idx += 1

groups = groups_2d[pavia_gt != 0]

fig = plt.figure(figsize=(15, 9))
plt.imshow((pavia_rgb - pavia_rgb.min()) / pavia_rgb.max())
plt.imshow(groups_2d, cmap="tab10", alpha=0.5)
plt.title("Groupes")
plt.show()

**Question 2.3.1**

Quelle est la stratégie de validation croisée la plus adaptée ? Vous pouvez consulter la liste des stratégies implémentées par [sklearn](https://scikit-learn.org/stable/api/sklearn.model_selection.html) pour vous aider.

**Question 2.3.2**

Divisez le jeu de données en deux (apprentissage et test) à l'aide de l'algorithme de validation croisé que vous avez choisi. Vous pouvez utiliser la documentation de [scikit-learn](https://scikit-learn.org/stable/modules/cross_validation.html#cross-validation-iterators-for-grouped-data) pour vous aider.

Appliquez ensuite le classifieur de votre choix de scikit-learn en l'entraînant sur le jeu de données d'apprentissage, puis évaluez le jeu de données de validation. N'oubliez pas de faire attention à la métrique à utiliser (le jeu de données est-il équilibré ? y a-t-il des classes plus difficiles à prédire que d'autres ?).

Répétez cette opération pour toutes les *folds* de la validation croisée. Qu'observez-vous ?

**Question 2.3.3**

Tracez la courbe du score moyen du modèle estimé par la validation croisée avec $k$ partitions en augmentant $k$, par exemple de 1 à 10. Représentez également l'écart-type de ce score. Que constatez-vous ?

**Note**: si les temps de calcul sont trop longs choisissez un modèle plus simple. Vous pouvez aussi utiliser la fonction `cross_val_score()` de scikit-learn en spécifiant `n_jobs>1` pour paralléliser les calculs sur plusieurs cœurs.

### 2.4. Recherche d'hyperparamètres (15 minutes)

La SVM linéaire a pour principal hyperparamètre le facteur de régularisation $C$. Pour rappel, $C$ contrôle le compromis entre la largeur de la marge et le nombre d'erreurs de classification commises par le modèle.

Pour déterminer la valeur de cet hyperparamètre, nous allons effectuer une recherche d'hyperparamètres par grille (*GridSearch*). scikit-learn implémente un algorithme de recherche systématique qui gère automatiquement la validation croisée : [GridSearchCV](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html).

Pour commencer, nous allons définir la liste des valeurs que nous voulons tester pour $C$. Par exemple, nous pouvons choisir 5 valeurs différentes, de $10^{-3}$ à 10.

In [None]:
grid = {'C': [10e-3, 10e-2, 0.1, 1.0, 10]}

Nous pouvons maintenant définir la recherche par grille. Attention, on ne peut pas se contenter de la validation croisée par défaut de scikit-learn (qui effectue un $k$-fold). On va explicitement spécifiquer qu'il faut utiliser la validation croisée groupée définie plus haut, à l'aide du paramètre `cv=` :

In [None]:
from sklearn.model_selection import GridSearchCV
from sklearn.svm import LinearSVC

gkf = GroupKFold(n_splits=5)
grid_search = GridSearchCV(LinearSVC(), grid, cv=gkf.split(X, y, groups=groups), n_jobs=-1)

**Question 2.4.1**

Combien de modèles vont être entraînés lors de cette recherche par grille ?

**Question 2.4.2**

Appliquer cette *GridSearch* sur le jeu de données. Quelle est la valeur optimale de $C$ ?

### 2.5. Évaluation d'un modèle non-supervisé : K-Means

Dans ce cas, le jeu de données est annoté, c'est-à-dire que l'on dispose d'étiquettes de classe pour chaque observation. Cela nous permet d'entraîner des modèles *supervisés*. Toutefois, ce n'est pas toujours le cas. Si nous n'avions pas d'étiquettes, une option consiste à réaliser une classification automatique à l'aide d'une méthode de *clustering*, par exemple $k$-*means*. Dans ce cas, il n'y a pas forcément d'intérêt à séparer le jeu de données en apprentissage et validation, car nous n'avons pas de données annotées sur lesquelles calculer une vérité terrain.

Avec scikit-learn, il est possible d'utiliser l'objet [KMeans](https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html) pour utiliser cet algorithme :

In [None]:
from sklearn.cluster import KMeans

X = pavia_image.reshape(-1, 103)

kmeans = KMeans(n_clusters=10)
labels = kmeans.fit_predict(X)

**Question 2.5.1**

À l'aide de matplotlib, affichez la carte de l'université de Pavie colorisé selon les clusters déterminés par K-Means. Comparez visuellement à la vérité terrain pour différentes valeurs de $k$. Qu'en pensez-vous ?

**Question 2.5.2**

Pour rappel, l'objectif de K-means est de miniser la variance intra-classe, aussi appelée *inertie*. Affichez l'inertie finale du partitionnement que vous avez obtenu ci-dessus (attribut `.inertia_` de l'objet K-Means, cf. [documentation de K-Means](https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html#sklearn.cluster.KMeans)).

Tracez ensuite la courbe montrant l'évolution de l'inertie finale lorsque l'on fait varier $k$, par exemple pour $k$ allant de 2 clusters à 20 clusters. Que constatez-vous ? Comment peut-on utiliser l'inertie pour choisir le bon nombre de clusters à conserver ?

**Question 2.5.3**

K-means est une méthode non-supervisée. Cependant, comme nous avons accès ici à une vérité terrain de classification, nous allons pouvoir comparer quantitativement le clustering aux classes manuellement étiquetées.

À l'aide de la [documentation de scikit-learn](https://scikit-learn.org/stable/modules/clustering.html#clustering-performance-evaluation), calculez l'**information mutuelle normalisée** entre le clustering obtenu avec K-Means et la vérité terrain. Tracez la courbe montrant l'évolution de l'information mutuelle en fonction de $k$.

Comparez cette courbe à celle de l'inertie obtenue plus haut. Que constatez-vous ?