# Utilisation des CNNs avec Keras sur des données d'expression faciale

## Vérification de l'utilisation de GPU

Allez dans le menu `Exécution > Modifier le type d'execution` et vérifiez que l'on est bien en Python 3 et que l'accélérateur matériel est configuré sur « GPU ».

In [None]:
!nvidia-smi

## Téléchargement du dataset d'expressions faciales depuis un repo git

In [None]:
!git clone https://github.com/muxspace/facial_expressions.git
!ls 
!head facial_expressions/data/legend.csv

## Import de TensorFlow et des autres librairies nécessaires

In [None]:
import itertools
import pathlib
import typing

import cv2
import IPython
import matplotlib.pyplot as plt
import numpy
import pandas
import seaborn
import sklearn.metrics
import sklearn.model_selection
import sklearn.utils
import tensorflow.keras as keras

## Chargement des données

*Après une rapide étude du dataset à l'aide de commandes usuelles du terminal, implémentez les fonctions de chargement du dataset. Vous pourrez utiliser [`pandas.read_csv`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html) pour charger un CSV dans une [`pandas.DataFrame`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html).*

In [None]:
# Votre code ici
def load_data(csv_path: pathlib.Path, shuffle: bool = True
             ) -> typing.Tuple[numpy.ndarray, numpy.ndarray]:
  return numpy.array([]), numpy.array([])


images, labels = load_data(
    pathlib.Path("facial_expressions") / "data" / "legend.csv")

### Solution

In [None]:
images, labels = load_data(
    pathlib.Path("facial_expressions") / "data" / "legend.csv")

## Exploration du dataset

*Affichez les caractéristiques du dataset suivantes :*

- *La taille des données*
- *Le nombre d'exemple dans chaque classe*
- *Quelques exemples annotés*

In [None]:
# Votre code ici

### Solution

## Séparation train/test

Pour pouvoir évaluer notre modèle, il faut mettre de côté une partie des données. On ne les utilisera pas pendant l'apprentissage.

In [None]:
# Séparation en train et test (la séparation en train/valid est faite
# automatiquement dans model.fit())
# On fera une séparation 80/20 en respectant les proportions des classes
train_images, test_images, train_labels, test_labels = (
    sklearn.model_selection.train_test_split(images,
                                             labels,
                                             test_size=0.2,
                                             stratify=labels))

## Apprentisage

- *Définissez un modèle*
- *Entraînez votre modèle avec `model.fit(…)`*
- *Affichez vos courbes d'apprentissage*

In [None]:
# Votre code ici
model = keras.models.Sequential()

### Solution

## Évaluation des performances en test

*Utilisez `model.evaluate(…)` pour mesurer les performances de votre modèle sur l'ensemble de test.*

In [None]:
# Votre code ici

### Solution

## Calcul et affichage de la matrice de confusion

*Utilisez [`sklearn.metrics.confusion_matrix`](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.confusion_matrix.html) pour calculer la matrice de confusion de votre modèle sur les données de test, puis utilisez [`seaborn.heatmap`](https://seaborn.pydata.org/generated/seaborn.heatmap.html) pour l'afficher.*

In [None]:
# Votre code ici

### Solution

## Avec des pondération pour les classes

Il est possible de donner un argument `class_weight` à `model.fit`. Cet argument correspond à un facteur multiplicatif dans la loss à appliquer au score de chaque classe.

*Utilisez [`sklearn.utils.class_weight.compute_class_weight`](https://scikit-learn.org/stable/modules/generated/sklearn.utils.class_weight.compute_class_weight.html) pour calculer les poids à attribuer à chaque classe.*

In [None]:
class_weights = sklearn.utils.class_weight.compute_class_weight(
    "balanced", numpy.unique(train_labels), train_labels)
print(class_weights)

## Clipping des pondérations

Dans un premier temps, il peut être intéressant de vérifier que les poids de classe améliorent les performances du modèle pour les classes sous-représentées sans utiliser toutefois des pondérations trop fortes.

*Utilisez [`numpy.clip`](https://numpy.org/doc/stable/reference/generated/numpy.clip.html) pour restreindre les valeurs des pondérations à $[0, 5]$.*

In [None]:
# Votre code ici

### Solution

## Utilisation des pondérations

*Re-contruisez votre modèle et entraînez le avec les pondérations calculées, puis évaluez-le.*

In [None]:
# Votre code ici

### Solution

In [None]:
evaluate(model, test_images, test_labels)