<span style="font-size:8pt">*ÉTS Montréal, GPA671 : Introduction à l’intelligence artificielle. Date : le 08/08/21. Auteur : Jérôme Rony. Version : 1.1*</span>

# Laboratoire 1 : Caractéristiques de performance et Réseaux de Neurones

## Exercice 1 : Courbe ROC

### Rappels de cours 

Dans une courbe ROC, l'axe des ordonnées correspond au rappel (ou *recall*) et l'axe des abscisses correspond au taux de faux positifs (*False Positive Rate* ou *FPR*). Chaque point de la courbe correspond aux valeurs de rappel et FPR pour un seuil différent. Pour tracer une courbe correcte, il faut donc prendre un grand nombre de seuils, ou, idéalement, prendre tous les seuils possibles.

<img src="images/roc.png"  height="150" width="200">

On définit les *True Positive* (*TP*), *False Positive* (*FP*), *True Negative* (*TN*) et *False Negative* (*FN*) comme suit:

<img src="images/confusion_matrix.png"  height="150" width="200">

Le rappel a pour formule:
\begin{equation*}
Recall = \frac{TP}{TP + FN}
\end{equation*}

Le taux de faux positifs a pour formule:
\begin{equation*}
FPR = \frac{FP}{FP +TN}
\end{equation*}

### Questions

Dans cet exercice, on cherche à caractériser les performances de différents détecteurs à l'aide d'une courbe ROC (puis PR dans l'exercice 2). On fournit les fichiers qui correspondent aux détections faites par ces détecteurs. Les fichiers ont pour format `probabilité étiquette` où probabilité est la probabilité prédite par le détecteur que l'étiquette soit 1. Un détecteur parfait produirait donc des probabilités égales aux étiquettes.

1. Lire tous les fichiers présents dans le dossier `detection_files`. Il est conseillé d'utiliser le paquet `glob` de la bibliothèque standard de Python pour trouver les fichiers, plutôt que d'écrire leurs noms explicitement dans le code.
2. Pour chaque seuil parmi $\{0.1, 0.5, 0.7\}$ compter le nombre de TP, FP, TN et FN. Enfin, calculer le Rappel et le FPR correspondant.
3. Calculer les valeurs de rappel et FPR pour tous les seuils possibles pour chaque détecteur. Stocker les valeurs obtenues dans un dictionnaire.
4. Pour chaque détecteur, calculer la valeur de l'aire sous la courbe (*Area Under Curve* ou *AUC*). Commenter la méthode utilisée pour calculer l'aire et l'impact du choix de cette méthode sur l'indicateur de performance obtenu.
5. Dans un même graphique, tracer les courbes ROC correspondant à chaque détecteur. Chaque courbe doit avoir une couleur différente. Indiquer aussi la valeur de l'AUC dans la légende.
5. Expliquer pourquoi le taux FPR n'est pas très indicatif dans ce cas de classification.

> Afin de vérifier vos résultats, vous pouvez utiliser sklearn metrics ([ROC Curve](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_curve.html) et [ROC AUC](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_auc_score.html)) mais vous ne pouvez pas l'utiliser pour faire l'exercice.

## Exercice 2 : Courbe PR

### Rappels de cours

Comme son nom l'indique, la courbe Précision-Rappel a pour axe des abscisses le rappel et pour axe des ordonnées la précision :

<img src="images/pr.png"  height="200" width="250">


La précision a pour formule :
\begin{equation*}
Precision = \frac{TP}{TP + FP}
\end{equation*}

### Questions

1. Lire tous les fichiers présents dans le dossier `detection_files`. Il est conseillé d'utiliser le paquet `glob` de la bibliothèque standard de Python pour trouver les fichiers, plutôt que d'écrire leurs noms explicitement dans le code.
2. Pour chaque seuil parmi $\{0.1, 0.5, 0.7\}$ compter le nombre de TP, FP, TN et FN et calculer la Précision et le Rappel correspondant.
3. Calculer les valeurs de Précision et Rappel pour tous les seuils possibles pour chaque détecteur. Stocker les valeurs obtenues dans un dictionnaire.
4. Pour chaque détecteur, calculer la valeur de l'aire sous la courbe (aussi appelée *Average Precision* pour la courbe PR ou *AUPR*).
5. Dans un même graphique, tracer les courbes PR correspondant à chaque détecteur. Chaque courbe doit avoir une couleur différente. Indiquer aussi la valeur de l'AUPR dans la légende.
6. Expliquer pourquoi la courbe Précision-Rappel est plus adaptée pour mesurer les performances.

> Afin de vérifier vos résultats, vous pouvez utiliser sklearn metrics ([PR Curve](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.precision_recall_curve.html) et [Average Precision](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.average_precision_score.html))  mais vous ne pouvez pas l'utiliser pour faire l'exercice.

## Exercice 3 : Perceptron

### Rappels de cours 

Le perceptron est le plus simple des réseaux de neurones avec un vecteur d'entrée ${\bf x}_i$ et une seule sortie $y_i$. Ici, $i$ représente l'indice de l'exemple dans le jeu de données. La sortie est calculée comme une somme pondérée par un vecteur de poids $\bf w$ des valeurs d'entrée (avec un biais contenu dans $\bf w$) à laquelle est appliquée une fonction d'activation $F$. Pendant l'entrainement on va évaluer chaque exemple et on change le vecteur de pois $\bf w$ afin de minimiser l'erreur. Pour plus de détails voir le cours 3.

Étant donné un exemple ${\bf x} \in \mathbb{R}^n$ (dans l'exercice, $n=2$), la sortie $y$ est calculée comme suit :
\begin{equation*}
y_i = F(\text{net}_i) = F(\underbrace{{\bf w}^\intercal{\bf x}_i}_{\in \mathbb{R}})
\end{equation*}

On définit la fonction de coût comme suit:
\begin{equation*}
E = \frac{1}{2} (y_i - d_i)^2
\end{equation*}
avec $d_i$ qui est la réponse désirée pour l'exemple ${\bf x}_i$, fournie dans le jeu de données.

Le gradient de la fonction de coût par rapport aux poids est calculé comme :
\begin{equation*}
\nabla_{\bf w} E = \dfrac{\partial E}{\partial y_i} \dfrac{\partial y_i}{\partial \text{net}_i} \dfrac{\partial \text{net}_i}{\partial {\bf w}} = (y_i - d_i) F'(\text{net}_i) {\bf x}
\end{equation*}

On définit alors la fonction de mise à jour des poids:
\begin{equation*}
\textbf{w} = \textbf{w} - \eta { \nabla_{\textbf{w}} E}
\end{equation*}
avec $\eta$ la constante d'apprentissage.

On utilise la sigmoïde comme fonction d'activation:
\begin{equation*}
F(x) = \frac{1}{1 + e^{-x}}
\end{equation*}

La dérivée de la fonction sigmoïde est:
\begin{equation*}
F'(x) = F(x) (1 - F(x))
\end{equation*}

### Questions

1. Charger le fichier `lab1_1.npz` avec la fonction `np.load`. Les données sont sous forme de dictionnaire dont les clés peuvent être trouvées avec `list(data.keys())`.
2. Dans un graphique, à l’aide de la fonction `scatter`, afficher ces données. Utiliser des marqueurs différents pour les différentes classes ainsi qu'une légende.
3. Les poids du réseau sont initialisés à ${\bf w}^\intercal = [{\bf w}_0, {\bf w}_1, {\bf w}_2] = [0, −1, −1]$. ${\bf w}_0$ correspond au biais et est associé au seuil de décision. Afficher les données et la frontière de décision correspondant à ces poids dans un graphique.

> La frontière de décision est définie par l’équation suivante (ici, $x$ et $y$ ne représentent pas les données, mais les axes du plan) :
\begin{equation*}
y = \frac{-{\bf w}_1}{{\bf w}_2} x - \frac{{\bf w}_0}{{\bf w}_2}
\end{equation*}

4. Implémenter la propagation directe dans la méthode `forward` du Perceptron avec la classe fournie ci-dessous. Calculer le taux d'exactitude avec les poids initiaux en utilisant la fonction `forward`. Commenter ce taux d'exactitude par rapport à la figure générée précédemment. Que faut-il ajouter dans le graphique pour correctement représenter la frontière de décision?
5. Implémenter la mise à jour des poids dans la méthode `update`. Pour cet exercice, la fonction `update` ne renvoie rien. Effectuer un ajustement des poids en utilisant le premier exemple et $\eta$ = 0.01. Dans le rapport, détailler les calculs pour cette étape.
6. Afficher dans un graphique, les données, la frontière de décision initiale ainsi que la nouvelle frontière.
7. Continuer l’apprentissage en faisant 100 itérations sur l'ensemble les données. Tracer l’évolution du taux d'exactitude avec chaque ajustement. Commenter la courbe.
8. Afficher dans un graphique, les données et frontière de décision finale.
9. Comment se termine l’apprentissage. Est-ce que l’algorithme converge ? Expliquer pourquoi. Commenter le taux d'exactitude de la solution finale.
10. Que se passerait-il si on changeait l’ordre de présentation des données ?

In [None]:
import numpy as np

class Perceptron:
    
    def __init__(self, lr: float):
        """
        Constructeur de la classe Perceptron.
        
        Parameters
        ----------
        lr : float
            Taux d'apprentissage pour la mise à jour des poids.
        
        """
        self.w = np.array([0, -1, -1], dtype=np.float) # vecteur de poids   
        self.lr = lr
    
    def forward(self, x: np.ndarray) -> np.float:
        """
        Propagation directe du perceptron avec sa fonction d'activation $y = F(w^T x)$.
        
        Parameters
        ----------
        x : np.ndarray
            Vecteur d'entrée de longueur 2.
        
        Returns
        -------
        y : np.float
            Sortie du perceptron après la fonction d'activation.
        
        """
        pass  # pass ne fait rien et sert seulement à fournir syntaxe correcte pour une fonction vide
    
    def update(self, x: np.ndarray, grad_output: np.float) -> None:
        """
        Mise à jour des poids w.
        
        Parameters
        ----------
        x : np.ndarray
            Vecteur d'entrée de longueur 2.
        grad_output : np.float
            Gradient de l'erreur par rapport à la sortie y perceptron $\nabla_y E$.

        """
        pass  # pass ne fait rien et sert seulement à fournir syntaxe correcte pour une fonction vide

## Exercice 4 : Généralisation du Perceptron

Dans cet exercice, on va généraliser le code précédent afin de pouvoir évaluer plusieurs exemples en même temps (c’est-à-dire vectoriser le code) et obtenir plus sorties en même temps (donc avoir une couche générale).

La sortie ${\bf Y}$ du perceptron est calculée comme:
\begin{equation}
{\bf Y} = F(\textbf{NET}) = F({\bf W} {\bf X})
\end{equation}
avec $\bf X$ qui est la matrice d'entrées de taille (# entrées, # exemples),
$\bf Y$ qui est la matrice de sorties de taille (# sorties, # exemples) et 
$\bf W$ qui est la matrice de poids **avec biais** de taille (# sorties, # entrées + 1). Cette fois, on intialise cette matrice de manière aléatoire selon l'initialisation de Glorot & Bengio (2010).

On définit la fonction de coût pour un exemple comme suit :
\begin{equation*}
E = \frac{1}{2} \sum_i ||{\bf Y}_i - {\bf D}_i||^2_2
\end{equation*}
avec ${\bf Y}$ le vecteur des sorties obtenues pour ${\bf X}$ et ${\bf D}$ le vecteur des réponses désirées pour ${\bf x}$.

Pour calculer le gradient de la fonction de coût par rapport à $\bf Y$:
\begin{equation*}
\nabla_{\bf Y} E = {\bf Y} - {\bf D}
\end{equation*}

Ainsi, le gradient de la fonction de coût par rapport à $\bf NET$ est:
\begin{equation*}
\nabla_{\bf NET} E = \nabla_{\bf Y} E \odot F'({\bf NET})
\end{equation*}
avec $\odot$ le produit élément par élément.

Grâce à la règle de dérivation des fonctions composées:
\begin{equation*}
\nabla_{\bf W} E = \nabla_{\bf NET} E \; {\bf X}^\top
\end{equation*}

On définit alors la fonction de mise à jour des poids:
\begin{equation*}
{\bf W} = {\bf W} - \eta \nabla_{\bf W} E
\end{equation*}
avec $\eta$ la constante d'apprentissage.

### Questions

1. Dans cet exercice, nous allons utiliser les données contenues dans le fichier `lab1_2.npz`. Charger ces données et les afficher avec des marqueurs différents pour les différentes classes ainsi qu'une légende.
2. Implémenter la propagation directe dans la méthode `forward` de Layer avec la classe fournie ci-dessous. Calculer le taux d'exactitude avec les poids initiaux en utilisant la fonction `forward`.
3. Implémenter la mise à jour des poids dans la méthode `update`. Pour cet exercice, la fonction `update` renvoie le gradient de l'erreur par rapport à l'entrée de la couche, ce qui permet de mettre plusieurs couches en série.

> Indication : le gradient de l'erreur par rapport à l'entrée d'une couche doit avoir la même taille que l'entrée X de la couche.

4. Afficher dans un graphique, les données, la frontière de décision initiale ainsi que la frontière de décision finale après un apprentissage complet. Tracer aussi l’évolution du taux d'exactitude avec chaque ajustement. 
5. Comment se termine l’apprentissage. Est-ce que l’algorithme converge ? Expliquer pourquoi. Commenter le taux d'exactitude de la solution finale.
6. Que se passerait-il si on changeait l’ordre de présentation des données ?

In [None]:
class Layer:
    
    def __init__(self, n_in: int, n_out: int, lr: float):
        """
        Constructeur de la classe Layer.
        
        Parameters
        ----------
        n_int : int
            Nombre d'entrées.
        n_out : int
            Nombre de sorties.
        lr : float
            Taux d'apprentissage pour la mise à jour des poids.
        
        """
        bound = (6 / (n_in + n_out)) ** 0.5  # initialisation selon Glorot & Bengio (2010)
        # matrice de poids (+1 pour le biais)
        self.W = np.random.uniform(low=-bound, high=bound, size=(n_out, n_in + 1)) 
        self.W[:, 0] = 0  # biais initialisé à 0
        self.lr = lr
    
    def forward(self, X: np.ndarray) -> np.ndarray:
        """
        Propagation directe de la couche avec sa fonction d'activation $Y = F(W^T X)$.
        
        Parameters
        ----------
        X : np.ndarray
            Données d'entrées. Taille : (n_in, # exemples).
        
        Returns
        -------
        Y : np.ndarray
            Sorties de la couche après la fonction d'activation. Taille : (n_out, # exemples)

        """
        pass  # pass ne fait rien et sert seulement à fournir syntaxe correcte pour une fonction vide
        
    def update(self, X: np.ndarray, grad_output: np.ndarray) -> np.ndarray:
        """
        Mise à jour des poids w et retourne le gradient de l'erreur par rapport à l'entrée de la couche $\nabla_X E$.
        
        Parameters
        ----------
        X : np.ndarray
            Données d'entrées. Taille : (n_in, # exemples).
        grad_output : np.ndarray.
            Gradient de l'erreur par rapport à la sortie Y de la couche $\nabla_Y E$. Taille : (n_out, # exemples)
            
        Returns
        -------
        grad_input : np.ndarray
            Gradient de l'erreur par rapport à l'entrée X de la couche $\nabla_X E$. Taille : (n_in, # exemples)

        """
        pass  # pass ne fait rien et sert seulement à fournir syntaxe correcte pour une fonction vide

## Exercice 5 : Réseau de neurones multicouches

Dans cet exercice, on implémente un réseau de neurones multicouches. Ce réseau va séquentiellement appliquer la propagation directe de ses couches successives. Pour la mise à jour des poids, il va appliquer la mise à jour des poids de chaque couche en "remontant" le réseau depuis la sortie.

1. À l'aide de la classe Layer de l'exercice 4, implémenter un réseau de neurones à plusieurs couches (*Multi-Layer Perceptron* ou MLP). Créer un réseau avec une couche cachée et 2 neurones par couche à l'aide de la classe MLP et l'entrainer en affichant l'erreur et le taux d'exactitude au cours de l'entrainement.
2. Essayer d'autres configurations de réseaux multicouches (e.g. ajouter des couches, augmenter le nombre de neurones par couche, etc.) et de paramètres d'entrainement (e.g. augmenter le taux d'apprentissage, faire plus d'itérations, etc.). Quel critère avez-vous utilisé pour arrêter valider l'entrainement ? Quel critère avez-vous utilisé pour comparer les différentes configurations ?
3. Bonus : Afficher dans un même graphique les données d'entrée et la borne de décision du modèle multicouches.

In [None]:
class MLP:
    def __init__(self, list_of_layers: list):
        """
        Classe pour implémenter un réseau de neurones multicouches.

        Parameters
        ----------
        list_of_layers : list
            Liste ordonnée des couches successives du réseau de neurones.
        """
        self.list_of_layers = list_of_layers

    def forward(self, X: np.ndarray) -> np.ndarray:
        """
        Propagation directe à travers les couches du MLP.
        
        Parameters
        ----------
        X : np.ndarray
            Données d'entrées.
        
        Returns
        -------
        Y : np.ndarray
            Sorties après propagation directe.

        """
        pass
        
    def update(self, X: np.ndarray, grad_output: np.ndarray) -> np.ndarray:
        """
        Mise à jour des poids des couches successives du MLP. Renvoie le gradient de l'erreur par 
        rapport à l'entrée du MLP.
        
        Parameters
        ----------
        X : np.ndarray
            Données d'entrées.
        grad_output : np.ndarray
            Gradient de l'erreur par rapport à la sortie Y du MLP $\nabla_Y E$.
            
        Returns
        -------
        grad_input : np.ndarray
            Gradient de l'erreur par rapport à l'entrée X de la couche $\nabla_X E$.

        """
        pass
