# TP7 : Réseaux de neurones

## Chargement des librairies

In [None]:
# Bibliothèques utilisées

from matplotlib import pyplot as plt # graphique
import numpy as np # mathématiques
print('Bibliothèques chargées')

# Problème A

On considère les 16 données $(X_j,Y_j)$, $j\in\{0,\ldots,15\}$, suivantes:

- `[[0,0,0,0],[0,0,0,1],[0,0,1,0],[0,0,1,1],[0,1,0,0],[0,1,0,1],[0,1,1,0],[0,1,1,1],[1,0,0,0],[1,0,0,1],[1,0,1,0],[1,0,1,1],[1,1,0,0],[1,1,0,1],[1,1,1,0],[1,1,1,1]]` pour la liste des valeurs de $X_j$
- `[0,0,0,0,0,0,1,0,0,1,0,0,0,0,0,0]` pour la liste des valeurs de $Y_j$

Les données $(X_j,Y_j)$, $j\in\{0,\ldots,15\}$, représentent des 16 carrés composés de 4 cases 
<table><tr><td >x1</td><td>x2</td></tr><tr><td>x3</td><td>x4</td></tr></table>
chaque case pouvant prendre la valeur 0 ou 1, ainsi que la valeur $Y_j=0$ ou $Y_j=1$ selon que le carré comporte exactement une diagonale de 1 (les deux autres cases étant à 0).

**Exercice 1**

Rappeler (vu en cours) pourquoi il n'est pas possible de modéliser les données par une fonction $s:X\mapsto \sigma(h(X))$, c'est à dire vérifiant ($s(X_j)>0.5$ si $Y_j=1$) et $s(X_j)<0.5$ si $Y_j=0$), avec $h(X)=b+w_1x_1+w_2x_2+w_3x_3+w_4x_4$.

*Indication*. Obtenir une contradiction sur la valeur de $h(1,1,1,1)$ à partir des conditions sur les valeurs de $h(1,0,0,1)$, $h(0,1,1,0)$ et $h(0,0,0,0)$.

## Modélisation par un réseau à 1 couche cachée de 2 neurones

Dans la suite, on cherche à déterminer une fonction définie par l'expression $$R_{W,W_1,W_2}(x_1,x_2,x_3,x_4)=\sigma\bigg(h_W\bigg(\sigma\big(h_{W_1}(x_1,x_2,x_3,x_4)\big),\sigma\big(h_{W_2}(x_1,x_2,x_3,x_4)\big)\bigg)\bigg)$$ avec
$$W=(b,w_1,w_2), \text{ et }h_W(s_1,s_2)=b+w_1s_1+w_2s_2$$
$$W_1=(b_1,w_{11},w_{12},w_{13},w_{14})\text{ et }h_{W_1}(x_1,x_2,x_3,x_4)=b_1+w_{11}x_1+w_{12}x_2+w_{13}x_3+w_{14}x_4,$$
$$W_2=(b_2,w_{21},w_{22},w_{23},w_{24})\text{ et }h_{W_2}(x_1,x_2,x_3,x_4)=b_2+w_{21}x_1+w_{22}x_2+w_{23}x_3+w_{24}x_4,$$
permettant d'approximer au mieux $Y_j$ à travers $R(x_{j1},x_{j2},x_{j3},x_{j4})$, pour chaque donnée $j$.

## Enregistrement des données

In [None]:
Xdata=[[0,0,0,0],[0,0,0,1],[0,0,1,0],[0,0,1,1],[0,1,0,0],[0,1,0,1],[0,1,1,0],[0,1,1,1],[1,0,0,0],[1,0,0,1],[1,0,1,0],[1,0,1,1],[1,1,0,0],[1,1,0,1],[1,1,1,0],[1,1,1,1]]
Ydata=[0,0,0,0,0,0,1,0,0,1,0,0,0,0,0,0]
print('Données enregistrées')

**Exercice 2**

Les 16 carrés sont enregistrés en Python sous forme de lignes de 4 valeurs, numérotées de 0 à 15.

Quelles sont les deux lignes correspondant à un carré comportant exactement une diagonale de 1 ?

**Exercice 3**

Représenter (sur papier) par un graphe de calcul le réseau de neurones associé à la fonction $X\mapsto R_{W,W1,W2}(X)$, où $X=(x_1,x_2,x_3,x_4)$, en faisant apparaitre, en colonnes, de gauche à droite:
- en première colonne: les noeuds $1$, $x_1$, $x_2$, $x_3$, $x_4$;
- en deuxième colonne: les noeuds $h_{W_1}(X)$, $h_{W_2}(X)$;
- en troisième colonne: les noeuds $1$, $s_1=\sigma(h_{W_1})$, $s_2=\sigma(h_{W_2}(X))$
- en quatrième colonne: le noeud $h_W(s_1,s_2)$
- en cinquième colonne: le noeud $R_{W,W_1,W_2}=\sigma(h_W)$

puis d'une colonne à l'autre, les arrêtes pondérées par les paramètres impliqués dans les calculs.

La cellule ci-dessous définit la fonction `R(W,W1,W2,j)`, qui retourne la valeur de $R_{W,W_1,W_2}(X_j)$ avec comme paramètres entrant :
- `W`, qui représente la liste `[b,w_1,w_2]` (paramètres associés à $h_W$)
- `W1` et `W2`, qui représentent les listes `[b1,w11,w12,w13,w14]` (paramètres associés à $h_{W_1}$) et `[b2,w21,w22,w23,w24]` (paramètres associés à $h_{W_2}$) respectivement
- `j`, qui représente le numéro $j$ de la donnée considérée

In [None]:
# Réseau
def sigma(x):
    return 1/(1+np.exp(-x))

def R(W,W1,W2,j):
    Xj=Xdata[j] # Xj est la ligne j du tableau Xdata
    Xj=np.array([[1],[Xj[0]],[Xj[1]],[Xj[2]],[Xj[3]]]) # mise sous forme de vecteur colonne, complété par 1 pour la multiplication par b
    hW1=(np.array(W1) @ Xj)[0] # @ correspond au produit matricielle
    hW2=(np.array(W2) @ Xj)[0]    
    s1=sigma(hW1)
    s2=sigma(hW2)
    s=np.array([[1],[s1],[s2]])
    hW=(np.array(W) @ s)[0]
    R=sigma(hW)
    return R

print('Fonction sigma et R enregistrées')

**Exercice 4**

1. Vérifier à l'aide de la cellule suivante que les paramètres donnés sont tels que $R_{W,W_1,W_2}(X_j)>0.5$ si $Y_j=1$, et $R_{W,W_1,W_2}(X_j)<0.5$ si $Y_j=0$, comme souhaité.

2. Donner l'expression complète de la fonction $R_{W,W_1,W_2}$ ainsi définie.

In [None]:
W=[-25,28,-13]
W1=[0,-3,1.5,1.5,9]
W2=[-14,-4,4,4,14]

for j in range(16):
    print('Y observé :',Ydata[j],' Y calculé par la fonction R:',R(W,W1,W2,j))

## Apprentissage du réseau de neurones par descente de gradient

La détermination de paramètres `W=[b,w1,w2]`, `W1=[b1,w11,w12,w13,w14]` et `W2=[b2,w21,w22,w23,w24]` permettant d'approximer la relation entre $X$ et $Y$ par $Y=R_{W,W_1,W_2}(X)$ se fait, à partir des données, par minimisation de la fonction définie par $$f(W,W_1,W_2)=\frac{1}{2}\sum\limits_{j=0}^{15}(R_{W,W_1,W_2}(X_j)-Y_j)^2.$$

La minimisation se fait par descente de gradient.

Puisque la dérivée d'une somme est la somme des dérivées, le gradient de $f$ est égal à la somme des gradients des fonctions $E_j$, définies pour chaque $j$ par $$E_j(W,W_1,W_2)=\frac{1}{2}(R_{W,W_1,W_2}(X_j)-Y_j)^2.$$

La fonction python `gradE` ci-dessous permet de calculer *par retropropagation* le gradient de $E_j$ par rapport à *chacun des paramètres* contenu dans les listes $W$, $W_1$ et $W_2$.

In [None]:
# Gradient par rétropropagation

def gradE(W,W1,W2,j):
    b,w1,w2=W[0],W[1],W[2]
    b1,w11,w12,w13,w14=W1[0],W1[1],W1[2],W1[3],W1[4]
    b2,w21,w22,w23,w24=W2[0],W2[1],W2[2],W2[3],W2[4]
    Xj=Xdata[j]
    Xj1=Xj[0]
    Xj2=Xj[1] 
    Xj3=Xj[2]
    Xj4=Xj[3]
    Yj=Ydata[j]
    h1=b1+w11*Xj1+w12*Xj2+w13*Xj3+w14*Xj4
    h2=b2+w21*Xj1+w22*Xj2+w23*Xj3+w24*Xj4    
    H=b+w1*sigma(h1)+w2*sigma(h2)
    sH=sigma(H)
    sh1=sigma(h1)
    sh2=sigma(h2)
    dsH=sH*(1-sH)
    dsh1=sh1*(1-sh1)
    dsh2=sh2*(1-sh2)
    dEdsH=sH-Yj
    dsHdb=dsH*1
    dsHdw1=dsH*sh1
    dsHdw2=dsH*sh2
    dsHdsh1=dsH*w1
    dsHdsh2=dsH*w2
    dsh1db1=dsh1*1
    dsh1dw11=dsh1*Xj1
    dsh1dw12=dsh1*Xj2
    dsh1dw13=dsh1*Xj3
    dsh1dw14=dsh1*Xj4
    dsh2db2=dsh2*1
    dsh2dw21=dsh2*Xj1
    dsh2dw22=dsh2*Xj2
    dsh2dw23=dsh2*Xj3
    dsh2dw24=dsh2*Xj4
    dEdb=dEdsH*dsHdb
    dEdw1=dEdsH*dsHdw1
    dEdw2=dEdsH*dsHdw2
    dEdb1=dEdsH*dsHdsh1*dsh1db1
    dEdw11=dEdsH*dsHdsh1*dsh1dw11
    dEdw12=dEdsH*dsHdsh1*dsh1dw12
    dEdw13=dEdsH*dsHdsh1*dsh1dw13
    dEdw14=dEdsH*dsHdsh1*dsh1dw14
    dEdb2=dEdsH*dsHdsh2*dsh2db2
    dEdw21=dEdsH*dsHdsh2*dsh2dw21
    dEdw22=dEdsH*dsHdsh2*dsh2dw22
    dEdw23=dEdsH*dsHdsh2*dsh2dw23
    dEdw24=dEdsH*dsHdsh2*dsh2dw24
    return [[dEdb,dEdw1,dEdw2],[dEdb1,dEdw11,dEdw12,dEdw13,dEdw14],[dEdb2,dEdw21,dEdw22,dEdw23,dEdw24]]

print('Fonction gradE enregistrée')

**Exercice 5**
1. Donner l'expression mathématique de la fonction $E_{10}$.
2. Compléter le graphe de calcul de la fonction $R$ par le calcul de la fonction $E_{10}$.
3. Rappeler l'expression simplifiée de dérivée de la composée $x\mapsto\sigma(u(x))$.
4. Expliciter le calcul de $\frac{\partial E_{10}}{\partial w_{1}}(W,W_1,W_2)$ et de $\frac{\partial E_{10}}{\partial w_{23}}(W,W_1,W_2)$ par rétropropagation des dérivées.

**Exercice 6**

La cellule ci-dessous permet de calculer $R_{W,W_1,W_2}(X_{10})$ et $\frac{\partial E_{10}}{\partial w_{23}}(W,W_1,W_2)$ selon les paramètres :
$$W=(b,w_1,w_2)=(0,2,-1)$$
$$W_1=(b_1,w_{11},w_{12},w_{13},w_{14})=(0,-3,2,2,10)$$
$$W_2=(b_1,w_{21},w_{22},w_{23},w_{24})=(-4,-1,1,1,3).$$

Executer cette cellule pour répondre aux questions suivantes :
1. Aux paramètres considérés, par rapport à quel(s) paramètre(s) la fonction $E_{10}$ est-elle croissante, décroissante, de dérivée nulle ?
2. Dans quelle direction faut-il alors faire varier chacun des paramètres afin de diminuer $E_{10}$ ?
3. En diminuant $E_{10}$, la fonction $f$ diminue-t-elle nécessairement ?

In [None]:
W=[0,2,-1]
W1=[0,-3,2,2,10]
W2=[-4,-1,1,1,3]
j=10
print('Valeur de E10:\n',1/2*(R(W,W1,W2,j)-Ydata[j])**2)
print('Valeur de R :\n',R(W,W1,W2,j))
print('Gradient de E10 :\n',gradE(W,W1,W2,j))

## Algorithme de descente de gradient

La fonction suivante implémente une *version partielle* de l'algorithme de descente de gradient.

Comme il y a 16 données, la fonction $f$ à minimiser est une somme de 16 fonctions $E_j$, chacune dépendant des paramètres.

L'algorithme de descente gradient, visant à minimiser $f$, doit rendre chacune des $E_j$ petite, *sans augmenter les autres*.

La version de l'algorithme de descente de gradient ci-dessous effectue une descente de gradient sur seulement 5 termes de la somme $f$ des $E_j$; ces termes sont *choisis au hasard* à chaque pas de l'algorithme.

Cette méthode (standard) diminue les calculs effectués à chaque pas de l'algorithme, tout en permettant réduire la valeur de $f$ de manière probabiliste.

In [None]:
def descente(W,W1,W2,tau=0.01,tolerance=1e-2,NbIterationsMax=1000):
    for i in range(NbIterationsMax):
        batch=np.random.randint(0, 16, 5) # à chaque itération, 5 entiers aléatoires sont choisis entre 0 et 15
        g=[[0,0,0],[0,0,0,0,0],[0,0,0,0,0]] # gradient temporairement initialisé à un gradient nul
        for j in batch: # j parcourt 5 données aléatoires
            gj=gradE(W,W1,W2,j) # calcul du gradient gg de la fonction Ej
            g = [np.add(g[0],gj[0]),np.add(g[1],gj[1]),np.add(g[2],gj[2])] # ajout du gradient gj au gradient g
        try: # traitement des erreurs si l'algorithme diverge
            if (W[0]==float('inf')) or (W[1]==float("inf")) or (W[2]==float("inf"))\
            or (W1[0]==float('inf')) or (W1[1]==float("inf")) or (W1[2]==float("inf")) or (W1[3]==float("inf")) or (W1[4]==float("inf"))\
            or (W2[0]==float('inf')) or (W2[1]==float("inf")) or (W2[2]==float("inf")) or (W2[3]==float("inf")) or (W2[4]==float("inf")):
                raise(OverflowError)
            ng=np.sqrt(np.sum([np.sum([gi**2 for gi in g[k]]) for k in range(2)]))/len(batch) # somme des carrés des coordonnées de g
            if ng<tolerance:
                print('L\'algorithme a convergé en',i,'itérations. \nSolution atteinte :\n W=',W,'\n W1=',W1,'\n W2=',W2,'\nGradient :',g,'\n Norme :',ng)
                return [W,W1,W2]
            W=[W[k]-tau*g[0][k] for k in range(3)]
            W1=[W1[k]-tau*g[1][k] for k in range(5)]
            W2=[W2[k]-tau*g[2][k] for k in range(5)]
        except OverflowError as err: # traitement de l'erreur "overflow"
            print('L\'algorithme a divergé \nSolution atteinte :\n W=',W,'\n W1=',W1,'\n W2=',W2,'\nGradient :',g,'\n Norme :',ng)
            return [W,W1,W2]
    print('L\'algorithme n\'a pas convergé \nSolution atteinte :\n W=',W,'\n W1=',W1,'\n W2=',W2,'\nGradient :',g,'\n Norme :',ng)
    return [W,W1,W2]

print('Fonction descente enregistrée')

La cellule suivante initialise l'algorithme à des valeurs abitraire et,  avec une tolérance de $10^{-3}$, devrait faire converger l'algorithme.

Les paramètres obtenus sont enregistrés dans la variable `parametres` renvoyée par l'algorithme, sous la forme d'une liste `[W,W1,W2]`.

In [None]:
# la variable parametres retournée est égale à [W,W1,W2], atteint par l'algorithme

parametres=descente(W=[1,0,0],W1=[1,1,1,1,1],W2=[1,0,0,0,0],tau=0.1,tolerance=0.001,NbIterationsMax=50000)

**Exercice**

La cellule suivante récupère les paramètres obtenus par la descente de gradient, afin de vérifier que la fonction $R$ ainsi obtenue sépare bien les données.

Effectuer cette vérification en exécutant la cellule.

In [None]:
W=parametres[0]
W1=parametres[1]
W2=parametres[2]
for j in range(16):
    print('Y observé :',Ydata[j],' Y calculé par R :',R(W,W1,W2,j))

# Problème B

Les cellules suivantes permettent de déterminer les coefficients d'un réseau de neurones qui identifie si un carré de 4 cases contient exactement une ligne de 1.

À cette fin, vous devrez au préalable modifier les données `Ydata`, en modifiant les valeurs correspondant aux carrés visés :
- Ydata[j] doit être égal à 1 si le carré contient exactement une ligne de 1
- Ydata[j] doit être égal à 0 si le carré ne contient pas exactement une ligne de 1


In [None]:
# Description des carrés
Xdata=[[0,0,0,0],[0,0,0,1],[0,0,1,0],[0,0,1,1],[0,1,0,0],[0,1,0,1],[0,1,1,0],[0,1,1,1],[1,0,0,0],[1,0,0,1],[1,0,1,0],[1,0,1,1],[1,1,0,0],[1,1,0,1],[1,1,1,0],[1,1,1,1]]
# Description des Y correspondants : A MODIFIER
Ydata=[0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]
print('Données enregistrées')

In [None]:
# Calcul des paramètres par descente de gradient pour ces nouvelles données :

parametres=descente(W=[1,0,0],W1=[1,1,1,1,1],W2=[1,0,0,0,0],tau=0.1,tolerance=0.001,NbIterationsMax=50000)

In [None]:
# Vérification des valeurs de la fonction R obtenue :

W=parametres[0]
W1=parametres[1]
W2=parametres[2]
for j in range(16):
    print('Y observé :',Ydata[j],' Y calculé par R :',R(W,W1,W2,j))