# TP6 : Reconnaissance d'une diagonale dans carré 2x2

## Chargement des librairies

In [2]:
from matplotlib import pyplot as plt
import numpy as np
import pandas as pd

## Chargement des données

In [3]:
# Lecture des données depuis un fichier
data=pd.read_csv("diag2x2.csv",sep=",")
print(data)

    X1  X2  X3  X4  Y
0    0   0   0   0  0
1    0   0   0   1  0
2    0   0   1   0  0
3    0   0   1   1  0
4    0   1   0   0  0
5    0   1   0   1  0
6    0   1   1   0  1
7    0   1   1   1  0
8    1   0   0   0  0
9    1   0   0   1  1
10   1   0   1   0  0
11   1   0   1   1  0
12   1   1   0   0  0
13   1   1   0   1  0
14   1   1   1   0  0
15   1   1   1   1  0


### Exercice

Les données ci-dessus représentent des carrés composés de 4 cases 
<table><tr><td >x1</td><td>x2</td></tr><tr><td>x3</td><td>x4</td></tr></table>

auxquels sont associés $Y=0$ ou $Y=1$ selon que le carré comporte exactement une diagonale de $1$.

Quels sont les numéros des données correspondant à un carré comportant exactement une diagonale de 1 ?

In [4]:
# Création d'un dataframe
DF = pd.DataFrame(data, columns = ['X1','X2','X3','X4','Y'])
# Affichage des 5 premières données
DF.head()

Unnamed: 0,X1,X2,X3,X4,Y
0,0,0,0,0,0
1,0,0,0,1,0
2,0,0,1,0,0
3,0,0,1,1,0
4,0,1,0,0,0


In [8]:
# Définition des entrées X et de la sortie désirée Y
Xdata=DF.drop(['Y'],axis=1) # la variable Xdata contient toutes les colonnes sauf la colonne Y
Ydata=DF['Y'] # La variable Ydata contient la colonne Y
n=len(Xdata) # Nombre de données (16)
d=len(Xdata.iloc[1]) # Nombre de colonnes de X[1]

## Réseau à 1 couche cachée de 2 neurones
On tente de déterminer une fonction définie par l'expression $$R(X)=\sigma(H(X))$$ avec
$$H(X)=b+w_1 \sigma(h_1(X))+w_2\sigma(h_2(X)),$$
$$h_1(X)=b_1+w_{11}x_1+w_{12}x_2+w_{13}x_3+w_{14}x_4,$$
$$h_2(X)=b_2+w_{21}x_1+w_{22}x_2+w_{23}x_3+w_{24}x_4,$$
permettant d'associer les $X_j$ aux $Y_j$ pour les données ci-dessus.

### Exercice

Représenter le réseau de neurones représentant la fonction d'expression $R(X)$ (répondre sur papier).

### Exercice

Compléter la cellule ci-dessous afin de définir la fonction `R(W,W1,w2,j)`, qui doit retourner la valeur de R(X_j) avec comme paramètres entrant :
- `W`, qui représente $(b,w_1,w_2)$
- `W1` et `W2`, qui représente $(b_1,w_{11},w_{12},w_{13},w_{14})$ et $(b_2,w_{21},w_{22},w_{23},w_{24})$ respectivement
- `j`, qui représente le numéro $j$

In [116]:
# Réseau
def sigma(x):
    return 1/(1+np.exp(-x))
def R(W,W1,W2,j):
    Xj=Xdata.iloc[j]
    return ...

### Exercice

Compléter la boucle suivante afin de vérifier que la fonction $$R(X)=\sigma(-25+28\sigma(h_1(X))-13\sigma(h_2(X)))$$ avec $$h_1(X)=0-3x_1+1.5x_2+1.5x_3+9x_4$$
et $$h_2(X)=-14-4x_1+4x_2+4x_3+14x_4$$
répond au problème posé.

In [None]:
for j in range(n):
    print('Y observé :',Ydata.iloc[j],' Y calculé :',R(...,...,...,j))

### Exercice

Le code ci-dessous calcule le gradient de la fonction définie par $$E(X_j)=\frac{1}{2}(R(X_j)-Y_j)^2$$ par rétropropagation.

Dans ce code, identifier la variable égale à $\frac{\partial E}{\partial w_{23}}$ et expliciter chacune des dérivées partielles calculées pour obtenir sa valeur.

Répondre ici

In [432]:
# Gradient par rétropropagation

def gradE(W,W1,W2,j):
    b,w1,w2=W[0],W[1],W[2]
    b1,w11,w12,w13,w14=W1[0],W1[1],W1[2],W1[3],W1[4]
    b2,w21,w22,w23,w24=W2[0],W2[1],W2[2],W2[3],W2[4]
    Xj=Xdata.iloc[j]
    Yj=Ydata.iloc[j]
    h1=b1+w11*Xj[0]+w12*Xj[1]+w13*Xj[2]+w14*Xj[3]
    h2=b2+w21*Xj[0]+w22*Xj[1]+w23*Xj[2]+w24*Xj[3]    
    H=b+w1*sigma(h1)+w2*sigma(h2)
    sH=sigma(H)
    sh1=sigma(h1)
    sh2=sigma(h2)
    dsH=sH*(1-sH)
    dsh1=sh1*(1-sh1)
    dsh2=sh2*(1-sh2)
    dEdsH=sH-Yj
    dsHdb=dsH*1
    dsHdw1=dsH*sh1
    dsHdw2=dsH*sh2
    dsHdsh1=dsH*w1
    dsHdsh2=dsH*w2
    dsh1db1=dsh1*1
    dsh1dw11=dsh1*Xj[0]
    dsh1dw12=dsh1*Xj[1]
    dsh1dw13=dsh1*Xj[2]
    dsh1dw14=dsh1*Xj[3]
    dsh2db2=dsh2*1
    dsh2dw21=dsh2*Xj[0]
    dsh2dw22=dsh2*Xj[1]
    dsh2dw23=dsh2*Xj[2]
    dsh2dw24=dsh2*Xj[3]
    dEdb=dEdsH*dsHdb
    dEdw1=dEdsH*dsHdw1
    dEdw2=dEdsH*dsHdw2
    dEdb1=dEdsH*dsHdsh1*dsh1db1
    dEdw11=dEdsH*dsHdsh1*dsh1dw11
    dEdw12=dEdsH*dsHdsh1*dsh1dw12
    dEdw13=dEdsH*dsHdsh1*dsh1dw13
    dEdw14=dEdsH*dsHdsh1*dsh1dw14
    dEdb2=dEdsH*dsHdsh2*dsh2db2
    dEdw21=dEdsH*dsHdsh2*dsh2dw21
    dEdw22=dEdsH*dsHdsh2*dsh2dw22
    dEdw23=dEdsH*dsHdsh2*dsh2dw23
    dEdw24=dEdsH*dsHdsh2*dsh2dw24
    return [[dEdb,dEdw1,dEdw2],[dEdb1,dEdw11,dEdw12,dEdw13,dEdw14],[dEdb2,dEdw21,dEdw22,dEdw23,dEdw24]]

### Exercice

Utiliser la cellule ci-dessous pour calculer $R(X_5)$ et $\frac{\partial E(X_5)}{\partial w_{23}}$ en $$(b,w_1,w_2)=(1,0,0)$$ $$(b_1,w_{11},w_{12},w_{13},w_{14})=(1,1,1,1,1)$$ $$((b_1,w_{21},w_{22},w_{23},w_{24})=(1,0,0,0,0).$$

In [None]:
print(...)
print(...)

## Algorithme de descente de gradient

In [501]:
def descente(W,W1,W2,tau=0.01,tolerance=1e-2,nbiterations=1000):
    diverge=False
    for i in range(nbiterations):
        g=[[0,0,0],[0,0,0,0,0],[0,0,0,0,0]] # gradient initialise à 0
        batch=np.random.randint(0, 16, 5) # 5 entiers aléatoires choisis entre 0 et 15
        for j in batch: # j parcourt 5 données aléatoires
            gg=gradE(W,W1,W2,j) # calcul du gradient de la fonction associée à la donnée n°j
            g = [np.add(g[0],gg[0]),np.add(g[1],gg[1]),np.add(g[2],gg[2])] # ajout du gradient gg au gradient g
        try: # traitement des erreurs si l'algorithme diverge
            ng=np.sqrt(np.sum([np.sum([gi**2 for gi in g[k]]) for k in range(2)]))/len(batch) # somme des carrés des coordonnées de g
            if ng<tolerance:
                print('L\'algorithme a convergé en',i,'itérations. \nSolution atteinte :\n W=',W,'\n W1=',W1,'\n W2=',W2,'\nGradient :',g)
                return [W,W1,W2]
            W=[W[k]-tau*g[0][k] for k in range(3)]
            W1=[W1[k]-tau*g[1][k] for k in range(5)]
            W2=[W2[k]-tau*g[2][k] for k in range(5)]
        except OverflowError as err: # traitement de l'erreur "overflow"
            print('L\'algorithme a divergé \nSolution atteinte :\n W=',W,'\n W1=',W1,'\n W2=',W2,'\nGradient :',g)
            diverge=True
            break
    if (diverge==False):
        print('L\'algorithme n\'a pas convergé \nSolution atteinte :\n W=',W,'\n W1=',W1,'\n W2=',W2,'\nGradient :',g,'\n Norme :',ng)
    return [W,W1,W2]

### Exercice

Dans l'algorithme de descente de gradient ci-dessus, que désigne la variable `batch` et que calcule la boucle :

`for j in batch:
    gg=gradE(W,W1,W2,j)
    g = [np.add(g[0],gg[0]),np.add(g[1],gg[1]),np.add(g[2],gg[2])]` ?

Répondre ici

### Exercice

En utilisant la cellule suivante, faire converger l'algorithme avec une tolérance de $10^{-4}$.

In [None]:
descente([1,0,0],[1,1,1,1,1],[1,0,0,0,0],0.01,0.0001,10000)

### Exercice

Compléter la boucle suivante afin de vérifier que la fonction atteinte par l'algorithme de descente répond au problème posé.

In [None]:
for j in range(n):
    print('Y observé :',Ydata.iloc[j],' Y calculé :',R(...,...,...,j))

# Problème

Déterminer les coefficients d'un réseau de neurones qui identifie si un carré de 4 cases contient exactement une ligne de 1.

À cette fin, vous pourrez au préalable modifier les données `Ydata[j]`, en modifiant les valeurs correspondant aux carrés visés (via par exemple `Ydata[10]=0`) :
- Ydata[j] doit être égal à 1 si le carré contient exactement une ligne de 1
- Ydata[j] doit être égal à 0 si le carré ne contient pas exactement une ligne de 1

In [None]:
# Modification des données Ydata :


# Vérification des données :

for j in range(n):
    print('X :',Xdata.iloc[j],', Y correspondant :',Ydata.iloc[j])

In [None]:
# Convergeance de l'algorithme (tolerance à 10^-4) :

descente([1,0,0],[1,1,1,1,1],[1,0,0,0,0],0.01,0.0001,10000)

In [None]:
# Vérification des valeurs de la fonction R obtenue :

for j in range(n):
    print('Y observé :',Ydata.iloc[j],' Y calculé :',R(...,...,...,j))