# TP5 : Reconnaissance d'image par un réseau de neurones - Correction Groupe 1

### Chargement des librairies

In [3]:
from matplotlib import pyplot as plt
import numpy as np
import pandas as pd

### Chargement des données

In [4]:
# Lecture des données
DIAGONAL=pd.read_csv("deuxdiag.csv")
# Visualisation des 5 premières données
DIAGONAL.head()

Unnamed: 0,X1,X2,X3,X4,X5,X6,X7,X8,X9,Y
0,0,0,0,1,1,1,1,1,1,0
1,0,0,1,0,0,1,0,0,0,0
2,1,0,0,1,0,1,1,1,0,0
3,1,1,0,1,1,1,0,0,1,1
4,1,0,0,1,1,1,0,1,1,1


**Exercice**
1. Dans le jeu de données `DIAGONAL`, à quoi correspond une donnée ?
2. On considère les données `X1`, ..., `X9` comme les 9 cases d'un carré 3*3 :<br/>
    X1 X2 X3<br/>
    X4 X5 X6<br/>
    X7 X8 X9<br/>
    À quelle condition sur les `Xi` a-t-on : une des deux diagonales du carré est constituée de 1 ?
3. Vérifier sur les 5 premières données que le jeux de données `DIAGONAL` est tel que la conditon précédente est vérifiée si et seulement si `Y=1`.

*Réponses*


### Données d'apprentissage et données de validation

Le jeu de données est séparé 2 :
- Deux tiers des données sont utilisées pour l'apprentissage du réseau de neurones
- Le troisième tiers des données est mis à l'écart et sera utilisé pour évaluer la performance du réseau sur ces données (sur lesquelles il n'aura pas appris).

In [290]:
N=len(DIAGONAL) # Nombre de données
n=int(2*N/3) # Deux tiers du nombres de données 
X=DIAGONAL.drop(['Y'],axis=1)[0:n] # Données d'apprentissage X
Y=DIAGONAL['Y'][0:n] # Données d'apprentissage Y
X.insert(loc = 0, column = 'X0',value = np.ones(n,dtype = int)) # On ajoute une colonne de 1 pour b
Xvalid=DIAGONAL.drop(['Y'],axis=1)[n+1:N] # Données de validation X
Yvalid=DIAGONAL['Y'][n+1:N] # Données de validation Y
nvalid=len(Xvalid)
Xvalid.insert(loc = 0, column = 'X0',value = np.ones(nvalid,dtype=int)) # On ajoute une colonne de 1 pour b

**Exercice**

Sachant que `DIAGONAL` contient 300 données $(X_i,Y_i)$, sur combien de données le réseau va-t-il apprendre ? Sur combien de données la performance du réseau va-t-elle être évaluée ?

*Réponses*


### Réseau à 1 couche cachée de 2 neurones
On approxime $X\mapsto Y$ par la fonction $R_{\mathcal{W}}$, où $\mathcal{W}$ désigne l'ensemble des paramètres $b$, $w_1$, $w_2$, $B=\begin{pmatrix}b_1\\b_2\end{pmatrix}$ et $W=\begin{pmatrix}W_1\\W_2\end{pmatrix}=\begin{pmatrix}w_{11}&w_{12}&\ldots&w_{19}\\w_{21}&w_{22}&\ldots&w_{29}\end{pmatrix}$, définie par : $$R_{\mathcal{W}}:X\mapsto \sigma\left(b+\begin{pmatrix}w_1&w_2\end{pmatrix}\cdot H(B+W\cdot X)\right),$$ où
$$\sigma(x)=\frac{1}{1+e^{-x}}$$ est la fonction sigmoïd, et $$H=\begin{pmatrix}h_1(X)\\h_2(X)\end{pmatrix}=\begin{pmatrix}\sigma\left(b_1+\begin{pmatrix}w_{11}&\ldots&w_{19}\end{pmatrix}\cdot X\right)\\\sigma\left(b_2+\begin{pmatrix}w_{21}&\ldots&w_{29}\end{pmatrix}\cdot X\right)\end{pmatrix}$$ est la couche cachée.

**Exercice**

1. Combien de paramètres la fonction $R_{\mathcal{W}}$ possède-t-elle ?
2. Représenter le réseau de neurones associé à $R_{\mathcal{W}}$.
3. Pourquoi parle-t-on d'un réseau à *deux* neurones ?

*Réponses*


### Rétropropagation du gradient

Les paramètres $\mathcal{W}$ sont déterminés en minimisant la fonction :
$$f(\mathcal{W})=\frac{1}{2}\sum\limits_{j} (R_{\mathcal{W}}(X_j)-Y_j)^2$$
où la somme est calculée sur les données d'apprentissage.

On réécrit $$f(\mathcal{W})=\frac{1}{2}\sum\limits_{j} (\sigma(s_j)-Y_j)^2$$
où $$s_j=b+W\cdot H_j,$$
avec $$H_j=\begin{pmatrix}\sigma(h_{1j})\\ \sigma(h_{2j})\end{pmatrix}$$
où $$h_{ij}=b_i+W_i\cdot X_j.$$

**Exercice**

On rappelle la propriété $\sigma'(x)=\sigma(x)\times (1-\sigma(x))$.

1. À partir de $$f(\mathcal{W})=\frac{1}{2}\sum\limits_{j} (\sigma(\underbrace{b+W\cdot H_j}_{s_j})-Y_j)^2$$ établir les dérivées suivantes :
    - $\frac{\partial f(\mathcal{W})}{\partial b}=\sum\limits_{j} (\sigma(s_j)-Y_j)\sigma(s_j)(1-\sigma(s_j))\times1$
    - $\frac{\partial f(\mathcal{W})}{\partial w_i}=\sum\limits_{j} (\sigma(s_j)-Y_j)\sigma(s_j)(1-\sigma(s_j))\sigma(h_{ij})$

2. À partir de $$f(\mathcal{W})=\frac{1}{2}\sum\limits_{j} (\sigma(\underbrace{b+w_1\sigma(\underbrace{b_1+\sum\limits_{k=1..9} w_{1k}x_{kj}}_{h_{1j}})+w_2\sigma(\underbrace{b_2+\sum\limits_{k=1..9} w_{2k}x_{kj}}_{h_{2j}})}_{s_j})-Y_j)^2$$ établir les dérivées suivantes :
    - $\frac{\partial f(\mathcal{W})}{\partial b_i}=\sum\limits_{j} (\sigma(s_j)-Y_j)\sigma(s_j)(1-\sigma(s_j)w_i\sigma(h_{ij})(1-\sigma(h_{ij}))\times 1$
    - $\frac{\partial f(\mathcal{W})}{\partial w_{ik}}=\sum\limits_{j} (\sigma(s_j)-Y_j)\sigma(s_j)(1-\sigma(s_j))w_i\sigma(h_{ij})(1-\sigma(h_{ij}))x_{kj}$

*Réponses*

Sur papier...

In [291]:
# Fonction sigmoïde
def sigma(x):
    return 1/(1+np.exp(-x))

# Calcul du gradient
def gradient(W): #W=[[b,w1,w2],[b1,w11,w12,...,w19],[b2,w21,...,w29]]
    H1=[sigma(np.dot(W[1],X.iloc[j])) for j in range(n)] # liste des sigma(h1j)
    H2=[sigma(np.dot(W[2],X.iloc[j])) for j in range(n)] # liste des sigma(h2j)
    S=[sigma(W[0][0]+W[0][1]*H1[j]+W[0][2]*H2[j]) for j in range(n)] # liste des sigma(sj)
    delta=[(S[j]-Y.iloc[j])*S[j]*(1-S[j]) for j in range(n)] # liste des produits utilisés
    # Dérivées partielles :
    db=np.sum([delta[j] for j in range(n)])
    dw1=np.sum([delta[j]*H1[j] for j in range(n)])
    dw2=np.sum([delta[j]*H2[j] for j in range(n)])
    d1=[delta[j]*H1[j]*(1-H1[j]) for j in range(n)] # liste de produits très utilisés
    d2=[delta[j]*H2[j]*(1-H2[j]) for j in range(n)] # liste de produits très utilisés
    db1=np.sum([d1[j] for j in range(n)])
    db2=np.sum([d2[j] for j in range(n)])
    dW1=[0,0,0,0,0,0,0,0,0]
    dW2=[0,0,0,0,0,0,0,0,0]
    for k in range(9):
        dW1[k]=np.sum([d1[j]*X.iloc[j][k] for j in range(n)])
        dW2[k]=np.sum([d2[j]*X.iloc[j][k] for j in range(n)])
    return [[db,dw1,dw2],[db1]+dW1,[db2]+dW2]

***Exercice***

1. Calculer (dans la cellule ci-dessous) le gradient de $f$ pour des paramètres tous nuls : $\mathcal{W}_0=(0,\ldots,0)$.
2. En déduire les coordonnées du point $\mathcal{W}_1$ après une première itération de la descente de gradient pour un pas de $\tau=10$.
3. Calculer le gradient en $\mathcal{W}_1$. Que remarquez vous ? Comment l'expliquer ?
4. Est-ce judicieux de partir de $\mathcal{W}_0$ ?

In [None]:
#Calculs :

*Réponses*



In [292]:
# Algorithme de descente
def descente(W,tau=1,tolerance=1e-3,Nbiterations=10):
    for i in range(Nbiterations):
        g = gradient(W)
        normg = g[0][0]**2+g[0][1]**2+g[0][2]**2
        +np.sum([g[1][k]**2 for k in range(10)])
        +np.sum([g[2][k]**2 for k in range(10)])
        print(normg) # On affiche la norme du gradient pour visualiser la descente
        if normg< tolerance:
            print('L\'algorithme a convergé.\n Solution atteinte:\n W=',W,'\n Norme du gradient:',normg)
            return W
        W[0][0]=W[0][0]-tau*g[0][0]
        W[0][1]=W[0][1]-tau*g[0][1]
        W[0][2]=W[0][2]-tau*g[0][2]
        for j in range(10):
            W[1][j]=W[1][j]-tau*g[1][j]
            W[2][j]=W[2][j]-tau*g[2][j]
    print('L\'algorithme n\'a pas convergé.\n Solution atteinte:\n W=',W,'\n Norme du gradient:',normg)
    return W

***Exercice***

Identifier la monotonie de l'algorithme sur les 10 premières itérations, à partir de 

`W=[[0,0,1],[0,0,0,1,0,1,1,0,1,0],[0,1,0,0,0,1,1,0,1,0]]`

pour un pas de :
- $\tau=0.1$  (avec une tolérance de $10^{-10}$ 
- $\tau=1$ (avec une tolérance de $10^{-10}$
- $\tau=2$ (avec une tolérance de $10^{-20}$

In [None]:
#Calculs

*Réponses*


**Exercice**

On considère les paramètres :

`W= [[9.88490731988063, -21.978512228107505, -17.916264438553515], [16.24386006076292, -3.3023394159857937, 0.24495692674969732, -7.396212617646716, -3.593451718087197, -11.160218572484126, 3.377878093346306, -0.18551085358790684, 3.6581958544686723, -7.063699791645382], [7.070278747774737, -5.443080663419691, -3.495868955617516, -0.4833459413778877, 0.640016023480778, -0.4530535245792459, -2.5643255163830485, -4.5732183345557385, -5.341507777305012, 0.4114649638794456]]`
    
Calculer, à l'aide de la fonction `prediction` ci-dessous, la sortie du réseau de neurones pour une valeur $X$ possèdant une diagonale de $1$ et pour une valeur de $X$ ne possédant pas une diagonale de $1$.

In [222]:
def prediction(w,x):
    return sigma(w[0][0]+w[0][1]*sigma(np.dot(w[1],x))+w[0][1]*sigma(np.dot(w[2],x)))

In [None]:
# Calcul


*Commentaire*


### Validation du modèle

**Exercice**

À l'aide de la fonction suivante, déterminer le nombre d'erreurs du réseau de neurones paramétré par le `W` de l'exercice précédent, calculé sur les données de validations.

In [294]:
print('Nombre d\'erreurs sur les données de validation :',
      np.sum([np.abs(round(prediction(W,Xvalid.iloc[i]))-Yvalid.iloc[i])
              for i in range(len(Xvalid)-1)])
     )

Nombre d'erreurs sur les données de validation : 11.0


*Commentaires*


# Utilisation d'une librairie

In [1]:
from sklearn.neural_network import MLPClassifier

In [5]:
N=len(DIAGONAL) # Nombre de données
n=int(2*N/3) # Deux tiers du nombres de données 
X=DIAGONAL.drop(['Y'],axis=1)[0:n] # Données d'apprentissage X
Y=DIAGONAL['Y'][0:n] # Données d'apprentissage Y
Xvalid=DIAGONAL.drop(['Y'],axis=1)[n+1:N] # Données de validation X
Yvalid=DIAGONAL['Y'][n+1:N] # Données de validation Y
nvalid=len(Xvalid)

In [297]:
algo = MLPClassifier(\
    activation='logistic',\
    solver='lbfgs',\
    shuffle=True,\
    hidden_layer_sizes=(2,),\
    max_iter=100000,\
    tol=1e-20)

In [298]:
algo.fit(X,Y)

MLPClassifier(activation='logistic', hidden_layer_sizes=(2,), max_iter=100000,
              solver='lbfgs', tol=1e-20)

In [299]:
Xvalid=Xvalid.drop('X0',axis=1)
print('Score : ',algo.score(Xvalid,Yvalid))

Score :  0.9183673469387755


In [300]:
W=[[algo.intercepts_[1][0]]+[algo.coefs_[1][0][0]]+[algo.coefs_[1][1][0]],\
[algo.intercepts_[0][0]]+[algo.coefs_[0][k][0] for k in range(9)],\
[algo.intercepts_[0][1]]+[algo.coefs_[0][k][1] for k in range(9)]]
print(W)

[[10.005825356855198, -20.933442082898914, -18.229379719444932], [16.475509111440353, -1.1235459856106365, -0.40479028544727247, -5.635772466302118, -2.6192465805984106, -10.874470079488573, 1.2693105488696252, -1.4861173796986051, 1.9417154209051986, -6.948323715699229], [5.819744881735142, -8.882240771610627, -1.1707137593845467, -3.6703598482685695, 0.9601109808892896, -0.45131172489248994, -0.6208498928984283, -3.3369596234133407, -2.607360497554892, 2.0319842887668176]]


In [307]:
print('Nb d\'erreurs :',np.sum(\
             [np.abs(algo.predict([Xvalid.iloc[i]])-Yvalid.iloc[i])\
              for i in range(len(Xvalid)-1)]))
for i in range(len(Xvalid)):
    print('[',[Xvalid.iloc[i][k] for k in range(9)],']',\
          ' Prédiction :',algo.predict([Xvalid.iloc[i]]),' '
          ' Donnée :',Yvalid.iloc[i])

Nb d'erreurs : 4
[ [0, 0, 1, 1, 1, 1, 0, 0, 0] ]  Prédiction : [0]   Donnée : 0
[ [0, 0, 0, 0, 0, 1, 0, 0, 1] ]  Prédiction : [0]   Donnée : 0
[ [0, 0, 1, 1, 1, 1, 0, 0, 1] ]  Prédiction : [0]   Donnée : 0
[ [0, 0, 1, 0, 1, 0, 1, 1, 0] ]  Prédiction : [0]   Donnée : 1
[ [0, 1, 1, 0, 0, 0, 1, 0, 0] ]  Prédiction : [0]   Donnée : 0
[ [0, 0, 0, 1, 1, 1, 1, 0, 1] ]  Prédiction : [0]   Donnée : 0
[ [0, 1, 0, 0, 0, 0, 0, 1, 1] ]  Prédiction : [0]   Donnée : 0
[ [0, 1, 1, 1, 1, 1, 0, 1, 0] ]  Prédiction : [0]   Donnée : 0
[ [1, 1, 0, 0, 1, 0, 1, 1, 1] ]  Prédiction : [1]   Donnée : 1
[ [1, 0, 1, 0, 0, 1, 1, 0, 1] ]  Prédiction : [0]   Donnée : 0
[ [0, 0, 1, 1, 0, 0, 0, 0, 0] ]  Prédiction : [0]   Donnée : 0
[ [1, 1, 1, 1, 1, 0, 1, 1, 1] ]  Prédiction : [1]   Donnée : 1
[ [0, 0, 1, 1, 1, 1, 1, 1, 0] ]  Prédiction : [1]   Donnée : 1
[ [0, 0, 0, 1, 0, 1, 1, 0, 0] ]  Prédiction : [0]   Donnée : 0
[ [0, 1, 0, 0, 0, 1, 0, 0, 0] ]  Prédiction : [0]   Donnée : 0
[ [0, 1, 1, 0, 1, 1, 1, 0, 1] ]  Prédi

### Probabilités

predict_probas donne la probabilité d'être de la première classe (O) et la probabilité d'être de la deuxième classe (1)

In [308]:
for i in range(len(Xvalid)):
    print([Xvalid.iloc[i][k] for k in range(9)],'->',algo.predict_proba([Xvalid.iloc[i]])[0],'Donnée :',Yvalid.iloc[i])

[0, 0, 1, 1, 1, 1, 0, 0, 0] -> [9.99966807e-01 3.31929597e-05] Donnée : 0
[0, 0, 0, 0, 0, 1, 0, 0, 1] -> [1.00000000e+00 2.20389158e-13] Donnée : 0
[0, 0, 1, 1, 1, 1, 0, 0, 1] -> [9.99637563e-01 3.62436626e-04] Donnée : 0
[0, 0, 1, 0, 1, 0, 1, 1, 0] -> [0.94729042 0.05270958] Donnée : 1
[0, 1, 1, 0, 0, 0, 1, 0, 0] -> [9.99996274e-01 3.72632419e-06] Donnée : 0
[0, 0, 0, 1, 1, 1, 1, 0, 1] -> [9.99755840e-01 2.44159886e-04] Donnée : 0
[0, 1, 0, 0, 0, 0, 0, 1, 1] -> [1.00000000e+00 2.95034699e-13] Donnée : 0
[0, 1, 1, 1, 1, 1, 0, 1, 0] -> [0.98159106 0.01840894] Donnée : 0
[1, 1, 0, 0, 1, 0, 1, 1, 1] -> [2.50183668e-04 9.99749816e-01] Donnée : 1
[1, 0, 1, 0, 0, 1, 1, 0, 1] -> [9.99918607e-01 8.13933497e-05] Donnée : 0
[0, 0, 1, 1, 0, 0, 0, 0, 0] -> [1.00000000e+00 4.76334443e-13] Donnée : 0
[1, 1, 1, 1, 1, 0, 1, 1, 1] -> [4.51661469e-05 9.99954834e-01] Donnée : 1
[0, 0, 1, 1, 1, 1, 1, 1, 0] -> [0.02365863 0.97634137] Donnée : 1
[0, 0, 0, 1, 0, 1, 1, 0, 0] -> [1.00000000e+00 6.05032637e-13]