# TP Réseaux de Neurones – Séance 1
## Le perceptron simple

### Objectifs
- Comprendre le parallèle entre neurone biologique et neurone artificiel.
- Implémenter un perceptron en Python.
- L'entraîner sur un petit jeu de données 2D.
- Visualiser la frontière de décision.


## 1. Introduction

Jusqu'au début du XXème siècle, on pensait que notre cerveau fonctionnait à partir de donnée claires pour fournir un résultat clair. Cette vision déterministe (on parle aussi de vision mécaniste) de l'esprit correspond à celle d'un arbre rigide de décision. Cette vision mécaniste à évolué de nos jours et l'on considère que notre cerveau, sur la base de données incomplètes, voire contradictoires, est capable de trouver des moyens de progresser. C'est cette version probabiliste que les réseaux de neurones essayent de modéliser.  
Les réseaux de neurones sont un modèle de calcul qui essaye d'imiter le fonctionnement du cerveau animal où de nombreuses unités simples (neurones biologiques) travaillent en parallèle sans unité de contrôle centralisée.
Nous allons voir comment les premiers chercheurs sont passé du neurone biologique au précurseur des réseaux de neurones : le perceptron.

## 2. Du neurone biologique au neurone artificiel

Un neurone biologique est une cellule nerveuse contenant un soma (corps cellulaire), de nombreuses dendrites (fibres sortant du soma) reliées chacune à un axone d'un neurone voisin, et un seul axone qui peut se ramifier ensuite des centaines de fois pour se connecter à d'autres dendrites. Des synapses sont à la jonction (interface) entre un axone et une dendrite. Un neurone peut envoyer des impulsions électrochimiques qui se déplacent le long de l'axone et activent les connexions synaptiques d'autres neurones.

![Neurone biologique](https://raw.githubusercontent.com/thierrycondamines/enseignements/main/NSI/Neurones/Neurone_biologique.jpeg)

Si, dans l'histoire ancienne, on pensait que le siège de la conscience se situait dans le coeur ou la rate, on a commencé, au XVIIIème siècle, à l'attribuer au cerveau. On a ensuite pu cartographier dès la fin du XIXème siècle le cerveau animal et les outils d'imagerie modernes permettent aujourd'hui de suivre les signaux lorsqu'ils se déplacent entre les neurones.  
C'est la raison pour laquelle l'étude du cerveau animal a poussé les premiers chercheurs en informatique à envisager la possibilité d'une intelligence artificielle, en particulier en essayant de copier le cerveau biologique. C'est ainsi qu'est apparu en 1957, au laboratoire aéronautique de la société Cornell aux Etats-Unis, le premier neurone artificiel appelé Perceptron et inventé par Frank Rosenblatt. Cette découverte a été qualifiée à l'époque par le New York Times d'"embryon d'un ordinateur électronique que la Navy attend et qui sera capable de marcher, parler, voir, écrire, se reproduire et être conscient de son existence".
Ce modèle de neurone fut implémenté pour la première fois dans l'IBM 704 et, plus tard, dans la Mark I Perceptron qui avait été conçue poru la reconnaissance d'images à des fins militaires pour la Navy.
Mais ces travaux doivent beaucoup aux travaux de McCulloch et Pitts qui ont introduit, en 1943, le concept de base de l'activité neuronale à partir de notions de seuils et de sommes pondérées. Cela les a conduit à créer une unité logique de seuil (TLU) qui pouvait apprendre les fonctions logiques ET et OU.
### 1.1. Définition du perceptron

Le but est de pouvoir classifier un jeu de données, c'est à dire de trouver un hyperplan qui sépare ces données en deux classe. Bien entendu ce n'est pas toujours possible. Lorsque c'est possible on parle d'un jeu de données linéairement séparable.
Le perceptron (ou perceptron monocouche) est un classifieur binaire d'un modèle linéaire à n entrées et une sortie. Plus précisément, si on considère $n$ entrées $x_i$ (issues des dendrites) et $n$ poids synaptiques $w_i$ associés à chaque entrée, on fait la somme pondérée des $n$ entrées que l'on envoie à une fonction d'activation avec un seuil défini. Historiquement on utilise une fonction de Heaviside. Cette fonction génère en sortie une valeur binaire unique (0 ou 1) selon l'entrée et caractérisant ainsi une classe : 
$$
\forall x \in \mathbb{R}, H(x) = \left\{
    \begin{array}{ll}
        0 & \mbox{si } x < 0 \\
        1 & \mbox{si } x \geq 0 \\
    \end{array}
\right.
$$
Pour simplifier nos algorithmes nous allons modifier cette fonction en une fonction qui retourne -1 ou 1 (fonction signe) :
$$
\forall x \in \mathbb{R}, signe(x) = \left\{
    \begin{array}{ll}
        -1 & \mbox{si } x < 0 \\
        1 & \mbox{si } x \geq 0 \\
    \end{array}
\right.
$$
La sortie du perceptron est alors :
$$
y = signe(\sum_i w_i.x_i)
$$
![Perceptron monocouche](https://raw.githubusercontent.com/thierrycondamines/enseignements/main/NSI/Neurones/perceptron.png)

### 1.2 Algorithme d'apprentissage
Le principe d'apprentissage d'un neurone artificiel est de modifier les poids jusqu'à ce que tous les enregistrements d'entrée soient correctement classifiés. Si l'entrée n'est pas linéairement séparable l'algorithme ne se termine pas. 

Il existe plusieurs algorithmes d'apprentissage. Considérons un jeu de données labellisées $D = \{(X_1,y_1), ..., (X_k,y_k)\}$ où les $X_i$ sont des vecteurs d'entrées et les $y_i$ sont leur classe. Comme on est dans le cas d'un classifieur binaire, on prendra par convention $y_i \in \{-1, 1\}$. On parle de jeux de données labellisées car on sait, pour chaque vecteur du jeu, à quelle classe il appartient. Le but est ensuite, une fois l'apprentissage fait à partir de ce jeu connu, de pouvoir classifier des données inconnues.
Prenons un vecteur de poids $W = (w_1, ..., w_n)^T$ choisi aléatoirement (plutôt des petites valeurs), pour chaque vecteur d'entrée du jeu de données d'apprentissage $X_i = (x_{i,1}, ..., x_{i,n})^T$, la sortie du perceptron correspond à $\hat y_i=signe(W.X_i)$. On peut alors avoir 3 cas de figure :
- $\hat y_i = y_i$ : l'exemple i est bien classé, on ne modifie pas $W$;
- $\hat y_i = 1$ alors que $y_i = -1$ : on diminue les valeurs des poids afin de diminuer le produit saclaire $W.X_i$;
- $\hat y_i = -1$ alors que $y_i = 1$ : on augmente les valeurs des poids afin d'augmenter le produit saclaire $W.X_i$;

On utilise la règle de mise à jour des poids suivante :
$$ W \leftarrow W + \eta.(y_i - \hat y_i).X_i$$
où $\eta$ est un paramètre appelé taux (ou pas) d'apprentissage (learning rate) qui permet de régler l'amplitude de la mise à jour.
On peut remarquer que, dans notre cas, $y_i - \hat y_i \in \{-2,0,2\}$.
D'où l'algorithme d'apprentissage :
- nbDonnéesMalClasses = 1
- Tant que nbDonnéesMalClasses $\neq 0$ ET que le nombre d'itération max n'est pas atteint
  - nbDonnéesMalClasses = 0
  - Pour chaque donnée X_i
    - calculer $\hat y_i$
    - Si $\hat y_i \neq y_i$ alors
      - nbDonnéesMalClasses = nbDonnéesMalClasses + 1
      - On met à jour les poids $ W \leftarrow W + \eta.(y_i - \hat y_i).X_i$
  - On incrémente le nombre d'itération

## 3. Premier test du perceptron

### 3.1. Génération d’un jeu de données

In [None]:
import numpy as np
import matplotlib.pyplot as plt

# Créons deux nuages de points
np.random.seed(0)
class0 = np.random.randn(50, 2) + np.array([-2, 2])
class1 = np.random.randn(50, 2) + np.array([2, -2])

X = np.vstack((class0, class1))
y = np.array([-1]*50 + [1]*50)

# Affichage
plt.scatter(X[:,0], X[:,1], c=y, cmap='bwr')
plt.xlabel("x1")
plt.ylabel("x2")
plt.title("Jeu de données")
plt.show()

### 3.2. Initialisation des paramètres

In [None]:
# Initialisons les poids w avec des valeurs aléatoires
w = np.random.randn(2)

### 3.3. Fonction d’activation

In [None]:
def signe(x):
    return -1 if x<0 else 1

### 3.4. Prédiction

In [None]:
def predict(X, w):
    return signe(np.dot(X, w))

### 3.5. Apprentissage

In [None]:
#TODO 

lr = 0.1        # Learning rate
iteMax = 1000   # Nombre maximum d'itération
...


### 3.6. Visualisation de la frontière de décision

In [None]:
x1_min, x1_max = X[:,0].min()-1, X[:,0].max()+1
x2_min, x2_max = X[:,1].min()-1, X[:,1].max()+1
xx1, xx2 = np.meshgrid(np.linspace(x1_min,x1_max,100),
                       np.linspace(x2_min,x2_max,100))
grid = np.c_[xx1.ravel(), xx2.ravel()]
preds=[]
for i in range(len(grid)):
    preds.append(predict(grid[i], w))
preds = np.array(preds)
preds = preds.reshape(xx1.shape)

plt.contourf(xx1, xx2, preds, levels=[-1,0,1], cmap="bwr", alpha=0.2)
plt.scatter(X[:,0], X[:,1], c=y, cmap="bwr", edgecolors="k")
plt.xlabel("x1"); plt.ylabel("x2")
plt.title("Frontière de décision du perceptron")
plt.show()

### 3.7. Remarques

- Les droites de séparations susceptibles d’être trouvées par l’algorithme du perceptron sont de la forme : $w_1.x+w_2.y=0$. Elles passent donc toutes par l'origine.
- Si les données ne sont pas séparables par une droite passant par l’origine, l’algorithme ne pourra pas déterminer une droite de séparation des données. Elles pourraient toutefois être séparées par une droite ne passant pas par l'origine.

Pour remédier à ce problème, on ajoute au produit scalaire $W.X$ un paramètre b indépendant des entrées. Ce paramètre est appelé biais. Pour faciliter les calculs, on place ce biais dans le vecteur de poids, par exemple comme le poids $w_0$, et on rajoute une composante $X_0=1$ dans le vecteur $X$.
L'algorithme d'apprentissage va alors devoir trouver, en plus des bons poids, le bon biais.

## 4. Perceptron avec biais

### 4.1. Génération d'un jeu de données

In [None]:

import numpy as np
import matplotlib.pyplot as plt

# Créons deux nuages de points
np.random.seed(0)
class0 = np.random.randn(50, 2)
class1 = np.random.randn(50, 2) + np.array([4, 4])

X = np.vstack((class0, class1))
y = np.array([-1]*50 + [1]*50)

# On insere un 1 en 1ere composante (composante 0) pour tous les X_i
un = np.array([1]*100)
X = np.insert(X,0,un,axis=1)

# Affichage
plt.scatter(X[:,1], X[:,2], c=y, cmap='bwr')
plt.xlabel("x1")
plt.ylabel("x2")
plt.title("Jeu de données")
plt.show()

### 4.2. Initialisation des paramètres

On rajoute une composante biais en 1ere position $w_0$.

In [None]:
# Initialisons les poids w avec des valeurs aléatoires
w = np.random.randn(3)

### 4.2. Apprentissage

L'algorithme est le même ...

In [None]:
lr = 0.1        # Learning rate
iteMax = 1000   # Nombre maximum d'itération

...

### 4.3. Visualisation de la frontière de décision

In [None]:
x1_min, x1_max = X[:,1].min()-1, X[:,1].max()+1
x2_min, x2_max = X[:,2].min()-1, X[:,2].max()+1
xx1, xx2 = np.meshgrid(np.linspace(x1_min,x1_max,100),
                       np.linspace(x2_min,x2_max,100))
grid = np.c_[xx1.ravel(), xx2.ravel()]
un = np.array([1]*len(grid))
grid = np.insert(grid,0,un,axis=1)
preds=[]
for i in range(len(grid)):
    preds.append(predict(grid[i], w))
preds = np.array(preds)
preds = preds.reshape(xx1.shape)

plt.contourf(xx1, xx2, preds, levels=[-1,0,1], cmap="bwr", alpha=0.2)
plt.scatter(X[:,1], X[:,2], c=y, cmap="bwr", edgecolors="k")
plt.xlabel("x1"); plt.ylabel("x2")
plt.title("Frontière de décision du perceptron")
plt.show()

On peut remarquer ici que la frontière de décision ne passe pas par l'origine. Sa détermination est rendue possible grâce au biais introduit.

### 4.4. Remarques
- On peut prouver (Théorème de Novikoff) que cette méthode converge en un nombre fini d'itérations pour un learning rate $\eta$ assez petit et des données linéairement séparables.
- Si les données ne sont pas linéairement séparables la convergence n'est pas assurée.

## 5. Perceptron avec règle Delta et fonction de coût

Nous avons vu qu'on pouvait trouver une solution au problème de classification lorsque les données sont séparables mais que l'algorithme pouvait ne pas converger lorsque les données ne sont pas linéairement séparables. Dans ce cas, une modification de l'algorithme, appelée règle Delta, permet de converger vers la meilleure solution possible. Cette méthode repose sur une minimisation d'une fonction d'erreur.

Qui dit recherche d'un minimum, dit calcul de dérivée et donc fonctions dérivables. C'est la raison pour laquelle nous n'allons plus prendre comme fonction d'activation la fonction signe qui n'est pas dérivable mais une autre fonction fréquemment utilisée comme seuil : la fonction sigmoïde : $$s(x) = \frac{1}{1+e^{-x}}$$
Une autre fonction d'activation souvent utilisée est la fonction $tanh$ qui a l'avantage d'être à valeur dans [-1,1] et donc de prendre en compte les négatifs contrairement à la sigmoïde qui est à valeurs dans [0,1].

### 5.1. Jeu de données d'apprentissage

In [None]:
import numpy as np
import matplotlib.pyplot as plt

# Créons deux nuages de points
np.random.seed(0)
# Demi-lunes
n=200
noise=0.2
n2 = n // 2
t = np.random.rand(n2) * np.pi
X1 = np.c_[np.cos(t), np.sin(t)] + noise * np.random.randn(n2, 2)
X2 = np.c_[1 - np.cos(t), -np.sin(t) - 0.5] + noise * np.random.randn(n2, 2)
X = np.vstack([X1, X2])
y = np.array([0]*n2 + [1]*n2)

# On insere un 1 en 1ere composante (composante 0) pour tous les X_i
X = np.c_[np.ones(len(X)), X]

# Affichage
plt.scatter(X[:,1], X[:,2], c=y, cmap='bwr')
plt.xlabel("x1")
plt.ylabel("x2")
plt.title("Jeu de données")
plt.show()

### 5.2. Initialisation des poids/biais
Pour ne pas "saturer" la sigmoïde, on veillera ici à prendre des poids assez petits.

In [None]:
# Initialisons les poids w avec des valeurs aléatoires
w = 0.01*np.random.randn(3)

### 5.3. Fonction d'activation

In [None]:
def sigmoid(z):
    return 1 / (1 + np.exp(-z))

### 5.5. Prédiction

In [None]:
def predict(X, w):
    return sigmoid(np.dot(X, w))

### 5.6. Fonction de coût/perte : l’entropie croisée (binary cross-entropy ou BCE)
Le but ici est de mesurer l'erreur en sortie entre la valeur exacte (connue pour un jeu de données d'entrainement) et la valeur obtenue par prédiction. On pourrait bien entendu utiliser une erreur quadratique (Mean Squared Error ou MSE). Si elle est plus simple à formuler, elle n'est pas adaptée à la classification binaire du perceptron avec sigmoïde. On va, au contraire, utiliser l'entropie croisée (Binary Cross-Entropy ou BCE) :
$$E(W,D) = -\frac{1}{N}\sum(y_i.log(\hat y_i)+(1-y_i).log(1-\hat y_i))$$
Il y a plusieurs raisons à cela :
- La BCE colle statistiquement à notre problème de classification binaire avec des étiquettes 0/1 (Maximum de vraissemblance de Bernoulli) alors que la MSE est mal adaptée à la classification;
- le gradient est de meilleur qualité même lorsque la sigmoïde est proche de 0 ou 1, tandis qu'avec MSE, un gradient quasi nul ralenti fortement l'apprentissage (descente de gradient);
- avec BCE, la perte/erreur est convexe en W ce qui donne un unique optimum global, tandis qu'avec MSE et sigmoïde la perte n'est pas convexe ce qui complique l'optimisation;
- BCE pénalise plus fortement les erreurs importantes (pour $y=1$ et $\hat y = 0,01$ la perte est de l'ordre de 4,6 avec BCE mais que 0,5 environ avec MSE), d'où des corrections plus franches.

Pour un perceptron à sigmoïde, l'entropie croisée permet un apprentissage plus rapide, plus stable et statistiquement correct pour des cibles binaires.
Pour éviter les $log(0)$ on rajoute en général un $\epsilon$ très petit:
$$E(W,D) = -\frac{1}{N}\sum(y_i.log(\hat y_i + \epsilon)+(1-y_i).log(1-\hat y_i +\epsilon))$$

In [None]:
def perte(y_true, y_pred):
    eps = 1e-9
    return -np.mean(y_true*np.log(y_pred+eps) + (1-y_true)*np.log(1-y_pred+eps))

### 5.4. Apprentissage (descente de gradient)
Nous allons chercher les poids et biais qui minimisent la fonction coût ci-dessus. Appelons $w_1$ et $w_2$ les deux poids de notre perceptron à 2 entrées, et $b$ son biais. Notons toujours $\hat y$ sa sortie pour une entrée donnée x, et $y$ la sortie réelle attendue. Soit $v = w_1.x_1+w_2.x_2+b$, on a $\hat y = s(v)$. Pour calculer les poids et biais qui minimisent E, nous allons dériver E par rapports à ces mêmes poids et biais. Pour simplifier les écritures, nous allons considérer l'erreur pour une seule entrée : $E(W)=y.log(\hat y)+(1-y).log(1-\hat y)$. On a alors :
$$\frac{\partial E}{\partial w_i} = \frac{\partial E}{\partial v}.\frac{\partial v}{\partial w_i}$$
Or : $$\frac{\partial E}{\partial v}=\frac{\partial E}{\partial \hat y}.\frac{\partial \hat y}{\partial v}$$
avec :
$$\frac{\partial E}{\partial \hat y}=-\frac{y}{\hat y}+\frac{1-y}{1- \hat y}=\frac{\hat y - y}{\hat y . (1- \hat y)}$$
et :
$$\frac{\partial \hat y}{\partial v} = \frac{s(v)}{\partial v} = \hat y . (1- \hat y)$$
d'où : $$\frac{\partial E}{\partial v}= \hat y - y = \delta$$
Voici le fameux Delta de la règle qui porte son nom. Etant donné que $\frac{\partial v}{\partial w_i} = x_i$, on en déduit :
$$\frac{\partial E}{\partial w_i} = \frac{\partial E}{\partial v}.\frac{\partial v}{\partial w_i} = - \delta . x_i$$
et 
$$\frac{\partial E}{\partial b} = \frac{\partial E}{\partial v}.\frac{\partial v}{\partial b} = - \delta$$
La méthode de descente de gradient nous indique que pour aller vers le minimum, il faut prendre la direction opposée au gradient avec un pas pas trop grand (paramétré par le learning rate) :
$$\Delta w_i = - \eta. \frac{\partial E}{\partial w_i} = - \eta.\delta.x_i$$
et $$\Delta b = - \eta. \frac{\partial E}{\partial b} = - \eta.\delta$$
Pour un jeu de N données, nous avions pris une erreur globale moyenne des erreurs sur chaque donnée du jeu : $$E(W,D) = -\frac{1}{N}\sum(y_i.log(\hat y_i + \epsilon)+(1-y_i).log(1-\hat y_i +\epsilon))$$
Il faudra donc faire une moyenne des $\delta^{(k)}$ correspondant à chaque entrée $x^{(k)}$ de notre jeu de données. Et si on intègre le biais comme première composante du vecteur poids W, et nos entrées X avec 1 en première composante, on a alors :
$$w_i \leftarrow w_i + \Delta w_i = w_i - \eta . \frac{1}{N} \sum_{k=1}^{N}. \delta^{(k)} . x^{k}_i $$ où $\delta^{(k)} = \hat y^{(k)} - y^{(k)}$.

In [None]:

lr = 0.1
iteMax = 1000
pertes = []

for ite in range(iteMax):
    # prédiction
    ...
    
    # perte
    ...
    
    # gradients
    ...
    
    # mise à jour
    ...

plt.plot(pertes)
plt.xlabel("Itérations")
plt.ylabel("Perte")
plt.title("Évolution de la fonction de coût")
plt.show()

### 5.5. Visualisation de la frontière de décision

In [None]:
x1_min, x1_max = X[:,1].min()-1, X[:,1].max()+1
x2_min, x2_max = X[:,2].min()-1, X[:,2].max()+1
xx1, xx2 = np.meshgrid(np.linspace(x1_min,x1_max,100),
                       np.linspace(x2_min,x2_max,100))
grid = np.c_[xx1.ravel(), xx2.ravel()]
un = np.array([1]*len(grid))
grid = np.insert(grid,0,un,axis=1)
preds=[]
for i in range(len(grid)):
    preds.append(predict(grid[i], w))
preds = np.array(preds)
preds = preds.reshape(xx1.shape)

plt.contourf(xx1, xx2, preds, levels=[0,0.5,1], cmap="bwr", alpha=0.2)
plt.scatter(X[:,1], X[:,2], c=y, cmap="bwr", edgecolors="k")
plt.xlabel("x1"); plt.ylabel("x2")
plt.title("Frontière de décision du perceptron")
plt.show()

## 6. Exercices supplémentaires
1. Changer le taux d’apprentissage et observer l’effet.   
2. Modifier la position des classes pour tester la robustesse du perceptron.
