# Description d'un neurone

Un neurone est une fonction pondérée de la forme :  

$$
z = w_1 \cdot x_1 + w_2 \cdot x_2 + b
$$

où $w_n$ est un poids et $b$ un biais.  
Un neurone peut avoir plusieurs entrées. Ici, nous en avons deux.

L'objectif est d'ajuster les poids ainsi que le biais afin d'obtenir la sortie attendue.  
Notons $t$ (*target*) la sortie attendue et $y$ la valeur calculée par le neurone.

La valeur calculée n'est pas directement la sortie de l'équation décrite au début : elle est le résultat d'une fonction d’activation.  
Nous allons utiliser une fonction d’activation classique : la **sigmoïde**, notée $\sigma(x)$.

Nous avons donc :

$$
y = \sigma(z) = \frac{1}{1 + \exp(-z)}
$$

> **Note :**  
> La fonction sigmoïde (notée $\sigma$) est très utilisée en classification binaire.
> - Elle transforme toute valeur réelle en une valeur comprise entre **0 et 1**.
> - Elle est **continue et dérivable** partout.
> - Sa dérivée s’écrit :
>   $$
>   \sigma'(z) = \sigma(z)(1 - \sigma(z))
>   $$
> - Comme la sortie est comprise entre 0 et 1, on peut interpréter la sortie d’un neurone sigmoïde comme une **probabilité** d’appartenir à la classe 1.

Afin de comparer la valeur calculée par le neurone à la valeur attendue, nous utilisons une fonction d’erreur :

$$
E = \frac{1}{2} (y - t)^2
$$

Il s’agit d’une fonction quadratique. L’objectif est de minimiser cette erreur.  
Nous pouvons le faire grâce à la **descente de gradient**.

> **Note :**  
> En pratique, on préfère souvent utiliser la combinaison *sigmoïde + entropie croisée*,  
> mais pour cette première approche, nous utilisons l’erreur quadratique afin de simplifier les calculs.

## Calcul des dérivées

Pour appliquer la descente de gradient, nous utilisons la règle de la chaîne.  
Nous cherchons à minimiser l’erreur par rapport à $w_1$, $w_2$ et $b$.

Nous calculons donc :

$$
\frac{\partial E}{\partial w_1}
=
\frac{\partial E}{\partial y}
\cdot
\frac{\partial y}{\partial z}
\cdot
\frac{\partial z}{\partial w_1}
$$

$$
\frac{\partial E}{\partial w_2}
=
\frac{\partial E}{\partial y}
\cdot
\frac{\partial y}{\partial z}
\cdot
\frac{\partial z}{\partial w_2}
$$

$$
\frac{\partial E}{\partial b}
=
\frac{\partial E}{\partial y}
\cdot
\frac{\partial y}{\partial z}
\cdot
\frac{\partial z}{\partial b}
$$

Avec :

$$
\frac{\partial E}{\partial y} = y - t
$$

$$
\frac{\partial y}{\partial z} = y (1 - y)
$$

$$
\frac{\partial z}{\partial w_1} = x_1
$$

$$
\frac{\partial z}{\partial w_2} = x_2
$$

$$
\frac{\partial z}{\partial b} = 1
$$

## Expression finale des gradients

Nous obtenons finalement :

$$
\frac{\partial E}{\partial w_1}
=
(y - t) \cdot y \cdot (1 - y) \cdot x_1
$$

$$
\frac{\partial E}{\partial w_2}
=
(y - t) \cdot y \cdot (1 - y) \cdot x_2
$$

$$
\frac{\partial E}{\partial b}
=
(y - t) \cdot y \cdot (1 - y)
$$

## Mise à jour des paramètres

Une fois les dérivées calculées pour chaque poids et pour le biais, nous pouvons ajuster les paramètres du neurone et réitérer l’opération jusqu’à obtenir une réponse correcte.  
Le neurone aura alors terminé son apprentissage.

La mise à jour des paramètres s’effectue selon la règle :

$$
w_{\text{next}} = w_{\text{current}} - \eta \cdot \frac{\partial E}{\partial w_{\text{current}}}
$$

où $\eta$ est le **taux d’apprentissage** (*learning rate*).


# Neurone — fiche synthèse

## Modèle

On considère un neurone à deux entrées :

- $z = w_1 x_1 + w_2 x_2 + b$
- $y = \sigma(z)$
- $E = \frac{1}{2}(y - t)^2$

avec :
- $w_1, w_2$ : poids  
- $b$ : biais  
- $t$ : cible (*target*)  
- $y$ : sortie du neurone  

---

## Sigmoïde

$\sigma(z) = \frac{1}{1 + e^{-z}}$

Propriétés utiles :

- sortie dans $[0,1]$
- interprétable comme une probabilité
- dérivée simple :  
  $\sigma'(z) = \sigma(z)(1-\sigma(z))$

Donc :

- $\frac{\partial y}{\partial z} = y(1-y)$

---

## Descente de gradient

Objectif : minimiser $E$ par rapport à $w_1$, $w_2$ et $b$.

Règle de la chaîne :

$\frac{\partial E}{\partial w} =
\frac{\partial E}{\partial y}
\frac{\partial y}{\partial z}
\frac{\partial z}{\partial w}$

Dérivées intermédiaires :

- $\frac{\partial E}{\partial y} = y - t$
- $\frac{\partial y}{\partial z} = y(1-y)$
- $\frac{\partial z}{\partial w_1} = x_1$
- $\frac{\partial z}{\partial w_2} = x_2$
- $\frac{\partial z}{\partial b} = 1$

---

## Gradients finaux

| Paramètre | Gradient |
|-----------|----------|
| $w_1$ | $(y - t)\, y(1-y)\, x_1$ |
| $w_2$ | $(y - t)\, y(1-y)\, x_2$ |
| $b$   | $(y - t)\, y(1-y)$ |

---

## Mise à jour

$w \leftarrow w - \eta \, \frac{\partial E}{\partial w}$

où $\eta$ est le taux d’apprentissage.

---

### Note personnelle

En pratique :  
on préfère **sigmoïde + entropie croisée**, car le gradient se simplifie en :

$\frac{\partial E}{\partial z} = y - t$

Mais ici on garde l’erreur quadratique pour la pédagogie.


# Exemple pratique, un ET logique

- Notre neurone va devoir repondre a la question:

| x0 | x1 | t |
|----|----|---|
| 0  | 0  | 0 |
| 0  | 1  | 0 |
| 1  | 0  | 0 |
| 1  | 1  | 1 |

- Nous allons prendre comme valeur de départ:
  - $w_0 = 0.5$
  - $w_1 = 0.5$
  - $b  = - 0.5$ 


In [27]:
# Valeurs initiales
n = 0.0001

0.0001

In [5]:
function sigmoid(z)
    1 / (1 + exp(-z)) 
end

sigmoid (generic function with 1 method)

In [28]:
# Le but de cette fonction est de calculer les prochaines valeurs des poids et du biais
function one_step(w0, w1, b, x0, x1, t, n)
    z = w0 * x0 + w1 * x1 + b
    y = sigmoid(z)

    δ = (y - t) * y * (1 - y)
    
    w0 - n * δ * x0, w1 - n * δ * x1, b - n * δ
end

one_step (generic function with 1 method)

In [29]:
# Premier pas en prenant la premiere ligne du AND
w0, w1, b = one_step(0.5, 0.5, -0.5, 0, 0, 0, n)

(0.5, 0.5, -0.5000088723458674)

In [30]:
# Second pas en prenant la seconde ligne
w0, w1, b = one_step(w0, w1, b, 0, 1, 0, n)

(0.5, 0.4999875000554524, -0.500021372290415)

In [31]:
# Troisieme pas en prenant la troisieme 
w0, w1, b = one_step(w0, w1, b, 1, 0, 0, n)

(0.49998750013357823, 0.4999875000554524, -0.5000338721568367)

In [32]:
# Et enfin dernier pas de la premiere iteration avec la derniere ligne
w0, w1, b = one_step(w0, w1, b, 1, 1, 1, n)

(0.4999963729325061, 0.49999637285438026, -0.5000249993579088)

In [40]:
data = [
    (0, 0, 0),
    (0, 1, 0),
    (1, 0, 0),
    (1, 1, 1)]

function one_iteration(w0, w1, b, data, n)
    println("n = ", n)
    for (x0, x1, t) in data
        println("avant: ", w0, " ", w1, " ", b)
        w0, w1, b = one_step(w0, w1, b, x0, x1, t, n)
        println("apres: ", w0, " ", w1, " ", b)
    end

    return w0, w1, b
end

one_iteration (generic function with 1 method)

In [41]:
one_iteration(0.5, 0.5, -0.5, data, n)

n = 0.0001
avant: 0.5 0.5 -0.5
apres: 0.5 0.5 -0.5000088723458674
avant: 0.5 0.5 -0.5000088723458674
apres: 0.5 0.4999875000554524 -0.500021372290415
avant: 0.5 0.4999875000554524 -0.500021372290415
apres: 0.49998750013357823 0.4999875000554524 -0.5000338721568367
avant: 0.49998750013357823 0.4999875000554524 -0.5000338721568367
apres: 0.4999963729325061 0.49999637285438026 -0.5000249993579088


(0.4999963729325061, 0.49999637285438026, -0.5000249993579088)