R√©seau de neurones √† une couche

Soit le jeu de donn√©es (X, y).

Le r√©seau de neurones a une couche est d√©fini par: $\hat{y} = f(W X + B)$

Avec:

 - W: poids des neurones
 - B: biais
 - f: fonction d'activation non lin√©aire
 

Dans le cas d'une r√©gression, 
 
On cherche √† minimiser l'erreur E:

 - Mean Square Error (r√©gression): $E = \frac{1}{2}(y - \hat{y})^2$
 - Cross-Entropy: $L_W(\hat(y), y) = -\sum y_c log(\hat{y}_c) = -log(\hat{y}_{c^*}) $
 - Divergence de Kullback-Leibler

On va minimiser par **descente de gradient**:

$W^h = W^{h-1} - \epsilon \frac {\partial E} {\partial W^{h-1}}$

On calcule les d√©riv√©es partielles (chain rule):

$\frac {\partial E} {\partial W^{h-1}} = \frac {\partial E} {\partial W^{h-1}} \frac {\partial E} {\partial W^{h-1}}$


In [None]:
!ls iris.data || wget https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data
! curl https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data -o iris.data

In [None]:
import pandas as pd
import numpy as np

In [None]:
data = pd.read_csv("iris.data", header=None, names=["sepal length", "sepal width", "petal length", "petal width", "class"], dtype={"class": 'category'})

In [None]:
# Transforme une sortie en une distribution de probabilit√©
def softmax(s):
    return np.exp(s)/np.sum(np.exp(s))

In [None]:
# Sigmoid
def ùúé(x):
    return 1/(1+np.exp((-x).tolist()))

In [None]:
num_features = data.shape[1] - 1
categories = data["class"].cat.categories.to_numpy()
num_class = len(categories)
W = np.random.random((num_class, num_features))
# Biais
W_b = np.random.random((num_class,))

## Forward

In [None]:
x = data.iloc[0][:4].to_numpy().astype('float64')
h = W @ x + W_b
# Fonction d'activation
s = ùúé(h)
≈∑ = softmax(s)
≈∑

In [None]:
y = categories == data.iloc[0]["class"]
i = np.argmax(y)
error = np.sum((y - ≈∑)**2)
error

## Backward / R√©tropropagation de l'erreur

On cherche √† minimiser l'erreur. Pouce faire, on va utiliser une descente de gradient.

L'erreur est √©gale √†:
$
\epsilon = \frac {1} {2} ||≈∑ - model(x)||^2
$

Et sa d√©riv√©e:
$
\delta_\epsilon = \frac {d¬†\epsilon} {d W} = \frac {\frac {1} {2} ||≈∑ - model(x)||^2} {d W}
$

Pour calculer ce r√©sultat, nous allons utiliser la **d√©rivation de fonctions compos√©es** *(f ‚ó¶ g ‚ó¶ h)(z)* ou "chain rule" en anglais:

$
\delta_\epsilon = \frac {\frac {1} {2} ||≈∑ - y||^2} {d y} * \frac {d softmax(s)} {d s} * \frac {d \sigma(h)} {d h} * \frac {W * x + W_b} {W}
$

Avec:
 * $ \frac {\frac {1} {2} ||≈∑ - y||^2} {d y} = ||≈∑ - y||$
 * $ \frac {d \sigma(h)} {d h} = \sigma(h)(1‚àí\sigma(h))$
 * $ \frac {d W * x + W_b} {d W} = x$
 
La [d√©riv√©e de softmax][1] est un peu compliqu√©e √† calculer. On peut simplifier le calcul en utilisant comme fonction d'erreur l'entropie crois√©e $\mathcal{L}(y, p) = - \sum_i y_i log(p_i)$. Comme $y_i$ vaut 1 seulement pour la classe consid√©r√©e, on obtient pour la [d√©riv√©e de softmax avec l'entropie crois√©e](https://deepnotes.io/softmax-crossentropy):

$ \frac {\mathcal{L}(y, ≈∑)} {d y} * \frac {d softmax(s)} {d s} = \hat{y}_i - y_i$


R√©f√©rence:
 * [1](https://towardsdatascience.com/derivative-of-the-softmax-function-and-the-categorical-cross-entropy-loss-ffceefc081d1)
 * [2](https://deepnotes.io/softmax-crossentropy)

In [None]:
ùõø = np.transpose(x.reshape((1,-1))) @ ((≈∑[i] - 1) * (ùúé(h) * (1 - ùúé(h)))).reshape((1,-1))
ùõø

Pour effectuer une descente de gradient, nous allons soustraire le gradient calcul√© au param√®tre du mod√®le selon un hyperparam√®tre $\alpha$ appell√© le taux d'apprentissage:

In [None]:
ùõº = 0.05
W -= ùõº * ùõø.T
W

In [None]:
h = W @ x + W_b
# Fonction d'activation
s = ùúé(h)
≈∑ = softmax(s)
error = np.sum((y - ≈∑)**2)
error