# Semaine 11 - Réseau de neurones de base

Cette semaine nous allons écrire un réseau de neurones de base, que nous allons entraîner afin qu'il inverse des séquences de bits. Si vous réussissez à l'implémenter, vous pourrez ensuite vous amuser à l'utiliser sur d'autres types de données

## Importations et initialisations de variables

Nous n'allons utiliser que numpy pour cet exercice

In [1]:
import numpy as np

Nous avons un réseau à deux couches (l'input ne comptant pas pour une couche). Nous allons utiliser 300 séquences de bits pour l'entraînement.

In [2]:
# Nb de neurones sur chaque couche
n_in = 10
n_hidden = 8
n_out = 10

# Nb de 'training examples'
m = 300

In [3]:
alpha = 1  # Learning rate
epochs = 200  # nb iterations du gradient descent

## Définition des fonctions d'activation

Nous utiliserons la fonction tanh pour l'activation de la "hidden layer", et la sigmoïde pour la dernière couche. Implémentez-les si elle n'existent pas déjà dans numpy. Implémentez aussi la dérivée de l'une ou l'autre d'entre elles, le cas échéant.
Attention! Les fonctions doivent pouvoir traiter des vecteurs ou des matrices en effectuant l'opération sur chaque élément de ces derniers.

In [4]:
def sigmoid(x, derivative=False):
    if (derivative == True):
        return x * (1 - x)
    return 1 / (1 + np.exp(-x))



In [5]:
# Dérivée de tanh
def tanh(x, derivative=False):
    if (derivative == True):
        return (1 - (x ** 2))
    return np.tanh(x)

In [6]:
Z = np.array([10, 0.2, -1])

print(tanh(Z, derivative=True))

[-99.     0.96   0.  ]


## Entraînement du réseau de neurones

Nous allons écrire une fonction qui fait une activation puis une rétropropagation, puis renvoie l'erreur (loss) et le gradient (toutes ces variables qui commencent par d...). L'itération sur les 200 epochs se fera dans un deuxième temps.


Question, pourquoi b1 et b2 (les biaised unites), sont des matrices initalizées a 0
Les dimensoins des matrices d'input ect sont bien inversées pour les NN car ca rend les calculs plus simples

        # Backpropagation
        delta3 = probs
        delta3[range(num_examples), y] -= 1
        dW2 = (a1.T).dot(delta3)
        db2 = np.sum(delta3, axis=0, keepdims=True)
        delta2 = delta3.dot(W2.T) * (1 - np.power(a1, 2))
        dW1 = np.dot(X.T, delta2)
        db1 = np.sum(delta2, axis=0)

        # Add regularization terms (b1 and b2 don't have regularization terms)
        dW2 += reg_lambda * W2
        dW1 += reg_lambda * W1

        # Gradient descent parameter update
        W1 += -epsilon * dW1
        b1 += -epsilon * db1
        W2 += -epsilon * dW2
        b2 += -epsilon * db2
        
 alors que pour calculer delta ANg fait delta3 = W3(transposed).delta4 .* g'(Z3)
 et pas de trace des biased units

In [26]:
def train(X, Y, W1, W2, b1, b2):
    loss_history = []
    m = X.shape[1]
    
    for epoch in range(epochs):
        # Forward
        Z2 = np.transpose(W1).dot(X) + b1
        A2 = tanh(Z2)
        Z3 = np.transpose(W2).dot(A2) + b2
        A3 = sigmoid(Z3)

        # Backward
        delta3 = A3 - Y
#         print(delta3.shape)
#         print(A2.shape)
#         dW2 = A2.T.dot(delta3)
#         dW2 = np.dot(delta3, A2.T) / m
        dW2 = A2.dot(delta3.T) / m
        db2 = np.sum(delta3) / m
        delta2 = W2.dot(delta3) * sigmoid(A2, derivative=True)
#         print(delta2.shape)
#         print(X.shape)
        dW1 = X.dot(delta2.T) / m
        db1 = np.sum(delta2) / m
#     print(A3 - Y)

        # Parameter update (use the learning rate alpha here!)
#         print(dW2.shape)
#         print(W2.shape)
        
        W1 += -alpha * dW1
        b1 += -alpha * db1
        W2 += -alpha * dW2
        b2 += -alpha * db2
    
        # Compute loss
        loss = np.sum(delta3)
        
        
        loss_history.append(loss)
#         print("Epoch %d, Loss: %.8f" % (epoch, loss))
    
    return loss_history, W1, W2, b1, b2

# prin(train(X, Y, W1, W2, b1, b2))

### Initialisation des paramètres du réseau

Attention, certains paramètres sont initalisés à zéro, d'autres non...

In [27]:
# W1 10 x 8 car elle permet de passer de in 10 a h 8
# W2 8 x 10 car output = 10
# b1 = 8
# b2 = 10
np.random.seed(0)
X = np.random.binomial(1, 0.5, (n_in, m))
Y = X ^ 1

input_dim = X.shape[0]
output_dim = Y.shape[0]
hidden_dim = 8

# print(X)
# print(Y)

W1 = np.random.randn(input_dim, hidden_dim)
W2 = np.random.randn(hidden_dim, output_dim)
b1 = 0
b2 = 0

print(X.shape)
# W2 = 
# b1 = 
# b2 = 

(10, 300)


## Génération des données d'entraînement

Ici il s'agit créer 300 séries de 10 chiffres binaires (1 et 0) pour les X.
Les Y seront ces mêmes séries, inversées.

In [28]:
# Data generation
X = np.random.binomial(1, 0.5, (n_in, m))
Y = X ^ 1
print(X)
print(Y)

[[1 1 1 ... 0 1 1]
 [1 0 0 ... 0 1 1]
 [0 1 0 ... 0 1 0]
 ...
 [0 1 1 ... 1 1 0]
 [1 0 1 ... 0 1 0]
 [1 0 1 ... 0 1 0]]
[[0 0 0 ... 1 0 0]
 [0 1 1 ... 1 0 0]
 [1 0 1 ... 1 0 1]
 ...
 [1 0 0 ... 0 0 1]
 [0 1 0 ... 1 0 1]
 [0 1 0 ... 1 0 1]]


## Lancer l'entraînement du réseau

In [29]:
loss_history, W1, W2, b1, b2 = train(X, Y, W1, W2, b1, b2)
print(b1)

-3493.223696582197


### Visualiser la décroissance de l'erreur sur un graphe (optionnel)

In [30]:
print(loss_history)

[-79.20555169566684, 6.558077030204004, 381.64217229101484, -1018.4499870178283, 1413.144956846931, -1493.0082730211093, 1424.5396112292563, -1451.223322381089, 1425.2360336015638, -1424.9807568944457, 1422.076213431399, -1418.9934273476595, 1418.3387721758822, -1414.835016083265, 1414.9176032954754, -1412.1295599120738, 1412.3181259786243, -1410.3876007361523, 1410.5729810063876, -1409.3139748888425, 1409.479159746748, -1408.671740062232, 1408.8119259957944, -1408.2924727845425, 1408.4061264079296, -1408.0683694068748, 1408.1572545467966, -1407.9348700627506, 1408.002688240728, -1407.8544235548534, 1407.9053855539264, -1407.8053478661545, 1407.8433295127513, -1407.775062222864, 1407.803276460636, -1407.7561848776209, 1407.7771449620075, -1407.744323911142, 1407.7599309209163, -1407.736827859676, 1407.7484922960439, -1407.7320734144125, 1407.7408309071047, -1407.7290540498252, 1407.7356614572698, -1407.7271388069307, 1407.7321488618536, -1407.7259285768582, 1407.729745748893, -1407.725

## Évaluation du réseau de neurones

Écrivez une petite fonction qui, à partir des activation de la dernière couche du réseau, produit un vecteur de 1 et de 0. Normalement il suffit de copier-coller quelque lignes de code et d'ajouter quelque chose à la fin. Attention, ici, contrairement à ce qu'on avait dans le MOOC, la dernière couche a 10 valeurs de sortie, et non pas une seule.

In [31]:
def predict(X, W1, W2, b1, b2):
    Z2 = np.transpose(W1).dot(X) + b1
    A2 = tanh(Z2)
    Z3 = np.transpose(W2).dot(A2) + b2
    A3 = sigmoid(Z3)
    return(A3)


### Tester la performance sur un seul exemple
Ici on génère un seul exemple (une série de 10 chiffres binaires), puis on fait prédire son inversion.

In [32]:
X = np.random.binomial(1, 0.5, (n_in,1))
print(X.T)
print(predict(X, W1, W2, b1, b2).T)

[[1 1 1 1 0 1 0 1 0 1]]
[[0.98942146 0.99676648 0.99814571 0.96168221 0.9942037  0.99676648
  0.99646783 0.93676648 0.99609668 0.99609668]]


### Tester la performance sur une série d'exemples