In [None]:
import matplotlib.pyplot as plt
plt.style.use('fivethirtyeight')

def plot_y(y_pred, y_true):
    y_pred = y_pred.reshape(-1)
    y_true = y_true.reshape(-1)
    order = np.argsort(y_pred)
    plt.plot(y_true[order], 'o ', label=u'réel ')
    plt.plot(y_pred[order], 'P ', label=u'prédiction ')
    plt.legend()
    plt.xlabel(u'échantillons')
    plt.ylabel('valeur de y')

In [None]:
import numpy as np 

# Perceptron multicouches (Multilayer perceptron - MLP)

Dans cet exercice nous allons réaliser un perceptron à une couche caché. On l'utilisera pour predire la progression du diabetes à partir de 10 types de caracteristiques de pacients. D'abord, on écrira le code qui decrit le modéle qui fait les predictions: le pas en avant ou "forward pass". Dans un prochain moment on écrira le code pour optimizer ce modèle.


## Les données : Predire la progression du diabetes

In [None]:
from sklearn.datasets import load_diabetes

data = load_diabetes()

print(data.DESCR)

Voici un aperçu des données qu'on utilisera.

In [None]:
import pandas as pd
X, y = data.data, data.target
pd.DataFrame(X[:10,:], columns=data.feature_names)

Pour vérifier que notre modèle generalise bien pour des cas inconnus, il est important de separer une portion des données qui ne sera pas utilisé dans l'entraînement, qu'on appelle ensemble de test ou validation. On va aussi faire un pretraitement pour que les valeurs pour chaque "feature" restent dans l'intervale [0,1]. Ceci est fait ci-desous:

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

# from sklearn.feature_selection import f_regression
# feats = np.argsort(f_regression(X_train, y_train))[1][0:2]
# X_train, X_test = X_train[:,feats], X_test[:,feats],

y_train, y_test = y_train.reshape([-1,1]), y_test.reshape([-1,1])

from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler().fit(X_train)
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)

### Exercice 
Regardez la dimension de X_train, X_test, y_train, y_test

In [None]:
# votre code ici !


## MLP en numpy

On comencera par écrire les variables du modèle et ses equations en numpy.
Tout d'abord, pour nous faciliter la vie, on va creer des variables avec le nombre d'échantillons, de features et de sorties de notre réseau, une fois que ces tailles seront important pour définir nos matrices de paramètres.

In [None]:
M = X_train.shape[0]  # nombre d'échantillons
D = X_train.shape[1]  # nombre de features
S = y_train.shape[1]  # nombre de sorties

### Exercice : imprimez et regardez les valeurs de M, D et S  ici

In [None]:
# votre code ici !


### Création des paramètres du modèle

Dans nos équations on a quelques parametres mutables qui permentent au modèle d'apprendre et s'ajuster aux données. Ce sont:
- les poids de la couche caché W
- les biais de la couche caché b
- les poids de la couche de sortie O

#### Exercice: Regardez dans le cours les tailles de ces matrices et completez le code ci desous

In [None]:
def parameters(D, S, N=10):
    # N le nombre de neurones de la couche caché
    rng = np.random.RandomState(0)
    
    # changez les tailles des matrices ici pour leurs valeurs correctes
    tailleW = (0,0)
    tailleb = (0,0)
    tailleO = (0,0)
  
    W = rng.rand(*tailleW)
    b = np.zeros(tailleb)
    
    O = rng.rand(*tailleO)
    
    return W, b, O

### Calcul de la prediction du modèle

Ici on ira décrire les equations du perceptron multicouches qui donnent les valeurs de sortie Y. Pour rappel, les voici en forme matricielle:

$$H = XW+b^T$$
$$A = \sigma(H)$$
$$Y = AO$$

On utilisera comme fonction d'activation $\sigma=\tanh$.

#### Exercice : écrivez les equations pour le calcul de H et A ci-dessous

In [None]:
def MLP(X, W, b, O):
    M, D = X.shape  # nombre d'échantillons, nombre de features
    N = W.shape[1]  # N le nombre de neurones de la couche caché
    
    # écrivez le calcul de H
    H = np.zeros(1) # changez ici pour avoir la bonne equation de H
    A = np.tanh(H)  

    # écrivez le calul de Y
    Y = np.zeros(1) # changez ici pour avoir la bonne equation de Y
    
    # Ici quelques verifications sur la taille des matrices pour vous aider
    try:
        assert(H.shape == (M,N))
    except AssertionError:
        print("Taille de H semble erronée:",H.shape, ", ça devrait être", (M,N))    

    try:
        assert(Y.shape == (M,S))
    except AssertionError:
        print("Taille de Y semble erronée:",Y.shape, ", ça devrait être", (M,S))
    
    return Y

### La fonction de coût


In [None]:
def cout(Y_pred, Y_true):
    M = Y_true.shape[0]
    # completez le code avec l'expression pour la fonction de cout J
    J = 0 # changez ici pour avoir la bonne equation de J
    return J

### Tout ensemble: creation du MLP
Maintenant on utlisera toutes les fonctions qu'on à écrites cidessus.

Tout d'abord on utilisera la fonction `parameters` pour creéer nos paramètres:

In [None]:
W, b, O = parameters(D, S, N=10)

Ensuite on utilisera ces parametres et la fonction `MLP` pour obtenir les predictions de notre réseau:

In [None]:
Y_pred = MLP(X_train, W, b, O)

Finalment, on peut calculer la valeur de la fonction de cout pour les predictions qui ont été faites:

In [None]:
J = cout(Y_pred, y_train)
J


Vouz pourez voire ci dessus les predictions courantes du réseau:

In [None]:
plot_y(Y_pred, y_train)

# À venir: la retro-propagation des gradients !

Au prochain notebook on écrira la boucle d'optimization pour que notre réseau aprenne à predire la progression du diabetes!

## Corrigés

Les `...` indiquent des portions de code que je n'ai pas répeté ici et que ne sont pas a changer.

### Tailles des matrices
``` python
def parameters(D, S, N=10):
    ...
    # changez les tailles des matrices ici pour leurs valeurs correctes
    tailleW = (D,N)
    tailleb = (N,1)
    tailleO = (N,S)
    ...
```

### MLP numpy
``` python
def MLP(X, W, b, O):
    M, D = X.shape  # nombre d'échantillons, nombre de features
    N = W.shape[1]  # N le nombre de neurones de la couche caché
    
    # écrivez le calcul de H
    H = np.dot(X,W) + b.T # changez ici pour avoir la bonne equation de H
    A = np.tanh(H)  

    # écrivez le calul de Y
    Y = np.dot(A,O) # changez ici pour avoir la bonne equation de Y
    ...
```    
#### Fonction de coût
``` python
def cout(Y_pred, Y_true):
    M = Y_true.shape[0]
    # completez le code avec l'expression pour la fonction de cout J
    J = (1/2)*np.mean((Y_pred - Y_true)**2) # changez ici pour avoir la bonne equation de J
    return J

```

