<a href="https://colab.research.google.com/github/achanhon/coursdeeplearningcolab/blob/master/Untitled3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Formation deep learning

L'objet de ce TP est de présenter brievement les outils de deep learning Pytorch. Il comporte 3 parties

1.   Les briques de bases
2.   Le traitement d'ECG par convolution
3.   Les réseaux récurrents



In [0]:
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
import torch.autograd
import torch.autograd.variable

##Les briques de bases

La brique de base de pytorch est l'objet Variable : il stocke en interne les opérations effectués sur un tenseur, de sorte à pouvoir calculer **automatiquement** le gradient d'une valeur par rapport aux autres.
Considérons le problème de moindre carré où on veut minimiser f(beta) = beta * beta + (Y-X * beta)*(Y-X * beta) : 

In [0]:
Y,X,beta = torch.rand(11),torch.rand((11,3)),torch.autograd.Variable(torch.rand(3),requires_grad=True)
loss = torch.sum((Y-torch.mv(X,beta))*(Y-torch.mv(X,beta)))+torch.sum(beta*beta)
print(X,Y,beta)
print("initial loss=",loss)
loss.backward()
print(beta.grad)

Ci dessus le gradient est automatiquement calculé, permettant par exemple de faire une descente de gradient à la main simplement. Cela dit, des optimiseurs (typiquement la descente de gradient) sont déjà précodés : 

In [0]:
optimizer = optim.SGD([beta], lr=0.01, momentum=0.5)
for i in range(10):
  loss = torch.sum((Y-torch.mv(X,beta))*(Y-torch.mv(X,beta)))+torch.sum(beta*beta)
  print(loss)
  optimizer.zero_grad()
  loss.backward()
  optimizer.step()
print("final loss=", torch.sum((Y-torch.mv(X,beta))*(Y-torch.mv(X,beta)))+torch.sum(beta*beta))

tensor(6.3581, grad_fn=<AddBackward0>)
tensor(5.0682, grad_fn=<AddBackward0>)
tensor(3.7385, grad_fn=<AddBackward0>)
tensor(2.8703, grad_fn=<AddBackward0>)
tensor(2.4405, grad_fn=<AddBackward0>)
tensor(2.2658, grad_fn=<AddBackward0>)
tensor(2.1951, grad_fn=<AddBackward0>)
tensor(2.1517, grad_fn=<AddBackward0>)
tensor(2.1110, grad_fn=<AddBackward0>)
tensor(2.0709, grad_fn=<AddBackward0>)
final loss= tensor(2.0343, grad_fn=<AddBackward0>)


Faire une descente de gradient sur ce problème simple est donc trivial... 

**Mais on n'est pas là pour faire de la régression moindre carré...**

##Traitement de données ECG

On considère maintenant des données (réel - voir https://physionet.org/physiobank/database/qtdb/) d'ECG annotés - à chaque instant, on a 2 valeurs brutes (ne me demander pas à quoi ça correspond, je n'en ai aucune idée) **et** on sait si on est dans l'état P, T ou U (ne me demander pas à quoi ça correspond, je n'en ai aucune idée). 


In [0]:
!wget "https://github.com/achanhon/coursdeeplearningcolab/blob/master/ECG_data/alldata.npz?raw=true"

In [0]:
import numpy as np
allecgdata = np.load("alldata.npz?raw=true")
allecgdata = allecgdata["arr_0"]
print(allecgdata,allecgdata.shape)

Nous avons donc 105 enregistrements (1 par patients) de 8192 instants (je ne connais pas la fréquence). On va commencer par se familiariser avec les données : **70% du temps de développement c'est de s'adapter au données**.

In [0]:
import IPython.display
import PIL.Image

def visualizecurve(x,y,z):
    grid = np.ones((200,1000,3),dtype=int)*255
    x = x[0:1000]
    x = x-min(x)
    x = x*400/max(x)
    
    x = np.minimum(x,np.ones(1000)*180)
    x = x.astype(int)
    y = y.astype(int)
    
    if z is not None:
        for t in range(1000):
            grid[x[t]][t][:] = 0
            grid[0:20,t,y[t]] = 0            
            grid[180:200,t,z[t]] = 0
    else:
        for t in range(1000):
            grid[x[t]][t][:] = 0
            grid[0:20,t,y[t]] = 0            
        
    return np.uint8(grid)


In [0]:
randompatient = np.random.randint(105, size=1)[0]
IPython.display.display(PIL.Image.fromarray(visualizecurve(allecgdata[randompatient][0],allecgdata[randompatient][2],None)))

On voit donc l'ECG et les 3 labels P,T,U représentés par 3 couleurs au dessus.
*Bon j'admets que c'est pas très beau comme affichage mais...*

**Notre objectif est d'apprendre à un réseau à prédire ce label (à chaque instant) à partir de l'ECG. Lors de l'apprentissage le réseau utilise l'ECG et le label pour mettre à jours ses poids. En test, on n'utilise que l'ECG et on prédit un label (puis on compare avec le label réel pour voir si ça marche).**

Commençons par couper train/test aléatoirement :

In [0]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix
from sklearn.utils import shuffle

X,Y = [],[]    
for i in range(allecgdata.shape[0]):
    X.append(allecgdata[i][0:2])
    Y.append(allecgdata[i][2].astype(int))

X,Y = shuffle(X,Y)

Xtest,Ytest = X[0:15],Y[0:15]
X,Y = X[15:],Y[15:]

Et introduisons notre fonction d'évaluation : on prend X, Y et un model et on compte le nombre de fois qu'on a prédit la bonne réponse - **accuracy** en anglais

In [0]:
def eval_model(X,Y,model):
    cm = np.zeros((3,3),dtype=int)
    Z = model(torch.Tensor(np.stack(X)))
    Z = Z.cpu().data.numpy()
    Z = np.argmax(Z,axis=1)
    for i in range(len(Y)):
        cm += confusion_matrix(Y[i], Z[i],list(range(3)))
    return (cm[0][0]+cm[1][1]+cm[2][2])/(np.sum(cm)+1),cm

Maintenant, définissons un réseau qui apprend à segmenter. Pour commencer on va mettre juste 2 couches (ça va pas marcher mais c'est pour introduire le code).

In [0]:
class PetitNet(nn.Module):
    def __init__(self):
        super(PetitNet, self).__init__()
        self.bnm1 = nn.BatchNorm1d(2, momentum=0.1)
        self.fc0 = nn.Conv1d(2, 32, kernel_size=11, padding=5)
        self.fc1 = nn.Conv1d(32, 3, kernel_size=11, padding=5)

    def forward(self, x):
        x = self.bnm1(x)
        
        x = F.leaky_relu(self.fc0(x))
        x = F.max_pool1d(x, kernel_size=5, stride=1, padding=2)
        x = self.fc1(x)
        return x

model = PetitNet()

optimizer = optim.SGD(model.parameters(), lr=0.01, momentum=0.5)
losslayer = nn.CrossEntropyLoss()
batchsize = 50

import collections
memoryofloss = collections.deque(maxlen=200)


Lancer le code d'apprentissage ci dessous - comme il devrait prendre 5 mins, vous pouvez ensuite chercher à comprendre ce qu'il fait

In [0]:
for iteration in range(500):
    model.train()
    
    X,Y = shuffle(X,Y)
    Ybatch = np.stack(Y[0:batchsize])
    Z = model(torch.Tensor(np.stack(X[0:batchsize])))
        
    # move from BATCH x NB CLASSES x 8192 to 409600 x NB CLASSES
    Z = torch.transpose(Z,1,2)
    Z = Z.contiguous().view(409600,3)
    Ybatch = Ybatch.flatten()
    Ybatch = torch.from_numpy(Ybatch).long()
    
    loss = losslayer(Z,Ybatch)
    
    memoryofloss.append(loss.cpu().data.numpy())
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()
    
    if iteration%100==99:
        print(sum(memoryofloss)/len(memoryofloss))
        with torch.no_grad():
            model.eval()
            print(eval_model(Xtest,Ytest,model))
            print(eval_model(X,Y,model))

Le code correspond juste à faire une boucle, dans laquelle on prend un bloc de données (batch), on le fait passer dans le réseau (ça produit Z). Après, il y a un peu de truc bizarre pour remettre les variables dans le bon format, mais ce qui compte c'est qu'on calcule une loss entre Z les prédictions et Y ce qu'on veut.
Puis, on fait une descente de gradient.

Mais ici, ça ne marche pas : le réseau n'est pas assez expressif - il n'est ni bon sur la base d'apprentissage - ni sur celle de test (s'il était bon sur celle d'apprentissage mais pas de test, il n'y aurait pas beaucoup d'espoir - mais là si).
Rajouter des couches (convolution et pooling) pour que ça marche mieux.

Vous pouvez aussi aller jouer avec https://playground.tensorflow.org qui propose la même chose en plus jolie sur des données vectorielles (des points 2D, ici on a un signal temporel).

In [0]:
print("A VOUS DE JOUER")
print("Vous pouvez utiliser les fonctions de visualisation pour voir ce que ça donne (quand ça commence à marcher)")

##Les réseaux récurrents

Passons maintenant aux réseaux récurrents

#TODO