Enoncé du TD (Analyse de sentiment, le retour)
=========================
Le TD consiste à redéfinir le projet 1 : prédicteur naïf de la polarité d'une critique de film tirée de IMDB 
anglais. Le modèle est un modèle de régression logistique traditionnel implémenté avec pytorch mais cette fois-ci le texte est représenté à l'aide d'un LSTM.

Le jeu de données est à télécharger depuis le site suivant : http://ai.stanford.edu/~amaas/data/sentiment/

Le TD consiste à remplacer le modèle utilisé dans le TD 1 (où $\Phi(\mathbf{x})$ représente un vecteur de fréquences des mots dans un texte):
$
\begin{align*}
P(Y=1 | \Phi(\mathbf{x}) ;  \mathbf{w}) &= \frac{exp(\mathbf{w}^T\Phi(\mathbf{x}))}{1+exp(\mathbf{w}^T\Phi(\mathbf{x}))}
\end{align*}
$

par le modèle suivant :

$
\begin{align*}
P(Y=1 | \mathbf{x} ;  \mathbf{w}) &= \frac{exp(\mathbf{w}^T \mathbf{h})}{1+exp(\mathbf{w}^T\mathbf{h})}\\
\mathbf{h} &= \text{LSTM}(\mathbf{e})\\
\mathbf{e} &= \text{embedding}(\mathbf{x})
\end{align*}
$

où $\mathbf{e}$ est un vecteur d'embeddings (un embedding par mot du texte à traiter) mais $\mathbf{h}$ est un vecteur de réels qui représente la mémoire du LSTM lors de la dernière prédiction.

Plan détaillé :
 * Observez que la fonction de lecture de données ne renvoie plus un dictionnaire mais une liste des mots présents dans le texte
 * Remplissez la fonction `code_sequence` pour qu'elle renvoie une liste d'entiers qui correspond à la séquence des codes de mots du texte. La fonction renvoie cette liste sous forme de `torch.tensor`.
 * Mettez à jour les méthodes du modèle pour coder le texte à l'aide d'un LSTM. Il s'agit des méthodes : `allocate_structure`, `forward` et éventuellement `train`. 
 * Vous pouvez également remplacer le LSTM par un Bi-LSTM, mais c'est un peu plus difficile à programmer (voir sur internet).
 * Vous verrez que l'entrainement est très long si réalisé naivement. Vous pouvez mettre au point une méthode qui (a) filtre le vocabulaire pour réduire la taille des textes et qui (b) organise l'entrainement en "mini-batchs" (voir sur internet, **exercice plus difficile**)
 
Le rendu attendu est une copie de ce notebook qui aura été complétée. Profitez du framework notebook pour commenter vos réponses si besoin.




In [1]:
import os
import os.path
import random

random.seed(1)


#loads data from disk
def load_dataset(dir_path,ref_label):
    """
    Loads a dataset from a directory path and 
    returns a list of couples (list of words,ref_label) one for each text
    """
    dpath    = os.path.abspath(dir_path)
    data_set = [] 
    for f in os.listdir(dpath):
        filepath    = os.path.join(dpath,f)
        file_stream = open(filepath)
        text        = file_stream.read().split()
        data_set.append((text,ref_label))
        file_stream.close()
    return data_set
    
trainpos = load_dataset("/Users/bcrabbe/parsing-at-diderot/data/aclImdb/train/pos",1)
trainneg = load_dataset("/Users/bcrabbe/parsing-at-diderot/data/aclImdb/train/neg",0)
trainset = trainpos
trainset.extend(trainneg)
random.shuffle(trainset)

In [2]:
testpos = load_dataset("/Users/bcrabbe/parsing-at-diderot/data/aclImdb/test/pos",1)
testneg = load_dataset("/Users/bcrabbe/parsing-at-diderot/data/aclImdb/test/neg",0)
testset = testpos
testset.extend(testneg)
random.shuffle(testset)



In [3]:
#creates a dict that maps each known word string to a unique integer
def make_w2idx(dataset):
    wordset = set([])
    for X,Y in dataset:
        wordset.update([word for word in X])
    return dict(zip(wordset,range(len(wordset))))   

def code_sequence(symlist,w2idx):    
    #.. ignores unk words .. 
    
    #TODO

def vectorize_target(ylabel):
     return torch.tensor(float(ylabel))
  

IndentationError: expected an indented block (<ipython-input-3-c8f95c414be2>, line 13)

In [None]:
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
import numpy as np

class SentimentAnalyzer(nn.Module): 
        def __init__(self, embedding_dim,lstm_memory_dim):
            
            super(SentimentAnalyzer, self).__init__()
            self.embedding_dim        = embedding_dim
            self.lstm_memory_dim      = lstm_memory_dim
            self.allocate_structure(1,1)
           
        
        def allocate_structure(self,vocab_size, num_labels):
            
            #TODO
             
            
        def forward(self, xinput):
            
           #TODO
        
        def train(self,train_set,dev_set,learning_rate,epochs):
            
            self.w2idx = make_w2idx(train_set)
            self.allocate_structure(len(self.w2idx),1)
            loss_func  = nn.BCELoss() #remind that minimizing Binary Cross Entropy <=> minimizing NLL
            optimizer  = optim.Adam(self.parameters(), lr=learning_rate)
            
            min_loss = np.iinfo(np.int32).max
            for epoch in range(epochs):
                global_logloss = 0.0
                for X, Y in train_set: 
                    self.zero_grad()
                    xvec            = code_sequence(X,self.w2idx)
                    yvec            = vectorize_target(Y)
                    prob            = self.forward(xvec).squeeze()
                    loss            = loss_func(prob,yvec)
                    loss.backward()
                    optimizer.step()
                    global_logloss += loss.item()
                print("Epoch %d, mean cross entropy (train) = %f"%(epoch,global_logloss/len(train_set)))

                with torch.no_grad():
                    global_logloss = 0.0
                    for X, Y in dev_set: 
                        xvec            = code_sequence(X,self.w2idx)
                        yvec            = vectorize_target(Y)
                        prob            = self(xvec).squeeze()
                        loss            = loss_func(prob,yvec)
                        global_logloss += loss.item()
                    print("Epoch %d, mean cross entropy (dev)   = %f\n"%(epoch,global_logloss/len(dev_set)))
                    if global_logloss < min_loss:
                        torch.save(self.state_dict(), 'sentiment_model.wt')
            self.load_state_dict(torch.load('sentiment_model.wt'))
            
        def run_test(self,test_set):
            
            ncorrect = 0
            with torch.no_grad():
                for X, Y in test_set: 
                    xvec            = code_sequence(X,self.w2idx)
                    prob            = self(xvec).squeeze()
                    if Y == 1 and prob > 0.5:
                        ncorrect += 1
                    if Y == 0 and prob <= 0.5: 
                        ncorrect += 1
            print("Test Accurracy",ncorrect/len(test_set))
            

In [None]:
sent = SentimentAnalyzer(50,50)
sent.train(trainset,testset,0.001,5)

In [None]:
sent.run_test(testset)