## Réseaux de neurones #3 : Classification de documents avec un réseau multicouches et des embeddings

On reprend dans cet exemple la classification de documents avec un réseau MLP à 2 couches.

Cependant, la principale différence est que la représentation d'un document est construite à partir des embeddings des mots de ce document. On utilise ici les embeddings de Spacy (note: les analyseurs de Spacy sont des réseaux de neurones).

### 1. Création du jeu de données

On utilise le même jeu de données que pour les exemples précédents.

In [1]:
from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import CountVectorizer

# On utilise le corpus 20Newsgroups et on limite les exemples d'entraînement à 4 classes
wanted_categories = ['rec.sport.hockey', 'sci.space', 'rec.autos', 'sci.med']

training_corpus = fetch_20newsgroups(subset='train', categories=wanted_categories, shuffle=True)
validation_corpus = fetch_20newsgroups(subset='test', categories=wanted_categories, shuffle=True)

target_categories = training_corpus.target_names

On crée également une instance de Spacy pour avoir accès à ses embeddings de mots.



In [2]:
import spacy 
nlp = spacy.load('en_core_web_lg')


## 2. Création d'une architecture neuronale multicouches

L'architecture est la même que pour l'exemple précédent, soit 2 couches linéaires avec une activation RELU sur la première couche.

On détermine également la taille des embeddings de Spacy (embedding_size). Cette valeur sera utilisée comme taille des vecteurs qui sont donnés en entrée au réseau (input_size).

In [3]:
from torch import nn

embedding_size = nlp.meta['vectors']['width'] # La dimension des vecteurs d'embeddings de Spacy
nb_classes = len(target_categories)

class MultiLayerPerceptron(nn.Module):
    
    def __init__(self, input_size, hidden_layer_size, output_size) :
        super().__init__()
        self.intput_layer = nn.Linear(input_size, hidden_layer_size)
        self.output_layer = nn.Linear(hidden_layer_size, output_size)
        
    def forward(self, x):
        x = self.intput_layer(x)
        x = nn.functional.relu_(x)
        x = self.output_layer(x)
        return x


## 3. Création d'un dataloader pour itérer dans les données en "minibatch"¶


In [4]:
from torch.utils.data import Dataset, DataLoader
from torch import FloatTensor, LongTensor
from typing import List
import numpy as np

class SpacyDataset(Dataset):
    
    def __init__(self, dataset: List[str] , target: np.array, sentence_aggregation_function):
        self.dataset = dataset
        self.aggregated_dataset = [None for _ in range(len(dataset))]
        self.sentence_aggregation_function = sentence_aggregation_function
        self.target = target
    
    def __len__(self):
        return len(self.dataset)

    def __getitem__(self, index):
        if self.aggregated_dataset[index] is None:
            self.aggregated_dataset[index] = self.sentence_aggregation_function(self.dataset[index])  
        return FloatTensor(self.aggregated_dataset[index]), LongTensor([self.target[index]]).squeeze(0)

Dans cet exemple, le dataloader utilise une fonction qui permet de **fusionner les embeddings des mots d'un document en un seul vecteur qui représente le document**. Trois options sont disponibles:

* prendre la moyenne des embeddings (average_embedding)
* prendre la valeur maximum sur chacune des dimensions des embeddings (maxpool_embedding)
* utiliser une fonction de Spacy qui permet de représenter un texte par un seul embedding (spacy_cnn).

Pour fusionner les embeddings de mots ensemble (sauf spacy_cnn), la procédure est la suivante:

* tokéniser le texte en mots individuels
* aller chercher les embeddings de Spacy (token.vector) et les stocker dans une matrice (sentence_embedding_matrix)
* appliquer la fonction d'agrégation sur chacune des dimensions de la matrice pour obtenir un vecteur.

In [5]:
def average_embedding(sentence, nlp_model=nlp):
    tokenised_sentence = nlp_model(sentence)
    nb_column = len(tokenised_sentence)
    nb_rows =  nlp_model.meta['vectors']['width'] 
    sentence_embedding_matrix = np.zeros((nb_rows, nb_column))                                  
    for index, token in enumerate(tokenised_sentence):
        sentence_embedding_matrix[:, index] = token.vector
    return np.average(sentence_embedding_matrix, axis=1)

def maxpool_embedding(sentence, nlp_model=nlp):
    tokenised_sentence = nlp_model(sentence)
    nb_column = len(tokenised_sentence)
    nb_rows =  nlp_model.meta['vectors']['width'] 
    sentence_embedding_matrix = np.zeros((nb_rows, nb_column))                                    
    for index, token in enumerate(tokenised_sentence):
        sentence_embedding_matrix[:, index] = token.vector
    return np.max(sentence_embedding_matrix, axis=1)

def spacy_cnn(sentence, nlp_model=nlp):
    tokenised_sentence = nlp_model(sentence)
    return tokenised_sentence.vector

Et on crée les dataloaders à l'aide de la fonction d'une fonction de fusion d'embeddings.


In [6]:
aggregation_function = average_embedding
# aggregation_function = maxpool_embedding
# aggregation_function = spacy_cnn

train_dataset = SpacyDataset(training_corpus.data, training_corpus.target, aggregation_function)
valid_dataset = SpacyDataset(validation_corpus.data, validation_corpus.target, aggregation_function)

train_dataloader = DataLoader(train_dataset, batch_size=16, shuffle=True)
valid_dataloader = DataLoader(valid_dataset, batch_size=16, shuffle=True)

## 4. Création d'une boucle d'entraînement
On peut maintenant entraîner le modèle comme on le faisait auparavant.

Note: Prévoir autre chose à faire pendant l'entraînement, car ça peut prendre un bon bout de temps :-)

In [7]:
from poutyne.framework import Experiment
from poutyne import set_seeds
from torch.optim import SGD
import numpy as np

set_seeds(42)
hidden_size = 100

model = MultiLayerPerceptron(embedding_size, hidden_size, nb_classes)
experiment = Experiment('model/{}_mlp'.format(aggregation_function.__name__), 
                        model, 
                        optimizer = "SGD", 
                        task="classification")

In [8]:
logging = experiment.train(train_dataloader, valid_dataloader, epochs=100, disable_tensorboard=True)


[35mEpoch: [36m1/100 [35mStep: [36m149/149 [35m100.00% |[35m█████████████████████████[35m|[32m442.72s [35mloss:[94m 1.382166[35m acc:[94m 28.013440[35m fscore_micro:[94m 0.280134[35m val_loss:[94m 1.379430[35m val_acc:[94m 28.138801[35m val_fscore_micro:[94m 0.281388[0m
Epoch 1: val_acc improved from -inf to 28.13880, saving file to model/average_embedding_mlp\checkpoint_epoch_1.ckpt
[35mEpoch: [36m2/100 [35mStep: [36m149/149 [35m100.00% |[35m█████████████████████████[35m|[32m1.39s [35mloss:[94m 1.376620[35m acc:[94m 36.455271[35m fscore_micro:[94m 0.364553[35m val_loss:[94m 1.374231[35m val_acc:[94m 42.649842[35m val_fscore_micro:[94m 0.426498[0m
Epoch 2: val_acc improved from 28.13880 to 42.64984, saving file to model/average_embedding_mlp\checkpoint_epoch_2.ckpt
[35mEpoch: [36m3/100 [35mStep: [36m149/149 [35m100.00% |[35m█████████████████████████[35m|[32m1.44s [35mloss:[94m 1.371278[35m acc:[94m 51.910962[35m fscore_micro:[94m 

Epoch 23: val_acc improved from 80.12618 to 82.46057, saving file to model/average_embedding_mlp\checkpoint_epoch_23.ckpt
[35mEpoch: [36m24/100 [35mStep: [36m149/149 [35m100.00% |[35m█████████████████████████[35m|[32m1.46s [35mloss:[94m 0.890585[35m acc:[94m 84.712306[35m fscore_micro:[94m 0.847123[35m val_loss:[94m 0.878513[35m val_acc:[94m 82.586751[35m val_fscore_micro:[94m 0.825868[0m
Epoch 24: val_acc improved from 82.46057 to 82.58675, saving file to model/average_embedding_mlp\checkpoint_epoch_24.ckpt
[35mEpoch: [36m25/100 [35mStep: [36m149/149 [35m100.00% |[35m█████████████████████████[35m|[32m1.43s [35mloss:[94m 0.855073[35m acc:[94m 85.888282[35m fscore_micro:[94m 0.858883[35m val_loss:[94m 0.844316[35m val_acc:[94m 82.397476[35m val_fscore_micro:[94m 0.823975[0m
[35mEpoch: [36m26/100 [35mStep: [36m149/149 [35m100.00% |[35m█████████████████████████[35m|[32m1.47s [35mloss:[94m 0.820291[35m acc:[94m 86.770265[35m fscore_mic

[35mEpoch: [36m46/100 [35mStep: [36m149/149 [35m100.00% |[35m█████████████████████████[35m|[32m1.50s [35mloss:[94m 0.390586[35m acc:[94m 92.986140[35m fscore_micro:[94m 0.929861[35m val_loss:[94m 0.394030[35m val_acc:[94m 91.419558[35m val_fscore_micro:[94m 0.914196[0m
Epoch 46: val_acc improved from 91.16719 to 91.41956, saving file to model/average_embedding_mlp\checkpoint_epoch_46.ckpt
[35mEpoch: [36m47/100 [35mStep: [36m149/149 [35m100.00% |[35m█████████████████████████[35m|[32m1.62s [35mloss:[94m 0.380407[35m acc:[94m 93.070139[35m fscore_micro:[94m 0.930701[35m val_loss:[94m 0.385530[35m val_acc:[94m 91.356467[35m val_fscore_micro:[94m 0.913565[0m
[35mEpoch: [36m48/100 [35mStep: [36m149/149 [35m100.00% |[35m█████████████████████████[35m|[32m1.50s [35mloss:[94m 0.370162[35m acc:[94m 93.196136[35m fscore_micro:[94m 0.931961[35m val_loss:[94m 0.376183[35m val_acc:[94m 91.545741[35m val_fscore_micro:[94m 0.915457[0m
Epoch

[35mEpoch: [36m71/100 [35mStep: [36m149/149 [35m100.00% |[35m█████████████████████████[35m|[32m2.13s [35mloss:[94m 0.234763[35m acc:[94m 95.044099[35m fscore_micro:[94m 0.950441[35m val_loss:[94m 0.253342[35m val_acc:[94m 93.123028[35m val_fscore_micro:[94m 0.931230[0m
[35mEpoch: [36m72/100 [35mStep: [36m149/149 [35m100.00% |[35m█████████████████████████[35m|[32m2.28s [35mloss:[94m 0.231641[35m acc:[94m 94.918102[35m fscore_micro:[94m 0.949181[35m val_loss:[94m 0.249828[35m val_acc:[94m 93.123028[35m val_fscore_micro:[94m 0.931230[0m
[35mEpoch: [36m73/100 [35mStep: [36m149/149 [35m100.00% |[35m█████████████████████████[35m|[32m1.93s [35mloss:[94m 0.227494[35m acc:[94m 94.918102[35m fscore_micro:[94m 0.949181[35m val_loss:[94m 0.246394[35m val_acc:[94m 93.186120[35m val_fscore_micro:[94m 0.931861[0m
[35mEpoch: [36m74/100 [35mStep: [36m149/149 [35m100.00% |[35m█████████████████████████[35m|[32m1.72s [35mloss:[94m 0.

[35mEpoch: [36m96/100 [35mStep: [36m149/149 [35m100.00% |[35m█████████████████████████[35m|[32m1.63s [35mloss:[94m 0.173216[35m acc:[94m 95.842083[35m fscore_micro:[94m 0.958421[35m val_loss:[94m 0.205705[35m val_acc:[94m 93.438486[35m val_fscore_micro:[94m 0.934385[0m
[35mEpoch: [36m97/100 [35mStep: [36m149/149 [35m100.00% |[35m█████████████████████████[35m|[32m1.56s [35mloss:[94m 0.171738[35m acc:[94m 96.052079[35m fscore_micro:[94m 0.960521[35m val_loss:[94m 0.202211[35m val_acc:[94m 93.690852[35m val_fscore_micro:[94m 0.936909[0m
[35mEpoch: [36m98/100 [35mStep: [36m149/149 [35m100.00% |[35m█████████████████████████[35m|[32m1.57s [35mloss:[94m 0.169720[35m acc:[94m 96.094078[35m fscore_micro:[94m 0.960941[35m val_loss:[94m 0.200957[35m val_acc:[94m 94.195584[35m val_fscore_micro:[94m 0.941956[0m
[35mEpoch: [36m99/100 [35mStep: [36m149/149 [35m100.00% |[35m█████████████████████████[35m|[32m1.48s [35mloss:[94m 0.

## 5. Prédiction sur quelques exemples


In [9]:
from torch.nn.functional import softmax

def get_most_probable_class(sentence, model):
    vectorized_sentence = aggregation_function(sentence)
    prediction = model(FloatTensor(vectorized_sentence).squeeze(0)).detach()
    output = softmax(prediction, dim=0)
    max_category_index = np.argmax(output)
    max_category = target_categories[max_category_index]
    print("\nClassification de la phrase: ", sentence)
    print("Sorties du réseau de neurones:", prediction)
    print("Valeurs obtenues après application de softmax:", output)
    print("Meilleure classe: {} qui correspond en sortie au neurone {}".format(max_category, max_category_index))
    return(max_category)


In [10]:
# On test le modèle avec de nouvelles phrases 

test_docs = ['Getzky was a center, not a goaltender', 
             'Mazda and BMW cars are esthetic',
             'Doctor, doctor, gimme the news', 
             'Take me to the moon']

[get_most_probable_class(sentence, model) for sentence in test_docs]



Classification de la phrase:  Getzky was a center, not a goaltender
Sorties du réseau de neurones: tensor([-4.0090,  7.3172, -2.5695, -0.4598])
Valeurs obtenues après application de softmax: tensor([1.2048e-05, 9.9952e-01, 5.0825e-05, 4.1907e-04])
Meilleure classe: rec.sport.hockey qui correspond en sortie au neurone 1

Classification de la phrase:  Mazda and BMW cars are esthetic
Sorties du réseau de neurones: tensor([ 23.5277,  -3.9371, -10.8859,  -8.7623])
Valeurs obtenues après application de softmax: tensor([1.0000e+00, 1.1808e-12, 1.1334e-15, 9.4759e-15])
Meilleure classe: rec.autos qui correspond en sortie au neurone 0

Classification de la phrase:  Doctor, doctor, gimme the news
Sorties du réseau de neurones: tensor([-4.9605, -3.8526, 12.3112, -3.3667])
Valeurs obtenues après application de softmax: tensor([3.1550e-08, 9.5528e-08, 1.0000e+00, 1.5529e-07])
Meilleure classe: sci.med qui correspond en sortie au neurone 2

Classification de la phrase:  Take me to the moon
Sorties 

['rec.sport.hockey', 'rec.autos', 'sci.med', 'sci.space']