## NLP (Natural Language Processing)-Machine learning Classification 4(Sequence Vectors)

Dans le dernier article, nous avons appris comment développer un classificateur de texte basé sur des vecteur n-gram, en utilisant des méthodes d'extraction de fonctionnalités . Nous avons également couvert différents algorithmes qui relèvent de l'apprentissage supervisé.

Comme nous l'avons expliqué dans les articles précédents, Avec la représentation vectorielle n-gram, nous jetons beaucoup d'informations sur l'ordre des mots et la grammaire (au mieux, nous pouvons conserver certaines informations de classement partiel lorsque n> 1). C'est ce que l'on appelle une approche «bag of words». 

L’approche bag of words ne tient pas compte de l’ordre des mots, ni du contexte dans lequel ils interviennent, cette représentation est utilisée en conjonction avec des modèles qui ne tiennent pas compte de l'ordre, tels que la régression logistique, les perceptrons multicouches ...etc

Pour certains exemples de texte, l'ordre des mots est essentiel à la signification du texte. Le texte est l'un des types de données séquentielles les plus couramment utilisés. Les données textuelles peuvent être vues soit comme une séquence de caractères, soit comme une séquence de mots. Il est courant de voir le texte comme une suite de mots pour la plupart des problèmes. Les modèles séquentiels d'apprentissage en profondeur tels que les RNNS et ses variantes peuvent apprendre des modèles importants à partir de données textuelles qui peuvent résoudre des problèmes dans nombreux domaines tels que ,
compréhension du langage naturel, Classification des documents, analyse des sentiments, traduction ...etc

bien que les données de séries temporelles, la musique, le son et autres soient également considérées comme des données séquentielles. Le traitement du langage naturel (NLP) et sa compréhension ont été largement explorés et c'est un domaine de recherche actif en ce moment. Le langage humain est incroyablement complexe et les combinaisons possibles de tout notre vocabulaire sont plus que le nombre d'atomes dans l'univers. Cependant, les réseaux profonds gèrent assez bien ce problème en utilisant certaines techniques comme les embeddings et l'attention.

Nous avons deja vu, comment effectuer la tokenisation et la vectorisation pour les modèles de séquence. Nous avons vu  également comment optimiser la représentation des séquences en utilisant des techniques de sélection et de normalisation des caractéristiques.
Dans cet aticle , nous allons examiner les données séquentielles. et continue à construire notre modèle de séquence.

### Étape 4: Créez, formez et évaluez votre modèle
À l' étape 3 , nous avons choisi d'utiliser un modèle à n-grammes ou un modèle de séquence. Maintenant, il est temps d'écrire notre algorithme de classification de sequence  et de le former
##### Construire un modèle de séquence [Option B]
Nous appelons modèles de séquence les modèles qui peuvent apprendre de l'adjacence des jetons. Cela inclut les classes de modèles CNN et RNN. Les données sont prétraitées en tant que vecteurs de séquence pour ces modèles.

Les modèles séquentiels ont généralement un plus grand nombre de paramètres à apprendre. La première couche de ces modèles est une couche **d'embedding**, qui apprend la relation entre les mots dans un espace vectoriel. L'apprentissage des relations entre les mots fonctionne mieux sur de nombreux exemples.

Les mots d'un ensemble de données ne sont probablement pas uniques. Nous pouvons donc apprendre la relation entre les mots de notre ensemble de données en utilisant d'autres ensembles de données. Pour ce faire, nous pouvons transférer des embeddings apprise à partir d'un autre ensemble de données dans notre couche d'embedding. Ces embeddings sont appelés embeddings pré-formés . L'utilisation des embeddings pré-formées donne au modèle une longueur d'avance dans le processus d'apprentissage.


Il existe des embeddings pré-formés disponibles statique et denamique qui ont été formés sur plusieurs corpus (principalement Wikipedia).



![](data/embed.png)

#### Static Word Embedding

* Skip-Gram & CBOW (aka Word2Vec)
* Glove
* fastText
* Exotic: Lda2Vec, Node2Vec, Characters Embeddings, CNN embeddings, …
* Poincaré Embeddings to learn hierarchical representation

...

#### Contextualized (Dynamic) Word Embedding (LM)
* CoVe (Contextualized Word-Embeddings)
* CVT (Cross-View Training)
* ELMO (Embeddings from Language Models)
* ULMFiT (Universal Language Model Fine-tuning)
* BERT (Bidirectional Encoder Representations from Transformers)
* GPT & GPT-2 (Generative Pre-Training)
* Transformer XL (meaning extra long)
* XLNet (Generalized Autoregressive Pre-training)
* RoBERTa 
* CamemBERT 
* ENRIE (Enhanced Representation through kNowledge IntEgration)
(FlairEmbeddings (Contextual String Embeddings for Sequence Labelling))

et bien d'autres encore…

En  gros les Embeddings de mots statiques ne parviennent pas à capturer la polysémie . Ils génèrent la même intégration pour le même mot dans des contextes différents . et  les Embeddings de mots contextualisés (Dynamic) visent à capturer la sémantique des mots dans différents contextes pour résoudre le problème de la polysémie et de la nature contextuelle des mots.

Nous avons testé l'entraînement de nos modèles de séquence à l'aide d'une version des intégrations FastText(francais) et nous  avons observé que si nous gelions les poids des intégrations pré-formées et entraînant uniquement le reste du réseau, les modèles ne fonctionnaient pas bien. Cela peut être dû au fait que le contexte dans lequel la couche d'enbedding a été formée peut avoir été différent du contexte dans lequel nous l'utilisions.

Les embeddings FastText formées sur les données Wikipédia peuvent ne pas s'aligner sur les modèles linguistiques de notre ensemble de données. Les relations inférées peuvent nécessiter une mise à jour, c'est-à-dire que les poids d'intégration peuvent nécessiter un ajustement contextuel. Nous le faisons en deux étapes:


* Dans un premier temps, les poids de la couche embedding étant gelés, nous permettons au reste du réseau d'apprendre. À la fin de cette exécution, les poids du modèle atteignent un état bien meilleur que leurs valeurs non initialisées. Pour la deuxième exécution, nous permettons à la couche d'embeddings d'apprendre également, en ajustant tous les poids du réseau.Nous appelons ce processus fine-tuning..



* Des embeddings affinés(fine-tuning) donnent une meilleure précision. Cependant, cela se fait au détriment de la puissance de calcul nécessaire pour entraîner le réseau. Étant donné un nombre suffisant d'échantillons, nous pourrions tout aussi bien apprendre des embeddings à partir de zéro  donne effectivement à peu près la même précision que l'utilisation des embeddings affinés.

Nous avons comparé différents modèles de séquence tels que CNN,RNN (LSTM & GRU).


#####  formation des  embeddings et construisant notre classificateur
le processus de construction
* construisons notre classificateur de produits  et  nous formerons également des embeddings des mots présents dans l'ensemble de données.

Nous utiliserons une bibliothèque appelée torchtext, qui facilite beaucoup le processus la vectorisation de texte et le traitement par lots. 

La formation d'un classificateur de text comprendra les étapes suivantes:

* télécharger des données  et effectuer une tokenisation de texte 
* 1. construire un vocabulaire 
* 2. générer des lots de vecteurs 
* 3. créer un modèle de réseau avec des embeddings 
* 4. former le modèle

##### Télécharger des données et effectuer une tokenisation de texte

In [134]:
import sklearn.model_selection as sms
import pandas as pd
import numpy as np
import time

In [135]:
def split_dataset(input_path, nb_line, tauxValid):
    data_all = pd.read_csv(input_path,sep=",", nrows=nb_line)
    data_all = data_all[["Description","Categorie1"]]
    data_all.rename(columns={"Description": "text", "Categorie1": "label"}, inplace = True)
    data_all = data_all.fillna("")
    data_train, data_valid = sms.train_test_split(data_all, test_size = tauxValid,random_state=47,shuffle=True)
    return data_train, data_valid

In [136]:
input_path = "data/cdiscount_train.csv.zip"
nb_line=100000 # part totale extraite du fichier initial ici déjà réduit
tauxValid = 0.2
data_train, data_valid = split_dataset(input_path, nb_line, tauxValid)
#data_train.reset_index(inplace = True)
#data_valid.reset_index(inplace = True)
N_train = data_train.shape[0]
N_valid = data_valid.shape[0]
print("Train set : %d elements, Validation set : %d elements" %(N_train, N_valid))

Train set : 80000 elements, Validation set : 20000 elements


In [137]:
from sklearn.preprocessing import OrdinalEncoder
ordinal_encoder = OrdinalEncoder()
train_labels = ordinal_encoder.fit_transform(data_train[["label"]])
val_labels = ordinal_encoder.transform(data_valid[["label"]])

In [138]:
data_train[["label"]] = train_labels
data_valid[["label"]] = val_labels

#converting dtypes using astype 
data_train["label"]= data_train["label"].astype(int) 
data_valid["label"]= data_valid["label"].astype(int)

data_train["text"]= data_train["text"].astype(str) 
data_valid["text"]= data_valid["text"].astype(str)

In [195]:
from sklearn.utils.class_weight import compute_sample_weight

class_weights = class_weight.compute_class_weight('balanced',np.unique(data_train["label"]),data_train["label"])
class_weights


array([2.58264463e+00, 3.60036004e+00, 2.98062593e+01, 1.99580880e+00,
       5.88408355e+00, 4.85366209e-01, 1.22271810e+00, 4.04040404e+01,
       3.79261956e-01, 7.23510473e-01, 1.64690382e+00, 7.90513834e+01,
       1.26702566e+00, 3.90167772e-01, 1.28949065e+01, 1.04433189e+00,
       7.04721635e+00, 8.04505229e+00, 1.67574361e+00, 1.55082038e-01,
       6.33512829e+00, 1.67112299e+00, 1.13636364e+00, 1.86212804e-01,
       5.56018905e+00, 2.28128208e+00, 1.81818182e+02, 2.63504611e+01,
       5.19480519e+01, 7.24375226e+00, 1.65139130e+00, 7.93965859e+00,
       1.45571002e+00, 1.31752306e+01, 9.09090909e+02, 4.09500410e+00,
       1.36705400e+01, 9.04118259e-01, 1.51515152e+01, 1.05892942e-01,
       9.56937799e+01, 2.41779497e+00, 3.81010440e-01, 1.13636364e+01])

L'instance torchtext.data définit une classe Field, qui nous aide à définir comment les données doivent être lues et tokenisées. Regardons l'exemple suivant, que nous utiliserons pour préparer notre jeu de données 

In [205]:
from torchtext import data
from spacy.lang.fr import French
from sklearn.feature_extraction.text import strip_accents_ascii
from spacy.lang.fr.stop_words import STOP_WORDS


config = {'embed_size': 300,
 'output_size': int(max(train_labels)[0])+1,
 'lr': 0.001,
 'batch_size': 128,
 'max_sen_len': 30,
 'dropout_keep': 0.3,
 'max_epochs': 5}



NLP = French()

def tokenizer(sentence):
    # Creating our token object, which is used to create documents with linguistic annotations.
    mytokens = NLP(sentence)

    # Lemmatizing each token and converting each token into lowercase
    mytokens = [word.lemma_.lower() for word in mytokens if word.text != " " and
                not word.is_punct and not word.like_num and word.text != 'n']
    # Removing stop words
    #mytokens = [word for word in mytokens if word not in STOP_WORDS]

    # Remove accentuated char for any unicode symbol
    mytokens = [strip_accents_ascii(word) for word in mytokens]

    # return preprocessed list of tokens
    return mytokens

#tokenizer = lambda sent: [x.text for x in NLP.tokenizer(sent) if x.text != " " and not x.is_punct and not x.like_num and x.text != 'n']      
# Creating Field for data
TEXT = data.Field(sequential=True,batch_first=True,tokenize=tokenizer,lower=True, fix_length=config["max_sen_len"])
LABEL = data.Field(sequential=False, use_vocab=False)
datafields = [("text",TEXT),("label",LABEL)]

Dans le code précédent, nous définissons deux objets Field, un pour le texte réel et un autre pour les données d'étiquette. Pour le texte réel, nous nous attendons à ce que torchtext réduise en minuscules tout le texte, le coupe à une longueur maximale de 30. Si nous créons une application pour un environnement de production, nous pouvons fixer la longueur à un nombre beaucoup plus grand. Le constructeur Field accepte également un autre argument appelé tokenize, qui utilise par défaut la fonction str.split. Nous pouvons également spécifier spaCy comme argument, ou tout autre tokenizer.

* ##### Construire du vocabulaire

 L'instance torchtext nous facilite la tâche. Une fois les données chargées, nous pouvons appeler build_vocab et passer les arguments nécessaires qui prendront soin de construire le vocabulaire des données. Le code suivant montre comment le vocabulaire est construit

In [141]:
 # Load data from pd.DataFrame into torchtext.data.Dataset
train_examples = [data.Example.fromlist(i, datafields) for i in data_train.values.tolist()]
train_data = data.Dataset(train_examples, datafields)

val_examples = [data.Example.fromlist(i, datafields) for i in data_valid.values.tolist()]
data_valid = data.Dataset(val_examples, datafields)

In [142]:
from torchtext.vocab import Vectors
TEXT.build_vocab(train_data, vectors=Vectors('C:\DEV\Article\data\cc.fr.300.vec'),max_size=20000,min_freq=2)

Dans le code précédent, nous passons l'objet train_data sur lequel nous devons construire le vocabulaire, et nous lui demandons également d'initialiser des vecteurs avec des embeddings pré-formées de dimensions 300(faster text fr). L'objet build_vocab télécharge et crée la dimension qui sera utilisée plus tard lorsque nous entraînerons norte modèle. L'instance max_size limite le nombre de mots dans le vocabulaire et min_freq supprime tout mot qui ne s'est pas produit plus de 2 fois.

Une fois le vocabulaire construit, nous pouvons obtenir différentes valeurs telles que la fréquence, l'index des mots et la représentation vectorielle pour chaque mot. Le code suivant montre comment accéder à ces valeurs:

In [97]:
#print(TEXT.vocab.freqs)

In [143]:
print(TEXT.vocab.vectors)

tensor([[ 0.0000,  0.0000,  0.0000,  ...,  0.0000,  0.0000,  0.0000],
        [ 0.0000,  0.0000,  0.0000,  ...,  0.0000,  0.0000,  0.0000],
        [ 0.0684,  0.0858,  0.0640,  ...,  0.1355, -0.0102,  0.0385],
        ...,
        [ 0.0141, -0.0332, -0.0262,  ..., -0.0027,  0.0277,  0.0380],
        [-0.0137, -0.0584, -0.0286,  ...,  0.0722,  0.0012, -0.0373],
        [-0.0329,  0.0616, -0.0220,  ...,  0.0269, -0.0486, -0.0266]])


De même, nous imprimerons les valeurs d'un dictionnaire contenant des mots et leurs index.
La valeur stoi donne accès à un dictionnaire contenant des mots et leurs index.

In [95]:
#print(TEXT.vocab.stoi)

In [144]:
word_embeddings = TEXT.vocab.vectors
vocab = TEXT.vocab

##### Génération des lots de vecteurs

torchtext fournit BucketIterator, qui aide à regrouper tout le texte et à remplacer les mots par le numéro d'index des mots. L'instance BucketIterator est livrée avec de nombreux paramètres utiles tels que batch_size,et shuffle (si les données doivent être mélangées). Le code suivant montre comment créer des itérateurs qui génèrent des lots .

In [145]:
train_iterator,val_iterator = data.BucketIterator.splits(
            (train_data,data_valid),
            batch_size=config["batch_size"],
            sort_key=lambda x: len(x.text),
            repeat=False,
            shuffle=True)

###### Création d'un modèle de réseau avec embeddings

Nous créons des embeddings de mots dans le cadre de notre architecture réseau et formons l'ensemble du modèle pour prédire la catégorie de chaque produit. À la fin de l'entraînement , nous aurons un modèle de classification et également des embeddings de mots pour notre jeux données . Le code suivant montre comment créer une architecture réseau pour prédire la categorie d'un produit en utilisant des embaddings de mots.

La variable vectors renvoie un tenseur de forme vocab_size x dimensions contenant les embedings pré-entraînés. Nous devons stocker les embeddings dans les poids de notre couche d'embedding. Nous pouvons attribuer les poids des embeddings en accédant aux poids de la couche des embedding.

Une fois les embeddings chargés,  

* soit on  gele les poids de la couche d'embeddings et nous permettons au reste du réseau d'apprendre.
* soit nous permettons à la couche d'embedding d'apprendre également, en ajustant tous les poids du réseau

pour indiquer à PyTorch de ne pas modifier les poids de la couche d'intégration ou si on veut le contraire, définissez l'attribut requires_grad sur False resp(True) 

In [146]:
import torch
from torch import nn
import torch.nn.functional as F

class EmbeddingNetwork(nn.Module):
    def __init__(self,config,emb_size,word_embeddings): 
        super(EmbeddingNetwork, self).__init__() 
        
        self.embedding = nn.Embedding(emb_size,config["embed_size"])
        self.embedding.weight = nn.Parameter(word_embeddings, requires_grad=True)
        self.fc = nn.Linear(config["embed_size"]*config["max_sen_len"],64) 
        self.fc2 = nn.Linear(64,config["output_size"]) 
        self.dropout = nn.Dropout(config["dropout_keep"])
    
    def forward(self,x):        
        embeds = self.embedding(x).view(x.size(0),-1)        
        out = self.fc(self.dropout(embeds))
        out = self.fc2(self.dropout(out))
        return F.log_softmax(out,dim=-1)

Dans le code précédent, EmbeddingNetwork crée le modèle de classification. A l'intérieur de la fonction _init_, nous initialisons un objet de la classe nn.Embedding, qui prend deux arguments, à savoir la taille du vocabulaire et les dimensions que nous souhaitons créer pour chaque mot. Comme nous avons limité le nombre de mots uniques, la taille du vocabulaire sera de 20 000. Nous avons également une couche linéaire qui mappe les embeddings de mots .

#####  Entraînement du modèle

Maintenant que nous avons construit l'architecture du modèle, nous devons entraîner le modèle. L'entraînement consiste de faire une prédiction basée sur l'état actuel du modèle,  à calculer le degré d'erreur de la prédiction et à mettre à jour les poids ou les paramètres du réseau pour minimiser cette erreur et améliorer la prédiction du modèle. Nous répétons ce processus jusqu'à ce que notre modèle ait convergé et ne puisse plus apprendre. Trois paramètres clés doivent être choisis pour ce processus .

* **Métrique** : Comment mesurer la performance de notre modèle à l'aide d'une métrique. Nous avons utilisé l'accuracy  comme métrique dans nos expériences.

* **Fonction de perte** : fonction utilisée pour calculer une valeur de perte que le processus de formation tente ensuite de minimiser en réglant les poids du réseau. Pour les problèmes de classification, la perte d'entropie croisée fonctionne bien.

* **Optimiseur** : Une fonction qui décide comment les poids du réseau seront mis à jour en fonction de la sortie de la fonction de perte. Nous avons utilisé le populaire optimiseur Adam dans nos expériences.



###### Paramètres d'apprentissage


L'entraînement proprement se fait en utilisant une méthode d'ajustement . Selon la taille de votre ensemble de données, il s'agit de la méthode dans laquelle la plupart des cycles de calcul seront passés. Dans chaque itération d'entraînement, le batch_size  d'échantillons de vos données d'entraînement est utilisé pour calculer la perte et les poids sont mis à jour une fois, en fonction de cette valeur. Le processus de d'entraînement se termine une fois que le modèle a vu l'ensemble de données de d'entraînement complet. À la fin de chaque époque, nous utilisons l'ensemble de données de validation pour évaluer dans quelle mesure le modèle apprend. Nous répétons la formation en utilisant l'ensemble de données pour un nombre prédéterminé d'époques. Nous pouvons optimiser cela en s'arrêtant tôt, lorsque la précision de validation se stabilise entre les époques consécutives, montrant que le modèle ne s'entraîne plus.



In [196]:
from sklearn.metrics import accuracy_score
def evaluate_model(model, iterator):
    all_preds = []
    all_y = []
    for idx,batch in enumerate(iterator):
        if torch.cuda.is_available():
            x = batch.text.cuda()
        else:
            x = batch.text
        y_pred = model(x)
        predicted = torch.max(y_pred.cpu().data, 1)[1]
        all_preds.extend(predicted.numpy())
        all_y.extend(batch.label.numpy())
    score = accuracy_score(all_y, np.array(all_preds).flatten())
    return score
def run_epoch(model, train_iterator, val_iterator, epoch):
    train_losses = []
    val_accuracies = []
    losses = []


    for i, batch in enumerate(train_iterator):
        optimizer.zero_grad()
        if torch.cuda.is_available():
            x = batch.text.cuda()
            y = (batch.label).type(torch.cuda.LongTensor)
        else:
            x = batch.text
            y = (batch.label).type(torch.LongTensor)
        y_pred = model.__call__(x)
        loss = loss_op(y_pred, y)
        loss.backward()
        losses.append(loss.data.cpu().numpy())
        optimizer.step()

        if i % 1000 == 0:
            print("Iter: {}".format(i+1))
            avg_train_loss = np.mean(losses)
            train_losses.append(avg_train_loss)
            print("\tAverage training loss: {:.5f}".format(avg_train_loss))
            losses = []

            # Evalute Accuracy on validation set
            val_accuracy = evaluate_model(model,val_iterator)
            print("\tVal Accuracy: {:.4f}".format(val_accuracy))
            model.train()

    return train_losses, val_accuracies

In [209]:
import torch.optim as optim

model = EmbeddingNetwork(config, len(vocab),word_embeddings)

train_losses = []
val_accuracies = []

if torch.cuda.is_available():
    model.cuda()
        
optimizer = optim.Adam(model.parameters(), lr=config["lr"])

class_weights = torch.FloatTensor(class_weights)
loss_op = nn.CrossEntropyLoss(weight=class_weights)
#F.nll_loss

for i in range(config["max_epochs"]):
    print ("Epoch: {}".format(i))
    train_loss,val_accuracy = run_epoch(model,train_iterator, val_iterator, i)
    train_losses.append(train_loss)
    val_accuracies.append(val_accuracy)

train_acc = evaluate_model(model, train_iterator)
val_acc = evaluate_model(model, val_iterator)
#test_acc = evaluate_model(model, dataset.test_iterator)

print ('Final Training Accuracy: {:.4f}'.format(train_acc))
print ('Final Validation Accuracy: {:.4f}'.format(val_acc))
#print ('Final Test Accuracy: {:.4f}'.format(test_acc))


Epoch: 0
Iter: 1
	Average training loss: 3.79585
	Val Accuracy: 0.0760
Epoch: 1
Iter: 1
	Average training loss: 0.05444
	Val Accuracy: 0.8863
Epoch: 2
Iter: 1
	Average training loss: 0.02922
	Val Accuracy: 0.8935
Epoch: 3
Iter: 1
	Average training loss: 0.01110
	Val Accuracy: 0.8945
Epoch: 4
Iter: 1
	Average training loss: 0.00293
	Val Accuracy: 0.8932
Final Training Accuracy: 0.9946
Final Validation Accuracy: 0.8909


In [200]:
def report(Dataset):
    model.eval()
    all_preds = []
    all_y = []
    for idx,batch in enumerate(Dataset):
        if torch.cuda.is_available():
            x = batch.text.cuda()
        else:
            x = batch.text
        y_pred = model(x)
        predicted = torch.max(y_pred.cpu().data, 1)[1]
        all_preds.extend(predicted.numpy())
        all_y.extend(batch.label.numpy())
        predicted_df = pd.DataFrame(all_preds)
    all_y_df = pd.DataFrame(all_y)
    all_preds = ordinal_encoder.inverse_transform(predicted_df)
    all_y = ordinal_encoder.inverse_transform(all_y_df)
    print(metrics.classification_report(all_y,all_preds))

Dans le code précédent, nous appelons la méthode run_epoch en passant l'objet BucketIterator que nous avons créé pour regrouper les données. La formation du modèle sur environ 5 époques donne une précision de validation d'environ 90%.

In [208]:
report(val_iterator)

  _warn_prf(average, modifier, msg_start, len(result))


                                            precision    recall  f1-score   support

                        ADULTE - EROTIQUE        0.59      0.59      0.59       175
                          ANIMALERIE - NEW       0.71      0.64      0.67       129
            ARME DE COMBAT - ARME DE SPORT       0.55      0.43      0.48        14
     ART DE LA TABLE - ARTICLES CULINAIRES       0.72      0.80      0.76       196
                      ARTICLES POUR FUMEUR       0.84      0.76      0.80        71
                         AUTO - MOTO (NEW)       0.93      0.90      0.91       968
                                 BAGAGERIE       0.91      0.93      0.92       425
                   BATEAU MOTEUR - VOILIER       0.67      0.19      0.30        21
              BIJOUX -  LUNETTES - MONTRES       0.95      0.99      0.97      1220
     BRICOLAGE - OUTILLAGE - QUINCAILLERIE       0.78      0.77      0.77       628
                  CHAUSSURES - ACCESSOIRES       0.91      0.95      0.93  

In [246]:
val_iterator
all_preds = []
all_y = []
for idx,batch in enumerate(val_iterator):
    if torch.cuda.is_available():
        x = batch.text.cuda()
    else:
        x = batch.text
    y_pred = model(x)
    predicted = torch.max(y_pred.cpu().data, 1)[1]
    all_preds.extend(predicted.numpy())
    all_y.extend(batch.label.numpy())

In [258]:
import pandas as pd 
from sklearn import metrics
predicted_df = pd.DataFrame(all_preds)
all_y_df = pd.DataFrame(all_y)
all_preds = ordinal_encoder.inverse_transform(predicted_df)
all_y = ordinal_encoder.inverse_transform(all_y_df)
print(metrics.classification_report(all_y,all_preds))

  'precision', 'predicted', average, warn_for)


                                            precision    recall  f1-score   support

                        ADULTE - EROTIQUE        0.67      0.58      0.62       175
                          ANIMALERIE - NEW       0.61      0.51      0.56       129
            ARME DE COMBAT - ARME DE SPORT       0.12      0.07      0.09        14
     ART DE LA TABLE - ARTICLES CULINAIRES       0.63      0.72      0.67       196
                      ARTICLES POUR FUMEUR       0.89      0.68      0.77        71
                         AUTO - MOTO (NEW)       0.92      0.89      0.90       968
                                 BAGAGERIE       0.93      0.91      0.92       425
                   BATEAU MOTEUR - VOILIER       0.38      0.14      0.21        21
              BIJOUX -  LUNETTES - MONTRES       0.95      0.98      0.96      1220
     BRICOLAGE - OUTILLAGE - QUINCAILLERIE       0.74      0.79      0.76       628
                  CHAUSSURES - ACCESSOIRES       0.91      0.88      0.90  

Nous pouvons former le modèle en utilisant ce code exact et devrions atteindre une précision similaire.
Toutes les architectures de modèle ne parviennent pas à tirer parti de la nature séquentielle du texte.
Dans la section suivante, nous explorons deux techniques populaires, à savoir RNN et Conv1D, qui profitent de la nature séquentielle des données

#### Réseau de neurones récurrents 


Les RNN sont parmi les modèles les plus puissants qui nous permettent de prendre en charge des applications telles que la classification, l'étiquetage des données séquentielles, la génération de séquences de texte et la conversion d'une séquence en une autre, comme lorsque traduire une langue (par exemple, du français vers l'anglais).

Dans la plupart des langues modernes, les humains donnent un sens aux données textuelles en lisant les mots de gauche à droite et en construisant un modèle puissant qui comprend en quelque sorte toutes les différentes choses que dit le texte. RNN fonctionne de manière similaire en regardant un mot dans le texte à la fois. RNN est également un réseau aneural qui a une couche spéciale en elle, qui boucle sur les données au lieu de traiter tout à la fois. Comme les RNN peuvent traiter des données en séquence, nous pouvons utiliser des vecteurs de différentes longueurs et générer des sorties de différentes longueurs. Certaines des différentes représentations sont fournies dans le diagramme suivant.


<img src="data/RNN.png" width="600"/>

### Vanilla RNNs


c'est la version la plus simple des RNN proposée par Jeff Elman en 1990 et dans laquelle on rajoute des liens à un MLP pour donner en entrée d’une couche du réseau sa propre sortie au pas de temps précédent en plus de la sortie courante de la couche précédente. Dans le cas où les vecteurs d’entrées x sont indépendants les uns des autres cela n’a pas beaucoup d’intérêt mais dans le cas où l’on a des entrées sous la forme de séquences temporelles ou spatiales cette modification a un très grand impact. En effet, la structure d’un RNN introduit un mécanisme de mémoire des entrées précédentes qui persiste dans les états internes du réseau et peut ainsi impacter toutes ses sorties futures. Avec cette simple modification il est en théorie
possible d’approximer n’importe quelle fonction qui transforme une séquence d’entrée en une séquence de sortie donnée avec une précision arbitraire. Ce que ne permet pas le MLP. Le revers de la médaille est que ce type de RNN peut être particulièrement
difficile à entraîner (bien que des développements récents améliorent cela)


<img src="data/RNN_V.jpg" width="400"/>

### RNN bidirectionnel

Dans le cas de nombreuses tâches de classification de séquences, pour prendre une décision à un instant donné il est intéressant de connaître le passé et tout ou partie du futur de la séquence. Les RNN que nous avons décrits dans la section précédente traitent les séquences dans l’ordre temporel et n’ont donc pas accès à l’information future. 

Pour s’attaquer à ce problème, on peut rajouter de l’information future dans les données d’entrée (par exemple en ajoutant au vecteur courant les 10 prochains vecteurs d’entrée) ou introduire un délai entre un vecteur d’entrée et sa cible pour que le RNN ait le temps de traiter un peu d’information future avant d’avoir à prendre sa décision.

Cependant, ces différentes approches rajoutent des contraintes sur l’apprentissage soit en augmentant le nombre de paramètres dans la couche d’entrée, soit en forçant le RNN à apprendre le délai choisi pour donner sa réponse au bon moment. Et dans
les deux cas on ne résout pas pour autant le problème puisqu’on introduit des hyperparamètres (nombre de vecteurs d’entrées à agréger ou délai de réponse) qui peuvent s’avérer difficiles à régler. De plus, on ne supprime en aucun cas la dissymétrie entre le passé et le futur pour ce qui est du contexte exploitable. 

En 1997, Schuster et Paliwal ont introduit une solution élégante appelée réseau de neurones récurrent bidirectionnel (bidirectional Recurrent Neural Network -BiRNN) qui consiste à présenter chaque séquence à traiter à deux RNN de même type mais avec des paramètres différents :
*  le premier traite la séquence dans l’ordre naturel t : 1 → tf 
*  le second traite la séquence dans l’ordre inverse t : tf → 1.

Les deux séquences obtenues en sortie des deux RNN sont ensuite concaténées avant
d’être mises en entrée d’un MLP qui pour chaque vecteur d’entrée initial produit alors
une sortie (par exemple une classification) qui se base sur tout le contexte passé via
la sortie du premier RNN et tout le contexte futur via la sortie du second. Il est ainsi
possible d’exploiter pleinement les capacités des RNN sur l’ensemble de la séquence
pour chaque pas de temps.

un BiRNN est toujours préférable à l’utilisation d’un RNN unidirectionnel ayant le même nombre de paramètres . C’est pour cette raison que dans toutes les expérimentations réalisées durant cet
article nous avons toujours utilisé des BiRNN que ce soit avec des couches récurrentes
standard ou des couches LSTM . 



<img src="data/RNN_BI.png" width="400"/>

Pour éviter d'écrire beaucoup de code dans cet article je mettrai à disposition tous les modèles construits dans cette partie sur mon référentiel git 

Le lien https://github.com/rachikbilal/NLP_Text_Classification

**si vous voulez exécuter le code dans jupyter comme je le fais maintenant, vous devez télécharger le projet et définir la variable d'environnement PYTHONPATH où se trouve le projet, cela vous permettra d'accéder au code dans jupyter**


* **architecte de notre modèle**
<img src="data/ARCHI.png" width="400"/>

In [68]:
from Model_RNN.utils import evaluate_model,Dataset
from Model_RNN.model import RNNClassifier
from Model_RNN.config import Config
import sys
import torch.optim as optim
from torch import nn
import torch


config = Config()
train_file = "data/cdiscount_train.csv.zip"

w2v_file = 'C:\DEV\Article\data\cc.fr.300.vec'

dataset = Dataset(config)
dataset.load_data(w2v_file, train_file)

# Create Model with specified optimizer and loss function
##############################################################
model = RNNClassifier(config, len(dataset.vocab), dataset.word_embeddings)
if torch.cuda.is_available():
    model.cuda()
model.train()
optimizer = torch.optim.Adam(filter(lambda p: p.requires_grad, model.parameters()),lr=config.lr)

#NLLLoss = nn.NLLLoss()
CrossEntropyLoss = nn.CrossEntropyLoss()


model.add_optimizer(optimizer)
model.add_loss_op(CrossEntropyLoss)

    ##############################################################

Train set : 80000 elements, Validation set : 20000 elements
Loaded 80000 training examples
Loaded 20000 validation examples


In [71]:
##############################################################
train_losses = []
val_accuracies = []
for i in range(config.max_epochs):
    print ("Epoch: {}".format(i))
    train_loss,val_accuracy = model.run_epoch(dataset.train_iterator, dataset.val_iterator, i)
    train_losses.append(train_loss)
    val_accuracies.append(val_accuracy)

train_acc = evaluate_model(model, dataset.train_iterator)
val_acc = evaluate_model(model, dataset.val_iterator)

print ('Final Training Accuracy: {:.4f}'.format(train_acc))
print ('Final Validation Accuracy: {:.4f}'.format(val_acc))


Epoch: 0
Iter: 1
	Average training loss: 0.21522
	Val Accuracy: 0.8904
Iter: 101
	Average training loss: 0.07544
	Val Accuracy: 0.8917
Iter: 201
	Average training loss: 0.08640
	Val Accuracy: 0.8905
Iter: 301
	Average training loss: 0.08488
	Val Accuracy: 0.8902
Iter: 401
	Average training loss: 0.09048
	Val Accuracy: 0.8890
Iter: 501
	Average training loss: 0.08903
	Val Accuracy: 0.8885
Iter: 601
	Average training loss: 0.08466
	Val Accuracy: 0.8873
Iter: 701
	Average training loss: 0.09635
	Val Accuracy: 0.8892
Iter: 801
	Average training loss: 0.10032
	Val Accuracy: 0.8878
Iter: 901
	Average training loss: 0.08308
	Val Accuracy: 0.8871
Iter: 1001
	Average training loss: 0.09169
	Val Accuracy: 0.8875
Iter: 1101
	Average training loss: 0.11044
	Val Accuracy: 0.8873
Iter: 1201
	Average training loss: 0.10630
	Val Accuracy: 0.8871
Epoch: 1
Reducing LR
Iter: 1
	Average training loss: 0.03653
	Val Accuracy: 0.8890
Iter: 101
	Average training loss: 0.06440
	Val Accuracy: 0.8917
Iter: 201
	

In [129]:
import pandas as pd 
from sklearn import metrics

def report(Dataset):
    model.eval()
    all_preds = []
    all_y = []
    for idx,batch in enumerate(Dataset.val_iterator):
        if torch.cuda.is_available():
            x = batch.text.cuda()
        else:
            x = batch.text
    y_pred = model(x)
    predicted = torch.max(y_pred.cpu().data, 1)[1]
    all_preds.extend(predicted.numpy())
    all_y.extend(batch.label.numpy())
    predicted_df = pd.DataFrame(all_preds)
    all_y_df = pd.DataFrame(all_y)
    all_preds = dataset.ordinal_encoder.inverse_transform(predicted_df)
    all_y = dataset.ordinal_encoder.inverse_transform(all_y_df)
    print(metrics.classification_report(all_y,all_preds))

In [94]:
report(dataset)

                                       precision    recall  f1-score   support

                     ANIMALERIE - NEW       1.00      1.00      1.00         1
ART DE LA TABLE - ARTICLES CULINAIRES       1.00      1.00      1.00         1
                    AUTO - MOTO (NEW)       0.00      0.00      0.00         0
         BIJOUX -  LUNETTES - MONTRES       1.00      1.00      1.00         2
BRICOLAGE - OUTILLAGE - QUINCAILLERIE       0.00      0.00      0.00         2
             CHAUSSURES - ACCESSOIRES       0.00      0.00      0.00         0
                       CULTURE / JEUX       1.00      1.00      1.00         1
                       ELECTROMENAGER       0.00      0.00      0.00         0
                         INFORMATIQUE       1.00      1.00      1.00         1
                          JOUET (NEW)       0.00      0.00      0.00         1
                            LIBRAIRIE       0.50      1.00      0.67         1
                             MERCERIE       1.00   

  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)


#### Long short-term memory (LSTM) 



L’intérêt des RNN réside dans leur capacité à exploiter l’information contextuelle pour passer d’une séquence d’entrée à une séquence de sortie qui soit le plus proche possible de la séquence cible. Malheureusement, pour les RNN standards l’apprentissage peut se révéler difficile et le contexte réellement exploité très local. Le problème vient du fait qu’un vecteur d’entrée ne peut avoir une influence sur les décisions futures qu’au travers des liens récurrents et
que par conséquent cette influence décroit ou augmente exponentiellement au fur et à mesure qu’on avance dans la séquence. Ce phénomène est souvent appelé vanishing gradient parce qu’il impacte la rétro-propagation du gradient.

Dans les années 1990, de nombreuses architectures neuronales et méthodes d’apprentissage ont été testées pour essayer de contrer ce phénomène. Mais l’approche qui s’est montrée la plus efficace et
qui est maintenant devenue la norme pour traiter des séquences est le modèle LSTM proposé par Hochreiter et Schmidhuber en 1997 . En effet, ce modèle introduit des portes logiques multiplicatives qui permettent de conserver et d’accéder à l’information
pertinente sur de longs intervalles permettant ainsi de diminuer l’impact du problème de gradient évanescent.


Dans la plupart des problèmes du monde réel, des variantes de RNN telles que LSTM ou GRU sont utilisées, qui résolvent les limites du RNN ordinaire et ont également la possibilité de mieux gérer les données séquentielles.


Les LSTM  fonctionnent extrêmement bien sur une grande variété de problèmes et sont largement utilisés.Les LSTM sont conçus pour éviter les problèmes de dépendance à long terme en ayant une conception grâce à laquelle il est naturel de se souvenir des informations pendant une longue période.

La figure montre la cellule de base d'un modèle LSTM.


<img src="data/LSTM.png" width="400"/>

 Créez un réseau basé sur LSTM pour résoudre le problème de classification de texte sur notres ensembles de données 
le code complet est sur mon référentiel git. 

### Architecture du modèle
L'architecture du LSTM bidirectionnel est la suivante:
<img src="data/BILSTM.jpeg" width="300"/>



##### Détails d'implémentation
* fastText fr Embeddings pré-formés utilisés pour initialiser les vecteurs de mots
* 2 couches de BiLSTM
* Utilisé 32 unités cachées dans chaque couche BiLSTM
* Dropou avec probabilité de conservation 0,8
* Optimiseur - adam
* Fonction de perte - entropie croisée (CrossEntropyLoss)
* Expérimenté avec des longueurs de séquence flexibles et des séquences de longueur 50

In [None]:
from Model_LSTM.utils import evaluate_model,Dataset
from Model_LSTM.model import LSTMClassifier
from Model_LSTM.config import Config
import torch.optim as optim
from torch import nn
import torch


config = Config()
train_file = "data/cdiscount_train.csv.zip"
w2v_file = 'C:\DEV\Article\data\cc.fr.300.vec'

dataset = Dataset(config)
dataset.load_data(w2v_file, train_file)

# Create Model with specified optimizer and loss function
##############################################################
model = LSTMClassifier(config, len(dataset.vocab), dataset.word_embeddings)
if torch.cuda.is_available():
    model.cuda()
model.train()
optimizer = torch.optim.Adam(filter(lambda p: p.requires_grad, model.parameters()),lr=config.lr)

NLLLoss = nn.NLLLoss()


model.add_optimizer(optimizer)
model.add_loss_op(NLLLoss)

In [None]:
##############################################################
train_losses = []
val_accuracies = []

for i in range(config.max_epochs):
    print("Epoch: {}".format(i))
    train_loss, val_accuracy = model.run_epoch(dataset.train_iterator, dataset.val_iterator, i)
    train_losses.append(train_loss)
    val_accuracies.append(val_accuracy)

train_acc = evaluate_model(model, dataset.train_iterator)
val_acc = evaluate_model(model, dataset.val_iterator)


print('Final Training Accuracy: {:.4f}'.format(train_acc))
print('Final Validation Accuracy: {:.4f}'.format(val_acc))


### Mécanisme Attention

L'attention est une autre astuce qui peut être mise en œuvre dans des modèles de séquence à séquence.
Les modèles Seq2Seq sont particulièrement bons en traduction, où la séquence de mots d'une langue est transformée en une séquence de mots différents dans une autre langue. Un choix populaire pour ce type de modèle est les modèles basés sur la mémoire à long terme et à court terme (LSTM). Avec des données dépendantes de la séquence, les modules LSTM peuvent donner un sens à la séquence tout en se souvenant (ou en oubliant) les parties qu'elle juge importantes (ou sans importance). Les phrases, par exemple, dépendent de la séquence, car l'ordre des mots est crucial pour comprendre la phrase. Les LSTM sont un choix naturel pour ce type de données.

Les modèles Seq2Seq se composent d'un encodeur et d'un décodeur. L'encodeur prend la séquence d'entrée et la mappe dans un espace de dimension supérieure (vecteur à n dimensions). Ce vecteur abstrait est introduit dans le décodeur qui le transforme en une séquence de sortie. La séquence de sortie peut être dans une autre langue, des symboles, une copie de l'entrée, etc.

<img src="data/SEQ2SEQpng.png" width="500"/>

Cependant, dans le modèle seq2seq, les informations source sont compressées dans un vecteur de contexte de longueur fixe. Un inconvénient critique de cette conception est l' incapacité de la mémoire des phrases longues et conduit à un mauvais résultat,Au fur et à mesure que le contexte passe par les pas de temps sur le décodeur le signal est combiné avec la sortie du décodeur et devient de plus en plus faible,Le résultat est que le contexte n'a pas beaucoup d'effet sur les pas de temps ultérieurs sur le décodeur. De plus, certaines sections de la sortie du décodeur peuvent dépendre plus fortement de certaines sections de l'entrée.


Le modèle d'attention est né pour aider à mémoriser de longues phrases sources en traduction automatique neuronale.


Le mécanisme d'attention examine une séquence d'entrée et décide à chaque étape quelles autres parties de la séquence sont importantes. Cela semble abstrait, mais permettez-moi de clarifier avec un exemple simple: lorsque vous lisez un texte, vous vous concentrez toujours sur le mot que vous lisez, mais en même temps, votre esprit conserve en mémoire les mots-clés importants du texte afin de fournir un contexte.

Un mécanisme d'attention fonctionne de manière similaire pour une séquence donnée. 
En d'autres termes, pour chaque entrée lue par le LSTM (Encoder), le mécanisme d'attention prend en compte plusieurs autres entrées en même temps et décide lesquelles sont importantes (ou de prêter plus d'attention) en attribuant des poids différents à ces entrées. Le décodeur prendra alors en entrée la phrase codée et les poids fournis par le mécanisme d'attention.



<img src="data/ATT.PNG" width="500"/>




 

Dans notre modèle de classification  l'encodeur sera les couches BILSTM et  le décodeur la couche linéaire dans notre suivit d'une softmax

L'architecture du modèle Seq2Seq avec Attention pour la classification.

<img src="data/BiLSTM-Attention.ppm" width="500"/>



##### Détails d'implémentation
* fastText fr Embeddings pré-formés utilisés pour initialiser les vecteurs de mots
* 2 couches de BiLSTM
* Utilisé 64 unités cachées dans chaque couche BiLSTM
* Dropou avec probabilité de conservation 0,4
* Optimiseur - adam
* Fonction de perte - entropie croisée (CrossEntropyLoss)
* Séquences de longueur 30

### Réseau convolutionnel sur données séquentielles
    
   Les réseaux neuronaux convolutifs (CNN) ont été initialement conçus pour effectuer les tâches de vision par ordinateur, et se sont révélés très efficaces. Ils utilisent le concept de «convolution», une fenêtre coulissante ou un «filtre» qui passe sur l'image, identifiant les caractéristiques importantes et les analysant une à la fois, puis les réduisant à leurs caractéristiques essentielles et répétant le processus.
    
Ils se sont également révélés très utiles pour les tâches de traitement du langage naturel (NLP). En 2014, Yoon Kim a publié le document de recherche(https://www.aclweb.org/anthology/D14-1181/ )  sur l'utilisation des CNN pour la classification des textes. Il a testé quatre variations CNN et a montré que les modèles CNN pouvaient surpasser les approches précédentes pour plusieurs tâches de classification

 

Vous trouverez ci-dessous une architecture CNN typique utilisée pour le traitement de texte. Cela commence par une phrase d'entrée décomposée en mots ou en embeddings de mots: des représentations de faible dimension générées par des modèles comme word2vec ou GloVe.

Les mots sont décomposés en caractéristiques et sont introduits dans une couche convolutionnelle. Les résultats de la convolution sont «regroupés» ou agrégés à un nombre représentatif. Ce nombre est envoyé à une structure neuronale entièrement connectée, qui prend une décision de classification en fonction des poids attribués à chaque entité dans le texte

<img src="data/CNN.png" width="400"/>

Dans un CNN, le texte est organisé en matrice, chaque ligne représentant un mot , un mot ou un caractère. La couche convolutionnelle du CNN «numérise» le texte comme s'il s'agissait d'une image, le décompose en entités et juge si chaque entité correspond ou non à l'étiquette appropriée

## Réseaux convolutifs au niveau des caractères pour la classification de texte

https://arxiv.org/abs/1509.01626
    

Une tendance est d'apprendre à utiliser des données brutes et de fournir aux modèles d'apprentissage automatique un accès à plus d'informations sur la structure du texte. Une prochaine étape logique serait d'introduire un flux de caractères dans le modèle et de le laisser tout apprendre sur les mots.

Un avantage supplémentaire est que le modèle peut apprendre les fautes d'orthographe et les émoticônes. En outre, le même modèle peut être utilisé pour différentes langues, même celles où la segmentation en mots n'est pas possible


L'article « Character-level Convolutional Networks for Text Classification (ConvNets)  https://arxiv.org/abs/1509.01626 » explore l'utilisation des réseaux ConvNet au niveau des caractères pour la classification des textes. Ils comparent les performances de quelques modèles différents sur plusieurs ensembles de données à grande échelle.

Les résultats sont assez intéressants. Les modèles TFIDF et N-gramme sont les meilleurs pour les petits ensembles de données, jusqu'à plusieurs centaines de milliers d'échantillons. Mais lorsque la taille de l'ensemble de données atteint plusieurs millions, nous pouvons observer que ConvNet au niveau des caractères fonctionne mieux.


ConvNet a tendance à mieux fonctionner pour les textes qui sont moins organisés. Le choix de l'alphabet est important. Le meilleur fonctionnement de ConvNet est de ne pas distinguer les majuscules des minuscules.

<img src="data/convnet.png" width="500"/>


vous trouvez sur mon repot git une mise en œuvre de ConvNet comme proposé dans l'article Character-level Convolutional Networks for Text Classification .

Dans CharCNN, le texte d'entrée est représenté par une matrice ( l_0 , d ). Où l_0 est la longueur de phrase maximale et d est la dimensionnalité de l'incorporation de caractères.

Les caractères suivants sont utilisés pour la quantification des caractères:

abcdefghijklmnopqrstuvwxyz0123456789-,;.!?:’’’/\|_@#$%ˆ&* ̃‘+-=<>()[]{}


L'architecture de CharCNN comprend 9 couches: 6 couches convolutionnelles et 3 couches entièrement connectées. L'entrée a 70 caractéristiques, en raison de la méthode de quantification des caractères ci-dessus et la longueur de la caractéristique d'entrée l_0 est choisie pour être 300 (1014 dans le papier original). 2 couches de suppression sont insérées entre les 3 couches entièrement connectées.

L'architecture de CharCNN comporte 9 couches : 6 couches convolutives et 3 couches entièrement connectées. L'entrée a 70 caractéristiques,la longueur de la caractéristique d'entrée l_0 est choisie pour être de 300 (1014 dans le document original). 


### Transformer
“Attention is All you Need” (Vaswani, et al., 2017), sans aucun doute, est l'un des articles les plus percutants et intéressants en 2017. Il a présenté de nombreuses améliorations à l'attention et permet de faire une  modélisation seq2seq sans unités de réseau récurrentes. Le modèle de « Transformer » proposé est entièrement construit sur les mécanismes d'auto-attention sans utiliser d'architecture récurrente alignée sur la séquence.

Comme son titre l'indique, il utilise le mécanisme d'attention que nous avons vu précédemment. Transformer est une architecture pour transformer une séquence en une autre à l'aide de deux parties (encodeur et décodeur), mais elle diffère des modèles de séquence à séquence précédemment décrits / existants car elle n'implique aucun réseau récurrent ( GRU, LSTM, etc.).
Les réseaux récurrents étaient, jusqu'à présent, l'un des meilleurs moyens de capturer les dépendances en temps voulu dans des séquences dans les séquences. Cependant, l'équipe qui a présenté l'article a prouvé qu'une architecture avec uniquement des mécanismes d'attention sans RNN (réseaux de neurones récurrents) peut améliorer les résultats de la tâche de traduction et d'autres tâches! 

<img src="data/trans.png" width="400"/>


L'encodeur est à gauche et le décodeur à droite. L'encodeur et le décodeur sont composés de modules qui peuvent être empilés les uns sur les autres plusieurs fois, ce qui est décrit par Nx dans la figure. Nous voyons que les modules se composent principalement de couches Multi-Head Attention et Feed Forward. Les entrées et sorties (phrases cibles) sont d'abord intégrées dans un espace à n dimensions car nous ne pouvons pas utiliser directement des chaînes.
Une partie légère mais importante du modèle est l'encodage positionnel des différents mots. Comme nous n'avons pas de réseaux récurrents qui peuvent se rappeler comment les séquences sont introduites dans un modèle, nous devons en quelque sorte donner à chaque mot / partie de notre séquence une position relative, car une séquence dépend de l'ordre de ses éléments. Ces positions sont ajoutées à la représentation intégrée (vecteur à n dimensions) de chaque mot.

Une amélioration des tâches en langage naturel est présentée par une équipe présentant BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. https://arxiv.org/abs/1810.04805


Dernièrement, plusieurs méthodes ont été présentées pour améliorer le BERT

Voici les algorithmes basés sur BERT les plus connus :

* **RoBERTa** par Facebook, créé par Liu et al
* **MT-DNN** par Microsoft (détails)
* **XLNet and ALBERT** par Google et Toyota. Sorti en septembre 2019, ALBERT est déjà considéré comme le successeur de BERT, qu’il surpasse dans tous les domaines (notamment en termes de score sur SQuAD 2.0)
* **BERT-mtl** par IBM
* **Google T5** par Google
* **DistilBERT** est une version plus petite, légère et rapide de BERT
* **FastBERT** est une version plus rapide de BERT
* **CamemBERT** est une version française développée par l’INRIA, dérivée de RoBERTa (détails)

http://nlp.seas.harvard.edu/2018/04/03/attention.html

In [3]:

from sklearn.datasets import make_classification
X, y = make_classification(n_samples=5000, n_features=2, n_informative=2,
                            n_redundant=0, n_repeated=0, n_classes=3,
                            n_clusters_per_class=1,
                            weights=[0.01, 0.05, 0.94],
                            class_sep=0.8, random_state=0)
from imblearn.over_sampling import RandomOverSampler
ros = RandomOverSampler(random_state=0)
X_resampled, y_resampled = ros.fit_resample(X, y)

[(0, 4674), (1, 4674), (2, 4674)]




In [15]:
batch_size = 10
nb_classes = 2

model = nn.Linear(10, nb_classes)
weight = torch.empty(nb_classes).uniform_(0, 1)
criterion = nn.CrossEntropyLoss(weight=weight, reduction='none')

# This would be returned from your DataLoader
x = torch.randn(batch_size, 10)
target = torch.empty(batch_size, dtype=torch.long).random_(nb_classes)
sample_weight = torch.empty(batch_size).uniform_(0, 1)

output = model(x)
loss = criterion(output, target)
loss = loss 


<table>
  <tr>
    <th rowspan="3">Model</th>
    <th align="center" colspan="4">Dataset</th>
  </tr>
  <tr>
    <th colspan="2"> </th>
    <th colspan="2"></th>
  </tr>
  <tr>
    <th>Accuracy</th>
    <th>precision</th>
    <th>recall</th>
    <th>f1-score </th>
  </tr>
  <tr>
    <td>fastText</td>
    <td> </td>
    <td> </td>
    <td> </td>
    <td> </td>
  </tr>
  <tr>
    <td>CNNClassifier</td>
    <td> </td>
    <td> </td>
    <td> </td>
    <td> </td>
  </tr>
  <tr>
    <td>RNNClassifier</td>
    <td>  </td>
    <td> </td>
    <td> </td>
    <td> </td>
  </tr>
  <tr>
    <td>CNNClassifier</td>
    <td> </td>
    <td> </td>
    <td> </td>
    <td> </td>
  </tr>
  <tr>
    <td>CharCNN</td>
    <td> </td>
    <td> </td>
    <td> </td>
    <td> </td>
  </tr>
  <tr>
    <td>LSTMAttClassifier</td>
    <td> </td>
    <td> </td>
    <td> </td>
    <td> </td>
  </tr>
  <tr>
    <td>Transformer</td>
    <td> </td>
    <td> </td>
    <td> </td>
    <td> </td>
  </tr>
</table>

### Conclusion

La classification de texte est un problème fondamental d'apprentissage automatique avec des applications sur divers produits. Dans ce guide, nous avons divisé le flux de travail de classification de texte en plusieurs étapes. Pour chaque étape, nous avons proposé une approche personnalisée basée sur les caractéristiques de votre jeu de données spécifique. En particulier, en utilisant le rapport du nombre d'échantillons au nombre de mots par échantillon, nous suggérons un type de modèle qui vous rapproche rapidement des meilleures performances. Les autres étapes sont conçues autour de ce choix. Nous espérons que le fait de suivre le guide, le code qui l' accompagne et l' organigramme vous aidera à apprendre, à comprendre et à obtenir une première solution rapide à votre problème de classification de texte.

In [None]:
https://github.com/lyeoni/nlp-tutorial
    
https://github.com/TobiasLee/Text-Classification
    