<a href="https://colab.research.google.com/github/aneuraz/intro-keras/blob/master/LSTM_classification_student.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Classification de texte en deep learning (LSTM et convolution) 

## But de la tâche 

A partir d'un dataset d'articles PUBMED, le but est de classifier les articles dans des catégories thématiques en fonction de leur titre. 

Après une phase de préprocessing du texte, nous entrainerons un modèle à base de convolutions, puis un modèle à base de réseau de neurones récurrents (LSTM) 

## Cloner le repo https://github.com/aneuraz/intro-keras.git

In [0]:
!git clone https://github.com/aneuraz/intro-keras.git

## Import des libraries

In [0]:
%tensorflow_version 2.x
import json 
import tensorflow as tf
import numpy as np

## Chargement des données

Toutes les données chargées se situent dans le répertoire `/content/`.
Les données sont dans un fichier JSON.

In [0]:
with open('/content/intro-keras/ai_pub_samp.json','r') as f:
  data = json.load(f)

In [0]:
data[0]

{'Cat_2013': 'C',
 'Cat_2014': 'C',
 'Cat_2015': 'C',
 'Cat_2016': 'C',
 'Cat_2017': 'B',
 'Disciplines': ['XQ'],
 'ESSN': '1873-3557',
 'IF_2013': '2.129',
 'IF_2014': '2.353',
 'IF_2015': '2.653',
 'IF_2016': '2.536',
 'IF_2017': '2.88',
 'ISSN': '1386-1425',
 'ISSN_online': '1873-3557',
 'ISSN_print': '1386-1425',
 'IsoAbbr': 'Spectrochim Acta A Mol Biomol Spectrosc',
 'JrId': 20555,
 'MedAbbr': 'Spectrochim Acta A Mol Biomol Spectrosc',
 'NLMid': '9602533',
 'Titre': 'Spectrochim Acta A Mol Biomol Spectrosc',
 'abstract': 'In this research, ZnO nanoparticle loaded on activated carbon (ZnO-NPs-AC) was synthesized simply by a low cost and nontoxic procedure. The characterization and identification have been completed by different techniques such as SEM and XRD analysis. A three layer artificial neural network (ANN) model is applicable for accurate prediction of dye removal percentage from aqueous solution by ZnO-NRs-AC following conduction of 270 experimental data. The network was tr

## TODO: Extraire les titres et les catégories

In [0]:
# mettre le titre en minuscule dans la variable X


# mettre la catégorie (1e élément de la liste) dans la variable Y


## TODO: Calculer la longueur maximale des titres dans le dataset

In [0]:
# longueur maximale des titres, variable max_len


## TODO: Diviser le dataset en train (X_train, Y_train) et test (X_test, Y_test)

In [0]:
# X_train, Y_train


# X_test, Y_test


## Transformer la variable Y en vecteur numerique

["Cat 1", "Cat 2"] -> [0, 1]

In [0]:
# creer un mapping cat_2_id

# creer un reverse mapping id_2_cat

# calculer la taille du vocabulaire cat_vocab




In [0]:
# preprocesser les X_train et X_test en X_train_id et X_test_id


## Tokenizer les titres

Pour cela vous pouvez utiliser la fonction `Tokenizer` de keras

Le but est de transformer les textes en un vecteur numérique

texte -> liste de tokens -> vecteur numérique

"Miaou le chat" -> ["Miaou", "le", chat"] -> [1, 2, 3]

In [0]:
# Créer le tokenizer



In [0]:
# Entrainer le tokenizer sur le train set 


In [0]:
# Transformer les textes en vecteurs numeriques à l'aide du tokenizer


## Faire un padding des sequences obtenues pour qu'elles aient toutes la même taille (cf la fonction `pad_sequences`)

[1, 2, 3]       -> [0, 0, 1, 2 ,3]

[4, 5, 6, 7, 8] -> [4, 5, 6, 7, 8]

In [0]:
# Padding des sequences 


In [0]:
X_train_seq[0:5]

array([[   0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,   21,    9,   16,  945,   48,    4,
          79,    1, 5677, 1973, 2247, 2614,    7, 2248, 2615, 5678, 3995,
          13, 1586,  946, 1974,    2, 5679,   37],
       [   0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,  462,    1,   74,  124,   48,    3,
         615,  616, 3135,   10,    5,  693,   48],
       [   0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,    0,    0,  135,   14,    1,  589,
         143,  327,    3, 3136, 1337,   64, 2616],
       [   0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,  

In [0]:
X_test_seq[0:5]

array([[   0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0,   23,   18, 3459,
        9708,  197,  117,    3,    6,   85, 1354],
       [   0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,   72,   89,    3,  911,  818,    3,    5, 1288,
           1,  116,   14,    1,  255, 9110,  412],
       [   0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0,   46,   18,   23,
         262,  142, 1309,    3,   19,  823,   33],
       [   0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,  368,    2,  561,  

In [0]:
Y_test_id[0:100]

array([30, 30, 11,  6,  6,  6,  7, 22, 22, 45, 22, 11, 21, 44,  7, 15, 56,
        3,  8,  3, 13, 70, 11, 56, 11, 30, 11, 44, 31, 15, 79, 11,  6, 11,
        4, 13,  6, 65, 49, 56, 12,  6,  6,  6,  6, 22, 86, 26, 11,  3, 12,
       19, 11,  6, 21, 56,  7,  6, 11,  2, 46,  7,  3, 21, 13,  9,  3,  6,
       19, 49,  2, 11, 27, 13, 71, 59, 13,  6, 13, 15,  3,  6,  6, 11, 22,
        6, 13, 28,  8, 22,  6, 11,  6, 21,  6, 50, 46, 14, 17, 21])

# Réseau de convolution pour la classification de texte

Les réseaux convolutionnels peuvent également être utiliser pour le texte et notamment pour la classification de texte. Ici nous allons construire un CNN sur le même modèle que pour les images avec quelques petites spécificités. 

Comme le texte est une séquence de mots, il s'agit d'une séquence en 1 dimension. Nous appliquerons donc une convolution en 1D. 

Pour traiter du texte, la première couche de notre réseau va être constituée par une couche d'embedding. 

Pour rappel, le word embedding consiste à projeter les tokens dans un espace vectoriel qui va minimiser la distance entre les tokens qui sont utilisés dans des contextes similaires (et qui ont un sens proche ? )

![Texte alternatif…](https://www.ibm.com/blogs/research/wp-content/uploads/2018/10/WMEFig1.png)

Les embeddings peuvent être calculés de diverses façons. Par exemple word2vec, un des plus célèbres, se base sur 2 algorithmes frères Skip-gram et CBOW

![Texte alternatif…](https://pathmind.com/images/wiki/word2vec_diagrams.png)

Pour information, il existe aujourd'hui des algorithmes plus performants que word2vec comme [Fasttext](https://fasttext.cc) qui prend en compte des informations de sous-mots ou la famille des embeddings contextuels comme [ELMo](https://allennlp.org/elmo) ou [BERT](https://arxiv.org/abs/1810.04805) qui prennent en compte le contexte d'utilisation du mot pour calculer son vecteur. 

In [0]:
# Créer le modèle avec au minimum
# Embedding 
# Dropout
# Convolution
# Maxpooling
# Dense
# Activation
# Classifieur (Dense + activation softmax)


# Compiler le modèle 

# Afficher le summary du modèle


In [0]:
# Fitter le modèle 


In [0]:
# Evaluer le modèle


# LSTM pour la classification de texte

Il est également possible d'utiliser un autre type de réseau de neurones pour effectuer ce genre de tâches: les réseaux de neurones récurrents ou RNN.

Les RNN sont conçus pour gérer les séquences. Le réseau prend les tokens un par un et calcule une représentation de la séquence à chaque pas qui tiens compte de tous les pas précédents 

![Texte alternatif…](https://upload.wikimedia.org/wikipedia/commons/thumb/b/b5/Recurrent_neural_network_unfold.svg/450px-Recurrent_neural_network_unfold.svg.png)


Il existe différents types de RNN. Ici nous utiliserons les Long Short-Term Memory (LSTM) qui permettent d'améliorer les performances sur des séquences longues avec une série de "gates". 

![Texte alternatif…](http://dprogrammer.org/wp-content/uploads/2019/04/RNN-vs-LSTM-vs-GRU-1200x361.png)

In [0]:
# Créer un réseau à base de LSTM avec au minimum:
# Embedding
# Dropout
# LSTM
# Dropout
# Classifieur


# Compiler le modèle 

# Afficher le summary du modèle


In [0]:
# Fitter le modèle


In [0]:
# Evaluer le modèle


# Utiliser les embeddings pré-entrainés

Pour améliorer la qualité de la représentation des mots, il est possible d'entrainer les embeddings sur de larges corpus de textes non annotés (typiquement Wikipedia). Ces modèles sont souvent disponibles en ligne et il est possible de les télécharger. Ici nous allons utiliser des embeddings [Glove](https://nlp.stanford.edu/projects/glove/) de taille 50d (pour des raisons techniques mais il vaut mieux utiliser des dimensions plus importantes entre 100 et 300) 

In [0]:
# Fonction permettant de charger un embedding 

import numpy as np
import re
from nltk.tokenize import word_tokenize
import nltk
nltk.download('punkt')

def load_glove_embeddings(fp, embedding_dim, include_empty_char=True):
    """
    Loads pre-trained word embeddings (GloVe embeddings)
        Inputs: - fp: filepath of pre-trained glove embeddings
                - embedding_dim: dimension of each vector embedding
                - generate_matrix: whether to generate an embedding matrix
        Outputs:
                - word2coefs: Dictionary. Word to its corresponding coefficients
                - word2index: Dictionary. Word to word-index
                - embedding_matrix: Embedding matrix for Keras Embedding layer
    """
    # First, build the "word2coefs" and "word2index"
    word2coefs = {} # word to its corresponding coefficients
    word2index = {} # word to word-index
    with open(fp) as f:
        for idx, line in enumerate(f):
            try:
                data = [x.strip().lower() for x in line.split()]
                word = data[0]
                coefs = np.asarray(data[1:embedding_dim+1], dtype='float32')
                word2coefs[word] = coefs
                if word not in word2index:
                    word2index[word] = len(word2index)
            except Exception as e:
                print('Exception occurred in `load_glove_embeddings`:', e)
                continue
        # End of for loop.
    # End of with open
    if include_empty_char:
        word2index[''] = len(word2index)
    # Second, build the "embedding_matrix"
    # Words not found in embedding index will be all-zeros. Hence, the "+1".
    vocab_size = len(word2coefs)+1 if include_empty_char else len(word2coefs)
    embedding_matrix = np.zeros((vocab_size, embedding_dim))
    for word, idx in word2index.items():
        embedding_vec = word2coefs.get(word)
        if embedding_vec is not None and embedding_vec.shape[0]==embedding_dim:
            embedding_matrix[idx] = np.asarray(embedding_vec)
    # return word2coefs, word2index, embedding_matrix
    return word2index, np.asarray(embedding_matrix)

In [0]:
# Télécharger les embeddings

!wget https://github.com/kmr0877/IMDB-Sentiment-Classification-CBOW-Model/raw/master/glove.6B.50d.txt.gz
!gunzip /content/glove.6B.50d.txt.gz

In [0]:
# Charger les embeddings à l'aide de la fonction load_glove_embeddings



In [0]:
# ecrire une fonction de tokenization custom pour preprocesser les textes


# Encoder les textes avec la fonction custom


In [0]:
# Padding des sequences


In [0]:
# Créer un modèle en chargeant les poids des embeddings dans le layer Embedding



In [0]:
# Fitter le modèle



In [0]:
# evaluer le modèle
