# Embedding

🎯 Se familiariser avec les embeddings

# Données

Keras met à disposition plusieurs datasets, on va utiliser l'IMDB dataset 🎬:
- Chaque document est une ***review d'un film***. 
- Chaque review est liée à un score donnée par le spectateur

In [1]:
###########################################
### Charger les données ###
###########################################

import tensorflow_datasets as tfds
from tensorflow.keras.preprocessing.text import text_to_word_sequence

def load_data(percentage_of_sentences=None):
    train_data, test_data = tfds.load(name="imdb_reviews", split=["train", "test"], batch_size=-1, as_supervised=True)

    train_sentences, y_train = tfds.as_numpy(train_data)
    test_sentences, y_test = tfds.as_numpy(test_data)

    # Take only a given percentage of the entire data
    if percentage_of_sentences is not None:
        assert(percentage_of_sentences> 0 and percentage_of_sentences<=100)

        len_train = int(percentage_of_sentences/100*len(train_sentences))
        train_sentences, y_train = train_sentences[:len_train], y_train[:len_train]

        len_test = int(percentage_of_sentences/100*len(test_sentences))
        test_sentences, y_test = test_sentences[:len_test], y_test[:len_test]

    X_train = [text_to_word_sequence(_.decode("utf-8")) for _ in train_sentences]
    X_test = [text_to_word_sequence(_.decode("utf-8")) for _ in test_sentences]

    return X_train, y_train, X_test, y_test

X_train, y_train, X_test, y_test = load_data(percentage_of_sentences=10)


ModuleNotFoundError: No module named 'tensorflow_datasets'



❓ Regarder la forme des données 

**LABELS**: classification binaire:
- label 0️⃣ correspond à une review <font color=red>negative</font> 
- label 1️⃣ correspond à une review <font color=green>positive</font> 

**INPUTS**: 
- 🧹 Les données ont déjà suivi un preprocessing

❓ Tokeniser le corpus

❓ Imprimer quelques sequences pour observer le résultat

In [None]:
sentence_number = 100

input_raw = X_train[sentence_number]
input_token = X_train_token[sentence_number]

for i in range(40):
    print(f'Word : {input_raw[i]} -> Token {input_token[i]}')


Le dictionnaire qui fait le mapping de chaque token est accesible dans `tokenizer.word_index`
    
❓ Créer une variable `vocab_size` qui contient le nombre de mots differentes dans le corpus d'entraînement.

Les sequences dans `X_train_token` et `X_test_token` ont des longueurs differentes.

<img src="padding.png" alt='Word2Vec' width="700px" />

Le padding est necessaire.

❓ Utiliser l'utilité de tensor flow pour faire du padding.

# RNN

❓ Ecrire un modèle avec:
- une couche d'embedding, les parametres: `input_dim` est la taille du vocabulaire (= `vocab_size`), et `output_dim` la dimension de l'embedding
- une couche RNN (SimpleRNN, LSTM, GRU)
- une couche dense
- une couche de sortie



<details>
    <summary>💡 Piste</summary>

`input_dim` doit être égal à la taille du vocabulaire + 1 

</details>

Compiler le modèle

❓ Regarder le nombre des paramètres dans le modèle 

❓ Entraîner le modèle avec un early stopping avec patience = 4.

❓ Pour essayer d'optimiser le temps d'entraînement, regarder la distribution de la taille de chaque document

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline

def plot_hist(X):
    len_ = [len(_) for _ in X]
    plt.hist(len_)
    plt.title('Histogram of the number of sentences that have a given number of words')
    plt.show()

plot_hist(X_train)


90 - 95% des documents ont moins de 300 mots.

Comme on n'a pas spécifié `maxlen` dans le padding le tensor a la dimension egal a la taille du document le plus long. (+1000 mots)

<img src="tensor_size.png" alt='Word2Vec' width="700px" />

❓ Refaire le padding avec un `maxlen` de 200 et entraîner à nouveau le modèle. Comparer la vitesse d'entraînement et la performance du modèle