# Analyse de sentiments avec Word2Vec

# Les donn√©es

In [None]:
import numpy as np


In [None]:
###########################################
### Just run this cell to load the data ###
###########################################

import tensorflow_datasets as tfds
from tensorflow.keras.preprocessing.text import text_to_word_sequence

def load_data(percentage_of_sentences=None):
    train_data, test_data = tfds.load(name="imdb_reviews", split=["train", "test"], batch_size=-1, as_supervised=True)

    train_sentences, y_train = tfds.as_numpy(train_data)
    test_sentences, y_test = tfds.as_numpy(test_data)

    # Take only a given percentage of the entire data
    if percentage_of_sentences is not None:
        assert(percentage_of_sentences> 0 and percentage_of_sentences<=100)

        len_train = int(percentage_of_sentences/100*len(train_sentences))
        train_sentences, y_train = train_sentences[:len_train], y_train[:len_train]

        len_test = int(percentage_of_sentences/100*len(test_sentences))
        test_sentences, y_test = test_sentences[:len_test], y_test[:len_test]

    X_train = [text_to_word_sequence(_.decode("utf-8")) for _ in train_sentences]
    X_test = [text_to_word_sequence(_.decode("utf-8")) for _ in test_sentences]

    return X_train, y_train, X_test, y_test

X_train, y_train, X_test, y_test = load_data(percentage_of_sentences=10)


Dans l'exercice pr√©c√©dent, vous avez entra√Æn√© une repr√©sentation Word2vec et converti toutes vos phrases d'entra√Ænement afin de les introduire dans un RNN, comme le montre la premi√®re √©tape de cette figure :

<img src="word2vec_representation.png" width="400px" />



‚ùì Refaites exactement ce que vous avez fait dans l'exercice pr√©c√©dent. D'abord, entra√Ænez un mod√®le word2vec (avec les arguments que vous voulez) sur votre phrase d'entra√Ænement. Enregistrez-le dans la variable `word2vec`.

R√©utilisons les fonctions de l'exercice pr√©c√©dent pour convertir vos donn√©es d'entra√Ænement et de test en quelque chose que vous pouvez introduire dans un RNN.

In [None]:
from tensorflow.keras.preprocessing.sequence import pad_sequences
import numpy as np

# Function to convert a sentence (list of words) into a matrix representing the words in the embedding space
def embed_sentence(word2vec, sentence):
    pass

# Function that converts a list of sentences into a list of matrices
def embedding(word2vec, sentences):
    pass

# Embed the training and test sentences



# Pad the training and test embedded sentences


‚òùÔ∏è Pour √™tre s√ªr que cela a fonctionn√©, v√©rifions ce qui suit pour `X_train_pad` et `X_test_pad` :
- ce sont des tableaux numpy
- ils sont tridimensionnels
- la derni√®re dimension est la taille de votre espace d'embedding word2vec (vous pouvez l'obtenir avec `word2vec.wv.vector_size`)
- la premi√®re dimension est la taille de vos `X_train` et `X_test`.

‚úÖ **Bonne pratique** ‚úÖ De tels tests sont tr√®s importants ! Non seulement dans cet exercice, mais dans les applications de la vie r√©elle. Ils √©vitent de trouver des erreurs trop tard et de les laisser se propager dans tout le notebook.

In [None]:
# TEST ME
for X in [X_train_pad, X_test_pad]:
    assert type(X) == np.ndarray
    assert X.shape[-1] == word2vec.wv.vector_size


assert X_train_pad.shape[0] == len(X_train)
assert X_test_pad.shape[0] == len(X_test)


# Baseline

Il est toujours bon d'avoir un mod√®le tr√®s simple pour tester votre propre mod√®le - pour √™tre s√ªr que vous faites quelque chose de mieux qu'un algorithme tr√®s simple.

‚ùì Quelle est votre accuracy de base ? Dans ce cas, votre base peut √™tre de pr√©dire le label qui est le plus pr√©sent dans `y_train` (bien s√ªr, si le jeu de donn√©es est √©quilibr√©, la pr√©cision de base est 1/n o√π n est le nombre de classes - 2 ici).

# Le mod√®le

‚ùì Cr√©ez un RNN avec les couches suivantes :
- une couche `Masking`
- une `LSTM` avec 20 unit√©s et la fonction d'activation `tanh`.
- une couche `Dense` avec 10 unit√©s
- une couche de sortie qui d√©pend de votre t√¢che (`sigmoid` parce qu'il s'agit d'un probl√®me de classification)

Ensuite, compilez votre mod√®le (utiliser `rmsprop` comme optimiseur - au moins pour commencer).

In [None]:
def init_model():
    pass


‚ùì Entrainer le mod√®le sur vos donn√©es incorpor√©es et padd√©es - n'oubliez pas le crit√®re d'arr√™t pr√©coce.

‚ùó **Remarque** ‚ùó Votre pr√©cision d√©pendra grandement de votre corpus d'entra√Ænement. Ici, assurez-vous simplement que votre performance est sup√©rieure au mod√®le de base (ce qui devrait √™tre le cas m√™me si vous n'avez charg√© que 20% des donn√©es IMDB initiales).

In [None]:
from tensorflow.keras.callbacks import EarlyStopping


‚ùì √âvaluer votre mod√®le sur l'ensemble de test

# Word2Vec - Transfer Learning

Votre pr√©cision, bien que sup√©rieure √† celle du mod√®le de base, peut √™tre assez faible. Il existe de nombreuses options pour l'am√©liorer, comme le nettoyage des donn√©es et l'am√©lioration de la qualit√© de l'int√©gration.

Nous ne nous pencherons pas ici sur les strat√©gies de nettoyage des donn√©es. Essayons d'am√©liorer la qualit√© de notre embedding. Mais au lieu de simplement charger un corpus plus important, pourquoi ne pas profiter de l'embedding que d'autres ont entra√Æn√© ? En effet, la qualit√© d'un embedding, c'est-√†-dire la proximit√© des mots, peut √™tre d√©riv√©e de diff√©rentes t√¢ches. C'est exactement ce qu'est l'apprentissage par transfert.



‚ùì Lister les diff√©rents mod√®les disponibles dans word2vec gr√¢ce √† cela :

In [None]:
import gensim.downloader as api
print(list(api.info()['models'].keys()))


‚ùì **Question** ‚ùì Charger un des embeddings de word2vec pr√©-entra√Æn√©s. 

Vous pouvez le faire avec `api.load(the-model-of-your-choice)`, et le stocker dans `word2vec_transfer`

<details>
    <summary>üí° Piste</summary>
    
Le mod√®le `glove-wiki-gigaword-50` est un bon candidat pour commencer car il est plus petit (65 MB).

</details>

‚ùì V√©rifier la taille du vocabulaire, mais aussi la taille de l'espace d'embedding

‚ùì Faire l'embedding de `X_train` et `X_test`, comme dans la premi√®re question il y a les fonctions pour le faire ! (Il y a une l√©g√®re diff√©rence dans la fonction `embed_sentence_with_TF`)

In [None]:
# Function to convert a sentence (list of words) into a matrix representing the words in the embedding space
def embed_sentence_with_TF(word2vec, sentence):
    embedded_sentence = []
    for word in sentence:
        if word in word2vec:
            embedded_sentence.append(word2vec[word])

    return np.array(embedded_sentence)

# Function that converts a list of sentences into a list of matrices
def embedding(word2vec, sentences):
    embed = []

    for sentence in sentences:
        embedded_sentence = embed_sentence_with_TF(word2vec, sentence)
        embed.append(embedded_sentence)

    return embed

# Embed the training and test sentences
X_train_embed_2 = embedding(word2vec_transfer, X_train)
X_test_embed_2 = embedding(word2vec_transfer, X_test)


‚ùì Faire le padding et enregistrer dans `X_train_pad_2` and `X_test_pad_2`.

‚ùì R√©initialisez un mod√®le et entra√Ænez-le sur vos nouvelles donn√©es !  √âvaluez-le sur votre ensemble de test et comparez-le √† votre pr√©cision pr√©c√©dente.

‚ùó **Remarque** ‚ùó L'entra√Ænement peut prendre un certain temps. Vous pouvez simplement calculer 10 epochs (ce n'est **pas** une bonne pratique, il s'agit juste de ne pas attendre trop longtemps).

In [None]:
from tensorflow.keras.callbacks import EarlyStopping


Parce que votre nouveau word2vec a √©t√© entra√Æn√© sur un grand corpus, il a une repr√©sentation pour de nombreux mots ! Bien plus qu'avec votre petit ensemble de donn√©es, d'autant plus que vous avez √©limin√© les mots qui n'√©taient pas pr√©sents plus d'un certain nombre de fois dans l'ensemble d'entra√Ænement. Pour cette raison, vous avez beaucoup plus de mots int√©gr√©s dans vos ensembles de formation et de test, ce qui rend chaque it√©ration plus longue qu'auparavant