# Word Embeddings : le modèle Word2Vec

## Imports

In [1]:
import sys

from gensim.models.phrases import Phrases, Phraser
from gensim.models import Word2Vec

import nltk
from nltk.tokenize import wordpunct_tokenize
from unidecode import unidecode

## Chargement et traitement des phrases du corpus

### Création d'un objet qui *streame* les lignes d'un fichier pour économiser de la RAM

In [2]:
class MySentences(object):
    """Tokenize and Lemmatize sentences"""
    def __init__(self, filename):
        self.filename = filename

    def __iter__(self):
        for line in open(self.filename, encoding='utf-8', errors="backslashreplace"):
            yield [unidecode(w.lower()) for w in wordpunct_tokenize(line)]

In [3]:
infile = f"../data/sents_economique.txt"
sentences = MySentences(infile)

In [4]:
bigram_phrases = Phrases(sentences)

In [5]:
type(bigram_phrases.vocab)

dict

In [6]:
len(bigram_phrases.vocab.keys())

1637821

In [7]:
key_ = list(bigram_phrases.vocab.keys())[144]
print(key_)

tableau_precis


In [8]:
bigram_phrases.vocab[key_]

1

In [9]:
bigram_phraser = Phraser(phrases_model=bigram_phrases)

### Extraction des trigrams

In [10]:
trigram_phrases = Phrases(bigram_phraser[sentences])

In [11]:
trigram_phraser = Phraser(phrases_model=trigram_phrases)

### Création d'un corpus d'unigrams, bigrams, trigrams

In [12]:
corpus = list(trigram_phraser[bigram_phraser[sentences]])

In [13]:
print(corpus[:100])

[['a', 'servir', 'le', 'pays', 'a', 'l', "'", 'endroit', 'le', 'plus', 'dangereux', 'edgard_lalmand', 'a', 'parle', 'a', 'louvain', 'rouge', 'fondateur', 't', 'joseph', '$', '4', 'jacquemotte', 'le', 'camarade_lalmand', ',', 'ministre', 'de', 'terminer', 'cette', 'guerre', 'rapide', '-', 'du_ravitaillement', ',', 's', "'", 'est', 'adresse', 'au', 'ment', 'et', 'victorieusement', ',', 'peuple', ',', 'au_cours', 'd', "'", 'un', 'grand', 'mee', '-', '>>', 'pour', 'mener', 'la', 'guerre', ',', 'avee', 'suc', '-', 'ting', 'enthousiaste', 'a', "'", 'louvain', '.'], ['il', 'a', 'ces', ',', '11_faut', 'intensifier', 'la', 'production', 'brosse', 'un_tableau', 'precis', 'de', 'la', 'situa', '-', 'et', 'faire_regner', 'la', 'justice', '.'], ['il_faut', 'tion', 'actuelle', '.', "'"], ['aussi', 'alimenter', 'convenablement', 'le', '<<', 'le', 'gouvernement_van_acker', ',', 'a', '-', 'pays', '.'], ['t', '-', '11', 'declare', ',', 'est', 'place', 'aujourd', "'", 'hui', 'devant', 'une', 'tache', 'eno

## Entrainement d'un modèle Word2Vec sur ce corpus

In [None]:
%%time
model = Word2Vec(
    corpus,
    vector_size=32, 
    window=3, 
    min_count=20,
    workers=4, 
    epochs=5 
)

### Sauver le modèle dans un fichier

In [61]:
outfile = f"../data/newspapers.model"
model.save(outfile)

## Explorer le modèle

### Charger le modèle en mémoire

In [62]:
model = Word2Vec.load("../data/newspapers.model")

### Imprimer le vecteur d'un terme

In [None]:
model.wv["economique"]

### Calculer la similarité entre deux termes

In [None]:
model.wv.similarity("politique", "economique") 


### Chercher les mots les plus proches d'un terme donné

In [None]:
model.wv.most_similar("strategie", topn=10)