# 1. Tester et évaluer un modèle entraîné sur Google News
a. Installez gensim, une librairie Python qui fournit des outils pour travailler avec Word2Vec (avec conda ou avec pip). Prenez la version 3.8.3, et non pas la nouvelle version 4.0.X. 

Obtenez depuis gensim le modèle word2vec pré-entraîné sur le corpus Google News en écrivant : w2v_model = gensim.downloader.load("word2vec-google-news-300"), ce qui téléchargera le fichier la première fois. Ne gardez en mémoire que les vecteurs des mots, en écrivant : « w2v_vectors = w2v_model.wv » puis « del w2v_model ».

• Une fois que vous avez téléchargé le modèle, vous pouvez utiliser votre copie locale : w2v_vectors = KeyedVectors.load_word2vec_format(path_to_file, binary=True).

In [1]:
from gensim import models, downloader

In [2]:
# w2v_model = downloader.load("word2vec-google-news-300")

In [3]:
from gensim.models import KeyedVectors

path_to_file = '~/gensim-data/word2vec-google-news-300/word2vec-google-news-300.gz'
w2v_vectors = KeyedVectors.load_word2vec_format(path_to_file, binary=True)

b. Quelle place mémoire occupe le processus du notebook une fois les vecteurs de mots chargés ?

Environ 4GB de RAM

c. Quelle est la dimension de l’espace vectoriel dans lequel les mots sont représentés ?

In [4]:
print(w2v_vectors.vector_size)

300


d. Quelle est la taille du vocabulaire du modèle ? Affichez cinq mots (anglais) qui sont dans le vocabulaire et deux qui ne le sont pas.

In [5]:
print(w2v_vectors.vectors.shape)

# La taille du vocabulaire est de 3'000'000 de mots

(3000000, 300)


In [6]:
words = ['cat', 'bob', 'knife', 'sea', 'lol', 'yolo', 'cuck']

for word in words:
    print(f"Is {word} in the vocabulary? {w2v_vectors.has_index_for(word)}")

Is cat in the vocabulary? True
Is bob in the vocabulary? True
Is knife in the vocabulary? True
Is sea in the vocabulary? True
Is lol in the vocabulary? True
Is yolo in the vocabulary? False
Is cuck in the vocabulary? False


e. Quelle est la distance entre les mots rabbit et carrot ? Veuillez aussi expliquer en une phrase comment on mesurer les distances entre deux mots dans cet espace.

In [7]:
w2v_vectors.distance('rabbit', 'carrot')

# La distance entre deux mots est mesurée en utilisant la similarité cosinus. En effet, la distance correspond à 1 - la similarité.

0.6369357705116272

f. Considérez au moins 5 paires de mots, certains proches par leurs sens, d’autres plus éloignés. Pour chaque paire, calculez la distance entre les deux mots. Veuillez indiquer si les distances obtenues correspondent à vos intuitions sur la proximité des sens des mots.

In [8]:
word_pairs = [('festival', 'watch'), ('confident', 'cocky'), ('tree', 'leaf'), ('meticulous', 'nitpicky'), ('dog', 'car')]
for pair in word_pairs:
    print(f'Distance between {pair[0]} and {pair[1]} : {w2v_vectors.distance(pair[0], pair[1])}')

Distance between festival and watch : 0.9337479248642921
Distance between confident and cocky : 0.6400514543056488
Distance between tree and leaf : 0.517714649438858
Distance between meticulous and nitpicky : 0.704185277223587
Distance between dog and car : 0.6899985373020172


Certaines paires obtiennent des distances qui correspondent à nos intuitions, d'autres non. Par exemple, les paires (festival, watch) et (dog, car) ont une distance élevée car les mots n'ont pas de sens proche. 

Par contre, d'autres paires comme (tree, leaf), (confident, cocky) ou (meticulous, nitpicky) ont une distance plus élevée que ce que nous aurions pensé.

g. Pouvez-vous trouver des mots de sens opposés mais qui sont proches dans l’espace vectoriel ? Comment expliquez vous cela ? Est-ce une qualité ou un défaut du modèle word2vec ?

In [9]:
opposite_pairs = [('good', 'bad'), ('up', 'down'), ('black', 'white')]

for pair in opposite_pairs:
    print(f'Distance entre {pair[0]} et {pair[1]} : {w2v_vectors.distance(pair[0], pair[1])}')

Distance entre good et bad : 0.2809947729110718
Distance entre up et down : 0.36030077934265137
Distance entre black et white : 0.1907784342765808


Cela est dû au fait que les mots peuvent être utilisés dans le même contexte et possèdent un lien sémantique. Il s'agit d'une qualité du modèle car il arrive alors à faire des rapprochements plus subtiles que simplement trouver des similarités entre synonymes par exemple.

h. En vous aidant de la documentation de Gensim sur KeyedVectors, calculez le score du modèle word2vec sur les données WordSimilarity-353. (La doc vous permettra aussi de récupérer le fichier.) Expliquez en 1-2 phrases comment ce score est calculé et ce qu’il mesure.

In [14]:
from gensim.test.utils import datapath

eval_wordsim = w2v_vectors.evaluate_word_pairs(datapath('wordsim353.tsv'))
print("Wordsim353:")
print(gnews_wordsim)

Wordsim353:
(PearsonRResult(statistic=0.6238773396943347, pvalue=1.796328279355222e-39), SignificanceResult(statistic=0.6589215888009288, pvalue=2.534605645914962e-45), 0.0)


TODO: Expliquez en 1-2 phrases comment ce score est calculé et ce qu’il mesure. 

i. En vous aidant de la documentation, calculez le score du modèle word2vec sur les données questions-words.txt. Attention, cette évaluation prend une dizaine de minutes. Expliquez en 1-2 phrases comment ce score est calculé et ce qu'il mesure.

In [15]:
eval_qwords = w2v_vectors.evaluate_word_analogies(datapath('questions-words.txt'))

In [16]:
print("Questions Words:")
print(eval_qwords)

Questions Words:
(0.7401448525607863, [{'section': 'capital-common-countries', 'correct': [('ATHENS', 'GREECE', 'BANGKOK', 'THAILAND'), ('ATHENS', 'GREECE', 'BEIJING', 'CHINA'), ('ATHENS', 'GREECE', 'BERLIN', 'GERMANY'), ('ATHENS', 'GREECE', 'BERN', 'SWITZERLAND'), ('ATHENS', 'GREECE', 'CAIRO', 'EGYPT'), ('ATHENS', 'GREECE', 'CANBERRA', 'AUSTRALIA'), ('ATHENS', 'GREECE', 'HAVANA', 'CUBA'), ('ATHENS', 'GREECE', 'HELSINKI', 'FINLAND'), ('ATHENS', 'GREECE', 'ISLAMABAD', 'PAKISTAN'), ('ATHENS', 'GREECE', 'MADRID', 'SPAIN'), ('ATHENS', 'GREECE', 'MOSCOW', 'RUSSIA'), ('ATHENS', 'GREECE', 'OSLO', 'NORWAY'), ('ATHENS', 'GREECE', 'OTTAWA', 'CANADA'), ('ATHENS', 'GREECE', 'PARIS', 'FRANCE'), ('ATHENS', 'GREECE', 'ROME', 'ITALY'), ('ATHENS', 'GREECE', 'STOCKHOLM', 'SWEDEN'), ('ATHENS', 'GREECE', 'TEHRAN', 'IRAN'), ('ATHENS', 'GREECE', 'TOKYO', 'JAPAN'), ('BAGHDAD', 'IRAQ', 'BANGKOK', 'THAILAND'), ('BAGHDAD', 'IRAQ', 'BEIJING', 'CHINA'), ('BAGHDAD', 'IRAQ', 'BERLIN', 'GERMANY'), ('BAGHDAD', 'IRAQ'

TODO: Expliquez en 1-2 phrases comment ce score est calculé et ce qu’il mesure. 

# 2. Entraîner deux nouveaux modèles word2vec à partir de nouveaux corpus

a. En utilisant gensim.downloader, récupérez le corpus qui contient les 108 premiers caractères de 
Wikipédia (en anglais) avec la commande : corpus = gensim.downloader.load('text8').  
Combien de phrases et de mots (tokens) possède ce corpus ? 

In [18]:
corpus = downloader.load('text8')



In [28]:
print("Number of sentences", downloader.info('text8')['num_records'])
print("Number of words: ", sum(len(i) for i in corpus))

Number of sentences 1701
Number of words:  17005207


b. Entraînez un nouveau modèle word2vec sur ce nouveau corpus.  Si nécessaire, procédez 
progressivement, en commençant par 1% du corpus, puis 10%, pour contrôler le temps nécessaire. 
* Indiquez la dimension choisie pour le embedding de ce nouveau modèle.  
* Combien de temps prend l’entraînement sur le corpus total ?   
* Quelle est la taille (en Mo) du modèle word2vec résultant ? 

c. Mesurez la qualité de ce modèle comme dans la partie 1, points i et j.  Ce modèle est-il meilleur 
que celui entraîné sur Google News ?  Quelle serait la raison de la différence ?

d. Téléchargez maintenant le corpus quatre fois plus grand constitué de la concaténation du corpus 
text8 et des dépêches économiques de Reuters (413 Mo) fourni en ligne par l’enseignant et appelé 
wikipedia_augmented.dat. Entraînez un nouveau modèle word2vec sur ce corpus, en précisant 
la dimension du plongement (embedding).  
* Utilisez  la  classe  Text8Corpus()  pour  charger  le  corpus  et  faire  la  tokenization  et  la 
segmentation en phrases.   
* Combien de temps prend l’entraînement ? 
* Quelle est la taille (en Mo) du modèle word2vec résultant ?

e. Testez ce modèle comme en 1.h et 1.i.  Est-il meilleur que le précédent ? Pour quelle raison ? 