# Utilisation de Word2vec avec gensim

En même temps que l'article et le code de word2vec, Google a également publié un modèle word2vec pré-entraîné sur le projet [Word2Vec](https://code.google.com/archive/p/word2vec/).

Un modèle pré-entraîné n'est rien d'autre qu'un fichier contenant des tokens et leurs vecteurs de mots associés. Le modèle word2vec pré-entraîné de Google a été entraîné sur les données de Google News (environ 100 milliards de mots) ; il contient 3 millions de mots et de phrases et a été ajusté en utilisant des vecteurs de mots à 300 dimensions.

Il s'agit d'un fichier de 1,53 gigaoctet. Vous pouvez le télécharger [ici](https://drive.google.com/file/d/0B7XkCwpI5KDYNlNUTTlSS21pQmM/edit?resourcekey=0-wjGZdNAUop6WykTtMip30g)

Vous n'avez pas à télécharger le jeu de données, je l'ai fait pour vous plus bas.

# Importations des packages

In [None]:
import pandas as pd
import numpy as np

from gensim.models import KeyedVectors

# Importation des données

Ajoutez un raccourci de ce dossier à votre google drive :

https://drive.google.com/drive/folders/1e6eRSPuZz3A3BXPVbggKHC_9XKU0MWAW?usp=sharing

In [None]:
from google.colab import drive
drive.mount('/content/drive', force_remount=True)

# Chargement du modèle avec gensim

In [None]:
path_word2vec = '/content/drive/MyDrive/AIForYou/embeddings/GoogleNews-vectors-negative300.bin'
word2vec_model = KeyedVectors.load_word2vec_format(path_word2vec, binary=True)

# Vecteur d'embedding

In [8]:
word2vec_model.get_vector('office', norm=True)

array([-2.46561170e-02, -6.05955422e-02, -8.48337561e-02, -7.52220526e-02,
       -6.42521679e-03, -6.60282448e-02, -6.10134415e-02, -1.18579213e-02,
        6.05955422e-02,  5.39091378e-02,  4.11631800e-02,  2.40292661e-02,
        2.53874436e-02, -8.27442557e-02, -2.48650666e-02,  1.49399359e-02,
        1.42086102e-02,  9.29828174e-03,  3.02977711e-02,  3.30141224e-02,
        3.30141224e-02, -3.02977711e-02,  3.53125744e-02,  2.42382176e-02,
       -4.19989787e-02, -8.73411596e-02,  8.94567813e-04, -2.08950154e-02,
       -7.73115531e-02, -6.89535514e-02, -1.73689809e-03, -1.37907099e-02,
       -6.43566474e-02,  3.57304737e-02,  3.08201462e-03, -1.48354601e-02,
        1.78652368e-02, -2.69545689e-02, -2.07644212e-03,  1.44175598e-02,
        1.00296073e-01, -9.15201679e-02, -1.89099889e-02, -1.31899782e-03,
       -8.90127644e-02,  1.41041353e-02, -1.38951847e-02,  3.84468287e-02,
       -1.11161478e-01,  5.26554361e-02,  5.85060418e-02, -7.43862540e-02,
        5.18196374e-02,  

# Similarité entre les mots

### Woman

In [9]:
word2vec_model.most_similar(['woman'], topn=5)

[('man', 0.7664012908935547),
 ('girl', 0.7494640946388245),
 ('teenage_girl', 0.7336829304695129),
 ('teenager', 0.6317085027694702),
 ('lady', 0.6288785934448242)]

### King

In [10]:
word2vec_model.most_similar(['king'], topn=5)

[('kings', 0.7138045430183411),
 ('queen', 0.6510956883430481),
 ('monarch', 0.6413194537162781),
 ('crown_prince', 0.6204220056533813),
 ('prince', 0.6159993410110474)]

### Man

In [11]:
word2vec_model.most_similar(['man'], topn=5)

[('woman', 0.7664012908935547),
 ('boy', 0.6824871301651001),
 ('teenager', 0.6586930155754089),
 ('teenage_girl', 0.6147903203964233),
 ('girl', 0.5921714305877686)]

# Calcul sur les mots

### Woman + King - Man = ?

In [12]:
result = word2vec_model.most_similar(positive=['woman', 'king'], negative=['man'], topn=1)
print(result)

[('queen', 0.7118193507194519)]


### Amusez-vous !

In [16]:
result = word2vec_model.most_similar(positive=['Paris', 'Spain'], negative=['France'], topn=1)
print(result)

[('Madrid', 0.7571905255317688)]
