# Tester et évaluer un modèle déjà entraîné sur Google News


### Téléchargement du modèle word2vec pré entrainé sur le corpus de Google News

In [3]:
from gensim import downloader as api
path_to_file = api.load("word2vec-google-news-300", return_path=True)

In [4]:
from gensim.models import KeyedVectors
w2v_vectors = KeyedVectors.load_word2vec_format(path_to_file, binary=True)

### a. Quelle place en mémoire occupe le processus du notebook avec les vecteurs de mots ?

In [7]:
print(f"Taille du notebook : {w2v_vectors.vectors.nbytes / (1024 ** 2):.2f} MB")

Taille du notebook : 3433.23 MB


### b. Quelle est la dimension de l’espace vectoriel dans lequel les mots sont représentés ?

In [12]:
print(f"Les vecteurs de mots ont une dimension de : {w2v_vectors.vector_size} dimensions")

Les vecteurs de mots ont une dimension de : 300 dimensions


### c. Quelle est la taille du vocabulaire connu du modèle ?  Veuillez afficher cinq mots anglais qui sont dans le vocabulaire et deux qui ne le sont pas.

In [14]:
print(f" Taille du vocabulaire : {len(w2v_vectors.key_to_index)} mots")

 Taille du vocabulaire : 3000000 mots


In [25]:
import random

sample_words = random.sample(list(w2v_vectors.key_to_index.keys()), 5)
print("Exemples de mots connus du modèle :", sample_words)

Exemples de mots connus du modèle : ['Screen_Protector', 'AND_CROWN_PRINCE', 'Commences_Cash', 'pasture_paddocks', 'Turkuaz']


In [42]:
unknown = ["horloge", "Horloge","Huitante", "huitante", "Altruiste", "altruiste" ,"montre", "Montre", "MoNtRe"]
print("Ces mots sont-ils dans le vocabulaire ?")
for word in unknown:
    print(f"{word} : {'Oui' if word in w2v_vectors else 'Non'}")

"""
C'est étonnant que le mot "horloge" ne soit pas dans le vocabulaire, car il est très courant en français. De plus, on peut voir que "Horloge" est dans le vocabulaire du modèle. Grâce aux tests effectués sur le mot "montre", on peut voir que le modèle est sensible à la casse.
"""

Ces mots sont-ils dans le vocabulaire ?
horloge : Non
Horloge : Oui
Huitante : Non
huitante : Non
Altruiste : Non
altruiste : Non
montre : Oui
Montre : Oui
MoNtRe : Non


'\nC\'est étonnant que le mot "horloge" ne soit pas dans le vocabulaire, car il est très courant en français. De plus, on peut voir que "Horloge" est dans le vocabulaire du modèle.\n'

### d. Quelle est la similarité entre les mots rabbit et carrot ?  Veuillez rappeler comment on mesure les similarités entre deux mots grâce à leurs vecteurs.

In [46]:
print(f"Similarité entre les mots 'rabbit' et 'carrot' : {w2v_vectors.similarity('rabbit', 'carrot'):.4f}")

"""
La similarité entre deux mots est mesurée par le produit scalaire de leurs vecteurs, normalisé par la norme de chacun des vecteurs. En d'autres termes, la similarité entre deux mots est donnée par la formule : Similiarité(a, b) = a * b / ||a|| * ||b||
"""

Similarité entre les mots 'rabbit' et 'carrot' : 0.3631


"\nLa similarité entre deux mots est mesurée par le produit scalaire de leurs vecteurs, normalisé par la norme de chacun des vecteurs. En d'autres termes, la similarité entre deux mots est donnée par la formule : Similiarité(a, b) = a * b / ||a|| * ||b||\n"

### e. Considérez au moins 5 paires de mots anglais, certains proches par leurs sens, d’autres plus éloignés. Pour chaque paire, calculez la similarité entre les deux mots.  Veuillez indiquer si les similarités obtenues correspondent à vos intuitions sur la proximité des sens des mots.

In [54]:
word_pairs = [("king", "queen"), ("cat", "tiger"), ("computer", "tree"), ("wheel", "spider"), ("security", "byte")]

for word1, word2 in word_pairs:
    similarity = w2v_vectors.similarity(word1, word2)
    print(f"Similarité entre '{word1}' et '{word2}' : {similarity:.4f}")

"""
De manière générale, les similarités obtenues correspondent à nos intuitions. Toutefois, nous aurions pensé que la similiarité entre "computer" et "tree"serait plus élevée. Le modèle doit très certaienemnt comprendre le mot "tree" comme étant un arbre dans une forêt, et non une structure informatique. Le constat est le même pour "securtiy" et "byte". Pour ce cas de figure, on peut penser que le score obtenu est légitime car le mot "security" est trop général et peut être utilisé dans de nombreux contextes.
"""

Similarité entre 'king' et 'queen' : 0.6511
Similarité entre 'cat' et 'tiger' : 0.5173
Similarité entre 'computer' et 'tree' : 0.1062
Similarité entre 'wheel' et 'spider' : 0.1464
Similarité entre 'security' et 'byte' : 0.1081


'\nDe manière générale, les similarités obtenues correspondent à nos intuitions. Toutefois, nous aurions pensé que la similiarité entre "computer" et "tree"serait plus élevée. Le modèle doit très certaienemnt comprendre le mot "tree" comme étant un arbre dans une forêt, et non une structure informatique. Le constat est le même pour "securtiy" et "byte". Pour ce cas de figure, on peut penser que le score obtenu est légitime car le mot "security" est trop général et peut être utilisé dans de nombreux contextes.\n'

### f. Pouvez-vous trouver des mots de sens opposés mais qui sont proches selon le modèle ? Comment expliquez-vous cela ?  Est-ce une qualité ou un défaut du modèle word2vec ?

In [None]:
word_pairs = [("walk", "drive"), ("day", "night"), ("", ""), ("", ""), ("", "")]

for word1, word2 in word_pairs:
    similarity = w2v_vectors.similarity(word1, word2)
    print(f"Similarité entre '{word1}' et '{word2}' : {similarity:.4f}")