# Tester et évaluer un modèle déjà entraîné sur Google News


### Téléchargement du modèle word2vec pré entrainé sur le corpus de Google News

In [27]:
from gensim import downloader as api
path_to_file = api.load("word2vec-google-news-300", return_path=True)

In [28]:
from gensim.models import KeyedVectors
w2v_vectors = KeyedVectors.load_word2vec_format(path_to_file, binary=True)

### a. Quelle place en mémoire occupe le processus du notebook avec les vecteurs de mots ?

In [29]:
print(f"Taille du notebook : {w2v_vectors.vectors.nbytes / (1024 ** 2):.2f} MB")

Taille du notebook : 3433.23 MB


### b. Quelle est la dimension de l’espace vectoriel dans lequel les mots sont représentés ?

In [30]:
print(f"Les vecteurs de mots ont une dimension de : {w2v_vectors.vector_size} dimensions")

Les vecteurs de mots ont une dimension de : 300 dimensions


### c. Quelle est la taille du vocabulaire connu du modèle ?  Veuillez afficher cinq mots anglais qui sont dans le vocabulaire et deux qui ne le sont pas.

In [31]:
print(f" Taille du vocabulaire : {len(w2v_vectors.key_to_index)} mots")

 Taille du vocabulaire : 3000000 mots


In [32]:
import random

sample_words = random.sample(list(w2v_vectors.key_to_index.keys()), 5)
print("Exemples de mots connus du modèle :", sample_words)

Exemples de mots connus du modèle : ['Isaac_Tshuva', 'By_LORA_HINES', 'Stephane_Bre', 'hepatic_enzyme', 'HBTC']


In [33]:
unknown = ["horloge", "Horloge","Huitante", "huitante", "Altruiste", "altruiste" ,"montre", "Montre", "MoNtRe"]
print("Ces mots sont-ils dans le vocabulaire ?")
for word in unknown:
    print(f"{word} : {'Oui' if word in w2v_vectors else 'Non'}")

"""
C'est étonnant que le mot "horloge" ne soit pas dans le vocabulaire, car il est très courant en français. De plus, on peut voir que "Horloge" est dans le vocabulaire du modèle. Grâce aux tests effectués sur le mot "montre", on peut voir que le modèle est sensible à la casse.
"""

Ces mots sont-ils dans le vocabulaire ?
horloge : Non
Horloge : Oui
Huitante : Non
huitante : Non
Altruiste : Non
altruiste : Non
montre : Oui
Montre : Oui
MoNtRe : Non


'\nC\'est étonnant que le mot "horloge" ne soit pas dans le vocabulaire, car il est très courant en français. De plus, on peut voir que "Horloge" est dans le vocabulaire du modèle. Grâce aux tests effectués sur le mot "montre", on peut voir que le modèle est sensible à la casse.\n'

### d. Quelle est la similarité entre les mots rabbit et carrot ?  Veuillez rappeler comment on mesure les similarités entre deux mots grâce à leurs vecteurs.

In [34]:
print(f"Similarité entre les mots 'rabbit' et 'carrot' : {w2v_vectors.similarity('rabbit', 'carrot'):.4f}")

"""
La similarité entre deux mots est mesurée par le produit scalaire de leurs vecteurs, normalisé par la norme de chacun des vecteurs. En d'autres termes, la similarité entre deux mots est donnée par la formule : Similiarité(a, b) = a * b / ||a|| * ||b||.
"""

Similarité entre les mots 'rabbit' et 'carrot' : 0.3631


"\nLa similarité entre deux mots est mesurée par le produit scalaire de leurs vecteurs, normalisé par la norme de chacun des vecteurs. En d'autres termes, la similarité entre deux mots est donnée par la formule : Similiarité(a, b) = a * b / ||a|| * ||b||.\n"

### e. Considérez au moins 5 paires de mots anglais, certains proches par leurs sens, d’autres plus éloignés. Pour chaque paire, calculez la similarité entre les deux mots.  Veuillez indiquer si les similarités obtenues correspondent à vos intuitions sur la proximité des sens des mots.

In [35]:
word_pairs = [("king", "queen"), ("cat", "tiger"), ("computer", "tree"), ("wheel", "spider"), ("security", "byte")]

for word1, word2 in word_pairs:
    similarity = w2v_vectors.similarity(word1, word2)
    print(f"Similarité entre '{word1}' et '{word2}' : {similarity:.4f}")

"""
De manière générale, les similarités obtenues correspondent à nos intuitions. Toutefois, nous aurions pensé que la similiarité entre "computer" et "tree"serait plus élevée. Le modèle doit très certaienemnt comprendre le mot "tree" comme étant un arbre dans une forêt, et non une structure informatique. Le constat est le même pour "securtiy" et "byte". Pour ce cas de figure, on peut penser que le score obtenu est légitime car le mot "security" est trop général et peut être utilisé dans de nombreux contextes.
"""

Similarité entre 'king' et 'queen' : 0.6511
Similarité entre 'cat' et 'tiger' : 0.5173
Similarité entre 'computer' et 'tree' : 0.1062
Similarité entre 'wheel' et 'spider' : 0.1464
Similarité entre 'security' et 'byte' : 0.1081


'\nDe manière générale, les similarités obtenues correspondent à nos intuitions. Toutefois, nous aurions pensé que la similiarité entre "computer" et "tree"serait plus élevée. Le modèle doit très certaienemnt comprendre le mot "tree" comme étant un arbre dans une forêt, et non une structure informatique. Le constat est le même pour "securtiy" et "byte". Pour ce cas de figure, on peut penser que le score obtenu est légitime car le mot "security" est trop général et peut être utilisé dans de nombreux contextes.\n'

### f. Pouvez-vous trouver des mots de sens opposés mais qui sont proches selon le modèle ? Comment expliquez-vous cela ?  Est-ce une qualité ou un défaut du modèle word2vec ?

In [36]:
word_pairs = [
    ("win", "lose"),
    ("day", "night"),
    ("love", "hate"),
    ("walk", "drive"),
    ("up", "down"),
    ("happy", "sad"),
    ("light", "dark"),
    ("success", "failure"),
    ("young", "old"),
    ("strong", "weak"),
    ("enter", "exit"),
    ("increase", "decrease"),
    ("begin", "end"),
    ("open", "close"),
    ("true", "false")
]

for word1, word2 in word_pairs:
    similarity = w2v_vectors.similarity(word1, word2)
    print(f"Similarité entre '{word1}' et '{word2}' : {similarity:.4f}")

"""
Dans nos résultats, nous pouvons constater que plusieurs paires de mots opposés ont des similarités étonnamment élevées. Le cas le plus frappant est "increase" et "decrease" avec un score de 0.84, mais on observe aussi des valeurs élevées pour "up/down" (0.64) et "strong/weak" (0.62).

On pourrait s'attendre à ce que des antonymes aient une similarité plus basse. En réalité, Word2Vec capture les relations contextuelles entre les mots. Dans les textes, ces paires d'opposés apparaissent souvent ensemble - quand on parle d'augmentation, la diminution est fréquemment mentionnée aussi.

Pouvons nous voir cela comme une qualité ou un défaut du modèle ? D'un côté, cela illustre que Word2Vec comprend les relations conceptuelles entre les mots car les antonymes font bien partie du même champ sémantique / lexicale. D'un autre côté, pour des applications comme l'analyse de sentiment, cette caractéristique pourrait être problématique. Cela représente davantage une caractéristique fondamentale du modèle qu'un véritable défaut.
"""

Similarité entre 'win' et 'lose' : 0.3951
Similarité entre 'day' et 'night' : 0.5070
Similarité entre 'love' et 'hate' : 0.6004
Similarité entre 'walk' et 'drive' : 0.3630
Similarité entre 'up' et 'down' : 0.6397
Similarité entre 'happy' et 'sad' : 0.5355
Similarité entre 'light' et 'dark' : 0.4713
Similarité entre 'success' et 'failure' : 0.3241
Similarité entre 'young' et 'old' : 0.4174
Similarité entre 'strong' et 'weak' : 0.6157
Similarité entre 'enter' et 'exit' : 0.3563
Similarité entre 'increase' et 'decrease' : 0.8370
Similarité entre 'begin' et 'end' : 0.3478
Similarité entre 'open' et 'close' : 0.4637
Similarité entre 'true' et 'false' : 0.3709


'\nDans nos résultats, nous pouvons constater que plusieurs paires de mots opposés ont des similarités étonnamment élevées. Le cas le plus frappant est "increase" et "decrease" avec un score de 0.84, mais on observe aussi des valeurs élevées pour "up/down" (0.64) et "strong/weak" (0.62).\n\nOn pourrait s\'attendre à ce que des antonymes aient une similarité plus basse. En réalité, Word2Vec capture les relations contextuelles entre les mots. Dans les textes, ces paires d\'opposés apparaissent souvent ensemble - quand on parle d\'augmentation, la diminution est fréquemment mentionnée aussi.\n\nPouvons nous voir cela comme une qualité ou un défaut du modèle ? D\'un côté, cela illustre que Word2Vec comprend les relations conceptuelles entre les mots car les antonymes font bien partie du même champ sémantique / lexicale. D\'un autre côté, pour des applications comme l\'analyse de sentiment, cette caractéristique pourrait être problématique. Cela représente davantage une caractéristique fond

### g. En vous aidant de la documentation de Gensim sur KeyedVectors, obtenez les scores du modèle word2vec sur les données de test WordSimilarity-353. Veuillez rappeler en 1-2 phrases comment les différents scores sont calculés.

In [37]:
from gensim.test.utils import datapath

results = w2v_vectors.evaluate_word_pairs(datapath('wordsim353.tsv'))

print(f"Corrélation de Pearson : {results[0][0]:.4f}")
print(f"Corrélation de Spearman : {results[1][0]:.4f}")
print(f"Ratio de mots inconnus : {results[2]:.2f}%")

"""
La fonction evaluate_word_pairs nous retourne trois métriques principales. Le coefficient de corrélation de Pearson est un tuple contenant le coefficient (un nombre entre -1 et 1) et sa valeur p associée, qui mesure la relation linéaire directe entre les similarités calculées par notre modèle et les jugements humains du dataset. Le coefficient de Spearman est également un tuple avec le coefficient et sa valeur p, mais qui s'intéresse plutôt à la corrélation des rangs (l'ordre) plutôt qu'aux valeurs absolues. Enfin, l'oov_ratio (out-of-vocabulary ratio) est un simple pourcentage qui indique la proportion de paires de mots qui n'existent pas dans le vocabulaire de notre modèle.

Concernant les scores, ils sont calculés en comparant les similarités de paires de mots générées par le modèle avec les jugements humains du dataset WordSim-353. Le coefficient de corrélation de Pearson mesure la relation linéaire entre les deux ensembles de scores, tandis que le coefficient de Spearman évalue la corrélation de rang entre eux.
"""

Corrélation de Pearson : 0.6239
Corrélation de Spearman : 0.6589
Ratio de mots inconnus : 0.00%


"\nLa fonction evaluate_word_pairs nous retourne trois métriques principales. Le coefficient de corrélation de Pearson est un tuple contenant le coefficient (un nombre entre -1 et 1) et sa valeur p associée, qui mesure la relation linéaire directe entre les similarités calculées par notre modèle et les jugements humains du dataset. Le coefficient de Spearman est également un tuple avec le coefficient et sa valeur p, mais qui s'intéresse plutôt à la corrélation des rangs (l'ordre) plutôt qu'aux valeurs absolues. Enfin, l'oov_ratio (out-of-vocabulary ratio) est un simple pourcentage qui indique la proportion de paires de mots qui n'existent pas dans le vocabulaire de notre modèle.\n\nConcernant les scores, ils sont calculés en comparant les similarités de paires de mots générées par le modèle avec les jugements humains du dataset WordSim-353. Le coefficient de corrélation de Pearson mesure la relation linéaire entre les deux ensembles de scores, tandis que le coefficient de Spearman éval

### h. En vous aidant de la documentation, calculez le score du modèle word2vec sur les données  questions-words.txt. Attention, cette évaluation prend une dizaine de minutes, donc il vaut mieux commencer par tester avec un fragment de ce fichier (copier/coller les 100 premières analogies).  Expliquez en 1-2 phrases comment ce score est calculé et ce qu’il mesure.

In [40]:
analogy_scores = w2v_vectors.evaluate_word_analogies(datapath('questions-words.txt'))
print(f"Score: {analogy_scores[0]:.4f}")

"""
La méthode evaluate_word_analogies() permet d'évaluer les capacités du modèle à résoudre des analogies linguistiques. Ces analogies prennent la forme "A est à B ce que C est à D", comme dans l'exemple "homme est à femme ce que garçon est à fille". Le modèle doit prédire le quatrième terme de l'analogie en utilisant l'opération vectorielle D = B - A + C. Cette opération consiste à partir du vecteur représentant le troisième mot (C), puis à y ajouter la différence entre les vecteurs des deux premiers mots (B - A). Le score obtenu représente le pourcentage d'analogies correctement résolues parmi l'ensemble du jeu de test. Ce score permet de mesurer la qualité des relations sémantiques et syntaxiques capturées par notre modèle Word2Vec. Plus le score est élevé, mieux le modèle a appris les relations entre les mots dans l'espace vectoriel.
"""

Score: 0.7401


'\nLa méthode evaluate_word_analogies() permet d\'évaluer les capacités du modèle à résoudre des analogies linguistiques. Ces analogies prennent la forme "A est à B ce que C est à D", comme dans l\'exemple "homme est à femme ce que garçon est à fille". Le modèle doit prédire le quatrième terme de l\'analogie en utilisant l\'opération vectorielle D = B - A + C. Cette opération consiste à partir du vecteur représentant le troisième mot (C), puis à y ajouter la différence entre les vecteurs des deux premiers mots (B - A). Le score obtenu représente le pourcentage d\'analogies correctement résolues parmi l\'ensemble du jeu de test. Ce score permet de mesurer la qualité des relations sémantiques et syntaxiques capturées par notre modèle Word2Vec. Plus le score est élevé, mieux le modèle a appris les relations entre les mots dans l\'espace vectoriel.\n'