<a href="https://colab.research.google.com/github/DanielLondonCheers/MC2300/blob/main/vectorialisation.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Vectorialisation des mots**

## Installation de la bibliothèque gensim

La bibliothèque *gensim* est une bibliothèque permettant de télécharger et de manipuler des vectorisations de mots.  

Exécutez le bloc ci-dessous pour télécharger la bibliothèque:

In [None]:
!pip install --upgrade gensim
import gensim.downloader as api
from gensim.models import KeyedVectors


Attention! Si vous travaillez sur google Colab, il est fort probable que vous obteniez à ce stade un message d'erreur. Il y a en effet une incompatibilité entre les versions de *numpy* et *scipy* pré-installées sur Colab et les versions nécessaires au bon fonctionnement de *gensim*.

Pour résoudre simplement le problème, commentez la première ligne du bloc (celle qui install *gensim*) puis redémarrez la session en allant dans *Exécution -> Redémarrer la session*.

---------------------------------------------------------------------------
## Chargement d'un modèle de *word embedding*

Nous allons travailler sur une base de données de 400 000 mots anglais. Chaque mot est représenté par un vecteur à 50 dimensions. Ce plongement lexical (word embedding) a été obtenu grâce à un entraînement sur deux milliards de tweets.

In [None]:
# Load pre-trained Word2Vec model (slimmed version)
model = api.load("glove-wiki-gigaword-50")

### Questions

 1) Vérifiez le nombre de mots contenus dans *model* et vérifiez que chaque mot est bien codé par un vecteur de dimension 50. Donnez la liste des vingt premiers mots contenus dans *model*.

2) Quels sont les 5 plus proches voisins des mots 'navy', 'french', 'the', 'marmelade'?

3) En utilisant le code ci-dessous, devinez le mot mystère à partir de ses 5 plus proches voisins dans l'espace à 50 dimensions.

In [None]:
import random

# Pick a random word and get similar words
vocab = list(model.key_to_index.keys())
mot_mystere = random.choice(vocab)
mots_similaires = model.most_similar(mot_mystere, topn=6)

# Show top 5 (excluding the word itself)
print("Mots similaires au mot mystère:")
for mot, score in mots_similaires[1:6]:
    print(f"  - {mot}", f"(score: {score:.3f})")

# Ask for a guess
print("\nQuel est le mot mystère ?")
reponse = input()
if reponse == mot_mystere:
    print("Bravo, vous avez trouvé le mot mystère !")
else:
    print(f"Dommage, le mot mystère était {mot_mystere}.")


4) Considérons la fonction *gender_bias_test* ci-dessous:

In [None]:
def gender_bias_test(word):
    gender_direction = model['man'] - model['woman']
    projected = model[word] + gender_direction
    return model.similar_by_vector(projected, topn=5)



Cette fonction signifie:

« Prenez le mot **word** et déplacez-le dans la même direction vectorielle que celle qui mène de *woman* à *man*. Qu'est-ce que vous obtenez ? »

Autrement dit, il s'agit de demander :

« Quelle est la contrepartie masculine du mot **word** dans cet espace vectoriel ? »


In [None]:
gender_bias_test('nurse')

Commentez et essayer avec d'autres mots. Déterminez aussi la contrepartie féminine de mots comme "soldier"...

# A retenir!
- Les vectorialisations reflètent les données sur lesquelles elles ont été formées, y compris les biais et les stéréotypes.

- Ces biais peuvent influencer les applications en aval (moteurs de recherche, sélection de CV, etc.).

- Ce n'est pas parce que la vectorialisation est basée sur un calcul statistique rigoureux qu'elle est équitable!