<a href="https://colab.research.google.com/github/KOMBOU12/Marius/blob/main/Representation_Learning.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Cellule de texte <1MBLqlgL3BYi>
# %% [markdown]
# Représentation vectorielle du sens des mots

**Auteur :** Adrien Guille (Université Lumière Lyon 2), pour le cours *Representation learning for NLP* @ Master 2 MALIA et Master 2 MIASH.

Cellule de texte <9P1gOVRYXsAP>
# %% [markdown]
## Chargement des vecteurs

On télécharge une petite collection de vecteurs appris par la méthode **Skip-Gram avec échantillonnage négatif**.

Les représentations en dimension 300 des 100 000 mots les plus fréquents ont été apprises à partir de l'ensemble des pages francophones sur Wikipedia. Autrement dit, chacun des 100 000 mots les plus fréquents dans les articles Wikipedia sont associés à un vecteur $u \in \mathbb{R}^{300}$.

Cellule de code <9h8Tz4x6uzQW>

In [1]:
# %% [code]
# Téléchargement
! wget https://raw.githubusercontent.com/AdrienGuille/adrienguille.github.io/main/assets/sgns.wiki.fr.zip
! unzip sgns.wiki.fr.zip

--2024-12-06 22:37:34--  https://raw.githubusercontent.com/AdrienGuille/adrienguille.github.io/main/assets/sgns.wiki.fr.zip
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.109.133, 185.199.110.133, 185.199.108.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.109.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 98204893 (94M) [application/zip]
Saving to: ‘sgns.wiki.fr.zip’


2024-12-06 22:37:35 (196 MB/s) - ‘sgns.wiki.fr.zip’ saved [98204893/98204893]

Archive:  sgns.wiki.fr.zip
  inflating: sgns.wiki.fr.vec        


In [None]:



# Lecture du vocabulaire et des vecteurs
import pandas as pd
data = pd.read_csv("sgns.wiki.fr.vec", sep=" ", quoting=3, header=None, skiprows=1)
vocabulary = list(data[0].values)
vectors = data[range(1, 301)].values

# Définition d'une fonction pour accéder de façon sûre aux vecteurs
def get_vector(word):
  if word in vocabulary:
    return vectors[vocabulary.index(word)]
  else:
    return None

Cellule de texte <xnJuZn6YWxMn>
# %% [markdown]
## Identification des mots proches

On mesure la proximité entre les mots comme une fonction du produit scalaire de leurs représentations. Plus exactement on mesure le produit scalaire normalisé par le produit des normes, qui correspond au cosinus de l'angle entre les deux vecteurs :
$$
\cos(\theta_{u_1, u_2}) = \frac{u_1 \cdot u_2}{||u_1|| \times ||u_2||}
$$

**Exercice** :
- Écrire la fonction `get_most_similar_words` qui reçoit une représentation vectorielle ou un mot et retourne les $n$ mots les plus proches.
- La tester !

Cellule de code <EFbPPqod-USy>
# %% [code]
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np

def get_most_similar_words(vector, n=10):
    if type(vector) == str:
        # si l'argument reçu est de type texte, on le remplace par le vecteur qui correspond
        vector = get_vector(vector)


Cellule de texte <W86FJ0b6XNMb>
# %% [markdown]
## Visualisation des représentations et des relations entre elles: pays & capitales

**Exercice:**
- Extraire le sous-ensemble de vecteurs pour les mots donnés ci-après
- Les projeter linéairement en 3D au moyen d'une décomposition en valeurs singulières tronquée
- Visualiser les vecteurs dans le plan, d'après leurs coordonnées sur les 2ème et 3ème axes.

Cellule de code <DzRMB3sYuK3J>
# %% [code]
from sklearn.decomposition import TruncatedSVD
import matplotlib.pyplot as plt

words = ['paris', 'france', 'berlin', 'allemagne', 'pékin', 'chine', 'tokyo', 'japon', 'mexico', 'mexique', 'caracas', 'venezuela']
word_vectors = [get_vector(w) for w in words]


Cellule de texte <5aD6U1rfXdgt>
# %% [markdown]
## Prédiction du nom de la capitale à partir du nom d'un pays

**Exercice** :
- D'après le résultat obtenu précédemment, proposer une manière de deviner le nom de la capitale à partir du nom d'un pays d'après leurs représentations.
- Écrire la fonction `find_capital` qui implémente votre idée et la tester !

Cellule de code <Ld4s9xOy6p2r>
# %% [code]


Cellule de texte <iLSEVn49XjGL>
# %% [markdown]
## Résolution d'analogies

On considère des analogies de la forme $a$ est à $b$, ce que $c$ est à $d$. Dans l'espace vectoriel on devrait avoir $u_a - u_b = u_c - u_d$.

**Exercice** :
- Écrire une fonction qui résoud une telle analogie, sachant $a$, $b$ et $c$.
- La tester !

Cellule de code <x1J-rnsDyCSU>
# %% [code]
def solve_analogy(word_a, word_b, word_c):



