<img src="https://heig-vd.ch/docs/default-source/doc-global-newsletter/2020-slim.svg" alt="Logo HEIG-VD" style="width: 80px;" align="right"/>

# Cours APN - Labo 4 : Visualisation de vecteurs de mots

## R√©sum√©
Le but de ce laboratoire est de visualiser des vecteurs de mots gr√¢ce √† des m√©thodes de r√©duction de dimensionnalit√©.  La visualisation permettra de deviner plus facilement le "mot du jour" dans le jeu en ligne [C√©mantix](https://cemantix.certitudes.org/).

## 1. Prise en main de word2vec

Le mod√®le Word2vec contient des _embeddings_ des mots qui sont appris automatiquement √† partir de textes.  Chaque mot est donc repr√©sent√© par un vecteur dans un espace avec plusieurs centaines de dimensions (p.ex. 300 ou 500).  Dans cet espace, les mots de sens ou d'usage proches ont des vecteurs proches (les _embeddings_ capturent la similarit√© entre mots).  Mais la dimensionnalit√© de l'espace fait qu'il est difficile de visualiser les vecteurs de mots.

La librairie [Gensim](https://radimrehurek.com/gensim/index.html) permet de charger un mod√®le Word2vec existant (avec la fonction `load_word2vec_format(...)`) et de manipuler les vecteurs de mots (instances de la classe `KeyedVectors`).  On peut notamment utiliser la fonction `similarity(w1, w2)` qui retourne le cosinus des vecteurs correspondant aux mots `w1` et `w2`, √† condition que ceux-ci soient connus du mod√®le.  On peut aussi utiliser la fonction `most_similar([w])` qui retourne les mots voisins d'un ou plusieurs mots.  La [documentation de KeyedVectors](https://radimrehurek.com/gensim/models/keyedvectors.html) fournit des exemples utiles.

Veuillez t√©l√©charger l'_un des deux_ mod√®les word2vec suivants, d√©j√† entra√Æn√©s, mis √† disposition par [J.-Ph. Fauconnier](https://fauconnier.github.io/#data):
- [frWac_no_postag_no_phrase_500_cbow_cut100.bin](https://embeddings.net/embeddings/frWac_no_postag_no_phrase_500_cbow_cut100.bin) - plus petit (229 Mo), mais pas identique au mod√®le utilis√© pour C√©mantix ;
- [frWac_no_postag_phrase_500_cbow_cut10.bin](https://embeddings.net/embeddings/frWac_no_postag_phrase_500_cbow_cut10.bin) - bien plus grand (2 Go) donc assez gourmand en m√©moire, mais qui est exactement celui utilis√© pour C√©mantix.
Veuillez placer le mod√®le choisi dans le dossier `gensim-data` de votre dossier utilisateur.

In [7]:
# T√©l√©chargement, si n√©cessaire.
# import wget
# url = 'https://embeddings.net/embeddings/frWac_no_postag_no_phrase_500_cbow_cut100.bin'
# wget.download(url, path_to_model)

In [8]:
from gensim.models import KeyedVectors

In [9]:
path_to_model = "C:\\Users\\lcsch\\gensim-data\\frWac_no_postag_phrase_500_cbow_cut10.bin"

In [10]:
model = KeyedVectors.load_word2vec_format(path_to_model, binary=True, unicode_errors="ignore")

a. Choisissez deux mots de sens proches `w1` et `w2`, et un autre plus diff√©rent not√© `w3`. Affichez la similarit√© selon word2vec (cosinus) entre chaque paire de mots.  Ces valeurs correspondent-elles √† vos intuitions ?

In [19]:
from gensim.similarities import Similarity

w1 = 'dauphin'
w2 = 'requin'
w3 = 'goudron'

print('w1-w2:', model.similarity(w1,w2))
print('w2-w3:', model.similarity(w2,w3))
print('w1-w3:', model.similarity(w1,w3))


w1-w2: 0.48375186
w2-w3: 0.057056237
w1-w3: -0.019678146


b. Affichez les 10 mots les plus proches de `w1` selon word2vec avec pour chacun sa similarit√© avec `w1`. 

In [29]:
model.most_similar(w1)

[('c√©tac√©', 0.5253106355667114),
 ('dauphins', 0.5124589204788208),
 ('mammif√®re_marin', 0.49912703037261963),
 ('sattaya', 0.4936593770980835),
 ('rorqual', 0.48457515239715576),
 ('lion_poisson_clown', 0.4841044545173645),
 ('requin', 0.4837518632411957),
 ('delphinarium', 0.4817071557044983),
 ('globic√©phale', 0.4806098937988281),
 ('tucuxi', 0.4790893793106079)]

c. Quels sont les 15 premiers coefficients du vecteur (_embedding_) du mot `w1` ? Quelle est la dimension de ce vecteur ?  Quelle est la taille du vocabulaire connu du mod√®le ?  Vous pouvez simplement √©crire les commandes r√©pondant √† ces questions.

In [28]:
vec = model.get_vector(w1)
print('15 premiers coefficients :', vec[:15])
print('Dimension :', vec.shape)

print('Taille du vocabulaire connu :', len(model.vectors))

15 premiers coefficients : [-0.13417305  0.81857145  1.2199419  -0.18103984 -0.27053598  1.004049
 -2.296227    0.48258477 -0.6281404  -2.0846758   1.8269727  -1.7335479
  0.6532203   0.5872189  -0.8560664 ]
Dimension : (500,)
Taille du vocabulaire connu : 1081995


d. Veuillez √©crire une fonction appel√©e `neighbors` selon les sp√©cifications suivantes.  Cette fonction servira plus loin pour l'affichage.
* input : mod√®le, liste de mots, nombre de voisins (`topn`) ;
* output : liste de mots voisins de chacun des mots de l'input, repr√©sent√©s par un dictionnaire expliqu√© ci-apr√®s ;
* fonctionnement : pour _chacun_ des mots donn√©s en input, la fonction teste si le mot est dans le vocabulaire du mod√®le word2vec (sinon elle ne le consid√®re pas), puis demande au mod√®le la liste des `topn` mots voisins ; pour chacun de ces mots, la fonction construit un `dict` √† 4 champs : 
  - mot voisin
  - similarit√©
  - mot de d√©part
  - code de couleur associ√© au mot de d√©part : 1, 2, etc.

**Exemple** : si on appelle la fonction avec \['√©cole'\], le d√©but du r√©sultat sera :
```
[{'neighbor': 'scolaire',
  'similarity': 0.7114928364753723,
  'ref_word': '√©cole',
  'color_code': 1}, ...
```

In [34]:
def neighbors(model, word_list, topn = 5):
    result = list()
    for index, word in enumerate(word_list):
        # Si le mot existe...
        if word in model.key_to_index:
            n_neighbors = model.most_similar(word, topn=topn)
            for neighbor, distance in n_neighbors:
                info = {
                    'neighbor':neighbor,
                    'similarity':distance,
                    'ref_word':word,
                    'color_code': index}
                result.append(info)
    return result

In [35]:
# Tester avec cet appel :
print(neighbors(model, ['chat', '√©tudier'], 3))

[{'neighbor': 'minou', 'similarity': 0.6334686875343323, 'ref_word': 'chat', 'color_code': 0}, {'neighbor': 'matou', 'similarity': 0.626587450504303, 'ref_word': 'chat', 'color_code': 0}, {'neighbor': 'petit_chatte', 'similarity': 0.6141418218612671, 'ref_word': 'chat', 'color_code': 0}, {'neighbor': '√©tude', 'similarity': 0.6593688726425171, 'ref_word': '√©tudier', 'color_code': 1}, {'neighbor': 'analyser', 'similarity': 0.6340749263763428, 'ref_word': '√©tudier', 'color_code': 1}, {'neighbor': 'approfondir', 'similarity': 0.5609511733055115, 'ref_word': '√©tudier', 'color_code': 1}]


## 2. Affichage simple des voisins d'un mot

Pour commencer, veuillez √©tudier et ex√©cuter le code fourni en exemple : `Labo4_plotly.ipynb`.  Cela vous montrera comment utiliser l'affichage 2D/3D avec `plotly.js`, et vous permettra de traiter les questions suivantes.

Veuillez √©crire et ex√©cuter une fonction qui effectue les op√©rations suivantes, √©tant donn√© un mot en entr√©e :
* obtenir les vecteurs word2vec du mot et de ses `topn` plus proches voisins ;
* transformer ces vecteurs en 2D par l'ACP ;
* afficher en 2D chaque points correspondant √† un mot, avec comme √©tiquette le mot lui-m√™me.

**Notes:** cette fonction sert de version pr√©liminaire √† une fonction plus g√©n√©rique demand√©e ci-dessous.  Il n'est pas demand√© de distinguer le mot entr√© des mots voisins, dans l'affichage (m√™me type de points).  Il n'est pas n√©cessaire pour l'instant d'utiliser la fonction `neighbors`.

In [49]:
import plotly
import numpy as np
import plotly.graph_objs as go
from sklearn.decomposition import PCA

In [63]:
import pandas as pd

def display_PCA_2D_neighbors(model, word, topn = 5):
    word_vec = model.get_vector(word)

    neighbors = [neighbor_word for neighbor_word, distance in model.most_similar(word, topn=topn)]
    vectors = [model.get_vector(neighbor) for neighbor in neighbors]
    vectors.append(word_vec)
    neighbors.append(word)

    pca = PCA(n_components=2)
    pca_data = pca.fit_transform(vectors)

    plot_data_2 = go.Scatter(
                    x = pca_data[:,0], 
                    y = pca_data[:,1],  
                    text = neighbors,
                    name = 'Mots',
                    textposition = "top center",
                    textfont_size = 10,
                    mode = 'markers+text',
                    marker = {'size': 5, 'opacity': .8, 'color': 2})
    
    layout = go.Layout(
        margin = {'l': 0, 'r': 0, 'b': 0, 't': 0},
        width = 800, height = 600,
        font = {'family' : 'Arial', 'size' : 10}, # propri√©t√©s des caract√®res
        showlegend = True,
        legend = {'x' : 1, 'y' : 0.5, 'font' : {'color' : 'black'}}) # position et font de la l√©gende
    
    plot_figure = go.Figure(data = plot_data_2, layout = layout)
    plot_figure.show()


In [66]:
# Afficher le mot 'chat' et ses 20 plus proches voisins
# projet√©s en deux dimensions avec PCA (test de la fonction).
display_PCA_2D_neighbors(model, 'pr√©cis', 20)

## 3. Affichage configurable des voisins de plusieurs mots

Le but maintenant est d'√©crire une fonction `display_dimred_neighbors` qui affiche sur un seul graphique les mots voisins de chaque mot d'une liste de mots donn√©s.  Vous utiliserez ici la fonction auxiliaire `neighbors` d√©finie plus haut  Les param√®tres suivants seront pass√©s √† la fonction `display_dimred_neighbors` :

* `model` - le nom du mod√®le word2vec
* `word_list` - liste de mots dont on veut afficher les voisins (s'ils existent dans `model`)
* `n_components` - dimensionnalit√© de l'affichage, 2 ou 3
* `topn` - nombre de voisins √† afficher pour chaque mot 
* `method` - **m√©thode de r√©duction de dimensionnalit√© : pca, mds, isomap, tsne, ou umap**
* `n_neighbors`- nombre de voisins consid√©r√©s par la m√©thode (applicable √† isomap, umap, et tsne (appel√© alors `perplexity`)).

Trois tests sont demand√©s √† la question 4, mais vous pouvez en ex√©cuter d'autres et les inclure ici.

In [None]:
from sklearn.decomposition import PCA
from sklearn.manifold import MDS
from sklearn.manifold import Isomap
from sklearn.manifold import TSNE
from umap import UMAP # Attention, installer le module nomm√© 'umap-learn' (avec conda install).

In [None]:
def display_dimred_neighbors(model, word_list, n_components = 3, topn = 5, method = 'pca', n_neighbors = 5):
    neighbors_data = pd.DataFrame.from_dict(neighbors(model, word_list, topn))

    vectors = [model.get_vector(n) for n in neighbors_data['neighbor']]

    dimred_data = None
    if method == 'pca':
        pca = PCA(n_components=n_components)
        dimred_data = pca.fit_transform(vectors)

    classes = neighbors_data['ref_word'].value_counts().items()
    plots = []
    for ref_word, _ in classes:
        plot = go.Scatter(
                        x = dimred_data[:,0], 
                        y = dimred_data[:,1],  
                        text = neighbors_data['neighbor'],
                        name = ref_word,
                        textposition = "top center",
                        textfont_size = 10,
                        mode = 'markers+text',

                        # todo : fix cette ligne parce que √ßa marche pas wesh
                            
                        marker = {'size': 5, 'opacity': .8, 'color': neighbors_data[neighbors_data['ref_word'] == ref_word]['color_code'].iloc[0]})
        plots.append(plot)

    layout = go.Layout(
        margin = {'l': 0, 'r': 0, 'b': 0, 't': 0},
        width = 800, height = 600,
        font = {'family' : 'Arial', 'size' : 10}, # propri√©t√©s des caract√®res
        showlegend = True,
        legend = {'x' : 1, 'y' : 0.5, 'font' : {'color' : 'black'}}) # position et font de la l√©gende
    
    plot_figure = go.Figure(data = plots, layout = layout)
    plot_figure.show()

In [90]:
display_dimred_neighbors(model, ['pr√©cis', 'goudron'], n_components=2, topn=5, method='pca')

## 4. Application √† l'√©tude des mots voisins dans word2vec

Veuillez choisir quatre mots (`word_list = [m1, m2, m3, m4]`) de fa√ßon √† ce que m1 et m2 soient tr√®s proches par leur sens ou leur usage, m3 un peu plus √©loign√©, et m4 tr√®s √©loign√©.  L'objectif de cette question est d'√©tudier la distribution des mots voisins de ces quatre mots (entre 10 et 50) par une visualisation en 2D ou en 3D des vecteurs de mots.  

En exp√©rimentant avec plusieurs configurations (m√©thode de r√©duction de dimensionnalit√©, valeur de `n_neighbors`, nombre de voisins `topn`), veuillez r√©pondre aux questions suivantes, √† l'aide d'un ou plusieurs graphiques par question :

**a.** si on utilise une m√©thode de r√©duction de dimensionnalit√© lin√©aire (PCA ou MDS m√©trique), les quatre groupes de mots sont-ils clairement s√©par√©s dans word2vec ?

**b.** si on utilise une m√©thode de r√©duction de dimensionnalit√© non-lin√©aire (Isomap, t-SNE ou UMAP), peut-on mieux mettre en √©vidence les quatre groupes de mots ?  Quels sont les meilleurs param√®tres que vous avez trouv√©s permettant de bien identifier les quatre ensembles ?

**c.** inversement, trouvez-vous des param√®tres qui aboutissent √† cinq clusters ? ou √† trois ?

In [None]:
# Ins√©rer ici la liste de mots.


In [None]:
# Question 4a


In [None]:
# Question 4b


In [None]:
# Question 4c


## 5. Outil d'assistance pour le jeu C√©mantix

Le jeu en ligne [C√©mantix](https://cemantix.certitudes.org/) (aussi propos√© sur le site [Dictaly](https://www.dictaly.com/semantiques/))  demande de deviner le *mot du jour* en l'approchant peu √† peu par des mots candidats.  Pour chacun, le syst√®me indique pour sa similarit√© word2vec avec le *mot du jour*, ce qui permet de se rapprocher graduellement de la solution.  Exp√©rimentez d'abord un court instant avec le jeu üòÄ.

L'objectif de cette question est de visualiser les voisinages de mots, pour vous aider √† proposer des mots candidats et trouver plus vite la solution.  La proc√©dure est la suivante :
* essayez trois mots au hasard dans C√©mantix
* affichez 20-30 mots voisins de ces trois mots gr√¢ce √† la fonction `display_dimred_neighbors`
* √† l'aide des mots affich√©s, essayez des mots candidats dans C√©mantix
* changez l'affichage en rempla√ßant les trois mots par de meilleurs mots
* continuez jusqu'√† trouver le *mot du jour*

**Notes**
* si vous le souhaitez, vous pouvez utiliser le mod√®le word2vec identique √† celui de C√©mantix, qui est frWac_no_postag_phrase_500_cbow_cut10.bin fourni par [J.-Ph. Fauconnier](https://fauconnier.github.io/#data)
* ce mod√®le fait environ 2.3 Go et contient aussi des expressions de plusieurs mots (s√©par√©s par '_')
* vous pouvez choisir d'utiliser le petit ou le grand mod√®le, sachant qu'avec le premier, les suggestions sont moins pertinentes
* C√©mantix ignore les expressions de plusieurs mots pr√©sentes dans le grand mod√®le -- vous pouvez choisir de le faire ou non.

In [None]:
# candidate_words = ['homme', 'rouge', '√©tudier']
candidate_words = ['rendement', 'rentabilit√©']
display_dimred_neighbors(model, candidate_words, n_components = 3, topn = 30, method = 'tsne')

Veuillez noter ici vos observations sur la proc√©dure, et coller un extrait montrant votre meilleure performance au jeu.

**Fin du Labo.**  Veuillez nettoyer ce notebook en gardant seulement les r√©sultats d√©sir√©s, l'enregistrer, et le soumettre comme devoir sur Cyberlearn.