# Les Embeddings de mots

J'ai entrainé des embeddings en français à partir des données du corpus OSCAR <span class="badge badge-secondary">([Suárez et al., 2019](#suarez-2019))</span> (886.47 M de phrases qui correspondent à 21.66 B de mots). La taille du vocabulaire est de 2.9 M de mots. Les embeddings sont entrainés avec l'algorithme Word2Vec <span class="badge badge-secondary">([Mikolov et al., 2013a](#mikolov-2013a), [2013b](#mikolov-2013b))</span>.


In [None]:
%%capture

# ⚠️ Execute only if running in Colab
if 'google.colab' in str(get_ipython()):
  IN_COLAB = True
else:
  IN_COLAB = False

if IN_COLAB:
  !pip install gensim==3.8.1 scikit-learn==0.23.2 matplotlib==3.3.2
  # !pip install matplotlib==3.1.3
  # puis redémarer l'environnement d'éxécution

In [None]:
from collections import Counter
from gensim.models import Word2Vec
import numpy as np
from gensim.models import KeyedVectors

# IPython automatically reload all changed code
%load_ext autoreload
%autoreload 2

In [None]:
# get data

!wget --no-check-certificate -r 'https://docs.google.com/uc?export=download&id=1qgd_9RDj_nOKeoCBHKAL_PvqT_d5E7OL' -O oscar.fr.300.model.zip
!unzip oscar.fr.300.model.zip
# !unzip oscar.fr.300.model.zip

In [None]:
# !wget --no-check-certificate -r 'https://docs.google.com/uc?export=download&id=1qgd_9RDj_nOKeoCBHKAL_PvqT_d5E7OL' -O oscar.fr.300.model.zip
# !unzip oscar.fr.300.model.zip

In [None]:
w2v_model = Word2Vec.load("oscar.fr.300.model")
w2v_model.init_sims(replace=True)

In [None]:
len(w2v_model.wv.vocab)

In [None]:
# w2v_model = KeyedVectors.load_word2vec_format("oscar.fr.300.10k.model")
# w2v_model.init_sims(replace=True)

In [None]:
# On crée un array avec les 10,000 premiers mots et on crée le dictionaire de vocabulaire

word_count = {k: w2v_model.wv.vocab[k].count for k in w2v_model.wv.vocab}
word_count = Counter(word_count)
word_count.most_common(10)

idx2w = {i: w for (i, (w, f)) in enumerate(word_count.most_common(10000))}
w2idx = {w: i for (i, (w, f)) in enumerate(word_count.most_common(10000))}


embeddings_vectors = [w2v_model.wv[w] for (w, f) in word_count.most_common(10000)]
word2vec_embeddings = np.vstack(embeddings_vectors)

In [None]:
print(word2vec_embeddings.shape)

In [None]:
w2v_model.wv['roi'].shape

In [None]:
w2v_model.wv['roi']

<hr>
<div class="alert alert-info" role="alert">
    <p><b>📝 Exercice :</b> Le mot 'dotcteur' n'a pas d'embeddings associé, pourquoi ? Est-il possible de le rajouter ?</p>
</div>
<hr> 

In [None]:
w2v_model.wv['dotcteur']

<div class="alert alert-info" role="alert">
    <p><b>Exercice :</b> S'assurer que les embeddings sont bien normalisés (la norme de chauqe vecteur vaut 1).</p>
</div>    

In [None]:
np.linalg.norm(w2v_model.wv['avion'])

### Exploration de l'espace de représentation

<hr>
<div class="alert alert-info" role="alert">
    <p><b>📝 Exercice :</b> Ecrire une fonction qui renvoie les n mots les plus similaires étant donné un query. Pour cela, on calculera la similarité cosinus entre le query et les autres mots. On affichera les n mots avec la similarité cosinus la plus élevée.</p>
</div>
<hr> 

In [None]:
# %load solutions/most_similar.py
def most_similar(query, word2vec_embeddings, w2idx, idx2w, topn=10):
    # TODO compléter la fonction qui renvoie les topn mots les plus proches du query
    # dans le vocabulaire.
    most_similar_words = []
    return most_similar_words


In [None]:
w2idx.get("paris", 0)

In [None]:
word2vec_embeddings[2480].shape

In [None]:
np.dot(word2vec_embeddings, word2vec_embeddings[2480])

In [None]:
most_similar("paris", word2vec_embeddings, w2idx, idx2w)

In [None]:
w2v_model.wv.most_similar(positive=["paris"], topn=10)

In [None]:
w2v_model.wv.most_similar(positive=["Paris"], topn=10)

In [None]:
w2v_model.wv.most_similar(positive=["cpu"], topn=10)

In [None]:
w2v_model.wv.most_similar(positive=["voiture"], topn=10)

In [None]:
w2v_model.wv.most_similar(positive=["1"], topn=10)

In [None]:
w2v_model.wv.most_similar(positive=[":)"], topn=10)

In [None]:
w2v_model.wv.most_similar(positive=[":("], topn=10)

In [None]:
w2v_model.wv.most_similar(positive=["ordinateur"], topn=10)

## Relations entre les mots

<img src="https://github.com/AntoineSimoulin/m2-data-sciences/blob/master/Cours%202%20-%20Embeddings/figures/w2v.png?raw=true" width="1000">

Source: https://developers.google.com/machine-learning/crash-course/embeddings/translating-to-a-lower-dimensional-space

In [None]:
w2v_model.wv.most_similar(positive=["roi", "femme"], negative=["homme"], topn=1)

In [None]:
# ca marche pour les relations masculin / féminin
w2v_model.wv.most_similar(positive=["infirmière", "homme"], negative=["femme"], topn=1)

In [None]:
w2v_model.wv.most_similar(positive=["Berlin", "France"], negative=["Paris"], topn=1)

In [None]:
w2v_model.wv.most_similar(positive=["EtatsUnis", "Paris"], negative=["France"], topn=1)

In [None]:
w2v_model.wv.most_similar(positive=["Chine", "Paris"], negative=["France"], topn=1)

In [None]:
w2v_model.wv.most_similar(positive=["Espagne", "Paris"], negative=["France"], topn=1)

In [None]:
# ca marche aussi pour les abréviations
w2v_model.wv.most_similar(positive=["NY", "EtatsUnis"], negative=["NewYork"], topn=1)

## Visualisation avec le t-SNE


La méthode [t-SNE](https://en.wikipedia.org/wiki/T-distributed_stochastic_neighbor_embedding) (t-distributed stochastic neighbor embedding) <span class="badge badge-secondary">([Maaten et al., 2008](#maaten-2008))</span> est une méthode statistique pour visualiser des données de grandes dimensions dans un espace en 2D ou 3D. La méthode s'appuie sur une réduction de dimension non linéaire. Elle cherche à rapprocher la représentation en 2D des objets proches dans l'espace original tout en éloignant les objets éloignés. Pour cela on définit une distribution de probabilité sur l'espace original en grande dimension, telle que les objets similaires sont associés à des probabilités élevées et les objets différents sont associés à des probabilités faibles. On définit une distribution de probabilité aux probabilités similaires dans l'espace de représentation. On cherche ensuite à minimiser la distance entre les deux distributions vis à vis des représentations dans l'espace en 2D ou 3D. On mesure la distance entre les deux distributions à l'aide de la [Kullback–Leibler divergence](https://en.wikipedia.org/wiki/Kullback%E2%80%93Leibler_divergence) (KL divergence). La version originale de la méthode utilise la distance euclidienne pour mesurer la distance entre deux points. La t-SNE est souvent utilisée pour explorer les données et interpréter des _clusters_. Néanmoins les clusters constitués dépendent en grande partie de la configuration utilisée et peuvent donc ne pas refléter les spécificités de la distribution originale des données.

In [None]:
from sklearn.manifold import TSNE
import matplotlib.pyplot as plt

# Inline Figures with matplotlib
%matplotlib inline
%config InlineBackend.figure_format='retina'

In [None]:
word_emb_tsne = TSNE(perplexity=30).fit_transform(word2vec_embeddings[:1000])

plt.figure(figsize=(40, 40))
axis = plt.gca()
np.set_printoptions(suppress=True)
plt.scatter(word_emb_tsne[:, 0], word_emb_tsne[:, 1], marker=".", s=1)

for idx in range(1000):
    plt.annotate(idx2w[idx],
                 xy=(word_emb_tsne[idx, 0], word_emb_tsne[idx, 1]),
                 xytext=(0, 0), textcoords='offset points')
plt.savefig("tsne.png")
plt.show()

<hr>
<div class="alert alert-info" role="alert">
    <p><b>📝 Exercice :</b>Visualisez la projection des pays et leur capitales</p>
</div>
<hr>  

In [None]:
# word_emb_tsne = TSNE(perplexity=30).fit_transform(word2vec_embeddings[:10000])

plt.figure(figsize=(10, 10))
axis = plt.gca()
np.set_printoptions(suppress=True)

pays = ['Allemagne', 'France', 'Belgique', 'Madrid', 'Londres']
capitales = ['Berlin', 'Paris', 'Bruxelles', 'Espagne', 'Angleterre']

x = [word_emb_tsne[w2idx[w], 0] for w in pays] + [word_emb_tsne[w2idx[w], 0] for w in capitales]
y = [word_emb_tsne[w2idx[w], 1] for w in pays] + [word_emb_tsne[w2idx[w], 1] for w in capitales]

plt.scatter(x, y, marker=".", s=1)

for p in pays:
    plt.annotate(p,
                 xy=(word_emb_tsne[w2idx[p], 0], word_emb_tsne[w2idx[p], 1]),
                 xytext=(0, 0), textcoords='offset points')

for c in capitales:
    plt.annotate(c,
                 xy=(word_emb_tsne[w2idx[c], 0], word_emb_tsne[w2idx[c], 1]),
                 xytext=(0, 0), textcoords='offset points')

for c, p in zip(pays, capitales):
    plt.annotate("",
                 xy=(word_emb_tsne[w2idx[c], 0], word_emb_tsne[w2idx[c], 1]),
                 xytext=(word_emb_tsne[w2idx[p], 0], word_emb_tsne[w2idx[p], 1]),
                 arrowprops=dict(arrowstyle="->"))

plt.xlim(min(x) - 5, max(x) + 5)
plt.ylim(min(y) - 5, max(y) + 5)
plt.savefig("tsne-pays-capitales.png")
plt.show()


<hr>
<div class="alert alert-info" role="alert">
    <p><b>📝 Exercice :</b>Visualisez la projection de verbes à l'infinitif ou conjugués</p>
</div>
<hr>  

In [None]:
infinitif = ['manger', 'lancer', 'jouer', 'cuisiner', 'sortir']
conjugaison = ['mange', 'lance', 'joue', 'cuisine', 'sors']

   
<hr>
<div class="alert alert-info" role="alert">
    <p><b>📝 Exercice :</b>Comment interprétez vous la représentation du mot cuisine ?</p>
</div>
<hr>  

## 📚 References

> <div id="suarez-2019">Suárez, Pedro Javier Ortiz, Benoît Sagot, and Laurent Romary. <a href=https://hal.inria.fr/hal-02148693>Asynchronous pipeline for processing huge corpora on medium to low resource infrastructures.</a> 7th Workshop on the Challenges in the Management of Large Corpora (CMLC-7). Leibniz-Institut für Deutsche Sprache, 2019.</div>

> <div id="mikolov-2013a">Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean. <a href=http://arxiv.org/abs/1301.3781>Efficient Estimation of Word Representations in Vector Space.</a> ICLR (Workshop Poster) 2013.</div>

> <div id="mikolov-2013b">Tomas Mikolov, Ilya Sutskever, Kai Chen, Gregory S. Corrado, Jeffrey Dean. <a href=https://hal.inria.fr/hal-02148693>Distributed Representations of Words and Phrases and their Compositionality.</a> NIPS 2013: 3111-3119.</div>

> <div id="maaten-2008">Van der Maaten, Laurens, and Geoffrey Hinton. <a href=https://www.jmlr.org/papers/volume9/vandermaaten08a/vandermaaten08a.pdf?fbclid=IwA>Visualizing data using t-SNE.</a> Journal of machine learning research 9.11 (2008).</div>


## Copyright 2021 Antoine SIMOULIN.

<i>Licensed under the Apache License, Version 2.0 (the "License");
you may not use this file except in compliance with the License.
You may obtain a copy of the License at

https://www.apache.org/licenses/LICENSE-2.0

Unless required by applicable law or agreed to in writing, software
distributed under the License is distributed on an "AS IS" BASIS,
WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
See the License for the specific language governing permissions and
limitations under the License.

Icons made by <a href="https://www.flaticon.com/authors/freepik" title="Freepik">Freepik</a>, <a href="https://www.flaticon.com/authors/pixel-perfect" title="Pixel perfect">Pixel perfect</a>, <a href="https://www.flaticon.com/authors/becris" title="Becris">Becris</a>, <a href="https://www.flaticon.com/authors/smashicons" title="Smashicons">Smashicons</a>, <a href="https://www.flaticon.com/authors/srip" title="srip">srip</a>, <a href="https://www.flaticon.com/authors/adib-sulthon" title="Adib">Adib</a>, <a href="https://www.flaticon.com/authors/flat-icons" title="Flat Icons">Flat Icons</a> and <a href="https://www.flaticon.com/authors/dinosoftlabs" title="Pixel perfect">DinosoftLabs</a> from <a href="https://www.flaticon.com/" title="Flaticon"> www.flaticon.com</a></i>