# Exercice 1 - *Embeddings* *de* *mots*

On va utiliser la bibliothèque `gensim`. Les instructions d’installation
sont disponibles ici https://radimrehurek.com/gensim/.

On télécharge immédiatement un modèle pré-entraîné:

In [1]:
import gensim.downloader
import numpy as np
model = gensim.downloader.load('word2vec-google-news-300')

Il s’agit un modèle de mot, de type *word2vec*: à chaque mot du
vocabulaire est associé un point dans un espace vectoriel:

In [2]:
model["queen"]

array([ 0.00524902, -0.14355469, -0.06933594,  0.12353516,  0.13183594,
       -0.08886719, -0.07128906, -0.21679688, -0.19726562,  0.05566406,
       -0.07568359, -0.38085938,  0.10400391, -0.00081635,  0.1328125 ,
        0.11279297,  0.07275391, -0.046875  ,  0.06591797,  0.09423828,
        0.19042969,  0.13671875, -0.23632812, -0.11865234,  0.06542969,
       -0.05322266, -0.30859375,  0.09179688,  0.18847656, -0.16699219,
       -0.15625   , -0.13085938, -0.08251953,  0.21289062, -0.35546875,
       -0.13183594,  0.09619141,  0.26367188, -0.09472656,  0.18359375,
        0.10693359, -0.41601562,  0.26953125, -0.02770996,  0.17578125,
       -0.11279297, -0.00411987,  0.14550781,  0.15625   ,  0.26757812,
       -0.01794434,  0.09863281,  0.05297852, -0.03125   , -0.16308594,
       -0.05810547, -0.34375   , -0.17285156,  0.11425781, -0.09033203,
        0.13476562,  0.27929688, -0.04980469,  0.12988281,  0.17578125,
       -0.22167969, -0.01190186,  0.140625  , -0.18164062,  0.11

In [3]:
print(model['queen'].shape)

(300,)


## Question 1

Observez la représentation ainsi obtenue. Quelle est la dimension du
vecteur représentant un mot ?

## Question 2

On peut comparer deux représentations avec:

In [4]:
print(model.similarity("queen", "queens"))

0.7399443


Cette similirité utilise le cosinus entre les vecteurs.

Comparez les similarités entre quelques mots. Par exemple

-   queen
-   king
-   woman
-   man

## Question 3

On peut avoir un aperçu du vocabulaire utilisé dans le modèle de la
façon suivante:

In [5]:
model.key_to_index

{'</s>': 0,
 'in': 1,
 'for': 2,
 'that': 3,
 'is': 4,
 'on': 5,
 '##': 6,
 'The': 7,
 'with': 8,
 'said': 9,
 'was': 10,
 'the': 11,
 'at': 12,
 'not': 13,
 'as': 14,
 'it': 15,
 'be': 16,
 'from': 17,
 'by': 18,
 'are': 19,
 'I': 20,
 'have': 21,
 'he': 22,
 'will': 23,
 'has': 24,
 '####': 25,
 'his': 26,
 'an': 27,
 'this': 28,
 'or': 29,
 'their': 30,
 'who': 31,
 'they': 32,
 'but': 33,
 '$': 34,
 'had': 35,
 'year': 36,
 'were': 37,
 'we': 38,
 'more': 39,
 '###': 40,
 'up': 41,
 'been': 42,
 'you': 43,
 'its': 44,
 'one': 45,
 'about': 46,
 'would': 47,
 'which': 48,
 'out': 49,
 'can': 50,
 'It': 51,
 'all': 52,
 'also': 53,
 'two': 54,
 'after': 55,
 'first': 56,
 'He': 57,
 'do': 58,
 'time': 59,
 'than': 60,
 'when': 61,
 'We': 62,
 'over': 63,
 'last': 64,
 'new': 65,
 'other': 66,
 'her': 67,
 'people': 68,
 'into': 69,
 'In': 70,
 'our': 71,
 'there': 72,
 'A': 73,
 'she': 74,
 'could': 75,
 'just': 76,
 'years': 77,
 'some': 78,
 'U.S.': 79,
 'three': 80,
 'million': 81

Combien y a-t-il de mots dans le vocabulaire ?

## Question 4

Avec `most_similar` on peut rechercher les mots les plus similaires à un
autre dans tout le vocabulaire.

Commentez la sortie de

In [6]:
model.most_similar('king')

[('kings', 0.7138045430183411),
 ('queen', 0.6510956287384033),
 ('monarch', 0.6413194537162781),
 ('crown_prince', 0.6204219460487366),
 ('prince', 0.6159993410110474),
 ('sultan', 0.5864822864532471),
 ('ruler', 0.5797566771507263),
 ('princes', 0.5646552443504333),
 ('Prince_Paras', 0.5432944297790527),
 ('throne', 0.5422104597091675)]

## Question 5

Puisque nous utilisons un espace vectoriel, on peut faire de
l’arithmétique entre les représentations.

À quoi pourrait correspondre l’expression “king” - “man” + “queen” ?

## 5 Bis: check how the similarity is calculated

In [17]:
x = np.array(model['queen'])
y = np.array(model['king'])
print(np.dot(x, y)/np.sqrt(np.dot(x, x)*np.dot(y, y)))
print(model.similarity('queen', 'king'))
print(model.similarity('king', 'queen'))

0.6510957
0.6510957
0.6510957



## Question 6

Pour des raisons d’implémentation, on utilisera plutôt le code suivant:

In [8]:
model.most_similar(positive=["king", "woman"], negative=["man"])

[('queen', 0.7118192911148071),
 ('monarch', 0.6189674735069275),
 ('princess', 0.5902431011199951),
 ('crown_prince', 0.549946129322052),
 ('prince', 0.5377321243286133),
 ('kings', 0.5236843824386597),
 ('Queen_Consort', 0.5235944390296936),
 ('queens', 0.5181134343147278),
 ('sultan', 0.5098593235015869),
 ('monarchy', 0.5087411403656006)]

## Question 7

Dans les deux phrases suivantes, quelle sera la représentation du mot
*bank*:

-   “We went to the river bank.”
-   “I will go to the bank to make a deposit.”

## Question 8

Comment représenter un mot inconnu ? (*out of vocabulary*)

## Question 9

Réalisez une visualation t-SNE de l’embedding.

![](https://miro.medium.com/v2/resize:fit:4800/0*quUwP6EqEhFmNAqX)

## Question 10

Une façon possible de représenter une phrase est de moyenner tous les
mots qu’elle contient puis de normaliser le vecteur obtenu.

Écrivez une fonction calculant la représentation d’une phrase.

## Question 11

Écrivez une fonction calculant la similarité entre deux phrases.

## Question 12

À partir du dataset suivant, affichez la matrice de similarité de ces
phrases.

In [9]:
data = [
    'the road is straight',
    'the black cat plays with a ball',
    'a big dog with a ball',
    'dog and cat are together',
    'traffic jam on the 6th road',
    'white bird on a big tree',
    'a big truck',
    'two cars crashed',
    'two deers in a field',
    'I like ridding my bike',
    'a lion in the savane',
    'a motorcycle rides on the road',
    'a mouse bitten by a cat',
    'two pigs in the mood',
    'take a plane is sometimes slower than taking train',
    'take the highway'
]

# Exercice 2 - *Tâche* *de* *classification*

On s’intéresse maintenant à une tâche de classification binaire. On
ajoute donc un label aux phrases précedentes.

In [10]:
labels = [+1, -1,  -1, -1, +1, -1, +1, +1, -1, +1, -1, +1, -1, -1, +1, +1]

## Question 13

À quoi correspond cette tâche ?

## Question 14

On pourra utiliser les fragments de code suivants pour associer un mot à
sa représentation dans une forme utilisable par `torch`.

In [11]:
import torch
from torch import nn

weights = torch.FloatTensor(model.vectors)
emb = nn.Embedding.from_pretrained(torch.FloatTensor(weights))

In [12]:
print(weights)
print(model.vectors)

tensor([[ 1.1292e-03, -8.9645e-04,  3.1853e-04,  ..., -1.5640e-03,
         -1.2302e-04, -8.6308e-05],
        [ 7.0312e-02,  8.6914e-02,  8.7891e-02,  ..., -4.7607e-02,
          1.4465e-02, -6.2500e-02],
        [-1.1780e-02, -4.7363e-02,  4.4678e-02,  ...,  7.1289e-02,
         -3.4912e-02,  2.4170e-02],
        ...,
        [-1.9653e-02, -9.0820e-02, -1.9409e-02,  ..., -1.6357e-02,
         -1.3428e-02,  4.6631e-02],
        [ 3.2715e-02, -3.2227e-02,  3.6133e-02,  ..., -8.8501e-03,
          2.6978e-02,  1.9043e-02],
        [ 4.5166e-02, -4.5166e-02, -3.9368e-03,  ...,  7.9590e-02,
          7.2266e-02,  1.3000e-02]])
[[ 1.1291504e-03 -8.9645386e-04  3.1852722e-04 ... -1.5640259e-03
  -1.2302399e-04 -8.6307526e-05]
 [ 7.0312500e-02  8.6914062e-02  8.7890625e-02 ... -4.7607422e-02
   1.4465332e-02 -6.2500000e-02]
 [-1.1779785e-02 -4.7363281e-02  4.4677734e-02 ...  7.1289062e-02
  -3.4912109e-02  2.4169922e-02]
 ...
 [-1.9653320e-02 -9.0820312e-02 -1.9409180e-02 ... -1.6357422e-02


Comparez les représentations obtenues directement avec `gensim` et celle
calculée avec `torch`.

In [13]:
model.key_to_index['king']

6147

In [14]:
repr_torch = emb(torch.tensor(model.key_to_index['king']))

## Question 15

En utilisant la représentation des phrases construites précédemment,
construisez un modèle de classification avec `torch`.

Le modèle recevra en entrée les phrases et calculera leur
représentation. L’architecture sera une simple une couche dense avec un
tanh. C’est une bonne idée d’ajouter une régularisation L2 et un
dropout.

Padding et padding_idx