# Sémantique et vecteurs de mots
Parfois appelée "opinion mining", [Wikipedia] (https://en.wikipedia.org/wiki/Sentiment_analysis) définit l'analyse des sentiments comme suit
<div class="alert alert-info" style="margin: 20px">"l'utilisation du traitement du langage naturel ... pour identifier, extraire, quantifier et étudier systématiquement les états affectifs et les informations subjectives.
D'une manière générale, l'analyse des sentiments vise à déterminer l'attitude d'un locuteur, d'un auteur ou d'un autre sujet par rapport à un thème donné, ou la polarité contextuelle globale ou la réaction émotionnelle à un document, à une interaction ou à un événement."</div>


Jusqu'à présent, nous avons utilisé l'occurrence de mots spécifiques et de modèles de mots pour effectuer des classifications de tests. Dans cette section, nous allons pousser l'apprentissage automatique encore plus loin et tenter d'extraire le sens voulu de phrases complexes. Voici quelques exemples simples :
* Python is relatively easy to learn.
* That was the worst movie I've ever seen.

Cependant, les choses se compliquent avec des phrases telles que :
* I do not dislike green eggs and ham. (requires negation handling)

Pour ce faire, on utilise des algorithmes complexes d'apprentissage automatique tels que [word2vec] (https://en.wikipedia.org/wiki/Word2vec). L'idée est de créer des tableaux numériques, ou *word embeddings*, pour chaque mot d'un grand corpus. Chaque mot se voit attribuer son propre vecteur de telle sorte que les mots qui apparaissent fréquemment ensemble dans le même contexte se voient attribuer des vecteurs proches les uns des autres. Le résultat est un modèle qui peut ne pas savoir qu'un "lion" est un animal, mais qui sait que "lion" est plus proche de "chat" que de "dandelion" dans le contexte.

Il est important de noter que *construire* des modèles utiles prend beaucoup de temps - des heures ou des jours pour entraîner un grand corpus - et que pour nos besoins, il est préférable d'importer un modèle existant plutôt que de prendre le temps d'entraîner le nôtre.

___
# Installation de plus grands modèles de spaCy
Jusqu'à présent, nous avons utilisé le plus petit modèle de langue anglaise de spaCy, [**en_core_web_sm**](https://spacy.io/models/en#en_core_web_sm) (35MB), qui fournit le vocabulaire, la syntaxe et les entités, mais pas les vecteurs. Pour tirer parti des vecteurs de mots intégrés, nous aurons besoin d'une bibliothèque plus importante. Quelques options s'offrent à nous :
> [**en_core_web_md**](https://spacy.io/models/en#en_core_web_md) (116MB) Vectors: 685k keys, 20k unique vectors (300 dimensions)
> <br>or<br>
> [**en_core_web_lg**](https://spacy.io/models/en#en_core_web_lg) (812MB) Vectors: 685k keys, 685k unique vectors (300 dimensions)

Si vous avez l'intention de vous appuyer fortement sur des vecteurs de mots, envisagez d'utiliser la plus grande bibliothèque de vecteurs de spaCy, qui contient plus d'un million de vecteurs uniques :
> [**en_vectors_web_lg**](https://spacy.io/models/en#en_vectors_web_lg) (631MB) Vectors: 1.1m keys, 1.1m unique vectors (300 dimensions)

Pour nos besoins, **en_core_web_md** devrait suffire.

### A partir de la ligne de commande (vous devez l'exécuter en tant qu'administrateur ou utiliser sudo) :

> `activate spacyenv`&emsp;*si vous utilisez un environnement virtuel*   
> 
> `python -m spacy download en_core_web_md`  
> `python -m spacy download en_core_web_lg`&emsp;&emsp;&ensp;*bibliothèque facultative*  
> `python -m spacy download en_vectors_web_lg`&emsp;*bibliothèque facultative*  

> ### En cas de succès, vous devriez voir apparaître un message du type :
> <tt><br>
> **Linking successful**<br>
> C:\Anaconda3\envs\spacyenv\lib\site-packages\en_core_web_md --><br>
> C:\Anaconda3\envs\spacyenv\lib\site-packages\spacy\data\en_core_web_md<br>
> <br>
> You can now load the model via spacy.load('en_core_web_md')</tt>

<font color=green>Bien sûr, nous avons une troisième option, qui consiste à former nos propres vecteurs à partir d'un vaste corpus de documents. Malheureusement, cela prendrait un temps et une puissance de traitement prohibitifs.</font> 

# Vecteurs de mots (Word Vectors)
Les vecteurs de mots - également appelés "word embeddings" - sont des descriptions mathématiques de mots individuels, de sorte que les mots qui apparaissent fréquemment ensemble dans la langue auront des valeurs similaires. De cette manière, nous pouvons dériver mathématiquement le *contexte*. Comme mentionné ci-dessus, le vecteur de mots pour "lion" sera plus proche en valeur de "chat" que de "dandelion".

## Valeurs vectorielles
À quoi ressemble un vecteur de mots ? Étant donné que spaCy utilise 300 dimensions, les vecteurs de mots sont stockés sous forme de tableaux de 300 éléments.

Notez que nous verrions le même ensemble de valeurs avec **en_core_web_md** et **en_core_web_lg**, car les deux ont été formés en utilisant la famille d'algorithmes [word2vec](https://en.wikipedia.org/wiki/Word2vec).

In [1]:
# Import spaCy and load the language library
import spacy
nlp = spacy.load('en_core_web_md')  # make sure to use a larger model!

In [2]:
nlp(u'lion').vector

array([  1.89630002e-01,  -4.03090000e-01,   3.53500009e-01,
        -4.79070008e-01,  -4.33109999e-01,   2.38570005e-01,
         2.69620001e-01,   6.43320009e-02,   3.07669997e-01,
         1.37119997e+00,  -3.75820011e-01,  -2.27129996e-01,
        -3.56570005e-01,  -2.53549993e-01,   1.75429992e-02,
         3.39619994e-01,   7.47229978e-02,   5.12260020e-01,
        -3.97590011e-01,   5.13330009e-03,  -3.09289992e-01,
         4.89110015e-02,  -1.86100006e-01,  -4.17019993e-01,
        -8.16389978e-01,  -1.69080004e-01,  -2.62459993e-01,
        -1.59830004e-02,   1.24789998e-01,  -3.72759998e-02,
        -5.71250021e-01,  -1.62959993e-01,   1.23760000e-01,
        -5.54639995e-02,   1.32440001e-01,   2.75190007e-02,
         1.25919998e-01,  -3.27219993e-01,  -4.91649985e-01,
        -3.55589986e-01,  -3.06300014e-01,   6.11849986e-02,
        -1.69320002e-01,  -6.24050014e-02,   6.57630026e-01,
        -2.79249996e-01,  -3.04499990e-03,  -2.23999992e-02,
        -2.80149996e-01,

Ce qui est intéressant, c'est que les objets Doc et Span ont eux-mêmes des vecteurs, dérivés des moyennes des vecteurs des tokens individuels. <br>Cela permet de comparer les similitudes entre des documents entiers.

In [3]:
doc = nlp(u'The quick brown fox jumped over the lazy dogs.')

doc.vector

array([ -1.96635887e-01,  -2.32740352e-03,  -5.36607020e-02,
        -6.10564947e-02,  -4.08843048e-02,   1.45266443e-01,
        -1.08268000e-01,  -6.27789786e-03,   1.48455709e-01,
         1.90697408e+00,  -2.57692993e-01,  -1.95818534e-03,
        -1.16141019e-02,  -1.62858292e-01,  -1.62938282e-01,
         1.18210977e-02,   5.12646027e-02,   1.00078702e+00,
        -2.01447997e-02,  -2.54611671e-01,  -1.28316596e-01,
        -1.97198763e-02,  -2.89733019e-02,  -1.94347113e-01,
         1.26644447e-01,  -8.69869068e-02,  -2.20812604e-01,
        -1.58452198e-01,   9.86308008e-02,  -1.79210991e-01,
        -1.55290633e-01,   1.95643142e-01,   2.66436003e-02,
        -1.64984968e-02,   1.18824698e-01,  -1.17830629e-03,
         4.99809943e-02,  -4.23077159e-02,  -3.86111848e-02,
        -7.47400150e-03,   1.23448208e-01,   9.60620027e-03,
        -3.32463719e-02,  -1.77848607e-01,   1.19390726e-01,
         1.87545009e-02,  -1.84173390e-01,   6.91781715e-02,
         1.28520593e-01,

## Identifier les vecteurs similaires
La meilleure façon d'exposer les relations vectorielles est d'utiliser la méthode `.similarity()` de Doc tokens.

In [4]:
# Create a three-token Doc object:
tokens = nlp(u'lion cat pet')

# Iterate through token combinations:
for token1 in tokens:
    for token2 in tokens:
        print(token1.text, token2.text, token1.similarity(token2))

lion lion 1.0
lion cat 0.526544
lion pet 0.399238
cat lion 0.526544
cat cat 1.0
cat pet 0.750546
pet lion 0.399238
pet cat 0.750546
pet pet 1.0


<font color=green>Notez que l'ordre n'a pas d'importance. `token1.similarity(token2)` a la même valeur que `token2.similarity(token1)`.</font>
#### Pour visualiser ce tableau :

In [5]:
# For brevity, assign each token a name
a,b,c = tokens

# Display as a Markdown table (this only works in Jupyter!)
from IPython.display import Markdown, display
display(Markdown(f'<table><tr><th></th><th>{a.text}</th><th>{b.text}</th><th>{c.text}</th></tr>\
<tr><td>**{a.text}**</td><td>{a.similarity(a):{.4}}</td><td>{b.similarity(a):{.4}}</td><td>{c.similarity(a):{.4}}</td></tr>\
<tr><td>**{b.text}**</td><td>{a.similarity(b):{.4}}</td><td>{b.similarity(b):{.4}}</td><td>{c.similarity(b):{.4}}</td></tr>\
<tr><td>**{c.text}**</td><td>{a.similarity(c):{.4}}</td><td>{b.similarity(c):{.4}}</td><td>{c.similarity(c):{.4}}</td></tr>'))

<table><tr><th></th><th>lion</th><th>cat</th><th>pet</th></tr><tr><td>**lion**</td><td>1.0</td><td>0.5265</td><td>0.3992</td></tr><tr><td>**cat**</td><td>0.5265</td><td>1.0</td><td>0.7505</td></tr><tr><td>**pet**</td><td>0.3992</td><td>0.7505</td><td>1.0</td></tr>

Comme prévu, nous observons la plus forte similarité entre "cat" et "pet", la plus faible entre "lion" et "pet", et une certaine similarité entre "lion" et "cat". Un mot aura une similitude parfaite (1,0) avec lui-même.

Si vous êtes curieux, la similitude entre "lion" et "dandelion" est très faible :

In [6]:
nlp(u'lion').similarity(nlp(u'dandelion'))

0.18064451829601527

### Les contraires ne sont pas nécessairement différents
Les mots qui ont une signification opposée, mais qui apparaissent souvent dans le même *contexte* peuvent avoir des vecteurs similaires.

In [7]:
# Create a three-token Doc object:
tokens = nlp(u'like love hate')

# Iterate through token combinations:
for token1 in tokens:
    for token2 in tokens:
        print(token1.text, token2.text, token1.similarity(token2))

like like 1.0
like love 0.657904
like hate 0.657465
love like 0.657904
love love 1.0
love hate 0.63931
hate like 0.657465
hate love 0.63931
hate hate 1.0


## Normes vectorielles
Il est parfois utile de regrouper 300 dimensions dans une [norme euclidienne (L2)](https://en.wikipedia.org/wiki/Norm_%28mathematics%29#Euclidean_norm), calculée comme la racine carrée de la somme des vecteurs carrés. Ceci est accessible par l'attribut `.vector_norm`. D'autres attributs utiles sont `.has_vector` et `.is_oov` ou *out of vocabulary*.

Par exemple, notre bibliothèque de vecteurs de 685k peut ne pas contenir le mot "[nargle](https://en.wikibooks.org/wiki/Muggles%27_Guide_to_Harry_Potter/Magic/Nargle)". Pour le vérifier :

In [8]:
tokens = nlp(u'dog cat nargle')

for token in tokens:
    print(token.text, token.has_vector, token.vector_norm, token.is_oov)

dog True 7.03367 False
cat True 6.68082 False
nargle False 0.0 True


En effet, nous voyons que "nargle" n'a pas de vecteur, donc la valeur vector_norm est zéro, et il s'identifie comme *out of vocabulary*.

## Vector arithmetic
Croyez-le ou non, nous pouvons calculer de nouveaux vecteurs en ajoutant et en soustrayant des vecteurs apparentés. Un exemple célèbre suggère
<pre>"king" - "man" + "woman" = "queen"</pre>
Essayons-le !

In [9]:
from scipy import spatial

cosine_similarity = lambda x, y: 1 - spatial.distance.cosine(x, y)

king = nlp.vocab['king'].vector
man = nlp.vocab['man'].vector
woman = nlp.vocab['woman'].vector

# Now we find the closest vector in the vocabulary to the result of "man" - "woman" + "queen"
new_vector = king - man + woman
computed_similarities = []

for word in nlp.vocab:
    # Ignore words without vectors and mixed-case words:
    if word.has_vector:
        if word.is_lower:
            if word.is_alpha:
                similarity = cosine_similarity(new_vector, word.vector)
                computed_similarities.append((word, similarity))

computed_similarities = sorted(computed_similarities, key=lambda item: -item[1])

print([w[0].text for w in computed_similarities[:10]])

['king', 'queen', 'commoner', 'highness', 'prince', 'sultan', 'maharajas', 'princes', 'kumbia', 'kings']


Dans ce cas, "king" était donc plus proche que "queen" de notre vecteur calculé, bien que "queen" soit apparu !

## A suivre : L'analyse des sentiments