# NLP in Python

Dans cet exercice, nous allons utiliser différentes méthodes de traitement automatique du langage naturel dites "distributionelle". Ces méthodes s'appuient sur l'analyse de grands corpus (ensemble de documents) dans l'objectif d'extraire de la connaissance du texte selon la distribution de chaque mots par rapport aux autres.

La tâche choisie (Semantic Textual Similarity) est une tâche de regression linéaire, nous allons créé un modèle capable de prédire la similarité sémantique de 2 phrases. Chaque paire du jeu de données a été annotée par des humains dans l'interval `[0, 5]` selon la similarité sémantique des 2 phrases composant la paire.

*Références :*

 * [La page wiki de la tâche STS](http://ixa2.si.ehu.es/stswiki/index.php/Main_Page)
 * [L'article expliquant en détail la tâche et présentant les systèmes vainqueurs](https://www.aclweb.org/anthology/S16-1081)

## Chargement des données

In [1]:
import glob # package permettant de trouver des chemins selon des patterns
import random

In [2]:
# Nous commençons par trouver les chemins vers les fichiers :
trainFilesPath = glob.glob("./data/201[0-5]*.tsv")
testFilesPath = glob.glob("./data/2016*.tsv")

In [3]:
# On définit une fonction qui lit les fichiers ligne par ligne et renvoie les données :
def parseFiles(filesPath):
    data = []
    for path in filesPath:
        for line in open(path):
            if len(line) > 1:
                try:
                    line = line.split("\t")
                    data.append((float(line[0]), line[1].strip(), line[2].strip()))
                except: pass
    return data

In [4]:
# On charge les données :
trainData = parseFiles(trainFilesPath)
random.shuffle(trainData)
testData = parseFiles(trainFilesPath)
random.shuffle(testData)

In [5]:
# Puis nous créons le train set et les test set dans 4 listes :
trainPairs = []
trainLabels = []
for current in trainData:
    trainLabels.append(current[0])
    trainPairs.append((current[1], current[2]))
testPairs = []
testLabels = []
for current in testData:
    testLabels.append(current[0])
    testPairs.append((current[1], current[2]))

**Exercice 1** : Commencez par afficher 4 paires de phrases très similaires (> 4.5) et 4 très différentes (< 0.5) uniquement dans le train set

In [6]:
# Correction :
simPrintCount = 0
disPrintCount = 0
for i in range(len(trainPairs)):
    pair = trainPairs[i]
    label = trainLabels[i]
    if simPrintCount <= 4 and label > 4.5:
        print(str(label) + "\n" + pair[0] + "\n" + pair[1] + "\n")
        simPrintCount += 1
    elif disPrintCount <= 4 and label < 0.5:
        print(str(label) + "\n" + pair[0] + "\n" + pair[1] + "\n")
        disPrintCount += 1

4.75
Unrestricted freedom to use something.
unrestricted freedom to use.

0.4
3 dead, 4 missing in central China construction accident
One dead, 8 missing in Vietnam boat accident

4.6
Jesse Jackson Jr. and wife to plead guilty to fraud
Jesse Jackson Jr., Wife to Plead Guilty to Fraud

5.0
terminal one is connected to the negative battery terminal
terminal 1 is connected to the negative battery terminal

0.2
Two men standing in grass staring at a car.
A woman in a pink top posing with beer.

5.0
Two dogs play in the grass.
Two dogs are playing in the grass.

5.0
Run at a moderately swift pace, as for exercise.
run at a moderately swift pace.

0.4
A society fraying at the edges
Old TV alignments crack at the edges

0.2
i agree with there goes trouble.
i am done with this thread.

0.2
Obama nominates new transportation secretary
Obama To Meet Embattled Veterans Secretary



## Preprocessing

**Exercice 2** : Convertissez en *minuscule* et *tokenizez* chaque phrase du jeu de donnée train et test. La conversion en minuscule permet de réduire la taille du vocabulaire (le nombre de mots différents dans le corpus). La tokenization transforme un texte en liste de mots. Indice : l'utilisation de la librairie [`nltk`](https://www.nltk.org/index.html) permet d'effectuer une tokenization plus complète en, notamment, séparant `"don't"` et 2 mots `"do"` et `"n't"`.

In [7]:
# Correction :
import nltk
for dataset in [trainPairs, testPairs]:
    for i in range(len(dataset)):
        left = nltk.word_tokenize(dataset[i][0].lower())
        right = nltk.word_tokenize(dataset[i][1].lower())
        dataset[i] = (left, right)

In [8]:
# On affiche la première paire du train et la première paire du test :
print(trainPairs[0])
print(testPairs[0])

(['as', 'part', 'of', 'a', 'restructuring', 'peregrine', 'sold', 'its', 'remedy', 'help', 'desk', 'software', 'unit', 'last', 'year', 'to', 'bmc', 'software', 'inc', '.'], ['peregrine', 'sold', 'its', 'remedy', 'business', 'unit', 'to', 'bmc', 'software', 'in', 'november', 'for', '$', '355', 'million', '.'])
(['nm', 'county', 'prepares', 'for', 'same-sex', 'marriages', 'hearing'], ['some', 'county', 'officials', 'pave', 'the', 'way', 'for', 'same-sex', 'marriage'])


**Exercice 3 (facultatif) :** Faites une [lemmatization](https://fr.wikipedia.org/wiki/Lemmatisation) ou un stemming de chaque mot du jeu de données. Le stemming et la lemmatization ont pour objectif de rassembler les mots proches en une forme commune. Le principe de stemming est d'enlever le début ou la fin d'un mot en utilisant une liste de préfixes et suffixes. Par exemple : `"studies"` deviendra `"studi"` (suffixe `"es"`) et `"studying"` deviendra `"study"` (suffixe `"ing"`). La lemmatization prend en compte la morphologie et les informations grammaticales du mot afin de le convertir en une forme commune. Par exemple `"studies"` deviendra `"study"` et `"went"` deviendra `"go"`.

In [9]:
# Correction :
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
for dataset in [trainPairs, testPairs]:
    for pairIndex in range(len(dataset)):
        pair = dataset[pairIndex]
        for sentenceIndex in [0, 1]:
            sentence = pair[sentenceIndex]
            for wordIndex in range(len(sentence)):
                sentence[wordIndex] = lemmatizer.lemmatize(sentence[wordIndex])

In [10]:
# On affiche la première paire du train et la première paire du test :
print(trainPairs[1])
print(testPairs[0])

(['unrestricted', 'freedom', 'to', 'use', 'something', '.'], ['unrestricted', 'freedom', 'to', 'use', '.'])
(['nm', 'county', 'prepares', 'for', 'same-sex', 'marriage', 'hearing'], ['some', 'county', 'official', 'pave', 'the', 'way', 'for', 'same-sex', 'marriage'])


## Création de *baselines*

L'objectif des *baselines* est d'avoir une base comparative (en terme de score) pour notre modèle final à des méthodes naïves, classiques ou aléatoires.

**Exercice 4 (facultatif) :** Le premier système que nous allons implémenter va prédire la similarité des phrases en renvoyant, pour une paire données de phrase, un nombre aléatoire entre 0 et 5. Implementez la fonction `randomBaseline(tokens1, tokens2)`.

In [11]:
# Correction :
def randomBaseline(tokens1, tokens2):
    return round(random.uniform(0, 5), 2)

In [12]:
# On test sur quelques paires :
for i in range(3):
    pair = trainPairs[i]
    print(str(randomBaseline(*pair)) + " -> " + str(pair))

3.92 -> (['a', 'part', 'of', 'a', 'restructuring', 'peregrine', 'sold', 'it', 'remedy', 'help', 'desk', 'software', 'unit', 'last', 'year', 'to', 'bmc', 'software', 'inc', '.'], ['peregrine', 'sold', 'it', 'remedy', 'business', 'unit', 'to', 'bmc', 'software', 'in', 'november', 'for', '$', '355', 'million', '.'])
0.85 -> (['unrestricted', 'freedom', 'to', 'use', 'something', '.'], ['unrestricted', 'freedom', 'to', 'use', '.'])
0.88 -> (['this', 'gross', 'error', 'is', 'leading', 'russia', 'to', 'political', 'ruin', '.'], ['and', 'this', 'mistake', 'mistake', 'is', 'in', 'the', 'process', 'of', 'it', 'political', '.'])


**Exercice 5 :** La seconde baseline consiste à renvoyer un ratio (ramenez entre 0 et 5) du nombre de mots en commun sur la longueur de la paire la plus courte. Implémentez la fonction `commonWordsBaseline(tokens1, tokens2)`. Testez sur la première paire du train.

In [13]:
# Correction :
def commonWordsBaseline(tokens1, tokens2):
    commonCount = 0
    for word in tokens1:
        if word in tokens2:
            commonCount += 1
    return commonCount / min(len(tokens1), len(tokens2)) * 5

In [14]:
# On test sur quelques paires :
for i in range(3):
    pair = trainPairs[i]
    print(str(commonWordsBaseline(*pair)) + " -> " + str(pair))

3.125 -> (['a', 'part', 'of', 'a', 'restructuring', 'peregrine', 'sold', 'it', 'remedy', 'help', 'desk', 'software', 'unit', 'last', 'year', 'to', 'bmc', 'software', 'inc', '.'], ['peregrine', 'sold', 'it', 'remedy', 'business', 'unit', 'to', 'bmc', 'software', 'in', 'november', 'for', '$', '355', 'million', '.'])
5.0 -> (['unrestricted', 'freedom', 'to', 'use', 'something', '.'], ['unrestricted', 'freedom', 'to', 'use', '.'])
2.0 -> (['this', 'gross', 'error', 'is', 'leading', 'russia', 'to', 'political', 'ruin', '.'], ['and', 'this', 'mistake', 'mistake', 'is', 'in', 'the', 'process', 'of', 'it', 'political', '.'])


## Evaluation des systèmes

Pour l'évaluation d'un système, nous allons comparer le vecteur *output* (produit par le système sur les paires du jeu de données test) avec le *gold standard* (les annotations humaines). Pour cela nous allons utiliser la corrélation de Pearson entre les 2 vecteurs.

**Exercice 6 :** Générez les listes `randomOutput` et `commonWordsOutput` qui convertie `testPairs` en scores de similarité.

In [15]:
# Correction :
randomOutput = []
commonWordsOutput = []
for pair in testPairs:
    randomOutput.append(randomBaseline(*pair))
    commonWordsOutput.append(commonWordsBaseline(*pair))

In [16]:
# Importation de la fonction de corrélation de Pearson :
from scipy.stats.stats import pearsonr

In [17]:
# On évalue le randomBaseline :
print("randomBaseline score: " + str(pearsonr(randomOutput, testLabels)[0]))

randomBaseline score: 0.003891555230542661


In [18]:
# On évalue le randomBaseline :
print("commonWordsBaseline score: " + str(pearsonr(commonWordsOutput, testLabels)[0]))

commonWordsBaseline score: 0.5827417638140329


## Création de vecteurs de mots

La machine n'a, contrairement aux humains, aucune connaissance du langage, elle n'est pas capable de trouver de proximité sémantique entre des mots comme "professeur" et "enseignant". Une première méthode est de créer manuellement un dictionnaire de synonymes. Mais la tâche est complexe et les méthode distributionelles permettent d'exploiter de grands corpus pour automatiquement inferer des similarités entre mots.

La sémantique distributionelle se fonde sur l'hypothèse de Harris énnoncé en 1954 : les mots ayant statistiquemet le même contexte seront plus probablement similaire sémantiquement. Concretement, cela signifie que les mots ayant les même voisins dans les phrases sont souvent sémantiquement proches. Par exemple les mots "voiture" et "moto" sont souvent voisins du verbe "rouler", on estimera alors que "moto" et "voiture" sont sémantiquement proches.

Afin de rassembler les mots d'un corpus, il est necessaire de pouvoirLes mots 

Pourquoi la notion de similarité est importante ?

*Références :*

 * 

In [19]:
# Nous récoltons toutes les phrases du corpus :
corpus = []
for dataset in [trainPairs, testPairs]:
    for pair in dataset:
        corpus.append(pair[0])
        corpus.append(pair[1])

**Exercice X :** A l'aide de la [documentation de `Word2Vec`](https://radimrehurek.com/gensim/models/word2vec.html), entrainez un modèle `Word2Vec` sur la variable `corpus` (liste de phrases). Une fois entrainé, ce modèle est capable de générer un vecteur pour chaque mot du vocabulaire du corpus. La classe `Word2Vec` fournie également des méthodes utiles pour analyser des similarités de mots etc. Le constructeur de la classe prend en premier paramètre une liste de phrases (donc une liste de liste de mots). Vous utiliserez les paramètres `size=50, window=3, min_count=1, iter=10`, `window` correspond à une fenetre de contexte de 3 mots à gauche et à droite pour chaque mot cible, `size` permet de spécifier la dimension ds vecteurs.

In [26]:
# Correction :
from gensim.models import Word2Vec
model = Word2Vec(corpus, size=100, window=5, min_count=1, iter=10)

## Evaluation qualitative du modèle

**Exercice X :** Grâce à la documentation, trouvez comment afficher les mots les plus similaires à ces mots : `["car", "play", "house", "apparently", "coin"]`.

In [34]:
# Correction :
for word in ["car", "play", "house", "apparently", "coin"]:
    print("Most similar of " + word + ":\n" + str([x[0] for x in model.wv.similar_by_word(word)]))

Most similar of car:
['jet', 'bus', 'wheel', 'truck', 'jacket', 'bicycle', 'horse', 'shirt', 'plane', 'camouflaged']
Most similar of play:
['dance', 'pose', 'compete', 'live', 'get', 'choose', 'find', 'look', 'manage', 'sink']
Most similar of house:
['temple', 'sanctuary', 'sepulchre', 'chamber', 'gate', 'room', 'palace', 'hall', 'garden', 'door']
Most similar of apparently:
['obvious', 'evidently', 'totally', 'curiously', 'acknowledged', 'denying', 'encouraging', 'imminent', 'unmoved', 'prompted']
Most similar of coin:
['bullion', 'jewel', 'gold', 'silver', 'rgld', 'pegasus', 'ecu', 'lvnvf', 'hemlo', 'platinum']


## Amélioration du modèle

Nous pouvons remarquer que le modèle représente mal les mots `"apparently"` et `"coin"`. Le problème de ce modèle est qu'il a été entrainé sur un jeu de données contenant uniquement ~50000 phrases. Or, pour mieux représenter chaque mots en vecteur, `Word2Vec` a besoin d'observer un grand nombre d'occurences pour chaque mots afin d'avoir le plus de contexte possible. Nous allons donc ajouter un corpus externe à notre ensemble de phrases pour améliorer les représentation vectoielles.

In [22]:
# On charge toutes les phrases du corpus gutenberg et reuters :
from nltk.corpus import gutenberg, reuters
nltk.download('reuters')
nltkSentences = []
for nltkCorpus in [gutenberg, reuters]:
    for sentence in nltkCorpus.sents():
        s = []
        for w in sentence:
            w = w.lower()
            try:
                w = lemmatizer.lemmatize(w)
            except: pass
            s.append(w)
        nltkSentences.append(s)

[nltk_data] Downloading package reuters to /home/hayj/nltk_data...
[nltk_data]   Package reuters is already up-to-date!


In [23]:
# On archive l'ancien modèle et ajoute les phrases de gutenberg au corpus :
oldModel = model
print("corpus length: " + str(len(corpus)))
corpus += nltkSentences
print("corpus new length: " + str(len(corpus)))

corpus length: 48368
corpus new length: 201636


**Exercice X :** Ré-executez l'entrainement de `Word2Vec` sur `corpus` afin de créer un nouveau modèle. La représentation de `"apparently"` et `"coin"` vous parait elle meilleure ? Vous pouvez utiliser `oldModel` pour comparer.

## Création d'un système basé sur notre modèle `Word2Vec`

**Exercice X :** A l'aide de la [documentation de `Word2Vec`](https://radimrehurek.com/gensim/models/word2vec.html), implémentez la fonction `vecSystem(tokens1, tokens2, model)` qui renvoie la similarité (généralament similarité cosinus) de 2 phases. Génerez le vecteur `word2vecSystemOutput` sur `testPairs`. Facultatif : comparez le score de `model` et `oldModel` (entrainé sur uniquement les paires de phrases STS).

In [54]:
# Correction :
def vecSystem(tokens1, tokens2, model):
    return model.wv.n_similarity(tokens1, tokens2) * 5.0
word2vecSystemOutput = []
for pair in testPairs:
    word2vecSystemOutput.append(word2vecSystem(*pair, model))

In [55]:
# On évalue vecSystem+model :
print("vecSystem+model score: " + str(pearsonr(word2vecSystemOutput, testLabels)[0]))

word2vecSystem score: 0.34612107936552633


## Amélioration du modèle avec `Doc2Vec`

`Word2Vec` est très utilisé pour de la similarité de mots et pour le [transfert learning](https://en.wikipedia.org/wiki/Transfer_learning) mais n'est pas adapté à la similarité de phrases. En effet, une phrase est la somme ou la moyenne de ses mots. Afin de représenter un document ou une phrase, l'outil le plus adapté est [`Doc2Vec`](https://radimrehurek.com/gensim/models/doc2vec.html). Une fois entrainé, `Doc2Vec` peut générer des vecteurs pour n'importe quel ensemble de mots (présent dans le corpus ou non).

*Références :*

 * 

In [42]:
# Nous entrainons un modèle `Doc2Vec` sur notre corpus :
from gensim.models.doc2vec import Doc2Vec, TaggedDocument
d2vCorpus = []
i = 0
for sentence in corpus:
    d2vCorpus.append(TaggedDocument(sentence, [i]))
    i += 1
d2vModel = Doc2Vec(d2vCorpus, vector_size=100, window=5, min_count=1, epochs=10, negative=15)

**Exercice X :** En utilisant la fonction deja implémentée `vecSystem` et le nouveau model `d2vModel`, génerez le vecteur `doc2vecSystemOutput` sur `testPairs`.

In [51]:
doc2vecSystemOutput = []
for pair in testPairs:
    doc2vecSystemOutput.append(vecSystem(*pair, d2vModel))

In [52]:
# On évalue vecSystem avec d2vModel :
print("vecSystem+d2vModel score: " + str(pearsonr(doc2vecSystemOutput, testLabels)[0]))

vecSystem+d2vModel score: 0.3461210848199269


In [91]:
d2vModel = Doc2Vec.load("/home/hayj/tmp/d2v/model1/model1.d2v")

In [92]:
from sklearn.linear_model import Ridge
import numpy as np
clf = Ridge()


In [106]:
'$' in vocabulary

True

In [102]:
vocabulary = set()
for sentence in corpus:
    for word in sentence:
        vocabulary.add(word)

In [114]:
X = []
for pair in trainPairs:
    tokens1 = pair[0]
    tokens1 = [x for x in tokens1 if x in d2vModel.wv.vocab]
    tokens2 = pair[1]
    tokens2 = [x for x in tokens2 if x in d2vModel.wv.vocab]
    X.append([vecSystem(tokens1, tokens2, d2vModel), commonWordsBaseline(*pair)]) # , commonWordsBaseline(*pair)

In [115]:
clf.fit(np.array(X), np.array(trainLabels))

Ridge(alpha=1.0, copy_X=True, fit_intercept=True, max_iter=None,
   normalize=False, random_state=None, solver='auto', tol=0.001)

In [116]:
testFeatures = []
for pair in testPairs:
    tokens1 = pair[0]
    tokens1 = [x for x in tokens1 if x in d2vModel.wv.vocab]
    tokens2 = pair[1]
    tokens2 = [x for x in tokens2 if x in d2vModel.wv.vocab]
    features = [vecSystem(tokens1, tokens2, d2vModel), commonWordsBaseline(*pair)] # , commonWordsBaseline(*pair)
    testFeatures.append(features)
predictions = []
predictions = clf.predict(np.array(testFeatures))

In [117]:
predictions

array([1.60751254, 1.98812251, 1.30188731, ..., 3.67023716, 3.30160898,
       4.03210398])

In [118]:
# On évalue vecSystem avec d2vModel :
print("vecSystem+d2vModel score: " + str(pearsonr(predictions, testLabels)[0]))

vecSystem+d2vModel score: 0.6108947188380894


In [119]:
vectors = {}
with open("/home/hayj/Downloads/glove.6B/glove.6B.100d.txt") as f:
     for line in f:
        tokens = line.split()
        word = tokens[0]
        values = tokens[1:]
        assert len(word) > 0
        assert len(values) > 3
        vector = np.asarray(values, dtype='float32')
        vectors[word] = vector


In [120]:
vectors["the"]

array([-0.038194, -0.24487 ,  0.72812 , -0.39961 ,  0.083172,  0.043953,
       -0.39141 ,  0.3344  , -0.57545 ,  0.087459,  0.28787 , -0.06731 ,
        0.30906 , -0.26384 , -0.13231 , -0.20757 ,  0.33395 , -0.33848 ,
       -0.31743 , -0.48336 ,  0.1464  , -0.37304 ,  0.34577 ,  0.052041,
        0.44946 , -0.46971 ,  0.02628 , -0.54155 , -0.15518 , -0.14107 ,
       -0.039722,  0.28277 ,  0.14393 ,  0.23464 , -0.31021 ,  0.086173,
        0.20397 ,  0.52624 ,  0.17164 , -0.082378, -0.71787 , -0.41531 ,
        0.20335 , -0.12763 ,  0.41367 ,  0.55187 ,  0.57908 , -0.33477 ,
       -0.36559 , -0.54857 , -0.062892,  0.26584 ,  0.30205 ,  0.99775 ,
       -0.80481 , -3.0243  ,  0.01254 , -0.36942 ,  2.2167  ,  0.72201 ,
       -0.24978 ,  0.92136 ,  0.034514,  0.46745 ,  1.1079  , -0.19358 ,
       -0.074575,  0.23353 , -0.052062, -0.22044 ,  0.057162, -0.15806 ,
       -0.30798 , -0.41625 ,  0.37972 ,  0.15006 , -0.53212 , -0.2055  ,
       -1.2526  ,  0.071624,  0.70565 ,  0.49744 , 

In [123]:
def tokensToEmbedding(tokens, wordVectors=None, operation='sum', removeDuplicates=True, doLower=False):
    """
        This function take tokens (or a list of tokens)
        And a map word->vector
        It return a sentence embedding according to the operation given (sum, mean).
    """
    if wordVectors is None:
        wordVectors = getWordVectorsSingleton().load()
    if isinstance(tokens[0], list):
        nbDocs = len(tokens)
        mtx = None
        tokens = copy.deepcopy(tokens)
        for i in range(len(tokens)):
            currentArray = tokensToEmbedding(tokens[i], wordVectors=wordVectors, operation=operation,
                                          removeDuplicates=removeDuplicates, doLower=doLower)
            if mtx is None:
                mtx = currentArray
            else:
                mtx = np.vstack((mtx, currentArray))
        return mtx
    else:
        if removeDuplicates:
            tokens = set(tokens)
        vectors = []
        for current in tokens:
            if doLower:
                current = current.lower()
            if current in wordVectors:
                vectors.append(wordVectors["current"])
        if operation == 'sum':
            return np.sum(np.array(vectors), axis=0)
        elif operation == 'mean':
            return np.mean(np.array(vectors), axis=0)
        print(vectors.shape)
        return vectors

In [124]:
tokensToEmbedding(trainPairs[0][0], vectors)

array([ -5.0761805 ,   2.1492002 ,  11.865239  ,  -2.7417598 ,
        -2.8045793 ,  -9.705238  ,  -5.5060205 ,   2.78082   ,
       -12.238922  ,   3.2299201 ,  -1.264806  ,  -3.1912196 ,
         7.512659  ,  -4.07304   ,   7.475579  , -11.485261  ,
        -2.0471396 ,  -3.8401206 ,   4.3178406 ,  -6.295861  ,
        -3.2688005 ,  -6.1333213 ,   5.6597414 ,   7.802459  ,
        -2.8753197 , -18.026999  ,   6.0303607 , -13.55148   ,
         2.16648   ,   3.2095797 ,   0.31086   ,  13.881779  ,
        -4.305601  ,  -2.37132   , -11.346662  ,   9.053818  ,
         4.928399  ,  -3.38436   ,  -3.6844199 ,  -5.8928404 ,
        -6.940621  ,  -6.5125813 ,  11.636999  ,  -0.75366   ,
        10.211579  ,   6.7483788 ,   2.3452203 , -12.47022   ,
       -10.292402  ,  -9.496979  ,  10.6713    ,  -5.6662188 ,
         2.1279597 ,  12.565978  ,   6.3867617 , -47.259     ,
         5.19714   ,  -5.801039  ,  27.806398  ,   5.3109    ,
         1.9360802 ,  -2.50614   ,  -3.2633998 ,  -1.08