# Labo 6 : désambiguïsation lexicale (Word Sense Disambiguation)
Par Vincent Guidoux et Nathan Gonzalez Montes

## Objectif et informations

Comparer deux méthodes de désambiguïsation du sens des mots en contexte (tâche notée WSD), l’une utilisant l’algorithme de Lesk simplifié, et l’autre utilisant word2vec.

Le labo utilisera une ressource contenant 2'369 occurrences du mot anglais « interest » annotées chacune avec le sens du mot dans le contexte respectif. Chacune des deux méthodes fonctionne selon le même principe général : comparer le contexte de l’occurrence avec les définitions des sens, et choisir la définition la plus proche. L’algorithme de Lesk définit la proximité comme le nombre de mots en commun, alors que word2vec peut la calculer comme la similarité de deux vecteurs (somme des vecteurs de mots).

Dans une première approche, qui ne nécessite pas de programmation, on vous demande de comparer une occurrence de chaque sens. Dans une seconde approche, qui nécessite un peu de programmation en Python, vous évaluerez les deux systèmes sur l’ensemble des 2'369 occurrences.

## Étapes

### 1. Le fichier de données se trouve à http://www.d.umn.edu/~tpederse/data.html – chercher « interest » vers la fin de la page, et prendre le fichier marqué « original format without POS tags ». Quel est le format de ce fichier et comment sont annotés les sens ?

Le fichier est au format texte.

Le sens **1** d'_interest_ sera noté `interest_1`, le sens **2** d'_interest_ sera noté `interest_2`, etc..

### 2. Bien lire le fichier README associé. Quelles sont les définitions des six sens de « interest » annotées dans les données ? De quel dictionnaire viennent-elles ? Où se trouve-t-il en ligne ?

1. Readiness to give attention
2. Quality of causing attention to be given to
3. Activity, etc. that one gives attention to
4. Advantage, advancement or favor
5. A share in a company or business
6. Money paid for the use of money

Du dictionnaire LDOCE. Ici: [Longman Dictionary of Contemporary English | LDOCE
](https://www.ldoceonline.com/)


### 3. Consulter WordNet en ligne et identifier les définitions correspondant aux six sens annotés dans les données. En les combinant éventuellement avec les résultats du (2), écrivez une liste de mots « pleins » (i.e. sans stopwords) pour chaque définition.

### Noun

1. A sense of concern with and curiosity about someone or something, **involvement**: *"an interest in music"*

2. The power of attracting or holding one's attention (because it is unusual or exciting etc.), **interestingness**: *"they said nothing of great interest"; "primary colors can add interest to a room"e or something) "an interest in music"*

3. A diversion that occupies one's time and thoughts (usually pleasantly), **pastime, pursuit**: *"sailing is her favorite pastime"; "his main pastime is gambling"; "he counts reading among his interests"; "they criticized the boy for his limited pursuits"*

4. A reason for wanting something done, **sake**: *"for your sake"; "died for the sake of his country"; "in the interest of safety"; "in the common interest"*

5. (law) A right or legal share of something; a financial involvement with something, **stake**: *"they have interests all over the world"; "a stake in the company's future"*

6. A fixed charge for borrowing money; usually a percentage of the amount borrowed: *"how much interest do you pay on your mortgage?"*

(usually plural) a social group whose members control some field of activity and who have common aims, interest group: *"the iron interests stepped up production"*

### Verb

Excite the curiosity of; engage the interest of

**Concern, occupy, worry**, be on the mind of: "I worry about the second Germanic consonant shift"

**Matter to**, be of importance or consequence: "This matters to me!"

1. Readiness, give, attention, sense, concern, curiosity, someone, something, involvement
2. Qualitiy, causing, attraction, be, given, power, attracting, holding, one's, attention, because, unusual, exciting
3. Activity, one, gives, attention, diversion, occupies, one's, time, thoughts, usually, pleasantly, pastime, pursuit

Liste de mots plein :

1. "readiness, give, attention, sense, concern, curiosity, someone, something, involvement"
2. "qualitiy, causing, attraction, be, given, power, attracting, holding, one, attention, because, unusual, exciting"
3. "activity, one, gives, attention, diversion, occupies, one, time, thought, usually, pleasantly, pastime, pursuit"
4. "reason wanting something do sake die sake country interest safety common interest advantage advancement favor"
5. "law right legal share something financial involvement something stake they have interest world stake company future share company business"
6. "fixed charge for borrowing money usually percentage amount borrowed interest pay mortgage social group members control field activity have common aims interest group iron interests stepped up production money paid use money"

### 4. Considérez la première occurrence de « interest » dans les données, et notez les mots « pleins » qui entourent « interest » (p.ex. toute la phrase). Combien de mots y’a-t-il en commun avec chacune des six définitions ? Quel est donc le sens le plus probable ?

In [1]:
first_occurance = "yield, money, market, mutual, fund, continue, slide, amid, sign, portfolio, manager, expect, further, decline, rates"
first_occurance = first_occurance.split(", ")

stop_word_1 = "readiness, give, attention, sense, concern, curiosity, someone, something, involvement"
stop_word_1 = stop_word_1.split(", ")

stop_word_2 = "qualitiy, causing, attraction, be, given, power, attracting, holding, one, attention, because, unusual, exciting"
stop_word_2 = stop_word_2.split(", ")

stop_word_3 = "activity, one, gives, attention, diversion, occupies, one, time, thought, usually, pleasantly, pastime, pursuit"
stop_word_3 = stop_word_3.split(", ")

stop_word_4 = "reason wanting something do sake die sake country interest safety common interest advantage advancement favor"
stop_word_4 = stop_word_4.split(" ")

stop_word_5 = "law right legal share something financial involvement something stake they have interest world stake company future share company business"
stop_word_5 = stop_word_5.split(" ")

stop_word_6 = "fixed charge for borrowing money usually percentage amount borrowed interest pay mortgage social group members control field activity have common aims interest group iron interests stepped up production money paid use money"
stop_word_6 = stop_word_6.split(" ")

In [2]:
def scoring(list_input, list_does_contains):
    score = 0

    for word in list_input:
        if word in list_does_contains:
            score = score + 1
    return score    

In [3]:
print("score comparaison avec la définition 1 : ", scoring(first_occurance, stop_word_1))
print("score comparaison avec la définition 2 : ", scoring(first_occurance, stop_word_2))
print("score comparaison avec la définition 3 : ", scoring(first_occurance, stop_word_3))
print("score comparaison avec la définition 4 : ", scoring(first_occurance, stop_word_4))
print("score comparaison avec la définition 5 : ", scoring(first_occurance, stop_word_5))
print("score comparaison avec la définition 6 : ", scoring(first_occurance, stop_word_6))

score comparaison avec la définition 1 :  0
score comparaison avec la définition 2 :  0
score comparaison avec la définition 3 :  0
score comparaison avec la définition 4 :  0
score comparaison avec la définition 5 :  0
score comparaison avec la définition 6 :  1


Il n'y a qu'un mot commun, et c'est avec la définition bonne définition, nous avons eu de la chance

### 5. En réutilisant le modèle de word2vec entraîné sur Google News fourni par Gensim, calculer les similarités (cosinus) entre les mots du contexte de la première occurrence (somme(ou moyenne) des vecteurs de chaque mot) et chacune des six définitions. Quel est donc le sens le plus probable ?

**Suggestion** : chercher dans la documentation word2vec comment obtenir très facilement la similarité entre deux ensembles de mots.

In [None]:
import numpy
import nltk
import time
from gensim.test.utils import common_texts
from gensim.models import Word2Vec
from gensim.test.utils import get_tmpfile
from gensim.models import KeyedVectors
from gensim.test.utils import datapath

w2v_vectors = KeyedVectors.load_word2vec_format("word2vec-google-news-300.gz", binary=True)

In [None]:
similarities = w2v_vectors.evaluate_word_pairs(datapath('wordsim353.tsv'))

print("Pearson correlation coefficient with 2-tailed p-value : ", similarities[0])
print("\n")
print("Spearman rank-order correlation coefficient between the similarities from the dataset and the similarities produced by the model itself, with 2-tailed p-value : ", similarities[1])
print("\n")
print("The ratio of pairs with unknown words : ", similarities[2])
# similarity = w2v_vectors.similarity("present", "past")
# print("Opposite (similarity): {:.3f}".format(similarity))

In [None]:
analogy_scores = w2v_vectors.evaluate_word_analogies('data/interest-original.txt')

print("Le score d'évaluation global sur l'ensemble de l'évaluation : ", analogy_scores[0])
print("\n")
print("Résultats ventilés par section du jeu d’évaluations. Chaque dict contient le nom de la section sous la clé ‘section’, ainsi que des listes de 4 tuples de mots correctement et incorrectement prédits sous les clés ‘correct’ et ‘incorrect’ : ")
print("\n")

for section in analogy_scores[1]:
    print("section \"{section}\" : ".format(section=section["section"]))
    print("number of correct : ", len(section["correct"]))
    print("number of incorrect : ", len(section["incorrect"]))
    print("\n")

### 6. Approche manuelle : appliquer la procédure précédente à une occurrence de « interest » pour chaque sens possible (six sens, donc six mots). Combien sur les six sont correctement désambiguïsés par l’algorithme de Lesk, et combien par la méthode word2vec ?

### 7. Approche automatique : implémenter un court programme qui applique la méthode décrite ci-dessus à chacune des 2'369 occurrences de « interest » dans le corpus du test.

Il faut donc : extraire les mots voisins de chaque occurrence, compter le nombre de mots en commun avec chaque définition, et choisir le sens qui maximise ce nombre (Lesk) ; également, calculer la similarité word2vec entre le contexte et chaque définition, et choisir le sens qui la maximise.

Quelles sont les proportions respectives de bonnes réponses de Lesk et de word2vec ?
Pouvez-vous les calculer également pour chaque catégorie ?

### 8. Comment se comparent vos scores avec ceux publiés dans l’article de Pedersen (2000) disponible ici : http://www.aclweb.org/anthology/A00-2009 ?

Merci d’envoyer votre notebook Jupyter par email au professeur et à l’assistant, avant le vendredi 17 mai à 23h59.