# **Exploration de WordNet**

 

Nous allons utiliser l'implementation NLTK de Wordnet comme première approche. La documentation est dispo ici: https://www.nltk.org/howto/wordnet.html

Charger WordNet

In [None]:
import nltk
nltk.download('wordnet')
from nltk.corpus import wordnet as wn



**Explorer les relations de synonymie**

Essayons d'explorer les synonyms du mot "motocar". Ce dernier n'a qu'un seul sense, celui de "car", identifié par 'car.n.01', le premier sens du mot "car. 

Synset('car.n.01') est appelé synset ou “synonym set,” une collection/liste de mots *synonymes*. Ici n désigne un nom.

In [None]:
e=wn.synsets('motorcar')
print(e)
first_sense=e[0] # donne le premier sense du synset e
first_sense.definition()
dir(e[0])





A l'aide des méthodes accessibles à partir de l'objet e[0] (i.e. dir(e[0]), retrouver:


*   La défintion du premier sense (sens1) du mot "motocar" 
*   La liste des mots (lemmes) synonymes du sens1 du mot "motocar"
*   Des phrases exemples qui illustrent un des senses du mot "motocar"



In [None]:
# répondre aux questions ici


Le mot "motocar" a un seul sense. Essayons maintenant avec un mot polysémique, le mot "car"

In [None]:
e=wn.synsets('car')
print(e) #liste des senses du mot car
i=1
for s in e:
  #print(s.relations())
  #lemme=[i.lemmas() for i in e]
  first_sense=s
  print("sense ", i, s)
  print(s.lemmas())
  i=i+1

**Explorer la hièrachie des relations ainsi que d'autres relations paradigmatiques**

Explorer maintenant les relations d'hyperonymie et d'hyponymie des mots "car" et "motocar" (vous pouvez prendre d'autres mots). Vous pouvez explorer en parallèle les résultats sur la **démo** en ligne (https://en-word.net/) 



In [None]:
car_sense1=e[0]
l=[i.lemmas() for i in car_sense1.hyponyms()]  #on explore ici les hyponymes du senses 1 du mot car
print(l)

# faire de même avec l'hyperonym
l=[i.lemmas() for i in car_sense1.hypernyms()]  #on explore ici les hyperonymes du senses 1 du mot car
print(l)

Explorer les autres relations, comme la méronymie, holonymie et l'antonymie

**Explorer la similarité sémantique entre les synsets**

Etant donnés deux synsets, l'objectif est de parcourir les liens les reliants à travers le réseau lexical.

L'algorithme est le suivant : 
  * Each synset has one or more hypernym paths that link it to a root hypernym
  * Two synsets linked to the same root may have several hypernyms
in common. 
  * If two synsets share a very specific hypernym (one that
is low down in the hypernym hierarchy) they must be closely related.

Appliquons cette algorithme aux premiers senses des mots suivants (Vous pouvez aussi changer les mots)



In [None]:
mouse = wn.synsets('mouse')[0]
cat = wn.synsets('cat')[0]
dog = wn.synsets('dog')[0]

dog.lowest_common_hypernyms(cat)

Nous pouvons également qualtifier la similarité entre synsets, via la fonction path_similarity. Ici les chats sont plus proches des chiens que des souries !!

In [None]:
mouse.path_similarity(cat)

In [None]:
dog.path_similarity(cat)

WordNet est une ressource précieuse pour le TAL et la RI.
Elle permet de mieux comprendre les relations entre mots et d'améliorer les algorithmes de recherche et d’analyse sémantique.
Son extension à d’autres langues facilite les applications multilingues.

Explorer les autres mesures de similarité existantes entre synsets

📝 Exercise: Exploring and Analyzing Lexical Relations with WordNet (English)
🎯 Objective:
Understand semantic relations between words using English WordNet and analyze their usefulness in Natural Language Processing (NLP).

🔹 Instructions:
Select 3 words from different categories (a noun, a verb, and an adjective).

Example: dog, run, happy
Use the NLTK WordNet interface to:

List their synonyms and antonyms (if available).
Identify their hypernyms (more general concepts) and hyponyms (more specific concepts).
Explore other lexical relations such as meronyms (part-whole relationships) and holonyms (whole-part relationships).
Analyze and answer the following questions:

Which word has the most lexical relations? Why?
Do you notice ambiguities in the meanings? Provide an example.
How could these relations improve applications like chatbots, search engines, or text analysis?
🔹 Example Expected Answer:
Chosen Word: "dog" (noun)

Synonyms: Canine, domestic dog
Hypernym: Mammal
Hyponym: Golden Retriever, Bulldog
Meronym: Paw, tail
Antonym: (None found)
Analysis:

The word "dog" has many hyponyms, showing the variety of dog breeds.
The verb "run" has multiple meanings (e.g., run a business vs. run in a race), making it ambiguous in NLP tasks.
These relations could enhance a search engine by suggesting related terms, or help a chatbot understand user intent more accurately.

## English Semantic Role Labeling (SRL) Demo
https://cogcomp.seas.upenn.edu/page/demo_view/SRLEnglish 

## Cosinus Similarity

In [None]:
import spacy.cli
spacy.cli.download("fr_core_news_sm")

In [None]:
import spacy

# Charger le modèle de langue français
nlp = spacy.load('fr_core_news_sm')

# Créer des objets doc pour les mots
voiture = nlp("voiture")
camion = nlp("camion")

# Calculer la similarité cosinus
similarite = voiture.similarity(camion)

print(f"Similarité cosinus entre 'voiture' et 'camion' : {similarite}")

# Créer des objets doc pour les mots
voiture = nlp("voiture")
camion = nlp("ciel")

# Calculer la similarité cosinus
similarite = voiture.similarity(camion)

print(f"Similarité cosinus entre 'voiture' et 'ciel' : {similarite}")

# Static Word embeddings and distributional similarity
**Exercice 1** : Analyse de la Similarité Distributionnelle
📌 Objectif : Comprendre comment la similarité distributionnelle permet de capturer la proximité sémantique entre mots.

Consignes
On vous donne un corpus simple contenant quelques phrases. Construisez une matrice de co-occurrence (fréquence des mots dans une fenêtre de contexte de taille 2).
Calculez la similarité cosinus entre différents mots de votre matrice.
Comparez les résultats avec votre intuition : quels mots sont les plus proches selon cette méthode ?
Données exemple
Corpus :

"Le chat dort sur le canapé. Le chien joue avec le chat. Le chat et le chien sont amis."

💡 Questions de réflexion :

Quels sont les mots les plus proches du mot "chat" selon votre matrice ?
Comment la taille de la fenêtre de contexte influence-t-elle la similarité ?

In [None]:
import torch
import numpy as np
from collections import Counter
from itertools import chain

# Petit corpus d'exemple
corpus = [
    ["le", "chat", "dort", "sur", "le", "canapé"],
    ["le", "chien", "joue", "avec", "le", "chat"],
    ["le", "chat", "et", "le", "chien", "sont", "amis"]
]

# Création du vocabulaire
vocab = list(set(chain(*corpus)))  # Mots uniques
word2idx = {word: i for i, word in enumerate(vocab)}
idx2word = {i: word for word, i in word2idx.items()}

# Paramètres
window_size = 2
vocab_size = len(vocab)

# Construction de la matrice de co-occurrence
cooc_matrix = torch.zeros((vocab_size, vocab_size))

for sentence in corpus:
    for i, word in enumerate(sentence):
        word_idx = word2idx[word]
        for j in range(max(i - window_size, 0), min(i + window_size + 1, len(sentence))):
            if i != j:
                context_word_idx = word2idx[sentence[j]]
                cooc_matrix[word_idx, context_word_idx] += 1

# Normalisation (évite l'explosion des valeurs)
cooc_matrix = cooc_matrix / torch.norm(cooc_matrix, dim=1, keepdim=True)

# Fonction de similarité cosinus
def cosine_similarity(word1, word2):
    idx1, idx2 = word2idx[word1], word2idx[word2]
    return torch.dot(cooc_matrix[idx1], cooc_matrix[idx2]).item()

# Exemple de similarité
print(f"Similarité cosinus entre 'chat' et 'chien' : {cosine_similarity('chat', 'chien'):.4f}")
print(f"Similarité cosinus entre 'chat' et 'canapé' : {cosine_similarity('chat', 'canapé'):.4f}")


**Exercice 2** : Utilisation de Word2Vec et Analyse des Vecteurs
📌 Objectif : Explorer un modèle de word embeddings statique et visualiser les relations entre mots.

Consignes
Chargez un modèle pré-entraîné de Word2Vec (ex. word2vec-google-news-300 via gensim).
Trouvez les mots les plus proches (top 5) d’un mot donné (ex. king, dog, Paris).
Effectuez une opération vectorielle sémantique : testez l’analogie king - man + woman = ?
Visualisez les embeddings de quelques mots avec t-SNE ou PCA.
💡 Questions de réflexion :

Les mots les plus proches sont-ils ceux auxquels vous vous attendiez ?
Pourquoi l’analogie king - man + woman donne-t-elle queen ?
Quels sont les avantages et limites des embeddings statiques ?


In [None]:
!pip install gensim

In [None]:
import gensim
print(gensim.__version__)  # Vérifie que la bibliothèque est bien installée


In [None]:
import gensim.downloader as api
import torch.nn.functional as F
import matplotlib.pyplot as plt
from sklearn.manifold import TSNE

# Charger le modèle Word2Vec pré-entraîné (Google News, 300 dimensions)
word_vectors = api.load("word2vec-google-news-300")

# Conversion des embeddings en tensors PyTorch
def get_embedding(word):
    return torch.tensor(word_vectors[word]) if word in word_vectors else None

# Calcul de la similarité cosinus entre deux mots
def word_similarity(word1, word2):
    vec1, vec2 = get_embedding(word1), get_embedding(word2)
    if vec1 is not None and vec2 is not None:
        return F.cosine_similarity(vec1.unsqueeze(0), vec2.unsqueeze(0)).item()
    return None

# Test de similarité
print(f"Similarité entre 'king' et 'queen' : {word_similarity('king', 'queen'):.4f}")
print(f"Similarité entre 'dog' et 'cat' : {word_similarity('dog', 'cat'):.4f}")

# Analogie : king - man + woman ≈ ?
def analogy(word1, word2, word3):
    vec1, vec2, vec3 = get_embedding(word1), get_embedding(word2), get_embedding(word3)
    if None not in [vec1, vec2, vec3]:
        result_vector = vec1 - vec2 + vec3
        similar_words = word_vectors.similar_by_vector(result_vector.numpy(), topn=1)
        return similar_words[0][0]
    return None

print(f"'king' - 'man' + 'woman' ≈ {analogy('king', 'man', 'woman')}")

# 📊 **Visualisation des embeddings avec t-SNE**
words = ["king", "queen", "man", "woman", "dog", "cat", "paris", "france"]
embeddings = torch.stack([get_embedding(w) for w in words if get_embedding(w) is not None])

# Réduction de dimension avec t-SNE
tsne = TSNE(n_components=2, random_state=42)
embeddings_2d = tsne.fit_transform(embeddings.numpy())

# Affichage
plt.figure(figsize=(8, 6))
for i, word in enumerate(words):
    if i < len(embeddings_2d):  # Ignore words non présents
        x, y = embeddings_2d[i]
        plt.scatter(x, y)
        plt.text(x + 0.02, y + 0.02, word, fontsize=12)

plt.title("Visualisation des Word Embeddings avec t-SNE")
plt.show()

In [None]:
import gensim.downloader as api

import gensim.downloader as api

# Charger le modèle pré-entraîné Word2Vec (Google News)
word_vectors = api.load("word2vec-google-news-300")

# Trouver les mots les plus proches de "chien"
similar_words = word_vectors.most_similar("dog", topn=5)
print(similar_words)


Affichez le vecteur de chaque mot.
Calculez la similarité entre ces vecteurs.

📝 Exercice : Analyse des Word Embeddings sur un Dataset Wikipedia
📌 Objectif : Explorer les word embeddings en utilisant un dataset extrait de Wikipedia.

Étapes à suivre
1️⃣ Charger et prétraiter le dataset 📂

Utiliser un corpus extrait de Wikipedia.
Nettoyer le texte (suppression des stopwords, ponctuation, etc.).
2️⃣ Analyse des fréquences 📊

Identifier les 5 mots les plus fréquents dans le corpus.
3️⃣ Exploration des similarités 🔍

Pour chacun de ces mots, trouver les 5 mots les plus proches en utilisant les embeddings.
4️⃣ Visualisation des embeddings 🎨

Représenter les embeddings en 2D avec t-SNE.
Comparer cette visualisation avec une réduction de dimension PCA.
💡 Question de réflexion : Quels sont les avantages et les limites de t-SNE et PCA pour visualiser les embeddings?

Projector: http://projector.tensorflow.org/