# TP1

In [None]:
pip install nltk

**NLTK** est une bibliothèque Python très utilisée en traitement automatique du langage naturel (TAL/NLP).
Elle propose plusieurs ressources linguistiques (corpus, lexiques, outils de tokenisation, etc.).

In [None]:
import nltk   
nltk.__version__ 

In [None]:
nltk.download('wordnet')

**WordNet** est une base lexicale de l’anglais développée à l’Université de Princeton.
Elle regroupe les mots selon leurs sens et leurs relations sémantiques (synonymie, antonymie, hyperonymie, etc.).

**nltk.download('wordnet')** télécharge le corpus **WordNet** depuis le serveur officiel de NLTK et 
installe les fichiers localement (généralement dans un dossier comme **~/nltk_data/)**

In [None]:
from nltk.corpus import wordnet as wn

**Structue de nltk**
![structure de NLTK](images/structureNLTK.png "StructureNLTK")

# Partie 1: Explorer WordNet
1. À l'aide de NLTK, explorez les différents sens du mot "good". Affichez les définitions et les exemples d'utilisation de ce mot.
2. Trouvez les synonymes et antonymes du mot "good"

In [None]:
#les sens  de good
syns=wn.synsets("good")

In [None]:
syns


#### syns est une liste de synsets

good.n.01 signifie :
mot ou name : good
catégorie grammaticale : n. (nom)
01 premier sens enregistré dans WordNet

In [None]:
s=syns[1]  # Premier synset

In [None]:
type(s)


In [None]:
print('Nom du synset :',s.name())
print('Définition :',s.definition())
print('Exemples :',s.examples())

#### Les lettres n, a, s, r indiquent la nature grammaticale (part of speech) du mot dans WordNet.
n - noun (nom)  
v- verb  
a - adjectif  
s - variante d'un adjectif  
r- adverb 

In [None]:
#afficher chaque synset avec sa catégorie gramaticale et sa définition
for syn in syns :
    print(syn.name(),"--->", syn.definition())

In [None]:
#Affichez les définitions et les exemples d'utilisation de ce mot.
for syn in syns:
    print(syn.name(), ":", syn.definition())
    for example in syn.examples():
        print(" -", example)
    print("\n")

In [None]:
# Parcourir les synsets et afficher leurs synonymes
synsets = wn.synsets('good')
for syn in synsets:
    print(f"Synset : {syn.name()}")
    print(f"Définition : {syn.definition()}")
    print(f"Synonymes : {[lemma.name() for lemma in syn.lemmas()]}")
    print("-" * 60)

Un lemma (ou lemme) est la forme canonique d’un mot, telle qu’elle figure dans le dictionnaire. 
c'est le synonyme du mot.   La structure interne d'un lemme est:
![structure interne d'un lemma](images/structure_lemme.png "StructureLemme")

In [None]:
#Synonyme et antonyme d'un mot
synset_good = wn.synsets('good')
sn=synset_good[1]
print(sn.definition())

# Extraction des synonymes
synonyms = sn.lemmas() # synonyms est une liste
print("Synonyms:", [synonym.name() for synonym in synonyms])

# Afficher les antonyms
antonyms = []
for lemma in sn.lemmas():
    if lemma.antonyms():
        antonyms.append(lemma.antonyms()[0].name())
print("Antonyms:", antonyms)


### Traduction des mots avec omw-1.4

In [None]:
nltk.download('omw-1.4')

In [None]:
wn.langs()

In [None]:
synsets = wn.synsets('good')
for syn in synsets:
    print(f"\n Synset : {syn.name()}")
    print(f"   Définition : {syn.definition()}")
    # Pour chaque lemme, on cherche sa traduction en français
    for lemma in syn.lemmas(lang='fra'):  # 'fra' = code ISO du français
        print(f"   Traduction française : {lemma.name()}")

In [None]:
print(wn.langs())

# Partie 2: Analyse des sentiments

In [None]:
#Télécharger et importer sentiwordnet 
from nltk.corpus import sentiwordnet as swn

In [None]:
nltk.download('sentiwordnet')

### **SentiWordNet** est une ressource dérivée de WordNet, où chaque synset (sens d’un mot) est associé à trois scores :  
### **Score   Signification**  
pos_score()   Degré de positivité (entre 0 et 1)  
neg_score()   Degré de négativité (entre 0 et 1)  
obj_score()   Degré de neutralité / objectivité (entre 0 et 1)  

In [None]:
sent=swn.senti_synset('good.n.01')
print(sent)

In [None]:
sent.pos_score()

In [None]:
sent.neg_score()

In [None]:
sent.obj_score()

In [None]:
#tous les sens possibles du mot "good", avec leurs scores.
synsets_good = list(swn.senti_synsets('good'))

In [None]:
synsets_good[0].pos_score()

In [None]:
# Affichage du premier synset avec ses scores
first_synset = synsets_good[0]
print(first_synset.synset.lemma_names())
print(f"Positivity score: {first_synset.pos_score()}")
print(f"Negativity score: {first_synset.neg_score()}")
print(f"Objectivity score: {first_synset.obj_score()}")

In [None]:
# 2. Synsets associés au mot "good" et leurs scores de polarité
# Affichage des scores de polarité pour chaque synset du mot "good"
for synset in synsets_good:
    print(f"Synset: {synset.synset.lemma_names()}")
    print(f"Positivity: {synset.pos_score()}, Negativity: {synset.neg_score()}, Objectivity: {synset.obj_score()}")
    print("\n")

In [None]:
# Exemple avec le mot book

In [None]:
synsets_book = list(swn.senti_synsets('book'))

In [None]:
for synset in synsets_book:
    print(f"Synset: {synset.synset.lemma_names()}")
    print(f"Positivity: {synset.pos_score()}, Negativity: {synset.neg_score()}, Objectivity: {synset.obj_score()}")
    print("\n")

## Partie 3: Segmentation et Tokenisation

### 3.1. Segmentation et Tokenisation
Prenez la phrase "It is a good day." :
1. Segmentez la phrase en tokens à l'aide de NLTK.
2. Affichez les tokens obtenus.

In [None]:
from nltk.tokenize import word_tokenize # fonction word_tokenize sert à découper un texte en mots (tokens).
nltk.download('punkt') # “punkt” contient les règles linguistiques nécessaires pour reconnaître les frontières de mots et de phrases.
                       #Sans ce téléchargement, word_tokenize() ne pourrait pas fonctionner

### punkt → contient les règles de base de segmentation des phrases et des mots.  
### punkt_tab → contient des tables de correspondance linguistique (améliorations récentes dans NLTK).  
### Sans ce module, la tokenisation peut échouer  

In [None]:
nltk.download('punkt_tab') 

In [None]:
# Affichage des tokens
print("Tokens:", tokens)

### 3.2. Étiquetage morpho-syntaxique (POS Tagging)  
1. Attribuez à chaque token sa catégorie grammaticale à l'aide de NLTK.
2. Affichez les tokens avec leurs catégories grammaticales.

### l’étiquetage morpho-syntaxique, appelé en anglais POS Tagging (Part-Of-Speech Tagging).

In [None]:
# Importation du module
from nltk import pos_tag 

la fonction **pos_tag()** du module NLTK sert à attribuer à chaque mot son rôle grammatical (ou catégorie grammaticale) dans la phrase.  
→ Exemple : verbe, nom, adjectif, pronom, etc.

**pos_tag()** (la fonction d’étiquetage morpho-syntaxique) a besoin d’un modèle entraîné pour reconnaître les catégories grammaticales des mots anglais.  
Ce modèle s’appelle **averaged_perceptron_tagger_eng** (nouveau nom depuis NLTK 3.8).
Si tu ne le télécharges pas, NLTK ne peut pas faire le “tagging” et renvoie cette erreur.

In [None]:
nltk.download('averaged_perceptron_tagger_eng')

In [None]:
# Étiquetage POS des tokens
pos_tags = pos_tag(tokens)
print("POS Tags:", pos_tags) #pos_tag() analyse chaque mot et lui attribue une étiquette grammaticale (tag) selon le standard Penn Treebank.

abréviations grammaticales (POS tags) de NLTK
NN : nom commun singulier, NNS : nom commun pluriel, NNP : nom propre singulier, NNPS : nom propre pluriel,
VB : verbe à l’infinitif, VBD : verbe au passé, VBG : verbe au participe présent (-ing), VBN : verbe au participe passé, VBP : verbe conjugué au présent, VBZ : verbe à la troisième personne du singulier présent,
JJ : adjectif, JJR : adjectif comparatif, JJS : adjectif superlatif,
RB : adverbe, RBR : adverbe comparatif, RBS : adverbe superlatif,
PRP : pronom personnel, PRP$ : pronom possessif, WP : pronom interrogatif, WP$ : pronom interrogatif possessif,
DT : déterminant, IN : préposition ou conjonction de subordination, CC : conjonction de coordination,
CD : nombre cardinal, UH : interjection, MD : verbe modal, TO : particule “to”,
EX : pronom existentiel (“there”), FW : mot étranger, POS : marque de possession, SYM : symbole, LS : élément de liste,

### 3.3.  Lemmatisation
1. Convertissez les tokens en leurs formes de base à l'aide d'un lemmatiseur.
2. Affichez les lemmes.

importer la classe **WordNetLemmatizer** depuis le module **nltk.stem**. Cette classe utilise la base de données   WordNet  pour ramener les mots à leur forme de base (appelée lemme).

In [None]:
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer() 

un objet “lemmatizer” est créé, qu'on va utiliser pour transformer les mots. Une fois créé, on peut l’utiliser avec la méthode **.lemmatize()** :

In [None]:
# Exemples
print(lemmatizer.lemmatize("cars"))       # → car
print(lemmatizer.lemmatize("running"))    # → running (par défaut il ne sait pas que c’est un verbe)
print(lemmatizer.lemmatize("running", pos="v"))  # → run


### Remarque : 
Stemming : coupe les mots de manière mécanique (ex. studies → studi).

Lemmatisation : utilise le sens et la grammaire pour trouver la forme correcte (ex. studies → study).

In [None]:
# Lemmatisation des tokens
lemmas = [lemmatizer.lemmatize(token) for token in tokens]
print("Lemmas:", lemmas)

### Autre exemple pour voir le rôle de la lemmatisation

In [None]:

tokens_1 = ['cats', 'are', 'running', 'happily']
lemmas_1 = [lemmatizer.lemmatize(token) for token in tokens_1]
print("Lemmas_1:", lemmas_1)


Remarque : “running” n’a pas été ramené à “run”, car le lemmatizer a besoin du type grammatical du mot (verbe, nom, etc.) pour être plus précis.

### 3.4 Analyse de Sentiment
1. Pour chaque lemme, récupérez son score de polarité à partir de SentiWordNet (en utilisant le POS tag correspondant).
2. Affichez les scores de polarité pour chaque mot.
3. Calculez et affichez le score total de polarité pour la phrase.

In [None]:
print("Lemmas:", lemmas)

In [63]:
# Récupérer les scores de polarité pour chaque lemme
total_pos, total_neg = 0, 0
for lemma in lemmas:
    synsets_lemma = list(swn.senti_synsets(lemma)) #renvoie tous les synsets (ensembles de sens) associés à ce mot avec leurs scores de sentiment.
    if synsets_lemma:
        synset = synsets_lemma[0]  # On prend le premier sens du mot (le sens le plus courant en général).
        print(f"Lemme: {lemma}, Positivity: {synset.pos_score()}, Negativity: {synset.neg_score()}, Objectivity: {synset.obj_score()}")
        total_pos += synset.pos_score()
        total_neg += synset.neg_score()
total_polarity = total_pos - total_neg
print(f"Polarité totale (sans pos tags): {total_polarity}")

Lemme: It, Positivity: 0.0, Negativity: 0.0, Objectivity: 1.0
Lemme: is, Positivity: 0.25, Negativity: 0.125, Objectivity: 0.625
Lemme: a, Positivity: 0.0, Negativity: 0.0, Objectivity: 1.0
Lemme: good, Positivity: 0.5, Negativity: 0.0, Objectivity: 0.5
Lemme: day, Positivity: 0.0, Negativity: 0.0, Objectivity: 1.0
Polarité totale (sans pos TAGS): 0.625


In [None]:
## prise en considération du POS

In [None]:
from nltk.corpus import wordnet as wn
from nltk.corpus import sentiwordnet as swn


# Fonction pour convertir les POS tags de NLTK en ceux utilisés par WordNet
def get_wordnet_pos(treebank_tag):
    if treebank_tag.startswith('J'):
        return wn.ADJ
    elif treebank_tag.startswith('V'):
        return wn.VERB
    elif treebank_tag.startswith('N'):
        return wn.NOUN
    elif treebank_tag.startswith('R'):
        return wn.ADV
    else:
        return None

# Récupérer les scores de polarité pour chaque lemme avec le POS tag
total_pos, total_neg = 0, 0

for lemma, pos in zip(lemmas, pos_tags): # lemmas → liste des mots de ta phrase lemmatisés
                                        #pos_tags → liste des tuples (mot, tag)
                                        #zip() permet de parcourir les deux listes en parallèle.
     # pos[1] contient le code grammatical du mot selon NLTK (ex: 'JJ', 'NN', 'VB', etc.)
    wordnet_pos = get_wordnet_pos(pos[1])  # # Conversion vers le format compatible WordNet
    if wordnet_pos:
        synsets_lemma = list(swn.senti_synsets(lemma, pos=wordnet_pos))  # Filtrer les synsets par POS
        if synsets_lemma:
            synset = synsets_lemma[0]  # Utiliser le premier synset correspondant au POS
            print(f"Lemme: {lemma}, POS: {wordnet_pos}, Positivity: {synset.pos_score()}, Negativity: {synset.neg_score()}, Objectivity: {synset.obj_score()}")
            total_pos += synset.pos_score()
            total_neg += synset.neg_score()

# Calcul du score total de polarité pour la phrase
total_polarity = total_pos - total_neg
print(f"Total polarity score: {total_polarity}")
