<a href="https://colab.research.google.com/github/RMoulla/MMD/blob/main/TP_Pr%C3%A9traitement_Texte.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **TP : Prétraitement du texte avec NLTK et spaCy**


Dans ce TP, nous allons explorer plusieurs techniques essentielles du traitement automatique des langues (NLP) à l'aide des bibliothèques `NLTK` et `spaCy`. Il s'agit notamment de la **tokenisation**, de l'**extraction d'entités nommées** (NER), ainsi que de la **lemmatisation** et du **stemming**. Ce TP permet de comparer les approches utilisées par `NLTK` et `spaCy`, de comprendre leurs différences, et de déterminer la méthode la plus adaptée en fonction des besoins spécifiques d'une tâche de traitement du langage naturel.

## Objectifs du TP :
- Explorer les différentes méthodes de **tokenisation** avec NLTK et spaCy.
- Utiliser **spaCy** pour l'**extraction d'entités nommées**.
- Comparer la **lemmatisation** et le **stemming** avec NLTK et spaCy.

---

## **Partie 1 : Tokenisation**

### 1.1 Tokenisation par phrases

**Objectif** : Diviser un texte en phrases avec NLTK et spaCy.

In [None]:
!python -m spacy download fr_core_news_sm > /dev/null 2>&1

In [None]:
import nltk
import spacy
nltk.download('punkt')

# Texte en français avec plusieurs phrases
texte = "Bonjour tout le monde ! Comment ça va ? Jean n'est pas là aujourd'hui."

# Tokenisation par phrases avec NLTK
nltk_sent_tokens = nltk.sent_tokenize(texte, language='french')
print("NLTK Tokenisation (Phrases) :", nltk_sent_tokens)

# Tokenisation par phrases avec spaCy
nlp = spacy.load("fr_core_news_sm")
spacy_doc = nlp(texte)
spacy_sentences = [sent.text for sent in spacy_doc.sents]
print("spaCy Tokenisation (Phrases) :", spacy_sentences)

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


NLTK Tokenisation (Phrases) : ['Bonjour tout le monde !', 'Comment ça va ?', "Jean n'est pas là aujourd'hui."]
spaCy Tokenisation (Phrases) : ['Bonjour tout le monde !', 'Comment ça va ?', "Jean n'est pas là aujourd'hui."]


### 1.2 Tokenisation par mots (1-gram)

**Objectif** : Segmenter un texte en mots (1-gram) à l'aide de `NLTK` et `spaCy`.

---

#### Contexte
La tokenisation par mots est l'étape qui consiste à diviser une phrase en unités de base (appelées tokens), qui sont généralement des mots. Cette étape est cruciale pour la plupart des tâches en traitement automatique des langues (NLP).

---

#### Consignes

1. Utilisez `NLTK` pour tokeniser un texte en mots (1-gram).
2. Utilisez `spaCy` pour faire de même et comparez les résultats.
3. Observez la manière dont chaque outil gère les contractions, la ponctuation et les caractères spéciaux.

---

In [None]:

# Exemple de texte en français
texte = "Le livre de Jean n'est pas sur la table."

# Tokenisation par mots avec NLTK
import nltk
nltk_tokens = nltk.word_tokenize(texte)
print("Tokenisation par mots avec NLTK :", nltk_tokens)

# Tokenisation par mots avec spaCy
import spacy
nlp = spacy.load("fr_core_news_sm")
spacy_doc = nlp(texte)
spacy_tokens = [token.text for token in spacy_doc]
print("Tokenisation par mots avec spaCy :", spacy_tokens)

Tokenisation par mots avec NLTK : ['Le', 'livre', 'de', 'Jean', "n'est", 'pas', 'sur', 'la', 'table', '.']
Tokenisation par mots avec spaCy : ['Le', 'livre', 'de', 'Jean', "n'", 'est', 'pas', 'sur', 'la', 'table', '.']


### 1.3 Tokenisation par bigrams

**Objectif** : Segmenter un texte en bigrams à l'aide de `NLTK`.

---

#### Contexte
La tokenisation par bigrams consiste à diviser un texte en séquences de deux mots successifs. Cela permet de capturer des relations de proximité entre les mots, ce qui peut être utile pour certaines tâches de NLP, comme la modélisation du langage.

---

#### Consignes

1. Utilisez `NLTK` pour diviser un texte en bigrams.
2. Affichez les bigrams générés et discutez des résultats.
3. Observez comment les bigrams capturent des relations de proximité entre les mots dans le texte.

---

In [None]:

from nltk.util import ngrams

# Exemple de texte en français
texte = "Le livre de Jean n'est pas sur la table."

# Tokenisation par mots avec NLTK
nltk_tokens = nltk.word_tokenize(texte)

# Tokenisation en bigrams avec NLTK
bigrams = list(ngrams(nltk_tokens, 2))
print("Bigrams avec NLTK :", bigrams)

Bigrams avec NLTK : [('Le', 'livre'), ('livre', 'de'), ('de', 'Jean'), ('Jean', "n'est"), ("n'est", 'pas'), ('pas', 'sur'), ('sur', 'la'), ('la', 'table'), ('table', '.')]


## **Partie 2 : Extraction d'entités nommées (NER)**

### Objectif
L'objectif de cette partie est d'utiliser `spaCy` pour extraire les **entités nommées** (personnes, lieux, organisations, dates, etc.) présentes dans un texte. L'extraction d'entités nommées (NER) est une tâche clé en NLP, qui permet d'identifier les informations importantes dans un texte.

---

### Contexte
`spaCy` possède un modèle intégré pour la reconnaissance des entités nommées (NER). Les entités nommées sont des éléments du texte qui représentent des informations concrètes, comme les noms de personnes, de lieux, d'organisations, ou des dates. Cette technique est utilisée dans plusieurs applications, telles que l'extraction d'informations ou la création de résumé automatique.

---

### Consignes

1. Utilisez `spaCy` pour extraire les entités nommées dans un texte en français.
2. Identifiez les types d'entités extraites (personnes, lieux, dates, organisations, etc.).
3. Discutez de la précision des entités extraites et des éventuels faux positifs ou manquements.

---

In [None]:
# Téléchargement et chargement du modèle français de spaCy
!python -m spacy download fr_core_news_sm > /dev/null 2>&1

# Charger le modèle français
nlp = spacy.load("fr_core_news_sm")

# Exemple de texte contenant des entités nommées
texte = '''L'entreprise LVMH, basée à Paris, a annoncé une collaboration avec la société Apple.
Le directeur financier, Jean Dupont, a révélé que l'accord serait signé à la fin de l'année 2022.
Les produits issus de ce partenariat seront disponibles dans les magasins de New York, Londres et Tokyo dès janvier 2023.

En parallèle, une nouvelle boutique sera ouverte à Lyon en mai 2023.'''

# Analyse du texte avec spaCy
doc = nlp(texte)

# Extraction des entités nommées
for ent in doc.ents:
    print(f"Entité : {ent.text}, Label : {ent.label_}")

Entité : LVMH, Label : ORG
Entité : Paris, Label : LOC
Entité : Apple, Label : ORG
Entité : Jean Dupont, Label : PER
Entité : Les, Label : LOC
Entité : New York, Label : LOC
Entité : Londres, Label : LOC
Entité : Tokyo, Label : LOC
Entité : Lyon, Label : LOC


## **Partie 3 : Lemmatisation et Stemming**

### Objectif
Cette partie a pour objectif d'explorer la **lemmatisation** et le **stemming** à l'aide de `NLTK` et `spaCy`. La lemmatisation consiste à réduire les mots à leur forme canonique (lemmes), tandis que le stemming réduit les mots à leur racine.

---

### Contexte
La **lemmatisation** et le **stemming** sont deux techniques utilisées pour normaliser les mots. La lemmatisation renvoie à la forme de base d'un mot (comme le verbe à l'infinitif), tandis que le stemming réduit les mots à une racine commune, souvent en supprimant les suffixes. Ces techniques sont essentielles pour réduire la variabilité linguistique.

---

### Consignes

1. Utilisez `spaCy` pour lemmatiser les mots dans un texte.
2. Utilisez `NLTK` pour effectuer la lemmatisation et le stemming.
3. Comparez les résultats des deux méthodes, en observant leurs différences.

---

In [None]:
from nltk.stem import WordNetLemmatizer
from nltk.stem.snowball import FrenchStemmer


# Télécharger le modèle nécessaire pour la lemmatisation avec NLTK
nltk.download('wordnet')

# Texte en français
texte = "Les enfants jouent dans le jardin. Ils couraient hier et iront à l'école demain."

# Lemmatisation avec spaCy
nlp = spacy.load("fr_core_news_sm")
doc = nlp(texte)
spacy_lemmas = [token.lemma_ for token in doc]
print("Lemmatisation avec spaCy :", spacy_lemmas)

# Lemmatisation avec NLTK (WordNet Lemmatizer)
lemmatizer = WordNetLemmatizer()
nltk_tokens = nltk.word_tokenize(texte)
nltk_lemmas = [lemmatizer.lemmatize(token) for token in nltk_tokens]
print("Lemmatisation avec NLTK :", nltk_lemmas)  # NLTK ne fonctionne qu'avec l'anglais

# Stemming avec NLTK (French Stemmer)
stemmer = FrenchStemmer()
nltk_stems = [stemmer.stem(token) for token in nltk_tokens]
print("Stemming avec NLTK :", nltk_stems)

[nltk_data] Downloading package wordnet to /root/nltk_data...


Lemmatisation avec spaCy : ['le', 'enfant', 'jouent', 'dans', 'le', 'jardin', '.', 'il', 'courir', 'hier', 'et', 'aller', 'à', 'le', 'école', 'demain', '.']
Lemmatisation avec NLTK : ['Les', 'enfants', 'jouent', 'dans', 'le', 'jardin', '.', 'Ils', 'couraient', 'hier', 'et', 'iront', 'à', "l'école", 'demain', '.']
Stemming avec NLTK : ['le', 'enfant', 'jouent', 'dan', 'le', 'jardin', '.', 'il', 'cour', 'hi', 'et', 'iront', 'à', "l'écol", 'demain', '.']
