# TP 1 - Pratique du NLP

# Partie 1 — Préparation de l’environnement

In [1]:
#Importation de bibliothèques

import nltk
import spacy
import sklearn
import re
import string
#from collections import Counter
import pandas as pd

print("Bibliothèques importées avec succès!")

#Téléchargement de ressources NLTK

nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')
nltk.download('averaged_perceptron_tagger')
nltk.download('punkt_tab')

print("Ressources NLTK téléchargées!")

# Chargement des composants NLTK

from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
from nltk import pos_tag

print("Composants importés avec succès!")

Bibliothèques importées avec succès!


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\hp\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\hp\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\hp\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\hp\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\hp\AppData\Roaming\nltk_data...


Ressources NLTK téléchargées!
Composants importés avec succès!


[nltk_data]   Package punkt_tab is already up-to-date!


# Réponses aux questions :
    
## 1. Commande pip pour installer une bibliothèque :

###  pip install nom_bibliotheque

## 2. Différence entre nltk et spaCy :

### NLTK : plus pédagogique et modulairee

### spaCy : optimisé pour la production et l’analyse rapide

# Partie 2 — Nettoyage du texte

In [2]:
text = """
Le Natural Language Processing (NLP) est véritablement FASCINANT ! 
Il permet aux machines de COMPRENDRE le langage humain complexe.
Les modèles comme BERT, GPT-4, etc., révolutionnent l'Intelligence Artificielle.
N'oublions pas les accents : été, hôtel, naïve. C'est incroyable !
"""
print("TEXTE ORIGINAL:")
text

TEXTE ORIGINAL:


"\nLe Natural Language Processing (NLP) est véritablement FASCINANT ! \nIl permet aux machines de COMPRENDRE le langage humain complexe.\nLes modèles comme BERT, GPT-4, etc., révolutionnent l'Intelligence Artificielle.\nN'oublions pas les accents : été, hôtel, naïve. C'est incroyable !\n"

In [3]:
text_min = text.lower()
print("TEXTE EN MINISCULES:")
text_min


TEXTE EN MINISCULES:


"\nle natural language processing (nlp) est véritablement fascinant ! \nil permet aux machines de comprendre le langage humain complexe.\nles modèles comme bert, gpt-4, etc., révolutionnent l'intelligence artificielle.\nn'oublions pas les accents : été, hôtel, naïve. c'est incroyable !\n"

In [4]:

# Suppression de la ponctuation
def nettoyer_texte(texte):
    # Supprimer la ponctuation
    texte = re.sub(r'[^\w\s]', ' ', texte)
    # Supprimer les espaces multiples
    texte = re.sub(r'\s+', ' ', texte)
    return texte.strip()

text_propre = nettoyer_texte(text_min)
print("TEXTE NETTOYE:")
print(text_propre)

TEXTE NETTOYE:
le natural language processing nlp est véritablement fascinant il permet aux machines de comprendre le langage humain complexe les modèles comme bert gpt 4 etc révolutionnent l intelligence artificielle n oublions pas les accents été hôtel naïve c est incroyable


# Réponses aux questions :
    
## Pourquoi est-il important de mettre le texte en minuscules ?

* Évite la duplication (ex: 'Chat' et 'chat')
* Uniformise le texte pour l'analyse
* Améliore la performance des modèles

# Partie 3 — Tokenisation et Stopwords

In [5]:
# Tokenisation avec NLTK
tokens = word_tokenize(text_propre)

# Récupération des stopwords français
stop_words = set(stopwords.words('french'))

# Filtrage des stopwords
tokens_filtres = [w for w in tokens if w not in stop_words]
tokens_filtres

['natural',
 'language',
 'processing',
 'nlp',
 'véritablement',
 'fascinant',
 'permet',
 'machines',
 'comprendre',
 'langage',
 'humain',
 'complexe',
 'modèles',
 'comme',
 'bert',
 'gpt',
 '4',
 'etc',
 'révolutionnent',
 'intelligence',
 'artificielle',
 'oublions',
 'accents',
 'hôtel',
 'naïve',
 'incroyable']

In [6]:
# Ajout d'un mot personnalisé aux stopwords
stop_words.add('comme')
tokens_filtres = [w for w in tokens if w not in stop_words]
tokens_filtres

['natural',
 'language',
 'processing',
 'nlp',
 'véritablement',
 'fascinant',
 'permet',
 'machines',
 'comprendre',
 'langage',
 'humain',
 'complexe',
 'modèles',
 'bert',
 'gpt',
 '4',
 'etc',
 'révolutionnent',
 'intelligence',
 'artificielle',
 'oublions',
 'accents',
 'hôtel',
 'naïve',
 'incroyable']

In [7]:
# Analyse quantitative
mots_alpha = [token for token in tokens if token.isalpha()]
pourcentage_supprime = (len(mots_alpha) - len(tokens_filtres)) / len(mots_alpha) * 100

print("ANALYSE QUANTITATIVE:")
print(f"Nombre de mots originaux: {len(mots_alpha)}")
print(f"Nombre de mots après filtrage: {len(tokens_filtres)}")
print(f"Proportion supprimée: {pourcentage_supprime:.1f}%")

ANALYSE QUANTITATIVE:
Nombre de mots originaux: 39
Nombre de mots après filtrage: 25
Proportion supprimée: 35.9%


# Réponses aux questions :
    
## Que représentent les stopwords ?

Mots très fréquents mais peu informatifs

## Quelle proportion du texte original est supprimée après leur retrait ?

La proportion supprimée est: 35.9%

# Partie 4 — Lemmatisation


In [8]:

nlp = spacy.load("fr_core_news_sm")
doc = nlp(" ".join(tokens_filtres))
lemmatized_tokens = [token.lemma_ for token in doc]
lemmatized_tokens

['natural',
 'languag',
 'processing',
 'nlp',
 'véritablement',
 'fasciner',
 'permettre',
 'machine',
 'comprendre',
 'langage',
 'humain',
 'complexe',
 'modèle',
 'bert',
 'gpt',
 '4',
 'etc',
 'révolutionner',
 'intelligence',
 'artificiel',
 'oublion',
 'accent',
 'hôtel',
 'naïf',
 'incroyable']

# Réponses aux questions :
    
## Quelle est la différence entre stemming et lemmatisation ?

* Stemming: réduction radicale ('running' → 'run', 'better' → 'bet')
* Lemmatisation: forme canonique ('running' → 'run', 'better' → 'good')

## Pourquoi cette étape est-elle importante avant l’analyse sémantique ?

* Regroupe les formes variées d'un même concept
* Réduit la dimensionnalité des données
* Améliore la représentation sémantique