# TP 1 - Prétraitement (NLP)

L'objectif de ce TP est d'implémenter quelques techniques de prétraitement sur des textes standard : Tokenisation, Stemming, Lemmatisation, Stopwords, et N-grams.

## 1. Tokenisation

In [None]:
# Importer la libraire python pour faire la tokenisation
import nltk
nltk.download('punkt')
nltk.download('punkt_tab')

# Introduire un texte en anglais
text = "Backgammon is one of the oldest known board games. Its history can be traced back nearly 5,000 years to archeological discoveries in the Middle East. It is a two-player game where each player has fifteen checkers which move between twenty-four points according to the roll of two dice."

print(text)

In [None]:
# Tokenisation des phrases (séparées par un point)
sentences = nltk.sent_tokenize(text)
for sentence in sentences:
    print(sentence)
    print()

In [None]:
# Tokenisation des mots (séparés par un espace)
for sentence in sentences:
    words = nltk.word_tokenize(sentence)
    print(words)
    print()

### Question :
Prenez un texte aléatoire en Français et faites le même process de tokenisation avec un point et un espace.

In [None]:
text_fr = "L'intelligence artificielle est un domaine en pleine expansion. Elle transforme de nombreux secteurs d'activité. C'est fascinant !"

# Tokenisation des phrases
sentences_fr = nltk.sent_tokenize(text_fr, language='french')
print("--- Phrases (Français) ---")
for s in sentences_fr:
    print(s)

print()

# Tokenisation des mots
print("--- Mots (Français) ---")
for s in sentences_fr:
    print(nltk.word_tokenize(s, language='french'))

## 2. Lemmatisation et Stemming

In [None]:
# Importer les librairies
from nltk.stem import PorterStemmer, WordNetLemmatizer
from nltk.corpus import wordnet

nltk.download('wordnet')
nltk.download('omw-1.4')

# Initialiser stemmer et lemmatizer
stemmer = PorterStemmer()
lemmatizer = WordNetLemmatizer()

# Fonction pour comparer
def compare_stemmer_and_lemmatizer(stemmer, lemmatizer, word, pos):
    print("Stemmer:", stemmer.stem(word))
    print("Lemmatizer:", lemmatizer.lemmatize(word, pos))
    print()

In [None]:
# Essayer quelques mots en anglais
compare_stemmer_and_lemmatizer(stemmer, lemmatizer, "seen", wordnet.VERB)
compare_stemmer_and_lemmatizer(stemmer, lemmatizer, "drove", wordnet.VERB)

# Qu’est qui se passe si l’on fait une erreur de frappe sur un mot ?
compare_stemmer_and_lemmatizer(stemmer, lemmatizer, "increible", wordnet.ADJ)

# Mot qui change de sens ou de forme
compare_stemmer_and_lemmatizer(stemmer, lemmatizer, "better", wordnet.ADJ)

## 3. Stopwords

In [None]:
# Importer la librairie nécessaire
from nltk.corpus import stopwords
nltk.download('stopwords')

# Visualiser les stopwords en français et en anglais
print(f"Stopwords anglais (tête): {stopwords.words('english')[:10]}")
print(f"Stopwords français (tête): {stopwords.words('french')[:10]}")

In [None]:
# Appliquer la fonction stopwords a une phrase en anglais
stop_words_en = set(stopwords.words("english"))
sentence_en = "Backgammon is one of the oldest known board games."

words_en = nltk.word_tokenize(sentence_en)
without_stop_words_en = [word for word in words_en if not word.lower() in stop_words_en]

print(f"Original: {sentence_en}")
print(f"Sans stopwords: {without_stop_words_en}")

In [None]:
# Appliquer la fonction stopwords a une phrase en français
stop_words_fr = set(stopwords.words("french"))
sentence_fr = "Dans cet article, je vais passer en revue la majorité des principaux modèles de Machine Learning"

words_fr = nltk.word_tokenize(sentence_fr, language='french')
without_stop_words_fr = [word for word in words_fr if not word.lower() in stop_words_fr]

print(f"Original: {sentence_fr}")
print(f"Sans stopwords: {without_stop_words_fr}")

## 4. N-gram

In [None]:
# Importer la librairie pour appliquer N-gram
from nltk.util import ngrams

# Fonction pour générer n-grams
def extract_ngrams(data, num):
    n_grams = ngrams(nltk.word_tokenize(data), num)
    return [ ' '.join(grams) for grams in n_grams]

data = 'A class is a blueprint for the object. Backgammon is one of the oldest known board games.'

print("1-gram:", extract_ngrams(data, 1))
print("2-gram:", extract_ngrams(data, 2))
print("3-gram:", extract_ngrams(data, 3))

## 5. Analyse fréquentielle

In [None]:
import nltk
nltk.download('gutenberg')
nltk.download('webtext')
from nltk.probability import FreqDist

# Utilisation du corpus gutenberg (Emma de Jane Austen)
nltk.download('gutenberg')
words = nltk.corpus.gutenberg.words('austen-emma.txt')

# Distribution de fréquence
data_analysis = FreqDist(words)

# Mots avec fréquence > 3
filter_words = dict([(m, n) for m, n in data_analysis.items() if len(m) > 3])

print("Nombre de mots total:", len(words))
print("Nombre de mots uniques:", len(data_analysis))

# Afficher les 10 mots les plus fréquents (de plus de 3 lettres)
# Note: On trie le dictionnaire filtré pour l'affichage
sorted_filter_words = sorted(filter_words.items(), key=lambda x: x[1], reverse=True)
print("Top 10 mots fréquents (> 3 lettres):", sorted_filter_words[:10])

# Visualisation
data_analysis.plot(25, cumulative=False)