In [25]:
import nltk
from nltk.tokenize import sent_tokenize, word_tokenize
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer, WordNetLemmatizer
from nltk.stem.snowball import FrenchStemmer
from nltk import pos_tag
from textblob import TextBlob

In [12]:
# Télécharger les ressources nécessaires
nltk.download('punkt')  # Tokenizer pour les phrases et les mots
nltk.download('averaged_perceptron_tagger')  # Tagger pour le Part-of-Speech (POS) tagging
nltk.download('wordnet')  # Base de données lexicales pour le WordNet
nltk.download('stopwords')  # Liste de mots vides (stop words)

[nltk_data] Downloading package punkt to /home/dhrions/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /home/dhrions/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package wordnet to /home/dhrions/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     /home/dhrions/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [13]:
demain_des_aube = """
Demain, dès l’aube, à l’heure où blanchit la campagne,
Je partirai. Vois-tu, je sais que tu m’attends.
J’irai par la forêt, j’irai par la montagne.
Je ne puis demeurer loin de toi plus longtemps.

Je marcherai les yeux fixés sur mes pensées,
Sans rien voir au dehors, sans entendre aucun bruit,
Seul, inconnu, le dos courbé, les mains croisées,
Triste, et le jour pour moi sera comme la nuit.

Je ne regarderai ni l’or du soir qui tombe,
Ni les voiles au loin descendant vers Harfleur,
Et quand j’arriverai, je mettrai sur ta tombe
Un bouquet de houx vert et de bruyère en fleur.
"""

## Tokenizing

In [16]:
sentences = sent_tokenize(demain_des_aube)

In [15]:
words = nltk.word_tokenize(demain_des_aube)
print(words)

['Demain', ',', 'dès', 'l', '’', 'aube', ',', 'à', 'l', '’', 'heure', 'où', 'blanchit', 'la', 'campagne', ',', 'Je', 'partirai', '.', 'Vois-tu', ',', 'je', 'sais', 'que', 'tu', 'm', '’', 'attends', '.', 'J', '’', 'irai', 'par', 'la', 'forêt', ',', 'j', '’', 'irai', 'par', 'la', 'montagne', '.', 'Je', 'ne', 'puis', 'demeurer', 'loin', 'de', 'toi', 'plus', 'longtemps', '.', 'Je', 'marcherai', 'les', 'yeux', 'fixés', 'sur', 'mes', 'pensées', ',', 'Sans', 'rien', 'voir', 'au', 'dehors', ',', 'sans', 'entendre', 'aucun', 'bruit', ',', 'Seul', ',', 'inconnu', ',', 'le', 'dos', 'courbé', ',', 'les', 'mains', 'croisées', ',', 'Triste', ',', 'et', 'le', 'jour', 'pour', 'moi', 'sera', 'comme', 'la', 'nuit', '.', 'Je', 'ne', 'regarderai', 'ni', 'l', '’', 'or', 'du', 'soir', 'qui', 'tombe', ',', 'Ni', 'les', 'voiles', 'au', 'loin', 'descendant', 'vers', 'Harfleur', ',', 'Et', 'quand', 'j', '’', 'arriverai', ',', 'je', 'mettrai', 'sur', 'ta', 'tombe', 'Un', 'bouquet', 'de', 'houx', 'vert', 'et', 'd

## Filtering

In [17]:
stop_words = set(stopwords.words("french"))

In [19]:
filtered_list = []
for word in words:
    if word.casefold() not in stop_words:
         filtered_list.append(word)

In [20]:
filtered_list

['Demain',
 ',',
 'dès',
 '’',
 'aube',
 ',',
 '’',
 'heure',
 'où',
 'blanchit',
 'campagne',
 ',',
 'partirai',
 '.',
 'Vois-tu',
 ',',
 'sais',
 '’',
 'attends',
 '.',
 '’',
 'irai',
 'forêt',
 ',',
 '’',
 'irai',
 'montagne',
 '.',
 'puis',
 'demeurer',
 'loin',
 'plus',
 'longtemps',
 '.',
 'marcherai',
 'yeux',
 'fixés',
 'pensées',
 ',',
 'Sans',
 'rien',
 'voir',
 'dehors',
 ',',
 'sans',
 'entendre',
 'aucun',
 'bruit',
 ',',
 'Seul',
 ',',
 'inconnu',
 ',',
 'dos',
 'courbé',
 ',',
 'mains',
 'croisées',
 ',',
 'Triste',
 ',',
 'jour',
 'comme',
 'nuit',
 '.',
 'regarderai',
 'ni',
 '’',
 'or',
 'soir',
 'tombe',
 ',',
 'Ni',
 'voiles',
 'loin',
 'descendant',
 'vers',
 'Harfleur',
 ',',
 'quand',
 '’',
 'arriverai',
 ',',
 'mettrai',
 'tombe',
 'bouquet',
 'houx',
 'vert',
 'bruyère',
 'fleur',
 '.']

## Stemming

En français, on parle de « racinisation ».

In [28]:
stemmer = FrenchStemmer()

In [29]:
stemmed_words = [stemmer.stem(word) for word in filtered_list]
stemmed_words

['demain',
 ',',
 'des',
 '’',
 'aub',
 ',',
 '’',
 'heur',
 'où',
 'blanch',
 'campagn',
 ',',
 'part',
 '.',
 'vois-tu',
 ',',
 'sais',
 '’',
 'attend',
 '.',
 '’',
 'irai',
 'forêt',
 ',',
 '’',
 'irai',
 'montagn',
 '.',
 'puis',
 'demeur',
 'loin',
 'plus',
 'longtemp',
 '.',
 'march',
 'yeux',
 'fix',
 'pens',
 ',',
 'san',
 'rien',
 'voir',
 'dehor',
 ',',
 'san',
 'entendr',
 'aucun',
 'bruit',
 ',',
 'seul',
 ',',
 'inconnu',
 ',',
 'dos',
 'courb',
 ',',
 'main',
 'crois',
 ',',
 'trist',
 ',',
 'jour',
 'comm',
 'nuit',
 '.',
 'regard',
 'ni',
 '’',
 'or',
 'soir',
 'tomb',
 ',',
 'ni',
 'voil',
 'loin',
 'descend',
 'ver',
 'harfleur',
 ',',
 'quand',
 '’',
 'arriv',
 ',',
 'mettr',
 'tomb',
 'bouquet',
 'houx',
 'vert',
 'bruyer',
 'fleur',
 '.']