In [1]:
import re

### Tokenization

In [2]:
txt = "Souffrez qu'Amour cette nuit vous réveille. Par mes soupirs laissez-vous enflammer. Vous dormez trop, adorable merveille. Car c'est dormir que de ne point aimer."

# Tokenization d'un paragraphe en phrases
from nltk.tokenize import PunktSentenceTokenizer
tokenizer = PunktSentenceTokenizer()
print(tokenizer.tokenize(txt))

["Souffrez qu'Amour cette nuit vous réveille.", 'Par mes soupirs laissez-vous enflammer.', 'Vous dormez trop, adorable merveille.', "Car c'est dormir que de ne point aimer."]


In [3]:
# Tokenization d'une phrase en mots
import nltk
from nltk.tokenize import word_tokenize
nltk.download('punkt_tab')

mots = word_tokenize(txt, language = 'french')
print(mots)

['Souffrez', "qu'Amour", 'cette', 'nuit', 'vous', 'réveille', '.', 'Par', 'mes', 'soupirs', 'laissez-vous', 'enflammer', '.', 'Vous', 'dormez', 'trop', ',', 'adorable', 'merveille', '.', 'Car', "c'est", 'dormir', 'que', 'de', 'ne', 'point', 'aimer', '.']


[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\maxbe\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


In [4]:
# Tokenisation personnalisée : on ne conserve que les mots de 4 caractères ou plus
from nltk.tokenize.regexp import RegexpTokenizer
tokenizer = RegexpTokenizer(r"\w{4,}")
tokens = tokenizer.tokenize(txt)

print(tokens)

['Souffrez', 'Amour', 'cette', 'nuit', 'vous', 'réveille', 'soupirs', 'laissez', 'vous', 'enflammer', 'Vous', 'dormez', 'trop', 'adorable', 'merveille', 'dormir', 'point', 'aimer']


### Filtrage des stop words

In [5]:
# Importer stopwords de la classe nltk.corpus
from nltk.corpus import stopwords

# Initialiser la liste des stopwords
stop_words = set(stopwords.words('french'))
print(stop_words)

{'eues', 'le', 'êtes', 'serai', 'étiez', 'aviez', 'me', 'avec', 'étaient', 'serait', 'étées', 'sois', 'm', 'j', 'nos', 'serons', 'même', 'l', 'ayants', 'ayons', 'eût', 'aient', 'eusses', 'était', 'ses', 'se', 'son', 'qu', 'ayante', 'dans', 'soyons', 'fût', 'étants', 'fusse', 'fûtes', 'on', 'serions', 'eue', 'au', 'ou', 'sera', 'furent', 'eusse', 'eûmes', 'auront', 'étant', 'ayant', 'aurions', 'étantes', 'ils', 'avais', 'avait', 'fûmes', 'aura', 'est', 'fussions', 'c', 'suis', 'je', 'sont', 'leur', 'par', 'seront', 'aurons', 'fussent', 'ton', 'avaient', 'pas', 'ne', 'il', 'qui', 'fut', 'avions', 'seriez', 'eussent', 'eus', 'nous', 'de', 'étante', 'aurez', 'seras', 'soyez', 'étions', 'aurai', 'ai', 'tes', 'ont', 'soient', 'étée', 'ayez', 'aux', 'seraient', 'n', 'fussiez', 'auras', 'aurais', 'avons', 'étais', 'fus', 'tu', 'sommes', 'moi', 'à', 'eurent', 'mais', 'sur', 'étés', 'ce', 'une', 'votre', 'ces', 'serais', 'eussiez', 'la', 'aurait', 'en', 'et', 'serez', 'notre', 'sa', 'les', 'mon'

In [6]:
# Enrichir la liste des stopwords
stop_words.update([".",","])

# Fonction de retrait des stopwords d'une liste de mots
def stop_words_filtering(words):
    return ([x for x in words if x not in stop_words])

# Suppression des stopwords du texte tokenisé en mots
mots_without_stopwords = stop_words_filtering(mots)
print(mots_without_stopwords)

['Souffrez', "qu'Amour", 'cette', 'nuit', 'réveille', 'Par', 'soupirs', 'laissez-vous', 'enflammer', 'Vous', 'dormez', 'trop', 'adorable', 'merveille', 'Car', "c'est", 'dormir', 'point', 'aimer']


### Vectorisation Bag of Words (après tokenisation et retrait des stopwords)

Rmq : La vectorisation intègre une tokenisation, une mise en minuscule et un retrait de ponctuation par défaut

In [7]:
# Count Vectorizer
from  sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
tokens_vect = vectorizer.fit_transform(tokens)
print ("Vocabulaire :")
print (vectorizer.vocabulary_)
print ("Word of Bags :")
print (tokens_vect.toarray())

Vocabulaire :
{'souffrez': 12, 'amour': 2, 'cette': 3, 'nuit': 9, 'vous': 15, 'réveille': 11, 'soupirs': 13, 'laissez': 7, 'enflammer': 6, 'dormez': 4, 'trop': 14, 'adorable': 0, 'merveille': 8, 'dormir': 5, 'point': 10, 'aimer': 1}
Word of Bags :
[[0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0]
 [0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1]
 [0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0]
 [0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1]
 [0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1]
 [0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0]
 [1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0]
 [0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0]
 [0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0]]


In [8]:
# Autre exemple
print (vectorizer.transform(["laissez-vous enflammer, demoiselle","dormez vous cette nuit, vous ?"]).toarray())

[[0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 1]
 [0 0 0 1 1 0 0 0 0 1 0 0 0 0 0 2]]


In [9]:
# TF-IDF
from  sklearn.feature_extraction.text import TfidfVectorizer
vectorizer_tfidf = TfidfVectorizer()
tokens_vect = vectorizer_tfidf.fit_transform(tokens)
print ("Vocabulaire :")
print (vectorizer_tfidf.vocabulary_)
print ("Word of Bags :")
print (tokens_vect.toarray())

Vocabulaire :
{'souffrez': 12, 'amour': 2, 'cette': 3, 'nuit': 9, 'vous': 15, 'réveille': 11, 'soupirs': 13, 'laissez': 7, 'enflammer': 6, 'dormez': 4, 'trop': 14, 'adorable': 0, 'merveille': 8, 'dormir': 5, 'point': 10, 'aimer': 1}
Word of Bags :
[[0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0.]
 [1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 

In [10]:
# Autre exemple
print (vectorizer_tfidf.transform(["laissez-vous enflammer, demoiselle","dormez vous cette nuit, vous ?"]).toarray())

[[0.         0.         0.         0.         0.         0.
  0.61791199 0.61791199 0.         0.         0.         0.
  0.         0.         0.         0.48617852]
 [0.         0.         0.         0.42732422 0.42732422 0.
  0.         0.         0.         0.42732422 0.         0.
  0.         0.         0.         0.67244482]]


### Racinisation

In [None]:
from nltk.stem.snowball import FrenchStemmer
stemmer = FrenchStemmer()

print(stemmer.stem('sérieusement'))

sérieux


In [12]:
def stemming(mots):
    stemmer = FrenchStemmer()
    mots_racines = [stemmer.stem(mot) for mot in mots]
    return (list(set(mots_racines)))

print(stemming(tokens))

['vous', 'merveil', 'dorm', 'soupir', 'enflamm', 'cet', 'nuit', 'trop', 'ador', 'réveil', 'point', 'aim', 'souffr', 'amour', 'laiss']


### Lemmatisation

In [14]:
from nltk.stem import WordNetLemmatizer
nltk.download('wordnet')
wordnet_lemmatizer = WordNetLemmatizer()

#Calculer le lemme du mot meeting
wordnet_lemmatizer.lemmatize('meeting', pos='v'), wordnet_lemmatizer.lemmatize('meeting', pos='n')

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\maxbe\AppData\Roaming\nltk_data...


('meet', 'meeting')