## 03_01 Tokenisation

La tokenisation fait référence à la conversion d'une chaîne de texte en jetons individuels. Les jetons peuvent être des mots ou des ponctuations

In [1]:
import nltk
import os


#Lire le fichier de base dans une variable de texte brut
base_file = open(os.getcwd()+ "/Essentiel-Apache-Spark.txt", 'rt')
raw_text = base_file.read()
base_file.close()

#Extraire des tokens
token_list = nltk.word_tokenize(raw_text)
print("Token List : ",token_list[:20])
print("\n Total Tokens : ",len(token_list))

Token List :  ['Si', 'vous', 'vous', 'intéressez', 'au', 'big', 'data', ',', 'vous', 'connaissez', 'certainement', 'Apache', 'Spark', '.', 'Savez-vous', 'pourquoi', 'Spark', 'est', 'le', 'framework']

 Total Tokens :  95


## 03_02 Nettoyage du texte

Nous verrons des exemples de suppression de ponctuation et de conversion en minuscules

#### Supprimer la ponctuation

In [2]:
#Utiliser la bibliothèque Punkt pour extraire les jetons
token_list2 = list(filter(lambda token: nltk.tokenize.punkt.PunktToken(token).is_non_punct, token_list))
print("Liste des tokens après suppression de la ponctuation : ",token_list2[:20])
print("\nTotal des token après suppression de la ponctuation : ", len(token_list2))

Liste des tokens après suppression de la ponctuation :  ['Si', 'vous', 'vous', 'intéressez', 'au', 'big', 'data', 'vous', 'connaissez', 'certainement', 'Apache', 'Spark', 'Savez-vous', 'pourquoi', 'Spark', 'est', 'le', 'framework', 'de', 'prédilection']

Total des token après suppression de la ponctuation :  87


#### Convertir en minuscules

In [3]:
token_list3=[word.lower() for word in token_list2 ]
print("Liste des tokens après conversion en minuscules : ", token_list3[:20])
print("\nTotal des tokens après conversion en minuscules : ", len(token_list3))

Liste des tokens après conversion en minuscules :  ['si', 'vous', 'vous', 'intéressez', 'au', 'big', 'data', 'vous', 'connaissez', 'certainement', 'apache', 'spark', 'savez-vous', 'pourquoi', 'spark', 'est', 'le', 'framework', 'de', 'prédilection']

Total des tokens après conversion en minuscules :  87


## 03_03 Suppression des mots vides

Suppression des mots vides à l'aide d'une liste de mots vides standard disponible dans NLTK pour l'anglais

In [4]:
#Download the standard stopword list
nltk.download('stopwords')
from nltk.corpus import stopwords

#Remove stopwords
token_list4 = list(filter(lambda token: token not in stopwords.words('french'), token_list3))
print("Liste de tokens après suppression des mots vides : ", token_list4[:20])
print("\nTotal de tokens après suppression des mots vides : ", len(token_list4))

Liste de tokens après suppression des mots vides :  ['si', 'intéressez', 'big', 'data', 'connaissez', 'certainement', 'apache', 'spark', 'savez-vous', 'pourquoi', 'spark', 'framework', 'prédilection', 'traitement', 'données', 'massives', 'pourquoi', 'est-il', 'autant', 'apprécié']

Total de tokens après suppression des mots vides :  54


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\admin\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


## 03_04 Stemming

In [5]:
#Utilisez la bibliothèque SnowballStemmer pour la radicalisation.
from nltk.stem import SnowballStemmer
stemmer = SnowballStemmer("french")

#Stem data
token_list5 = [stemmer.stem(word) for word in token_list4 ]
print("Liste de tokens après le stemming : ", token_list5[:20])
print("\nTotal de tokens après Stemming : ", len(token_list5))

Liste de tokens après le stemming :  ['si', 'intéress', 'big', 'dat', 'connaiss', 'certain', 'apach', 'spark', 'savez-vous', 'pourquoi', 'spark', 'framework', 'prédilect', 'trait', 'don', 'massiv', 'pourquoi', 'est-il', 'aut', 'appréci']

Total de tokens après Stemming :  54


## 03_05 Lemmatisation

In [6]:
#Utilisez la bibliothèque wordnet pour mapper les mots à leur forme lemmatisée
nltk.download('wordnet')
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()
token_list6 = [lemmatizer.lemmatize(word) for word in token_list4 ]
print("Liste de tokens après lemmatisation : ", token_list6[:20])
print("\nTotal des tokens après lemmatisation : ", len(token_list6))

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\admin\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


Liste de tokens après lemmatisation :  ['si', 'intéressez', 'big', 'data', 'connaissez', 'certainement', 'apache', 'spark', 'savez-vous', 'pourquoi', 'spark', 'framework', 'prédilection', 'traitement', 'données', 'massif', 'pourquoi', 'est-il', 'autant', 'apprécié']

Total des tokens après lemmatisation :  54


#### Comparaison des tokens entre stemming et lemmatisation

In [7]:
#Vérifier les technologies de jeton
print( "Raw : ", token_list4[20]," , Stemmed : ", token_list5[20], " , Lemmatized : ", token_list6[20])


Raw :  notamment  , Stemmed :  not  , Lemmatized :  notamment


### Lemmatisation du text en français

In [8]:
# Plus d'information sur ce package : https://github.com/sammous/spacy-lefff


# Pour installer spacy usiliser la commande "pip install spacy"
# Il faut installer le dictionnaire français sur spacy "python -m spacy download fr"
# Pour installer spacy lemmatiser utiliser la commande "pip install spacy-lefff"
import spacy
from spacy.language import Language


nlp = spacy.load('fr_core_news_sm')
# nlp.add_pipe('french_lemmatizer', name='lefff')
doc = nlp(" ".join(token_list4))
for d in doc:
    print(d.text, d.lemma_)

si si
intéressez intéressez
big big
data data
connaissez connaître
certainement certainement
apache apache
spark spark
savez savoir
- -
vous vous
pourquoi pourquoi
spark spark
framework framework
prédilection prédilection
traitement traitement
données donnée
massives massif
pourquoi pourquoi
est-il est-il
autant autant
apprécié apprécier
notamment notamment
déployer déployer
algorithmes algorithme
machine machine
learning learning
découvrez découvrir
cours cours
apache apache
pyspark pyspark
répondre répondre
toutes tout
questions question
travers travers
multiples multiple
exemples exemple
mises mise
pratique pratique
professeur professeur
associé associer
technologies technologie
l' le
information information
techniques technique
d' de
optimisation optimisation
donne donne
toutes tout
clés clé
analyser analyser
efficacement efficacement
données donner
grande grand
échelle échelle
apache apache
spark spark
python python
