**TOKENISATION**

Processus de rupture d'un flux de contenu textuel : mots, termes, symboles ou autres éléments significatifs

In [1]:
from os.path import join

import nltk, os

# Lecture du fichier de base dans une variable brut
base_file = open(os.getcwd()+ "/texte.txt")
text = base_file.read()
base_file.close()

# Extraction des tokens
token_list = nltk.word_tokenize(text)
print("Liste de  tokens : ", token_list[:20])
print("Total tokens : ", len(token_list))

Liste de  tokens :  ['Si', 'vous', 'vous', 'intéressez', 'au', 'big', 'data', ',', 'vous', 'connaissez', 'certainement', 'Apache', 'Spark', '.', 'Savez-vous', 'pourquoi', 'Spark', 'est', 'le', 'framework']
Total tokens :  95


**NETTOYAGE DU TEXTE**

Suppression des ponctuations et conversion en minuscules

In [2]:
# Utilisation de la bibliothèque punkt pour extraire les jetons
token_list2 = list(filter(lambda token: nltk.tokenize.punkt.PunktToken(token).is_non_punct, token_list))
print("Liste des tokens après suppression de la ponctuation : ", token_list2[:20])
print("Total tokens après suppression de la ponctuation : ", len(token_list2))

Liste des tokens après suppression de la ponctuation :  ['Si', 'vous', 'vous', 'intéressez', 'au', 'big', 'data', 'vous', 'connaissez', 'certainement', 'Apache', 'Spark', 'Savez-vous', 'pourquoi', 'Spark', 'est', 'le', 'framework', 'de', 'prédilection']
Total tokens après suppression de la ponctuation :  87


**Conversion en minuscule**

In [3]:
token_list3 = [word.lower() for word in token_list2]
print("Liste des tokens après conversion en minuscule : ", token_list3[:20])
print("Total tokens après conversion en minuscule : ", len(token_list3))

Liste des tokens après conversion en minuscule :  ['si', 'vous', 'vous', 'intéressez', 'au', 'big', 'data', 'vous', 'connaissez', 'certainement', 'apache', 'spark', 'savez-vous', 'pourquoi', 'spark', 'est', 'le', 'framework', 'de', 'prédilection']
Total tokens après conversion en minuscule :  87


**Suppression des mots vides**

Les mots vides (stopwords) sont des mots très fréquents dans une langue qui portent peu ou pas de sens sémantique dans le contexte d'analyse textuelle.

**Caractéristiques des mots vides :**
- Fréquence très élevée : "le", "la", "les", "de", "des", "un", "une"
- Peu de valeur sémantique : "et", "ou", "mais", "donc", "or", "ni", "car"

**Catégories de mots vides (en français)**
- Articles : le, la, les, un, une, des
- Pronoms : je, tu, il, elle, nous, vous, ils
- Prépositions : à, de, dans, par, pour, sur, avec
- Conjonctions : et, ou, mais, donc, car, comme
- Auxiliaires : être, avoir, aller
- Adverbes courants	: très, plus, aussi, bien, là

Les mots importants (sémantiques) sont conservés. Le sens général est préservé.

In [None]:
nltk.download('stopwords', quiet=True)
from nltk.corpus import stopwords

# Suppression des mots vides
token_list4 = list(filter(lambda token: token not in stopwords.words('french'), token_list3))
print("Liste des tokens après suppression des mots vides : ", token_list4[:20])
print("Total tokens après suppression des mots vides : ", len(token_list4))

**STEMMING (RACINISATION)**

Le stemming (ou racinisation en français) est une technique qui réduit un mot à sa forme racine en supprimant ses affixes (préfixes, suffixes).

Exemple :

- marchant → march
- marché → march
- marchait → march
- marcher → march

Toutes ces formes renvoient à la même racine : "march"

In [11]:
# Utilisation de la bibliothèque SnowballStemmer pour la radicalisation
from nltk.stem import SnowballStemmer
stemmer = SnowballStemmer('french')

token_list5 = [stemmer.stem(word) for word in token_list4]

print("Liste des tokens après le stemming : ", token_list5[:20], "\n")
print("Total tokens après le stemming : ", len(token_list5))

Liste des tokens après le stemming :  ['si', 'intéress', 'big', 'dat', 'connaiss', 'certain', 'apach', 'spark', 'savez-vous', 'pourquoi', 'spark', 'framework', 'prédilect', 'trait', 'don', 'massiv', 'pourquoi', 'est-il', 'aut', 'appréci'] 

Total tokens après le stemming :  54


**LEMMATISATION**

La lemmatisation est le processus qui transforme un mot en sa forme canonique (le lemme) en tenant compte de son contexte grammatical.

Exemple :

- étaient → être
- suis → être
- serai → être

Toutes ces formes renvoient au lemme : "être"

In [12]:
nltk.download("wordnet", quiet=True)
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()
token_list6 = [lemmatizer.lemmatize(word) for word in token_list4]
print("Liste des tokens après lemmatisation : ", token_list6[:20], "\n")
print("Total tokens après lemmatisation : ", len(token_list6))

Liste des tokens après lemmatisation :  ['si', 'intéressez', 'big', 'data', 'connaissez', 'certainement', 'apache', 'spark', 'savez-vous', 'pourquoi', 'spark', 'framework', 'prédilection', 'traitement', 'données', 'massif', 'pourquoi', 'est-il', 'autant', 'apprécié'] 

Total tokens après lemmatisation :  54


**Comparaison STEMMING ET LEMMATISATION**

In [15]:
print("Raw : ", token_list4[20]," , Stemmed : ", token_list5[20]," , Lemmatized : ", token_list6[20])

Raw :  notamment  , Stemmed :  not  , Lemmatized :  notamment


### **LEMMATISATION EN FRANÇAIS**

In [20]:
import spacy
from spacy_lefff import LefffLemmatizer
from spacy.language import Language

# def create_french_lemmatizer(nlp, name):
#     lemmatizer = LefffLemmatizer()
#     return lemmatizer

nlp = spacy.load('fr_core_news_sm')
doc = nlp(" ".join(token_list4))
for d in doc:
    print(d.text, d.lemma_)

si si
intéressez intéresser
big big
data dater
connaissez connaître
certainement certainement
apache apache
spark spark
savez savoir
-vous vous
pourquoi pourquoi
spark spark
framework framework
prédilection prédilection
traitement traitemer
données donner
massives massif
pourquoi pourquoi
est être
-il il
autant autant
apprécié apprécier
notamment notamment
déployer déployer
algorithmes algorithme
machine machine
learning learning
découvrez découvrir
cours cours
apache apache
pyspark pyspark
répondre répondre
toutes tout
questions question
travers traver
multiples multiple
exemples exemple
mises mettre
pratique pratique
professeur professeur
associé associer
technologies technologier
l' le
information information
techniques technique
d' de
optimisation optimisation
donne donne
toutes tout
clés clé
analyser analyser
efficacement efficacement
données donnée
grande grand
échelle échelle
apache apache
spark spark
python python
