L'objectif de cette séquence de code est d'effectuer une analyse lexicale complète sur un texte donné, en utilisant différentes techniques de traitement du langage naturel. Les objectifs spécifiques incluent la tokenization, la suppression de la ponctuation, la conversion en minuscules, la suppression des mots vides, la radicalisation et la lemmatisation des mots. L'objectif global est d'obtenir une représentation plus simplifiée et normalisée du texte, facilitant ainsi les tâches ultérieures telles que l'analyse de sentiments, la classification de texte ou la recherche d'informations

Lecture et affichage du contenu d'un fichier texte avec Python

In [None]:
import os

# Importer le module os pour travailler avec le système d'exploitation

# Ouvrir le fichier "Essentiel-Apache-Spark.txt" en mode lecture à partir du chemin absolu du répertoire de travail
with open(os.getcwd() + "/Essentiel-Apache-Spark.txt", 'r') as fh:
    # Lire le contenu du fichier et le stocker dans la variable "filedata"
    filedata = fh.read()

# Afficher les 200 premiers caractères du contenu du fichier
print("Données lues à partir du fichier:", filedata[:200])



Données lues à partir du fichier: Si vous vous intéressez au big data, vous connaissez certainement Apache Spark. Savez-vous pourquoi Spark est le framework de prédilection pour le traitement de données massives ? Pourquoi est-il auta


Lecture et affichage du contenu d'un fichier texte en utilisant NLTK

In [None]:
import nltk
nltk.download('punkt')
from nltk.corpus.reader.plaintext import PlaintextCorpusReader

#Lire le fichier dans un corpus . La mème commande peut lire un répertoire entier
corpus = PlaintextCorpusReader(os.getcwd(), "Essentiel-Apache-Spark.txt")

#afficher le contenu brut du corpus
print(corpus.raw())


Si vous vous intéressez au big data, vous connaissez certainement Apache Spark. Savez-vous pourquoi Spark est le framework de prédilection pour le traitement de données massives ? Pourquoi est-il autant apprécié notamment pour déployer les algorithmes de machine learning ? Découvrez ce cours sur Apache PySpark pour répondre à toutes vos questions. À travers de multiples exemples et mises en pratique, le professeur associé en technologies de l'information et techniques d'optimisation, vous donne toutes les clés pour analyser efficacement des données à grande échelle avec Apache Spark et Python.


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


Extraction d'informations à partir d'un corpus texte avec NLTK

In [None]:
# Extract the file IDs from the corpus.
file_ids = corpus.fileids()
print("Fichiers dans le corpus:", file_ids)

# Extract the paragraphs from the corpus.
paragraphs = corpus.paras()
print("\n Nombre total de paragraphes dans le corpus:", len(paragraphs))

# Extract the sentences from the corpus.
sentences = corpus.sents()
print("\n Nombre total de phrases dans le corpus:", len(sentences))
print("\n Première phrase : ",sentences[0])

# Extract the words from the corpus.
words = corpus.words()
print("\n Nombre total de mots dans le corpus:", len(words))


Fichiers dans le corpus: ['Essentiel-Apache-Spark.txt']

 Nombre total de paragraphes dans le corpus: 1

 Nombre total de phrases dans le corpus: 5

 Première phrase :  ['Si', 'vous', 'vous', 'intéressez', 'au', 'big', 'data', ',', 'vous', 'connaissez', 'certainement', 'Apache', 'Spark', '.']

 Nombre total de mots dans le corpus: 103


Analyse de la distribution des mots dans un corpus texte avec NLTK

In [None]:
#Trouver la distrubition de fréquence des mots dans le corpus
course_freq_dist=nltk.FreqDist(corpus.words())

#afficher les mots les plus courament utilisés
print("Top 10 des mots du corpus :", course_freq_dist.most_common(10))

#afficher les mots les plus courament utilisés
print("\n Distrubution pour le mots Spark :", course_freq_dist.get("Spark"))

Top 10 des mots du corpus : [('vous', 5), ('de', 5), ('pour', 4), (',', 3), ('Apache', 3), ('Spark', 3), ('.', 3), ('le', 3), ('et', 3), ('-', 2)]

 Distrubution pour le mots Spark : 3


Tokenization et comptage des mots dans un texte avec NLTK

In [None]:
import nltk
import os
#télecharger le package punkt , utilisé une partie des autres comandes
nltk.download('punkt')
#Lire le fichier des base dans une variable de texte brut
base_file= open(os.getcwd()+"/Essentiel-Apache-Spark.txt",'rt')
raw_text=base_file.read()
base_file.close()

#Extraire des tokens
token_list = nltk.word_tokenize(raw_text)
print("Token List :",token_list[:20])
print("\ Total Tokens : ",len(token_list))

Token List : ['Si', 'vous', 'vous', 'intéressez', 'au', 'big', 'data', ',', 'vous', 'connaissez', 'certainement', 'Apache', 'Spark', '.', 'Savez-vous', 'pourquoi', 'Spark', 'est', 'le', 'framework']
\ Total Tokens :  95


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


Suppression de la ponctuation dans les tokens d'un texte avec NLTK

In [None]:
# Télécharger le package 'punkt' de NLTK
nltk.download('punkt')

# Utiliser la bibliothèque 'punkt' pour extraire les jetons sans ponctuation
token_list2 = list(filter(lambda token: nltk.tokenize.punkt.PunktToken(token).is_non_punct, token_list))

print("Liste des tokens après suppression de la ponctuation :", token_list2[:20])
print("Total des tokens après suppression de la ponctuation :", len(token_list2))

Liste des tokens après suppression de la ponctuation : ['Si', 'vous', 'vous', 'intéressez', 'au', 'big', 'data', 'vous', 'connaissez', 'certainement', 'Apache', 'Spark', 'Savez-vous', 'pourquoi', 'Spark', 'est', 'le', 'framework', 'de', 'prédilection']
Total des tokens après suppression de la ponctuation : 87


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


Conversion des tokens en minuscules dans un texte avec Python

In [None]:
#convertir en muniscules
token_list3=[word.lower() for word in token_list2]
print(" Liste des tokens après conversion en miniscules :",token_list3[:20])
print("\n Total des tokens après conversion en miniscules:" , len(token_list3))

 Liste des tokens après conversion en miniscules : ['si', 'vous', 'vous', 'intéressez', 'au', 'big', 'data', 'vous', 'connaissez', 'certainement', 'apache', 'spark', 'savez-vous', 'pourquoi', 'spark', 'est', 'le', 'framework', 'de', 'prédilection']

 Total des tokens après conversion en miniscules: 87


Suppression des mots vides dans un texte en français avec NLTK

In [None]:
from nltk.corpus import stopwords

# Télécharger la liste standard des mots vides pour le français
nltk.download('stopwords')

# Obtenir la liste des mots vides pour le français
stopwords_list = stopwords.words('french')

# Supprimer les mots vides
token_list4 = [token for token in token_list3 if token not in stopwords_list]

print("Liste de tokens après suppression des mots vides :", token_list4[:20])
print("Total de tokens après suppression des mots vides :", len(token_list4))



Liste de tokens après suppression des mots vides : ['si', 'intéressez', 'big', 'data', 'connaissez', 'certainement', 'apache', 'spark', 'savez-vous', 'pourquoi', 'spark', 'framework', 'prédilection', 'traitement', 'données', 'massives', 'pourquoi', 'est-il', 'autant', 'apprécié']
Total de tokens après suppression des mots vides : 54


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Radicalisation des mots dans un texte en français avec NLTK

In [None]:
#utiliser la bibliotheque snowballStemmer pour la radicalisation
from nltk.stem import SnowballStemmer
stemmer =SnowballStemmer("french")
#stem data
token_list5= [stemmer.stem(word) for word in token_list4]
print("Liste de tokens après le stemming : ",token_list5[:20])
print("\nTotal de tokens après Stemming : ",len(token_list5))

Liste de tokens après le stemming :  ['si', 'intéress', 'big', 'dat', 'connaiss', 'certain', 'apach', 'spark', 'savez-vous', 'pourquoi', 'spark', 'framework', 'prédilect', 'trait', 'don', 'massiv', 'pourquoi', 'est-il', 'aut', 'appréci']

Total de tokens après Stemming :  54


Lemmatisation des mots dans un texte avec NLTK

In [None]:
#Utiliser la bibliothèque wordnet pour mapper les mots à leur forme lemmatisée
from nltk.stem import WordNetLemmatizer
nltk.download('wordnet')

# Initialiser le lemmatiseur
lemmatizer = WordNetLemmatizer()

# Lemmatiser les tokens
token_list6 = [lemmatizer.lemmatize(word) for word in token_list4]

print("Liste de tokens après lemmatisation :", token_list6[:20])
print("Total de tokens après lemmatisation :", len(token_list6))


Liste de tokens après lemmatisation : ['si', 'intéressez', 'big', 'data', 'connaissez', 'certainement', 'apache', 'spark', 'savez-vous', 'pourquoi', 'spark', 'framework', 'prédilection', 'traitement', 'données', 'massif', 'pourquoi', 'est-il', 'autant', 'apprécié']
Total de tokens après lemmatisation : 54


[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


Installation et téléchargement de ressources pour l'analyse linguistique en français avec spaCy

In [None]:
!pip install -U spacy
!python -m spacy download fr_core_news_sm


Partager l'analyse lexicale et la lemmatisation des tokens avec spaCy en français

In [None]:
import spacy

# Charger le modèle linguistique français
nlp = spacy.load('fr_core_news_sm')

# Convertir la liste de tokens en une chaîne de caractères et l'analyser avec spaCy
doc = nlp(" ".join(token_list4))

# Parcourir les tokens analysés et afficher le texte et la lemmatisation de chaque token
for token in doc:
    print(token.text, token.lemma_)


si si
intéressez intéresser
big big
data dater
connaissez connaître
certainement certainement
apache apache
spark spark
savez savoir
-vous vous
pourquoi pourquoi
spark spark
framework framework
prédilection prédilection
traitement traitement
données donnée
massives massif
pourquoi pourquoi
est être
-il il
autant autant
apprécié apprécier
notamment notamment
déployer déployer
algorithmes algorithme
machine machine
learning learning
découvrez découvrir
cours cours
apache apache
pyspark pyspark
répondre répondre
toutes tout
questions question
travers travers
multiples multiple
exemples exemple
mises mise
pratique pratique
professeur professeur
associé associer
technologies technologier
l' le
information information
techniques technique
d' de
optimisation optimisation
donne donne
toutes tout
clés clé
analyser analyser
efficacement efficacement
données donnée
grande grand
échelle échelle
apache apache
spark spark
python python
