In [5]:
## Python regex : re
# https://www.pythontutorial.net/python-regex/python-regex-sub/
import re
texte = "Bonjour, tout le Monde ... ! @Python #NLP"
texte_propre = re.sub(r'[^\w\s]', '', texte)
texte_propre1 = re.sub(r'\d', '', texte)
print(texte_propre1)
print(texte_propre)


Bonjour, tout le Monde ... ! @Python #NLP
Bonjour tout le Monde   Python NLP


#Conversion du texte en minuscules (Standardisation)
La conversion de tout le texte en minuscules garantit que votre modèle traite les mots comme "Python", "python", etc.


In [6]:

## https://www.pythontutorial.net/python-string-methods/python-string-lower/
## Voici comment vous pouvez conertir du texte en minuscules en Python :
texte = "Bonjour, Monde ! @Python #NLP"
texte_minuscule = texte.lower()
print(texte_minuscule) ## Sortie : "bonjour, monde ! @python #nlp"


bonjour, monde ! @python #nlp


#Conversion du texte en majiscules  (Standardisation)
La conversion de tout le texte en minuscules garantit que votre modèle traite les mots comme "Python", "python", etc.


In [7]:

## https://www.pythontutorial.net/python-string-methods/python-string-lower/
## Voici comment vous pouvez conertir du texte en minuscules en Python :
texte = "Bonjour, Monde ! @Python #NLP"
texte_maji = texte.upper()
print(texte_maji) ## Sortie : "bonjour, monde ! @python #nlp"


BONJOUR, MONDE ! @PYTHON #NLP


#Tokenisation (Rappel)
La tokenisation est le processus de découpage du texte en mots ou en jetons individuels. Il s'agit souvent l'une des premières étapes du
nettoyage de texte et du NLP. La bibliothèque NLTK de Python offre un moyen simple de tokeniser le texte :

In [8]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [21]:
#Tokenisation avec word_tokenize
from nltk.tokenize import word_tokenize
texte = "Bonjour, Monde ! @Python #NL,P i'm"
jetons = word_tokenize(texte)
print(jetons)
## Sortie : ['Bonjour', ',', 'Monde', '!', '@Python', '#NLP']

['Bonjour', ',', 'Monde', '!', '@', 'Python', '#', 'NL', ',', 'P', 'i', "'m"]


In [23]:
#Tokenisation avec wordpunct_tokenize
#faite refernce aussi pour caractere speciel like '
from nltk.tokenize import wordpunct_tokenize
S = "Bonjour, Monde ! @Python #NLP , i'm"
wordpunct_tokenize(S)


['Bonjour', ',', 'Monde', '!', '@', 'Python', '#', 'NLP', ',', 'i', "'", 'm']

#Suppression des mots vides
Les mots vides sont des mots courants comme "est", "le" et "et" qui n'ont souvent pas beaucoup de signification sémantique. Les supprimer
peut aider à réduire la dimensionnalité de vos données. NLTK fournit une liste de mots vides courants en anglais que vous pouvez utiliser :


In [40]:
 nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [41]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
mots_vides = set(stopwords.words('english') )
texte = "that  is NLP course and so  ."
jetons = word_tokenize(texte)
jetons_filtres = [jeton for jeton in jetons if jeton not in mots_vides]
print(jetons_filtres) ## Sortie : ['Ceci', 'phrase', 'exemple', '.']

['NLP', 'course', '.']


#Racinisation et lemmatisation - Normalisation : (Stemming & Lemmatisation)
La racinisation et la lemmatisation sont des techniques permettant de réduire les mots à leur forme racine. Cela peut aider à réduire la
dimensionnalité de vos données et à regrouper différentes formes du même mot.
La normalisation est le processus par lequel les jetons sont convertis dans leur forme de base. Lors de la normalisation, la flexion est
supprimée du mot pour obtenir sa forme de base.
L'objectif de la normalisation est de réduire les variations du texte qui n'ont pas de signification significative mais qui peuvent affecter la
précision des tâches de PNL. Différentes formes de normalisation sdat utilisées pour relever des défis spécifiques dans le traitement de texte.
Pour des exemples,
suis, suis, est => être
chat, chats, chat, chat => chat
Voici comment vous pouvez effectuer une racinisation et une lemmatisation à l'aide de NLTK :


#Racines

In [42]:
import nltk
from nltk.stem import PorterStemmer, LancasterStemmer, SnowballStemmer
from nltk.tokenize import word_tokenize

nltk.download('punkt')

# Sample sentence
sentence = "frogs are dancing and dogs are singing."
tokens = word_tokenize(sentence)

# Stemmers
print("witch french")
stemmers = [PorterStemmer(), LancasterStemmer(), SnowballStemmer("french")]

for stemmer in stemmers:
    stemmed_tokens = [stemmer.stem(token) for token in tokens]
    print(f"{stemmer.__class__.__name__} Stemmed Tokens:", stemmed_tokens)

print("witch english")

stemmers = [PorterStemmer(), LancasterStemmer(), SnowballStemmer("english")]

for stemmer in stemmers:
    stemmed_tokens = [stemmer.stem(token) for token in tokens]
    print(f"{stemmer.__class__.__name__} Stemmed Tokens:", stemmed_tokens)

witch french
PorterStemmer Stemmed Tokens: ['frog', 'are', 'danc', 'and', 'dog', 'are', 'sing', '.']
LancasterStemmer Stemmed Tokens: ['frog', 'ar', 'dant', 'and', 'dog', 'ar', 'sing', '.']
SnowballStemmer Stemmed Tokens: ['frog', 'are', 'dancing', 'and', 'dog', 'are', 'singing', '.']
witch english
PorterStemmer Stemmed Tokens: ['frog', 'are', 'danc', 'and', 'dog', 'are', 'sing', '.']
LancasterStemmer Stemmed Tokens: ['frog', 'ar', 'dant', 'and', 'dog', 'ar', 'sing', '.']
SnowballStemmer Stemmed Tokens: ['frog', 'are', 'danc', 'and', 'dog', 'are', 'sing', '.']


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


#Lemmes
Vous pouvez choisir l'un des lemmatisants ci-dessous selon vos besoins :
Lemmatiseur Wordnet Lemmatiseur spatial TextBlob Modèle CLIPS Stanford CorePNL Gensim Lemmatiseur ArbreTagger Nous allons utiliser la
bibliothèque NLTK pour effectuer une lemmatisation à l'aide de WordnetLemmatizer. Il symbolise d'abord la phrase, puis la lemmatise pour
trouver des mots de base significatifs dans le vocabulaire, puis les remet pour imprimer la phrasellemmatisee.


In [46]:
import nltk
from nltk.stem import WordNetLemmatizer
from nltk.tokenize import word_tokenize
nltk.download('punkt')
nltk.download('wordnet')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

In [47]:


# Create a lemmatizer object
lemmatizer = WordNetLemmatizer()
# Sample sentence
sentence = "boys are running and mosquitos are flying."
# Tokenize the sentence
tokens = word_tokenize(sentence)
# Lemmatize the tokens
lemmatized_tokens = [lemmatizer.lemmatize(token) for token in tokens]
# Join the lemmatized tokens to form a sentence
lemmatized_sentence = " ".join(lemmatized_tokens)
print("Original Sentence:", sentence)
print("Lemmatized Sentence:", lemmatized_sentence)

Original Sentence: boys are running and mosquitos are flying.
Lemmatized Sentence: boy are running and mosquito are flying .
