In [12]:
text = [
    "Le président Emmanuel Macron a visité Paris FR!",
    "J'adore ce produit 🍔, il est incroyable !! #top.",
    "Tesla Inc. 🚗 a annoncé une nouvelle voiture à 50000€ !!!",
    "RDV demain à 18h pour la réunion importante 📅.",
    "Google a publié une mise à jour de son algorithme 🔍 v2.0."
]


# Cleaning Text 

In [None]:
import re
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer

def cleaning_texte(texte):
    if isinstance(texte, list):  # Vérifier si le texte est une liste
        texte = ' '.join(texte) 
    texte = texte.lower()  # Convertir en minuscules
    texte = re.sub(r"http\S+|www\S+|@\S+|#\S+|\d+", "", texte)  # Supprimer URL, @mentions, hashtags
    texte = re.sub(r"[^\w\sÀ-ÿ]", "", texte)  # Supprimer ponctuation, emojis, chiffres spéciaux
    return texte

cleaning_text = [cleaning_texte(text) for text in text]

for i, cleaned in enumerate(cleaning_text):
    print(f"Texte nettoyé {i+1}: {cleaned}")

Texte nettoyé 1: le président emmanuel macron a visité paris fr
Texte nettoyé 2: jadore ce produit  il est incroyable  
Texte nettoyé 3: tesla inc  a annoncé une nouvelle voiture à  
Texte nettoyé 4: rdv demain à h pour la réunion importante 
Texte nettoyé 5: google a publié une mise à jour de son algorithme  v


# Tokenization

In [6]:
import nltk


for i, text in enumerate(cleaning_text):
    sentences = nltk.sent_tokenize(text)  
    tokens = nltk.word_tokenize(text)  
    
    print(f'Text {i+1}: {text}')
    print('Sentences:', sentences)
    print('Tokens:', tokens)
    print('-' * 50)

Text 1: le président emmanuel macron a visité paris fr
Sentences: ['le président emmanuel macron a visité paris fr']
Tokens: ['le', 'président', 'emmanuel', 'macron', 'a', 'visité', 'paris', 'fr']
--------------------------------------------------
Text 2: jadore ce produit  il est incroyable  
Sentences: ['jadore ce produit  il est incroyable']
Tokens: ['jadore', 'ce', 'produit', 'il', 'est', 'incroyable']
--------------------------------------------------
Text 3: tesla inc  a annoncé une nouvelle voiture à  
Sentences: ['tesla inc  a annoncé une nouvelle voiture à']
Tokens: ['tesla', 'inc', 'a', 'annoncé', 'une', 'nouvelle', 'voiture', 'à']
--------------------------------------------------
Text 4: rdv demain à h pour la réunion importante 
Sentences: ['rdv demain à h pour la réunion importante']
Tokens: ['rdv', 'demain', 'à', 'h', 'pour', 'la', 'réunion', 'importante']
--------------------------------------------------
Text 5: google a publié une mise à jour de son algorithme  v
Sent

# Stop Words Removal

In [18]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

# Assurez-vous d'avoir téléchargé les stopwords et les tokenizers de NLTK
# nltk.download('stopwords')
# nltk.download('punkt')

stop_words = set(stopwords.words('french'))

# Stocker les tokens après traitement
tokens_list = []

# Appliquer le prétraitement sur chaque texte
for i,text in enumerate(cleaning_text):
    
    tokens = word_tokenize(text)  
    
    tokens_filtered = [word for word in tokens if word not in stop_words and len(word) > 2]
    tokens_list.append(tokens_filtered)  # Ajouter à la liste

print(tokens_list)


   

[['président', 'emmanuel', 'macron', 'visité', 'paris'], ['jadore', 'produit', 'incroyable'], ['tesla', 'inc', 'annoncé', 'nouvelle', 'voiture'], ['rdv', 'demain', 'réunion', 'importante'], ['google', 'publié', 'mise', 'jour', 'algorithme']]


#   Lemmatization 

In [9]:
import spacy
nlp = spacy.load("fr_core_news_md")

def lemmatiser_texte(texte):
    lemmes = []
    # bocle of transform the the mot
    for mot in texte:
        # applide the nlp for transform 
        doc = nlp(mot)
        # choase each mot 
        for token in doc:
            #, applide the new mot after modifie
            lemmes.append(token.lemma_)
    return lemmes


# choase eache linear of the list and 
for i, text in enumerate(tokens_list):
    text_lemma = lemmatiser_texte(text)
    print(f'text {i+1} : {text_lemma}')

text 1 : ['président', 'emmanuel', 'macron', 'visiter', 'pari']
text 2 : ['jadore', 'produit', 'incroyable']
text 3 : ['tesler', 'inc', 'annoncer', 'nouveau', 'voiture']
text 4 : ['rendez-vous', 'demain', 'réunion', 'important']
text 5 : ['google', 'publier', 'mise', 'jour', 'algorithme']


In [None]:
import nltk
from nltk.tag import pos_tag

# Download necessary NLTK resources
nltk.download('averaged_perceptron_tagger')
nltk.download('punkt')

for i, text in enumerate(tokens_list):
    


    tagged_token = pos_tag(text)
    print(tagged_token)


[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\hp\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\hp\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


[('président', 'NN'), ('emmanuel', 'NN'), ('macron', 'NN'), ('visité', 'NN'), ('paris', 'NN')]
[('jadore', 'NN'), ('produit', 'NN'), ('incroyable', 'JJ')]
[('tesla', 'NN'), ('inc', 'NN'), ('annoncé', 'NN'), ('nouvelle', 'JJ'), ('voiture', 'NN')]
[('rdv', 'NN'), ('demain', 'NN'), ('réunion', 'NN'), ('importante', 'NN')]
[('google', 'NN'), ('publié', 'NN'), ('mise', 'VB'), ('jour', 'NN'), ('algorithme', 'NN')]
