# Prétraitement des données


### Chargement des données

Le fichier Data_Tweets.parquet contient que deux colonnes id et tweet

In [18]:
import pandas as pd  
 
df1 = pd.read_parquet("./Data/Data_Tweets.parquet", columns=['id', 'text'])  
  

In [4]:
max_index = df1.index.max()  
print('Maximum index:', max_index)  


Maximum index: 14634241


Dans ce code, nous avons utilisé la bibliothèque Natural Language Toolkit (NLTK) de Python pour prétraiter les tweets d'une dataframe. Nous avons téléchargé les ressources NLTK nécessaires, y compris les mots vides en anglais, le WordNetLemmatizer et les outils de tokenisation. Nous avons ensuite défini une fonction pour prétraiter chaque tweet, qui supprime les caractères spéciaux, supprime les mots vides, lemmatize les mots restants et les joint pour former une chaîne unique. Enfin, nous avons appliqué cette fonction à chaque tweet dans la colonne 'text' de la dataframe et stocké les résultats dans une nouvelle colonne 'preprocessed_tweet'.

In [19]:
import nltk      
import re    
from nltk.corpus import stopwords      
from nltk.tokenize import word_tokenize      
from nltk.stem import WordNetLemmatizer      
    
# Télécharger les ressources NLTK nécessaires      
nltk.download('punkt')      
nltk.download('stopwords')      
nltk.download('wordnet')      
nltk.download('omw-1.4')  
  
# Définir les mots vides à supprimer      
stop_words = set(stopwords.words('english'))      
    
# Définir le lemmatizer      
lemmatizer = WordNetLemmatizer()      
    
# Définir une fonction pour prétraiter un seul tweet      
def preprocess_tweet(tweet):      
    # Supprimer les caractères spéciaux du texte du tweet    
    tweet = re.sub(r'[^\w\s]', '', tweet)      
        
    # Tokeniser le texte du tweet en mots      
    words = word_tokenize(tweet)      
    
    # Supprimer les mots vides des mots tokenisés      
    words = [word for word in words if word.lower() not in stop_words]      
    
    # Lemmatizer les mots restants      
    words = [lemmatizer.lemmatize(word) for word in words]      
    
    # Joindre les mots prétraités pour former une chaîne unique      
    preprocessed_tweet = ' '.join(words)      
    
    return preprocessed_tweet      
    
  
# Appliquer la fonction preprocess_tweet à chaque tweet dans la colonne 'text' de la dataframe df1  

df1['preprocessed_tweet'] = df1['text'].apply(preprocess_tweet)  
  


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\ahmidich\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\ahmidich\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\ahmidich\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


In [21]:
df1.to_csv('preprocesses_tweets.csv', index=False) 