#Data preprocessing

In [None]:
# Importation des bibliothèques
import pandas as pd
# bibliothèque de traitement du langage naturel moderne et rapide.
import spacy
# Importe la fonction drive du module google.colab
from google.colab import drive
#Natural Language Toolkit pour le traitement du langage naturel
import nltk
#mots très courants qui sont souvent omis lors de l'analyse de texte
from nltk.corpus import stopwords
#a fonction word_tokenize de NLTK, qui est utilisée pour diviser une chaîne de texte en mots individuels (tokenization).
from nltk.tokenize import word_tokenize
#consiste à réduire un mot à sa racine
from nltk.stem import PorterStemmer
#La lemmatisation consiste à ramener un mot à sa forme de base (le lemme).
from nltk.stem import WordNetLemmatizer
# fournit des opérations de chaîne de caractères courantes
import string


In [None]:
#montent le lecteur Google Drive dans l'environnement Google Colab, permettant ainsi d'accéder
# aux fichiers stockés sur Google Drive dans le notebook Colab
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
data = pd.read_csv('/content/drive/My Drive/data/sample.csv')
#Show the Data
data.head()

Unnamed: 0,tweet_id,author_id,inbound,created_at,text,response_tweet_id,in_response_to_tweet_id
0,119237,105834,True,Wed Oct 11 06:55:44 +0000 2017,@AppleSupport causing the reply to be disregar...,119236.0,
1,119238,ChaseSupport,False,Wed Oct 11 13:25:49 +0000 2017,@105835 Your business means a lot to us. Pleas...,,119239.0
2,119239,105835,True,Wed Oct 11 13:00:09 +0000 2017,@76328 I really hope you all change but I'm su...,119238.0,
3,119240,VirginTrains,False,Tue Oct 10 15:16:08 +0000 2017,@105836 LiveChat is online at the moment - htt...,119241.0,119242.0
4,119241,105836,True,Tue Oct 10 15:17:21 +0000 2017,@VirginTrains see attached error message. I've...,119243.0,119240.0


In [None]:
# la colonne "text" du DataFrame data est normalisée en minuscules.
data["text"] = data["text"].str.lower()
data.head()

Unnamed: 0,tweet_id,author_id,inbound,created_at,text,response_tweet_id,in_response_to_tweet_id,normalized_text
0,119237,105834,True,Wed Oct 11 06:55:44 +0000 2017,@applesupport causing the reply to be disregar...,119236.0,,@applesupport causing the reply to be disregar...
1,119238,ChaseSupport,False,Wed Oct 11 13:25:49 +0000 2017,@105835 your business means a lot to us. pleas...,,119239.0,@105835 your business means a lot to us. pleas...
2,119239,105835,True,Wed Oct 11 13:00:09 +0000 2017,@76328 i really hope you all change but i'm su...,119238.0,,@76328 i really hope you all change but i'm su...
3,119240,VirginTrains,False,Tue Oct 10 15:16:08 +0000 2017,@105836 livechat is online at the moment - htt...,119241.0,119242.0,@105836 livechat is online at the moment - htt...
4,119241,105836,True,Tue Oct 10 15:17:21 +0000 2017,@virgintrains see attached error message. i've...,119243.0,119240.0,@virgintrains see attached error message. i've...


In [None]:

# Définition de la fonction pour supprimer la ponctuation

def SupprimerPunctuation(text):
    # Crée un traducteur en utilisant str.maketrans pour supprimer la ponctuation.
    #string.punctuation est une chaîne prédéfinie de tous les caractères de ponctuation.
    translator = str.maketrans('', '', string.punctuation)
    #Utilise le traducteur pour supprimer la ponctuation du texte.
    text_sans_ponctuation = text.translate(translator)
    return text_sans_ponctuation

# Application de la fonction à la colonne "text" du DataFrame

data['text_sans_punctuation'] = data['text'].apply(SupprimerPunctuation)
data.head()

Unnamed: 0,tweet_id,author_id,inbound,created_at,text,response_tweet_id,in_response_to_tweet_id,normalized_text,text_sans_punctuation
0,119237,105834,True,Wed Oct 11 06:55:44 +0000 2017,@applesupport causing the reply to be disregar...,119236.0,,@applesupport causing the reply to be disregar...,applesupport causing the reply to be disregard...
1,119238,ChaseSupport,False,Wed Oct 11 13:25:49 +0000 2017,@105835 your business means a lot to us. pleas...,,119239.0,@105835 your business means a lot to us. pleas...,105835 your business means a lot to us please ...
2,119239,105835,True,Wed Oct 11 13:00:09 +0000 2017,@76328 i really hope you all change but i'm su...,119238.0,,@76328 i really hope you all change but i'm su...,76328 i really hope you all change but im sure...
3,119240,VirginTrains,False,Tue Oct 10 15:16:08 +0000 2017,@105836 livechat is online at the moment - htt...,119241.0,119242.0,@105836 livechat is online at the moment - htt...,105836 livechat is online at the moment https...
4,119241,105836,True,Tue Oct 10 15:17:21 +0000 2017,@virgintrains see attached error message. i've...,119243.0,119240.0,@virgintrains see attached error message. i've...,virgintrains see attached error message ive tr...


In [None]:
#Télécharger la liste des stopwords et télécharger les données nécessaires pour utiliser le tokenizer (tokeniseur) de NLTK
#Télécharge la liste des stopwords de NLTK. Les stopwords sont des mots très courants qui sont
#souvent omis lors de l'analyse de texte, car ils ne portent généralement pas beaucoup de sens.
nltk.download('stopwords')
#Télécharge les données nécessaires pour utiliser le tokeniseur de NLTK.
# Le tokeniseur divise le texte en mots individuels (tokens).
nltk.download('punkt')
#Télécharge les données nécessaires pour accéder au corpus WordNet de NLTK. WordNet est une base de données
#lexicale de la langue anglaise qui organise les mots en synsets (ensembles de synonymes), liant les mots par des relations sémantiques.
nltk.download('wordnet')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...


True

In [None]:
#Suppression stopWords

# Définition de la fonction pour supprimer les stopwords
def supprimer_stopwords(text):
    #Crée un ensemble de stopwords en utilisant la liste de stopwords de la langue anglaise fournie par NLTK
    stop_words = set(stopwords.words('english'))
    #Utilise le tokeniseur de NLTK pour diviser le texte en mots individuels
    word_tokens = word_tokenize(text)
    #Crée une liste de mots à partir des mots dans word_tokens qui ne sont pas dans la liste des stopwords.
    #La comparaison est effectuée en convertissant chaque mot en minuscules.
    filtered_text = [word for word in word_tokens if word.lower() not in stop_words]
    #Renvoie une chaîne de texte en joignant les mots de la liste filtered_text avec
    #un espace entre chaque mot
    return ' '.join(filtered_text)


# Applique la fonction supprimer_stopwords à la colonne "text_sans_punctuation"
data['text_sans_stopwords'] = data['text_sans_punctuation'].apply(supprimer_stopwords)

print(data[['text_sans_punctuation', 'text_sans_stopwords']])


                                text_sans_punctuation  \
0   applesupport causing the reply to be disregard...   
1   105835 your business means a lot to us please ...   
2   76328 i really hope you all change but im sure...   
3   105836 livechat is online at the moment  https...   
4   virgintrains see attached error message ive tr...   
..                                                ...   
88  105860 i wish amazon had an option of where i ...   
89  they reschedule my shit for tomorrow httpstcor...   
90  105861 hey sara sorry to hear of the issues yo...   
91  tesco bit of both  finding the layout cumberso...   
92  105861 if that doesnt help please dm your full...   

                                  text_sans_stopwords  
0   applesupport causing reply disregarded tapped ...  
1   105835 business means lot us please dm name zi...  
2          76328 really hope change im sure wont dont  
3   105836 livechat online moment httpstcosy94vtu8...  
4   virgintrains see attached error

In [None]:
## Définition de la fonction pour la tokenisation

def tokenize_text(text):
    #Utilise le tokeniseur de NLTK pour diviser le texte en mots individuels (tokens).
    tokens = word_tokenize(text)
    return tokens

# Applique la fonction tokenize_text à la colonne "text_sans_stopwords"
data['tokens'] = data['text_sans_stopwords'].apply(tokenize_text)

print(data[['text_sans_stopwords', 'tokens']])

                                  text_sans_stopwords  \
0   applesupport causing reply disregarded tapped ...   
1   105835 business means lot us please dm name zi...   
2          76328 really hope change im sure wont dont   
3   105836 livechat online moment httpstcosy94vtu8...   
4   virgintrains see attached error message ive tr...   
..                                                ...   
88  105860 wish amazon option get shipped ups stor...   
89        reschedule shit tomorrow httpstcorsvzct982t   
90  105861 hey sara sorry hear issues ask lay spee...   
91  tesco bit finding layout cumbersome removing i...   
92  105861 doesnt help please dm full name address...   

                                               tokens  
0   [applesupport, causing, reply, disregarded, ta...  
1   [105835, business, means, lot, us, please, dm,...  
2   [76328, really, hope, change, im, sure, wont, ...  
3   [105836, livechat, online, moment, httpstcosy9...  
4   [virgintrains, see, attached, e

In [None]:
# Définition d'une fonction pour la racinisation (stemming)
def custom_stemming(tokens):
    #Crée une instance de la classe PorterStemmer de NLTK, qui est utilisée pour
    # effectuer la racinisation (stemming) des mots.
    ps = PorterStemmer()
     #Applique la racinisation à chaque mot dans la liste de tokens en utilisant
    #le stemmer de Porter, puis les joint pour former une chaîne de texte racinisé.
    stemmed_text = ' '.join([ps.stem(word) for word in tokens])
    return stemmed_text

# Applique la fonction de racinisation personnalisée à la colonne "tokens"
data['custom_stemmed_tokens'] = data['tokens'].apply(custom_stemming)

# Afficher le résultat
print(data[['tokens', 'custom_stemmed_tokens']])



                                               tokens  \
0   [applesupport, causing, reply, disregarded, ta...   
1   [105835, business, means, lot, us, please, dm,...   
2   [76328, really, hope, change, im, sure, wont, ...   
3   [105836, livechat, online, moment, httpstcosy9...   
4   [virgintrains, see, attached, error, message, ...   
..                                                ...   
88  [105860, wish, amazon, option, get, shipped, u...   
89   [reschedule, shit, tomorrow, httpstcorsvzct982t]   
90  [105861, hey, sara, sorry, hear, issues, ask, ...   
91  [tesco, bit, finding, layout, cumbersome, remo...   
92  [105861, doesnt, help, please, dm, full, name,...   

                                custom_stemmed_tokens  
0   applesupport caus repli disregard tap notif ke...  
1   105835 busi mean lot us pleas dm name zip code...  
2           76328 realli hope chang im sure wont dont  
3   105836 livechat onlin moment httpstcosy94vtu8k...  
4   virgintrain see attach error me

In [None]:
#La lemmatisation est le processus de réduction des mots à leur forme de base (lemme),
# ce qui peut être utile pour normaliser les différentes formes d'un mot.
## Charger le modèle spaCy pour le traitement du langage naturel (NLP) en anglais

nlp = spacy.load('en_core_web_sm')


# # Définir une fonction pour la lemmatisation des mots

def lemmatize_words(text):
    # Utilise le modèle spaCy pour créer un document (objets Doc de spaCy) à partir des tokens en les joignant en une chaîne de texte.
    doc = nlp(" ".join(text))
    return [token.lemma_ for token in doc]

# Applique la fonction de lemmatisation à la colonne "tokens"

data['lemmatized_tokens'] = data['tokens'].apply(lambda text: lemmatize_words(text))

print(data[['tokens', 'lemmatized_tokens']])



                                               tokens  \
0   [applesupport, causing, reply, disregarded, ta...   
1   [105835, business, means, lot, us, please, dm,...   
2   [76328, really, hope, change, im, sure, wont, ...   
3   [105836, livechat, online, moment, httpstcosy9...   
4   [virgintrains, see, attached, error, message, ...   
..                                                ...   
88  [105860, wish, amazon, option, get, shipped, u...   
89   [reschedule, shit, tomorrow, httpstcorsvzct982t]   
90  [105861, hey, sara, sorry, hear, issues, ask, ...   
91  [tesco, bit, finding, layout, cumbersome, remo...   
92  [105861, doesnt, help, please, dm, full, name,...   

                                    lemmatized_tokens  
0   [applesupport, cause, reply, disregard, tap, n...  
1   [105835, business, mean, lot, we, please, dm, ...  
2   [76328, really, hope, change, I, m, sure, will...  
3   [105836, livechat, online, moment, httpstcosy9...  
4   [virgintrain, see, attach, erro