# Pretraitement des données avant de passer au NLP

## Import des bibliothèques

In [57]:
import pandas as pd 
import re
import nltk
from nltk.corpus import stopwords
from nltk.tokenize  import word_tokenize
from nltk.stem import WordNetLemmatizer, PorterStemmer
import spacy

nlp = spacy.load('en_core_web_sm')

## Charger les resources

In [58]:
# Tokenizer => vectorizer => transformer en vecteurs numerique
nltk.download('punkt')
#Stopwords => mots à supprimer
nltk.download('stopwords')
#Lemmatizer => se remettre au radical
nltk.download('wordnet')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\rymkm\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\rymkm\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\rymkm\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

## Charger le dataset

In [59]:
df = pd.read_csv('Youtube05-Shakira.csv')
df

Unnamed: 0,COMMENT_ID,AUTHOR,DATE,CONTENT,CLASS
0,z13lgffb5w3ddx1ul22qy1wxspy5cpkz504,dharma pal,2015-05-29T02:30:18.971000,Nice song﻿,0
1,z123dbgb0mqjfxbtz22ucjc5jvzcv3ykj,Tiza Arellano,2015-05-29T00:14:48.748000,I love song ﻿,0
2,z12quxxp2vutflkxv04cihggzt2azl34pms0k,Prìñçeśś Âliś Łøvê Dømíñø Mâđiś™ ﻿,2015-05-28T21:00:08.607000,I love song ﻿,0
3,z12icv3ysqvlwth2c23eddlykyqut5z1h,Eric Gonzalez,2015-05-28T20:47:12.193000,"860,000,000 lets make it first female to reach...",0
4,z133stly3kete3tly22petvwdpmghrlli,Analena López,2015-05-28T17:08:29.827000,shakira is best for worldcup﻿,0
...,...,...,...,...,...
365,_2viQ_Qnc6-bMSjqyL1NKj57ROicCSJV5SwTrw-RFFA,Katie Mettam,2013-07-13T13:27:39.441000,I love this song because we sing it at Camp al...,0
366,_2viQ_Qnc6-pY-1yR6K2FhmC5i48-WuNx5CumlHLDAI,Sabina Pearson-Smith,2013-07-13T13:14:30.021000,I love this song for two reasons: 1.it is abou...,0
367,_2viQ_Qnc6_k_n_Bse9zVhJP8tJReZpo8uM2uZfnzDs,jeffrey jules,2013-07-13T12:09:31.188000,wow,0
368,_2viQ_Qnc6_yBt8UGMWyg3vh0PulTqcqyQtdE7d4Fl0,Aishlin Maciel,2013-07-13T11:17:52.308000,Shakira u are so wiredo,0


## Netooyer le dataset

In [60]:
#Supprimer les lignes 
df =df.dropna(subset=['CONTENT'])
#Supprimer les doublons
df = df.drop_duplicates(subset=['CONTENT'])

## Fonction pour tokenizer, enlever les stopwords, lemmatizer ...etc

In [61]:
#fonction pour nettoyer, tokenizer, lemmatiser  et stemmer
def process_text(text):
    #convertir en minuscules
    text = text.lower()
    #Supprimer les caractères non alphabétiques
    text=re.sub(r'[^a-zA-Z\s]','',text)
    #Enlever html
    text=re.sub(r'\d+','',text)
    #supprimer la ponctuation
    text=re.sub(r'[^\w\s]', '', text)
    #Tokenisation avec NLTK
    tokens= word_tokenize(text)
    #supprimer les stopwords
    stop_words = set(stopwords.words('english'))
    tokens=[word for word in tokens if word not in stop_words]
    #lemmatisation avec spacy
    doc = nlp(" ".join(tokens))
    lemmatized_tokens=[token.lemma_ for token in doc]
    #stemming 
    stemmer = PorterStemmer()
    stemmer_tokens = [stemmer.stem(token) for token in lemmatized_tokens]
    #Rejoindre les tokens en une chaine
    processed_text = ''.join(stemmer_tokens)
    return  processed_text

**Cerner la colonne à cleaner**

In [62]:
columns_to_clean = ['CONTENT']
#Appliquer la fonction à cette colonne
for column in columns_to_clean:
    df[column + '_processed']= df[column].apply(process_text)

#Exporter les données clean en csv sans les indices
df.to_csv("SHAKIRA1.csv",index=False)

In [63]:
df2 =pd.read_csv("SHAKIRA1.csv")

In [64]:
df3 = df2[df2['CLASS']==1]
df3

Unnamed: 0,COMMENT_ID,AUTHOR,DATE,CONTENT,CLASS,CONTENT_processed
6,z12uujnj2sifvzvav04chpypvofvexpoggg,Sudheer Yadav,2015-05-28T10:28:25.133000,SEE SOME MORE SONG OPEN GOOGLE AND TYPE Shakir...,1,seesongopengoogltypeshakiraguruofmovi
21,z13zjlpo2nbehxwf322gelhzwmqwgn1mt,Raafat saeed,2015-05-27T04:19:29.178000,Check out this playlist on YouTube:﻿,1,checkplaylistyoutub
29,z13uhhxp5nvig15yc04citszvtagwtmpqcc,Terry Short,2015-05-26T14:33:52.496000,Support the fight for your 4th amendment right...,1,supportfightthamendrightprivacihomestopnsaspia...
34,z13gv1bxbuytgjl3o23fdr5r3kaadbbm1,‫حلم الشباب‬‎,2015-05-25T23:42:49.533000,Check out this video on YouTube:﻿,1,checkvideoyoutub
49,z12bfraboyajftgbz04ccbkr3xjxfxyxsew,Abdullah Fawzi,2015-05-25T06:25:22.319000,"coby this USL and past :<br /><a href=""http://...",1,cobiuslpastbrhrefhttpadflyhttpadflyahmvtxbrdel...
...,...,...,...,...,...,...
316,z12xc3ly4x3uttmci22xff24nqqxwb0je04,Lisa Matthews,2013-07-17T13:56:03.233000,Check out this video on YouTube:<br />&quot;Th...,1,checkvideoyoutubebrquotthitimeafricaquotonetra...
318,_2viQ_Qnc69GH3FQl348HonbRxpbmtsR5CUei0zkJog,Riley Rollins,2013-07-16T00:30:46.660000,"O peoples of the earth, I have seen how you pe...",1,peoplearthseeperformeveriformevilleisurceasrev...
321,_2viQ_Qnc6-qHJ_u9Yv84vj4yOAPLUL3ZibCc7b-vBI,FAHAD KHAN,2013-07-14T22:06:57.712000,I WILL NEVER FORGET THIS SONG IN MY LIFE LIKE ...,1,neverforgetsonglifelikecommenthearsonglikeyear
322,_2viQ_Qnc6_HU65mTzCmXnjA-WLt7XqxqPj7EwAtlO0,ricky swaggz,2013-07-14T20:40:00.331000,********OMG Facebook is OLD! Check out ------...,1,omgfacebookoldcheckgtswagfriendcommakethousand...


## Comparaison des deux datasets (ancien et le clean)

In [65]:
shape_original = df.shape
print(shape_original)


(331, 6)


In [66]:
shape_clean = df3.shape
print(shape_clean)

(150, 6)


**On remarque le nombre de lignes a diminué (sans les doublons et les nan)**

## On peut calculer la distance pour avoir des information sur la similarité entre les data clean et brutes

### Librairies

In [67]:
import gensim
from gensim.models import Word2Vec
import sklearn
from  sklearn.manifold import TSNE
import numpy as np

### Coller les données 

**Le calcul de similarité/distance entre les mots ou les phrases est appelé "embeding" ce qui nous interesse (vu que nous ne pouvons pas calculer deux à deux les distances par faute de tailles différentes), j'ai décidé de coller toutes les lignes des données brutes dans un seul corpus (fichier text: texte_brut.txt) ainsi que les données traitées (texte_clean.txt) puis de calculer la distance entre ces deux longs textes.**

In [138]:
# Boucle pour chaque colonne du DataFrame
columns = ['CONTENT','CONTENT_processed']
for column in columns:
    # Créer un fichier texte avec le nom de la colonne
    with open(f"{column}.txt", "w", encoding="utf-8") as file:
        # Parcourir chaque ligne de la colonne et écrire dans le fichier texte
        for index, content in enumerate(df[column]):
            file.write(f"{content};")  # Écrire le contenu de la cellule suivie d'un ;
            

### Declaration du modele

In [139]:
def return_mean_embedding(sentence):
    # Tokeniser la phrase
    doc = nlp(sentence)
    # Retourner la moyenne des vecteurs pour chaque phrase
    return np.mean([(X.vector) for X in doc], axis=0)


In [140]:
# Calcul des embeddings moyens des données brutes
sentences_brut = pd.read_csv('CONTENT.txt', header=None, delimiter= ';',encoding='utf-8')
embedding_brut = sentences_brut[0].apply(return_mean_embedding)

# Calcul des embeddings moyens des données nettoyées
sentences_clean = pd.read_csv('CONTENT_processed.txt', header=None, delimiter=';', encoding='utf-8')
embedding_clean = sentences_clean[0].apply(return_mean_embedding)

# Calcul de la norme de la différence (distance) entre les embeddings
norm_diff_2 = np.linalg.norm(embedding_brut - embedding_clean)
print("Norme de la différence entre les embeddings moyens :", norm_diff_2)



Norme de la différence entre les embeddings moyens : [0.5419189  0.8843663  0.6116699  0.12794846 1.2093133  0.5381026
 0.5730413  0.4932996  0.34796438 0.32431698 0.4286716  0.34020606
 0.29290262 1.8185406  0.07552385 0.26419497 0.55989933 0.5810716
 0.05225021 0.73851204 1.2131802  0.13992997 0.856899   0.69117785
 1.1284418  0.5789551  0.7248291  1.7483066  2.2017727  0.2586306
 0.13390177 0.5417625  1.3393643  0.30498374 1.0704259  2.7259994
 0.529492   0.01907951 0.5378912  0.5766442  0.11752909 0.62112427
 0.6905458  0.7673179  0.12604424 0.10571358 0.36316493 0.61116135
 0.5140164  0.20727712 1.6142906  1.5629784  0.9321287  2.0848758
 0.5804235  1.4757789  1.8561186  0.76547533 0.20361494 0.15530288
 0.22224915 1.2660216  0.8153252  0.52127254 1.0414953  0.19238096
 0.5354439  0.2624299  2.192708   0.54946357 0.03865526 0.20413697
 0.95211446 0.48590666 1.3335615  0.66200286 0.63879925 1.0570954
 0.4561501  1.1280744  0.07156456 0.24075049 0.11465693 0.9302643
 0.68942463 0.93

**Nous pouvons donner un seuil à partir duquel on supprime les données processed trop eloignée contextuellement des données brutes**

**vous pouvez changer le seuil pour plus ou moins de liberté**

In [144]:
seuil = 0.5
lignes_supprime = []

# Parcourir les distances
for i, distance in enumerate(norm_diff_2 ):
    if distance > 0.5:
        lignes_supprime.append(i)

# Supprimer les lignes correspondant aux index des distances supérieures à 0.5
df2.drop(lignes_supprime, inplace=True)

# Réinitialiser les index après la suppression
df2.reset_index(drop=True, inplace=True)

# Afficher le DataFrame mis à jour
df2.head()



Unnamed: 0,COMMENT_ID,AUTHOR,DATE,CONTENT,CLASS,CONTENT_processed
0,z12gddhblwz3cf3wc04cgvjajvulwxvb5lw0k,Dr.geetanjali sharma,2015-05-27T09:14:14.641000,Waka best one﻿,0,wakawellone
1,z12afj2p2pniy1idm23wclt4ox2wujzj004,Ernest Foli,2015-05-25T21:08:10.798000,fave song﻿,0,favesong
2,z13iuzxghsypjtfwy04ccnewbqbde3qwea0,Сергей Андреевич,2015-05-25T18:00:22.486000,love Shakira!﻿,0,loveshakira
3,z13ijbpyhnvtddsue223c3pgilfjs3pmv,Ibtihal Baho,2015-05-25T11:21:16.857000,goood﻿,0,goood
4,z12uvzpw4tufgf2qw04chd5abu3uvf4rw5o,Eric Gonzalez,2015-05-24T15:35:03.844000,To help shakira become the first female to hit...,0,helpshakirabecomfirstfemalhitbilliomviewivedec...


**Conclusion** : df2 est maintenant prete à être utilisée telle qu'elle pour l'application des models de NLP sans être biaisé par le résultat duc leanning