# Prétraitement des données

## Suppression des ponctuations indésirables

In [1]:
# Imports nécessaires
import pandas as pd
import numpy as np
import string 

In [2]:
# Lecture et stockage de la base de données
tweet_df = pd.read_csv('../../delphes/data/final2_clean.csv', index_col=0)
tweet_df.head()

Unnamed: 0,mep_id,name,country,group,nat_group,twitter,content
0,197490,Magdalena ADAMOWICZ,Poland,Group of the European People's Party (Christia...,Independent,Adamowicz_Magda,"['W tym dniu, w tym miejscu, w tej godzinie pr..."
1,189525,Asim ADEMOV,Bulgaria,Group of the European People's Party (Christia...,Citizens for European Development of Bulgaria,AdemovAsim,['RT @ECinBulgaria: 📢 Остана 1⃣ седмица! Преди...
2,124831,Isabella ADINOLFI,Italy,Non-attached Members,Movimento 5 Stelle,Isa_Adinolfi,"[""Sembra un film, ma purtroppo è realtà: le im..."
6,125045,Clara AGUILERA,Spain,Group of the Progressive Alliance of Socialist...,Partido Socialista Obrero Español,ClaraAguilera7,['RT @ClaraAguilera7: Debate e importantes vot...
7,204335,Alviina ALAMETSÄ,Finland,Group of the Greens/European Free Alliance,Vihreä liitto,alviinaalametsa,['Toimeentulotukea korotetaan 75e koronakriisi...


In [3]:
# Remove the undesirable elements in the entire dataframe
def rmurl_df(df, column_name):
    '''
    This function removes all the URLs, the #hashtag and the @user of a column made of strings.
    Be careful to apply it BEFORE all the other preprocessing steps (if not it wont'
    be recognized as a URL)
    '''
    df = df.copy()
    df[column_name] = df[column_name].str.replace('http\S+|www.\S+|@\S+|#\S+', '', case=False)
    return df



In [4]:
# Lowercase the tweet's column
def lower_df(df, column_name):
    '''
    This function lowercases a column made of strings.
    '''
    df = df.copy()
    df[column_name] = df[column_name].str.lower()
    return df

In [5]:
# Remove the numbers in the tweet's column
def rmnumbers_df(df, column_name):
    '''
    This function removes all the digits of a column made of strings.
    '''
    df = df.copy()
    def remove_numbers(text):
        return ''.join(word for word in text if not word.isdigit())
    df[column_name] = df[column_name].apply(remove_numbers)
    return df

In [6]:
# Remove the undesirable punctuations in the tweet's column
def rmpunct_df(df, column_name):
    '''
    This function removes all the punctuations of a column made of strings.
    '''
    punct = string.punctuation
    df = df.copy()
    def replace_punct(text):
        for punctu in punct:
            text = text.replace(punctu, ' ')
        return text
    df[column_name] = df[column_name].apply(replace_punct)
    return df

In [7]:
# Remove the undesirable emojis in the entire dataframe
def rmemojis_df(df):
    '''
    This function removes all the emojis of a column made of strings.
    Be careful to translate in latin alphabet before applying this function : 
    it also removes cyrillic alphabet
    '''
    df = df.copy()
    df = df.astype(str).apply(lambda x: x.str.encode('ascii', 'ignore').str.decode('ascii'))
    return df

In [8]:
test_df = rmurl_df(tweet_df, 'content')

In [9]:
test_df['content'][0]

'[\'W tym dniu, w tym miejscu, w tej godzinie proszę o jedno: nie o puste slogany a o zrozumienie, jak zaczyna się każd…  \'RT  Bóg nie potrzebuje być przez nikogo broniony i nie chce, aby Jego imię było używane do terroryzowania ludzi. Proszę wszyst…\', \'Złożyłam wnioski do NSA o przyspieszenie rozpoznania moich skarg kasacyjnych oraz do Dyrektora Izby Administracji S…  \'Gdyby empatia, dobroć i koncyliacyjność miały ludzką twarz, byłaby to twarz Twoja, Henryku. Spoczywaj w pokoju. \\nHenryk Wujec 1940-2020.\', \'Pomimo tego, że nie zgadzam się z interpretacją organu podatkowego, informuję, iż wszystkie podatki tuż po decyzji…  \'W ogóle mnie nie dziwi, że od wczoraj treść zarzutów znają media rządowe i już wczoraj zadawały pytania, a ani ja a…  \'W związku z informacjami o skierowaniu do sądu aktu oskarżenia przeciwko mnie, proszę o używanie mojego pełnego imi…  \'Do tej pory nie ścigali przestępstw swoich aparatczyków wbrew prawu. Teraz to będą robili zgodnie z prawem. Ot lega…  \'