In [1]:
import pandas as pd
import re

In [2]:
raw_data = pd.read_csv('./data/raw_data.csv')

raw_data

Unnamed: 0,German,French
0,@chardinghh In meiner Branche sind wir damit g...,Du ¬´ Pacte des loups ¬ª √† ¬´ Juste la fin du mon...
1,@crittersport ü§£,"Devant le S√©nat, Vincent Bollor√© relativise so..."
2,Ich vermisse beim Stundeneintragen den Punkt ‚Äû...,La Cor√©e du Nord annonce une possible reprise ...
3,@lawen4cer N‚ÄòTrotzki.,Joe Biden n‚Äôavait pas ¬´ anticip√© ¬ª une telle o...
4,@ktschk ER HAT UNS DIE FREUDE GESCHENKT!,"Aux Etats-Unis, Joe Biden promet un ¬´ d√©sastre..."
...,...,...
1991,@nikahle @andijah Profi finde ich super!,RT @Sante_Gouv: üíâ Campagne de vaccination cont...
1992,@andijah üòá,"RT @JeanCASTEX: Partout, pour tous, une √©colog..."
1993,@andijah Ganz spontan: Guru oder Crack ‚Äì ist a...,#COVID19 | ‚úàÔ∏è D√©placements √† l‚Äôinternational :...
1994,RT @andijah: Kurze Zwischenfrage ins virtuelle...,RT @Interieur_Gouv: üìΩÔ∏è Apr√®s avoir quitt√© le V...


## Some ideas:
- `@` + word + ` ` 
- Lowercase everything

### Remove
- Numbers
- Hashtags
- Links
- Special characters such as *:, (, ), etc.*
- Emojis
- `"RT"`

### Special characters
- \ - " "( )  / : _ * $ + 

In [3]:
languages = raw_data.columns
languages

Index(['German', 'French'], dtype='object')

In [4]:
def clean_data(text):
    # Hashtag filter
    no_hashtag = text.apply(lambda x: re.sub('#[\w]+','', x)) 

    # Mention filter
    no_mention = no_hashtag.apply(lambda x: re.sub("@([A-Za-z0-9_√ü√§√∂√º√Ñ√ñ√ú√á√¢√™√Æ√¥√ª√©√†√®√π√´√Ø√ß]+)|([^0-9A-Za-z_√ü√§√∂√º√Ñ√ñ√ú√¢√™√Æ√¥√ª√©√†√®√π√´√Ø√ß \t])|(\w+:\/\/\S+)",' ', x))

    # Remove RT
    no_rt = no_mention.apply(lambda x: re.sub('RT','', x))

    # Remove numbers
    no_num = no_rt.apply(lambda x: re.sub('[0-9]+','', x))

    # Remove extra underscores
    no_underscore = no_num.apply(lambda x: re.sub('_','', x))

    # Remove leading and trailing whitespaces
    no_space = no_underscore.apply(lambda x: x.strip())

    # Lowercase the words
    lowercase = no_space.apply(lambda x: x.lower())

    # Remove extra spaces in between words
    cleaned = lowercase.apply(lambda x: " ".join(x.split()))

    return cleaned

In [5]:
cleaned_df = pd.DataFrame()

for language in languages:
    sentences = raw_data[language].dropna(axis=0)
    cleaned_df[language] = clean_data(sentences)

In [6]:
cleaned_df

Unnamed: 0,German,French
0,in meiner branche sind wir damit ganz weit vorn,du pacte des loups √† juste la fin du monde la ...
1,,devant le s√©nat vincent bollor√© relativise son...
2,ich vermisse beim stundeneintragen den punkt e...,la cor√©e du nord annonce une possible reprise ...
3,n trotzki,joe biden n avait pas anticip√© une telle oppos...
4,er hat uns die freude geschenkt,aux etats unis joe biden promet un d√©sastre √† ...
...,...,...
1991,profi finde ich super,campagne de vaccination contre le au janvier p...
1992,,partout pour tous une √©cologie du concret qui ...
1993,ganz spontan guru oder crack ist aber beides a...,d√©placements √† l international l afrique du su...
1994,kurze zwischenfrage ins virtuelle gro√üraumb√ºro...,apr√®s avoir quitt√© le vietnam √† ans vy est arr...


In [7]:
cleaned_df.to_csv('./data/cleaned_data.csv', index=False)