In [None]:
from fastai.text.all import *

In [None]:
lang = 'de'
num_tweets = 500000
wiki = f'{lang}wiki'
base_path = Path('data')
path = base_path/wiki
data_path = path/'germeval'

# Preprocessing

Remove links and @-mentions from tweets

In [None]:
def clean_text(text):
    text = re.sub('@\w+', ' ', text)
    text = re.sub(r'''(?i)\b((?:https?://|www\d{0,3}[.]|[a-z0-9.\-]+[.][a-z]{2,4}/)(?:[^\s()<>]+|\(([^\s()<>]+|(\([^\s()<>]+\)))*\))+(?:\(([^\s()<>]+|(\([^\s()<>]+\)))*\)|[^\s`!()\[\]{};:'".,<>?¬´¬ª‚Äú‚Äù‚Äò‚Äô]))''', " ", text)
    text = ' '.join(text.split())
    return text

## Training-Data GermEval 2018 (train & test) + 2019 (train)

GermEval 2018: https://github.com/uds-lsv/GermEval-2018-Data  
GermEval 2019: https://projects.fzai.h-da.de/iggsa/data-2019/

In [None]:
names = ['text','label','label_fine']

df_train1 = pd.read_csv(f'{data_path}/germeval2018/germeval2018.test.txt',
                sep ='\t', names=names)
df_train2 = pd.read_csv(f'{data_path}/germeval2018/germeval2018.training.txt',
                sep ='\t', names=names)
df_train3 = pd.read_csv(f'{data_path}/germeval2019/germeval2019.training_subtask1_2_korrigiert.txt',
                sep = '\t', names=names)
df_train4 = pd.read_csv(f'{data_path}/germeval2019/germeval2019.training_subtask3.txt',
                sep = '\t', names=[*names,'label3'])

In [None]:
df_train4.drop('label3', axis=1, inplace=True)

In [None]:
df_train = pd.concat([df_train1,df_train2,df_train3], sort=False)

In [None]:
df_train['text'] = df_train['text'].apply(clean_text)

In [None]:
df_train['is_valid'] = False

# Test-Data GermEval2019

In [None]:
df_test = pd.read_csv(data_path/'germeval2019/germeval2019GoldLabelsSubtask1_2.txt',
                sep ='\t', names=names)

In [None]:
df_test['text'] = df_test['text'].apply(clean_text)

In [None]:
df_test['is_valid'] = True

In [None]:
df_class = pd.concat([df_test,df_train], sort=False)

In [None]:
df_class.to_csv(data_path/'data_classification.csv', index=False)

In [None]:
df_class

Unnamed: 0,text,label,label_fine,is_valid
0,Komisch das die Realit√§tsverweigerung immer von linken erb√§rmlichen Correctiv Accounts ausgeht...,OFFENSE,INSULT,True
1,"CDU steht seid Strauss, Kohl, Sch√§uble, vdLeyen f√ºr Korruption, Schwarzgeld, und dies √ºberall...",OFFENSE,ABUSE,True
2,"Die Gesichter, Namen, Religion der T√§ter w√ºrde zur Aufkl√§rung beitragen...",OTHER,OTHER,True
3,"Wie verwirrt muss man sein um sich zu weigern die Tatsachen anzuerkennen, das dieser Hass von Ferkel importiert wurde....was bezweckt man damit sich selber so zu bel√ºgen, unverst√§ndlich",OFFENSE,ABUSE,True
4,"Weil die AfD den Ferkelfunk abschaffen will, deshalb haben die Linken Zecken, Schmarotzer Angst f√ºr ihr kacken arbeiten zu m√ºssen, deshalb sind die F√ºhrer treu und senden jeden Dreck, L√ºge...",OFFENSE,ABUSE,True
...,...,...,...,...
3975,"250 Menschen auf der Demonstration gegen das Dublin 2 Abkommen auf der Demo der selbstorganisierten ,,Refugees for Change'' #Refugeeswelcome",OTHER,OTHER,False
3976,Erneut Massaker an Kurdische ZivilistInnen durch islamistische ISIS. YXK ruft bundesweit zu Demonstrationen auf. #Rojava #ISIS #syrien,OTHER,OTHER,False
3977,Hunderte Refugees haben die Grenze zur spanischen Exklave Melilla √ºberwunden. Freedom of Movement is everybodies right! #Rassismus #NoBorder,OTHER,OTHER,False
3978,"Heute ab 17:00 Uhr an der Alten Oper FFM: Kundgebung/Picknick/Musik zum Jahrestag der Gezi-Proteste #Gezi, #Taksim, #Solidarit√§t, #Erdogan",OTHER,OTHER,False


# Additional Tweets for LM-finetuning

Source: https://zenodo.org/record/3633935#.YEVnVi24jzA

In [None]:
df_tweet = pd.read_csv(data_path/'detweet'/'tweets.txt', sep=';', header=None)
df_tweet.columns = ['id','text']
df_tweet = df_tweet.drop('id', axis=1)

In [None]:
df_tweet = df_tweet[:num_tweets]
df_tweet['text'] = df_tweet['text'].apply(clean_text)
len(df_tweet)

500000

In [None]:
df_lm = pd.concat([df_train, df_tweet], sort=False)
df_lm.drop(['label','label_fine'], axis=1, inplace=True)
df_lm.drop('is_valid', axis=1, inplace=True)

In [None]:
df_lm

Unnamed: 0,text
0,"Meine Mutter hat mir erz√§hlt, dass mein Vater einen Wahlkreiskandidaten nicht gew√§hlt hat, weil der gegen die Homo-Ehe ist ‚ò∫"
1,"Meine Reaktion; |LBR| Nicht jeder Moslem ist ein Terrorist. Aber jeder Moslem glaubt an √úberlieferungen, die Gewalt und Terror beg√ºnstigen."
2,"#Merkel rollt dem Emir von #Katar, der islamistischen Terror unterst√ºtzt, den roten Teppich aus.Wir brauchen einen sofortigen #Waffenstopp!"
3,‚ÄûMerle ist kein junges unschuldiges M√§dchen‚Äú Kch....... üò± #tatort
4,Asylantenflut bringt eben nur negatives f√ºr Deutschland. Drum Asylanenstop und R√ºckf√ºhrung der Mehrzahl.
...,...
499995,"üá™üá∫ Keine Lust auf #Europa? Zur√ºck zu nationalen Grenzen? Drei junge #Europ√§er wollten dabei nicht l√§nger zusehen. Und gr√ºndeten #Volt. Eine Partei, die Europa einen soll. ‚è© #Europawahl2019"
499996,"Morgen um 11 Uhr geht die gro√üe Sprayer-Aktion an der Bahnunterf√ºhrung in #Langen los. Wir sind total gespannt auf die Kunstwerke, die dort entstehen und verabschieden uns schon mal von den alten Schmierereien. Mehr Infos: #Graffiti #StreetArt"
499997,Neuigkeit: Gesundheitsgefahr: Krebshilfe fordert Werbeverbot f√ºr E-Zigaretten #news
499998,Hundeanh√§nger 925 Silber und recyceltes Holz sabina #Tchotchke #kreativerTchotchke #handgefertigt Cane ciondolo in argento 925 e sabina legno riciclato #gioielli #gioiellicreativi #fattoamano


In [None]:
df_lm.to_csv(data_path/'data_lm.csv', index=False)