In [1]:
import pandas as pd

In [2]:
set_1 = pd.read_csv(r"data/normalized_tweets_refugees.csv")

In [3]:
set_2 = pd.read_csv(r"data/normalized_facebook_comments.csv", engine='python', encoding='utf-8')

In [4]:
set_1.info(verbose=True)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 469 entries, 0 to 468
Data columns (total 3 columns):
raw_text        469 non-null object
severity        469 non-null float64
binary_label    469 non-null bool
dtypes: bool(1), float64(1), object(1)
memory usage: 7.9+ KB


In [5]:
set_2.info(verbose=True)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5837 entries, 0 to 5836
Data columns (total 3 columns):
raw_text        5837 non-null object
severity        5836 non-null float64
binary_label    5836 non-null object
dtypes: float64(1), object(2)
memory usage: 136.9+ KB


# combining datasets
as we have normalized the different datasets before, we can combine them

In [6]:
df = pd.concat([set_1, set_2])
df.info(verbose=True)

<class 'pandas.core.frame.DataFrame'>
Int64Index: 6306 entries, 0 to 5836
Data columns (total 3 columns):
raw_text        6306 non-null object
severity        6305 non-null float64
binary_label    6305 non-null object
dtypes: float64(1), object(2)
memory usage: 197.1+ KB


In [7]:
# shuffle dataset
df = df.sample(frac=1).reset_index(drop=True)
df.head(30)

Unnamed: 0,raw_text,severity,binary_label
0,Haha .. Was für ein lustiger Trupp .. Sind wir...,0.0,False
1,Weihnachts geschenk für die Geschwister und Ve...,0.0,False
2,Laut interner Quelle befinden sich mittlerweil...,0.0,False
3,mich haben sie auch gesperrt,0.0,False
4,"Und pinkelt dann vorne über die Brille, die Sa...",1.0,True
5,Die Tante ist ein bedingungsloser Anhänger vor...,0.0,False
6,Den Feministinnen muss der Arsch doch auf Grun...,0.0,False
7,der menschenschrott darf alles,1.0,True
8,Ich auch nicht.,0.0,False
9,in welches Land kann ich flüchten? Ich will au...,0.0,False


In [8]:
print("There are {} rows, {} are hate speech, {} not.".format(len(df), len(df[df['binary_label'] == True]), len(df[df['binary_label'] == False])))

There are 6306 rows, 154 are hate speech, 315 not.


In [9]:
df.binary_label.unique()

array(['False', 'True', False, True, None], dtype=object)

In [10]:
df = df[df['binary_label'].notnull()]

In [11]:
df.dtypes

raw_text         object
severity        float64
binary_label     object
dtype: object

In [12]:
df['binary_label'] = df['binary_label'].apply(lambda x: x == True or x == "True")

In [13]:
df.binary_label.unique()

array([False,  True])

In [14]:
print("There are {} rows, {} are hate speech, {} not.".format(len(df), len(df[df['binary_label'] == True]), len(df[df['binary_label'] == False])))

There are 6305 rows, 828 are hate speech, 5477 not.


seems about right

In [15]:
df[df['binary_label'] == True].head(50)

Unnamed: 0,raw_text,severity,binary_label
4,"Und pinkelt dann vorne über die Brille, die Sa...",1.0,True
7,der menschenschrott darf alles,1.0,True
11,Für diese dämliche Analyse brauchten wir Bürge...,0.5,True
13,Seit gestern kann weder die Bundesregierung vo...,1.0,True
14,"Das gute daran ,dieses pack legt sich selber um",1.0,True
31,Und solches PACK soll Integriert werden ? Na p...,0.5,True
41,Bei der geistigen Umnachtung der deutschen Bun...,0.5,True
47,Der Typ ist lustig :) Das Motto von Ferkel un...,1.0,True
48,Bei soviel Dummheit bin ich sprachlos.,0.5,True
50,Wenn der Maas das Maul aufmacht ist das schon ...,1.0,True


# cut off no hate samples in order to have a better balanced training set

In [16]:
hate_df = df[df['binary_label'] == True]
no_hate_df = df[df['binary_label'] == False]
print("hate: {} / no hate: {}".format(len(hate_df), len(no_hate_df)))

hate: 828 / no hate: 5477


In [17]:
import numpy as np
chosen_idx = np.random.choice(len(no_hate_df), size=1000)
no_hate_df = no_hate_df.iloc[chosen_idx]
print(no_hate_df.count())
no_hate_df.head()

raw_text        1000
severity        1000
binary_label    1000
dtype: int64


Unnamed: 0,raw_text,severity,binary_label
1489,"Ich warte schon darauf, dass man die Terrorist...",0.0,False
1069,Holt Björn Höcke ins Boot vielleicht haben wir...,0.0,False
5758,"Deutscher, turkmenischer Abstammung bitte. Was...",0.0,False
5539,"Wer glaubt die gehen wieder , ist einfach nur ...",0.0,False
5526,Man wünscht sich eine schlagkräftige Bürgerweh...,0.0,False


In [18]:
df = no_hate_df.append(hate_df)
print(df.count())
df.head()

raw_text        1828
severity        1828
binary_label    1828
dtype: int64


Unnamed: 0,raw_text,severity,binary_label
1489,"Ich warte schon darauf, dass man die Terrorist...",0.0,False
1069,Holt Björn Höcke ins Boot vielleicht haben wir...,0.0,False
5758,"Deutscher, turkmenischer Abstammung bitte. Was...",0.0,False
5539,"Wer glaubt die gehen wieder , ist einfach nur ...",0.0,False
5526,Man wünscht sich eine schlagkräftige Bürgerweh...,0.0,False


# Export Training Set

In [19]:
df.to_csv('export/randomized_balanced_dataset.csv', index=False)
df.to_excel('export/randomized_balanced_dataset.xlsx', index=False)

  force_unicode(url))
%20Jeder%20kann%20erahnen,%20was%20das%20in%20Kürze%20werden%20wird!
%20Und%20wir%20haben%20tausend%20mit%20%22dicken%20Eiern%22%20hier.%20Es%20wird%20hoch%20an%20der%20Zeit,%20daß%20die%20%22Refutschies%20Wellkam%22-Genderweiber%20nicht%20nur%20Matratzen%20und%20Feldbetten%20spenden,%20sondern%20sich%20gleich%20drauflegen...' with link or location/anchor > 255 characters since it exceeds Excel's limit for URLS
  force_unicode(url))
  force_unicode(url))
  force_unicode(url))
