In [1]:
import pandas as pd

In [2]:
df = pd.read_csv(r'../1_Data_Cleaning/IWG_Dataset/german_hatespeech_refugees.csv')
df.head(20)

Unnamed: 0,Tweet,HatespeechOrNot (Expert 1),HatespeechOrNot (Expert 2),Hatespeech Rating (Expert 2)
0,#Rosenmontag ist abgesagt. #Rapefugees also wi...,YES,NO,5
1,bitte nicht die #Türkei zum #EU-Mitglied mache...,NO,NO,1
2,Wieso bekommen #rapefugees mehr als unsere Har...,NO,NO,3
3,Den verfluchten #Rapefugees den Krieg erklären...,NO,YES,4
4,War das Wochenende im Ruhrpott unterwegs. Über...,YES,YES,6
5,#Asylanteninvasion Wenn es auf unseren Straßen...,NO,NO,1
6,745 Millionen Menschen leben in #Europa. Ca. 4...,NO,NO,1
7,Tja die #SPD will unsere Steuergelder für Flüc...,NO,NO,3
8,Aber für die Kölner Polizei haben gestiegene A...,NO,NO,4
9,"Offenes, freies WLAN im #Sophienhof #Kiel. Mit...",YES,NO,2


# Normalize

the goal is to develop a simple normalised form of hate speech datasets when combining different sources. For now, I include the following values:

- raw text: the comment unprocessed
- severity: the average of all expert assessments with a value between 0 and 1
- binary_label: A binary estimation of the comment on beeing hate speech or not

In [4]:
# calculate severity
def calculateSeverity(row):
    value_1 = 1 if row['HatespeechOrNot (Expert 1)'] == "YES" else 0
    value_2 = 1 if row['HatespeechOrNot (Expert 2)'] == "YES" else 0
    
    return (value_1 + value_2) / 2

print(calculateSeverity(df.iloc[0]))

0.5


In [5]:
df['severity'] = df.apply (lambda row: calculateSeverity(row), axis=1)
df.head(20)

Unnamed: 0,Tweet,HatespeechOrNot (Expert 1),HatespeechOrNot (Expert 2),Hatespeech Rating (Expert 2),severity
0,#Rosenmontag ist abgesagt. #Rapefugees also wi...,YES,NO,5,0.5
1,bitte nicht die #Türkei zum #EU-Mitglied mache...,NO,NO,1,0.0
2,Wieso bekommen #rapefugees mehr als unsere Har...,NO,NO,3,0.0
3,Den verfluchten #Rapefugees den Krieg erklären...,NO,YES,4,0.5
4,War das Wochenende im Ruhrpott unterwegs. Über...,YES,YES,6,1.0
5,#Asylanteninvasion Wenn es auf unseren Straßen...,NO,NO,1,0.0
6,745 Millionen Menschen leben in #Europa. Ca. 4...,NO,NO,1,0.0
7,Tja die #SPD will unsere Steuergelder für Flüc...,NO,NO,3,0.0
8,Aber für die Kölner Polizei haben gestiegene A...,NO,NO,4,0.0
9,"Offenes, freies WLAN im #Sophienhof #Kiel. Mit...",YES,NO,2,0.5


In [6]:
# generate binary label from severity
df['binary_label'] = df['severity'].apply(lambda x: x >= 0.5)
df.head(20)

Unnamed: 0,Tweet,HatespeechOrNot (Expert 1),HatespeechOrNot (Expert 2),Hatespeech Rating (Expert 2),severity,binary_label
0,#Rosenmontag ist abgesagt. #Rapefugees also wi...,YES,NO,5,0.5,True
1,bitte nicht die #Türkei zum #EU-Mitglied mache...,NO,NO,1,0.0,False
2,Wieso bekommen #rapefugees mehr als unsere Har...,NO,NO,3,0.0,False
3,Den verfluchten #Rapefugees den Krieg erklären...,NO,YES,4,0.5,True
4,War das Wochenende im Ruhrpott unterwegs. Über...,YES,YES,6,1.0,True
5,#Asylanteninvasion Wenn es auf unseren Straßen...,NO,NO,1,0.0,False
6,745 Millionen Menschen leben in #Europa. Ca. 4...,NO,NO,1,0.0,False
7,Tja die #SPD will unsere Steuergelder für Flüc...,NO,NO,3,0.0,False
8,Aber für die Kölner Polizei haben gestiegene A...,NO,NO,4,0.0,False
9,"Offenes, freies WLAN im #Sophienhof #Kiel. Mit...",YES,NO,2,0.5,True


In [7]:
df_hs = df.filter(['Tweet', 'severity', 'binary_label'])
df_hs.rename(columns={'Tweet':'raw_text'}, inplace=True)
df_hs.head(20)

Unnamed: 0,raw_text,severity,binary_label
0,#Rosenmontag ist abgesagt. #Rapefugees also wi...,0.5,True
1,bitte nicht die #Türkei zum #EU-Mitglied mache...,0.0,False
2,Wieso bekommen #rapefugees mehr als unsere Har...,0.0,False
3,Den verfluchten #Rapefugees den Krieg erklären...,0.5,True
4,War das Wochenende im Ruhrpott unterwegs. Über...,1.0,True
5,#Asylanteninvasion Wenn es auf unseren Straßen...,0.0,False
6,745 Millionen Menschen leben in #Europa. Ca. 4...,0.0,False
7,Tja die #SPD will unsere Steuergelder für Flüc...,0.0,False
8,Aber für die Kölner Polizei haben gestiegene A...,0.0,False
9,"Offenes, freies WLAN im #Sophienhof #Kiel. Mit...",0.5,True


# overview

In [8]:
print("Out of {} rows, {} are ordinary, {} are hate speech of some kind".format(len(df_hs),
                                                      len(df_hs[df_hs['binary_label'] == False]),
     len(df_hs[df_hs['binary_label'] == True])))

Out of 469 rows, 315 are ordinary, 154 are hate speech of some kind


In [None]:
df_hs.to_csv('data/normalized_tweets_refugees.csv', index=False)
df_hs.to_excel('data/normalized_tweets_refugees.xlsx', index=False)