# Input Statistical Analysis for all datasets

In [3]:
import numpy as np
import pandas as pd
import spacy
import emoji
from collections import Counter

In [4]:
DATA_DIR = '../data'

### Utility Functions

In [26]:
def remove_emoji(text):
    return emoji.get_emoji_regexp().sub(u'', text)

def slice_dataframe_and_compute_word_frequency(df, slice_cols, slice_vals, text_col, spacy_lang_pkg):
    sliced_df = df.copy()
    for i in range(len(slice_cols)):
        sliced_df = sliced_df[sliced_df[slice_cols[i]] == slice_vals[i]]
    print(f'Found a total of {len(sliced_df)} examples')
    nlp = spacy.load(spacy_lang_pkg)
    text = ' '.join(sliced_df[text_col])
    text = emoji.get_emoji_regexp().sub(r'', text)
    doc = nlp(text)
    words = [token.text for token in doc if not token.is_stop and not token.is_punct and len(token) > 1]
    freqs = Counter(words)
    return freqs

### Spanish (Basile et al.)

In [74]:
df = pd.read_csv(f'{DATA_DIR}/spanish-basile/hateval2019_es_train.csv')

In [75]:
df.head()

Unnamed: 0,id,text,HS,TR,AG
0,20001,Easyjet quiere duplicar el número de mujeres p...,1,0,0
1,20002,El gobierno debe crear un control estricto de ...,1,0,0
2,20003,Yo veo a mujeres destruidas por acoso laboral ...,0,0,0
3,20004,"— Yo soy respetuoso con los demás, sólamente l...",0,0,0
4,20007,Antonio Caballero y como ser de mal gusto e ig...,0,0,0


#### 1.1 Word Frequecy for Examples that are Hate Speech

In [80]:
freqs = slice_dataframe_and_compute_word_frequency(df, ['HS'], [1], 'text', 'es_core_news_sm')
freqs.most_common()[:10]

Found a total of 1857 examples


[('puta', 418),
 ('perra', 345),
 ('zorra', 216),
 ('Cállate', 122),
 ('callate', 110),
 ('inmigrantes', 102),
 ('mujer', 96),
 ('Callate', 91),
 ('mereces', 82),
 ('cállate', 78)]

#### 1.2 Word Frequecy for Examples that are Hate Speech and Aggressive

In [81]:
freqs = slice_dataframe_and_compute_word_frequency(df, ['HS', 'AG'], [1, 1], 'text', 'es_core_news_sm')
freqs.most_common()[:10]

Found a total of 1502 examples


[('puta', 398),
 ('perra', 322),
 ('zorra', 207),
 ('Cállate', 122),
 ('callate', 109),
 ('Callate', 90),
 ('mereces', 80),
 ('cállate', 78),
 ('mierda', 74),
 ('PUTA', 67)]

#### 1.3 Word Frequecy for Examples that are Hate Speech but not Aggressive

In [82]:
freqs = slice_dataframe_and_compute_word_frequency(df, ['HS', 'AG'], [1, 0], 'text', 'es_core_news_sm')
freqs.most_common()[:10]

Found a total of 355 examples


[('mujer', 54),
 ('inmigrantes', 36),
 ('mujeres', 32),
 ('subsaharianos', 23),
 ('perra', 23),
 ('puta', 20),
 ('España', 17),
 ('país', 17),
 ('papeles', 16),
 ('inmigrante', 15)]

#### 2.  Word Frequecy for Examples that are not Hate Speech

In [83]:
freqs = slice_dataframe_and_compute_word_frequency(df, ['HS'], [0], 'text', 'es_core_news_sm')
freqs.most_common()[:10]

Found a total of 2643 examples


[('puta', 784),
 ('hijo', 237),
 ('acoso', 198),
 ('madre', 149),
 ('perra', 142),
 ('polla', 141),
 ('PUTA', 139),
 ('mierda', 117),
 ('mereces', 112),
 ('violación', 110)]

### Spanish (Pereira et al.)

In [5]:
# Necessary wrangling to fit it into a DataFrame
data = []
with open(f'{DATA_DIR}/spanish-pereira/labeled_corpus_6K.txt', 'r') as f:
    for line in f.readlines():
        curr = line.split(";||;")
        data.append(curr[:-1] + [int(curr[-1][0])])

In [6]:
df = pd.DataFrame(data=np.array(data), columns=['id', 'text', 'HS'])

In [13]:
df['HS'] = df.HS.astype(int)

#### 1. Word Frequecy for Examples that are Hate Speech

In [17]:
freqs = slice_dataframe_and_compute_word_frequency(df, ['HS'], [1], 'text', 'es_core_news_sm')
freqs.most_common()[:10]

                      id                                               text  \
0  id=828025263321657348  Ismael es egocentrico porque se vuelve loca si...   
1  id=828025128797741057  ..ya tardaba en salir quien pronunciase nombre...   
2  id=828025087815274496  (Esto no es un discurso político y razonado, o...   
3  id=828025006626058241  Muy despreciados,siiii,pero todos vestidos de ...   
4  id=828024709761658880  marica explicame porque a veces no te entiendo...   

   HS  
0   0  
1   0  
2   0  
3   1  
4   1  
Found a total of 1567 examples


[('subnormal', 350),
 ('mierda', 144),
 ('puto', 97),
 ('puta', 91),
 ('fascista', 85),
 ('fachas', 82),
 ('facha', 66),
 ('fascistas', 61),
 ('nazi', 44),
 ('retrasado', 42)]

#### 2. Word Frequecy for Examples that are not Hate Speech

In [18]:
freqs = slice_dataframe_and_compute_word_frequency(df, ['HS'], [0], 'text', 'es_core_news_sm')
freqs.most_common()[:10]

                      id                                               text  \
0  id=828025263321657348  Ismael es egocentrico porque se vuelve loca si...   
1  id=828025128797741057  ..ya tardaba en salir quien pronunciase nombre...   
2  id=828025087815274496  (Esto no es un discurso político y razonado, o...   
3  id=828025006626058241  Muy despreciados,siiii,pero todos vestidos de ...   
4  id=828024709761658880  marica explicame porque a veces no te entiendo...   

   HS  
0   0  
1   0  
2   0  
3   1  
4   1  
Found a total of 4433 examples


[('independentista', 501),
 ('subnormal', 306),
 ('fascista', 200),
 ('facha', 196),
 ('fascistas', 157),
 ('negro', 145),
 ('fachas', 135),
 ('mayoría', 124),
 ('género', 121),
 ('gente', 118)]

### French (Ousidhoum et al.)

In [20]:
df = pd.read_csv(f'{DATA_DIR}/french-ousidhoum/fr_dataset.csv')

In [21]:
df.head()

Unnamed: 0,HITId,tweet,sentiment,directness,annotator_sentiment,target,group
0,1,rt @user personnage ainsi q tte la clique gauc...,abusive,direct,shock,origin,other
1,2,@user @user @user bah oui t'as raison l'autre ...,offensive,indirect,shock,other,individual
2,3,moi j'ai personne à qui m'adresser pour réclam...,hateful,direct,anger_confusion_sadness_fear_disgust,other,women
3,4,@user @user c...est vrai que les anchois sont ...,normal,indirect,indifference,other,other
4,5,eh les renois faut se réveiller la @url,normal,direct,sadness,origin,african_descent


In [27]:
freqs = slice_dataframe_and_compute_word_frequency(df, ['sentiment'], ['normal'], 'tweet', 'fr_core_news_sm')
freqs.most_common()[:10]

Found a total of 821 examples
@user @user c...est vrai que les anchois sont aller sur la lune et invente de million de technologie ! eh les renois faut se réveiller la @url @user sjw et féministe twitter un sale combo @user @user tu sais aussi pourquoi est au dessus ? parce que si veut demain bah ya plus d'ani... @url @user dekoi tu parle jte dis ta ps honte de dire half black lieu de half pakpak attardé @user ohhh la violence je meuuurs @user @user l'empire mongol @user @user @user et vous vous êtes contres la pma pour tout le monde et contre l’avortement. el… @url @user pour ou contre l'avortement ? @user @user @user d'autant plus bizarre que flavius josèphe est resté juif jusqu'au bout des ongles. quand je sors de chez le coiffeur j’suis vraiment le plus beau de tous les rebeus @user @user oui je ne comprends pas pourquoi ceux qui veulent accueillir les migrants n'en prennent pas… @url @user @user j'essaie de bien comprendre maintenant je sais que quand dit qu'on est antisioniste il

[('@user', 970),
 ('@url', 475),
 ('gauchiste', 93),
 ('renois', 79),
 ('attarde', 66),
 ('migrants', 62),
 ('violence', 60),
 ('contre', 53),
 ('arabes', 43),
 ('attardé', 42)]