# Input Statistical Analysis for all datasets

In [30]:
import numpy as np
import pandas as pd
import spacy
import emoji
from collections import Counter

In [4]:
DATA_DIR = '../data'

### Utility Functions

In [65]:
def remove_emoji(text):
    return emoji.get_emoji_regexp().sub(u'', text)

def slice_dataframe_and_compute_word_frequency(df, slice_cols, slice_vals, text_col, spacy_lang_pkg):
    sliced_df = df.copy()
    for i in range(len(slice_cols)):
        sliced_df = sliced_df[sliced_df[slice_cols[i]] == slice_vals[i]]
    print(f'Found a total of {len(sliced_df)} examples')
    nlp = spacy.load(spacy_lang_pkg)
    text = ' '.join(sliced_df[text_col])
    text = emoji.get_emoji_regexp().sub(r'', text)
    doc = nlp(text)
    words = [token.text for token in doc if not token.is_stop and not token.is_punct and len(token) > 1]
    freqs = Counter(words)
    return freqs

### Spanish (Basile et al.)

In [66]:
df = pd.read_csv(f'{DATA_DIR}/spanish-basile/hateval2019_es_train.csv')

In [70]:
df.head()

Unnamed: 0,id,text,HS,TR,AG
0,20001,Easyjet quiere duplicar el número de mujeres p...,1,0,0
1,20002,El gobierno debe crear un control estricto de ...,1,0,0
2,20003,Yo veo a mujeres destruidas por acoso laboral ...,0,0,0
3,20004,"— Yo soy respetuoso con los demás, sólamente l...",0,0,0
4,20007,Antonio Caballero y como ser de mal gusto e ig...,0,0,0


#### 1.1 Word Frequecy for Examples that are Hate Speech

In [68]:
freqs = slice_dataframe_and_compute_word_frequency(df, ['HS'], [1], 'text', 'es_core_news_sm')
freqs.most_common()

Found a total of 1857 examples


[('puta', 418),
 ('perra', 345),
 ('zorra', 216),
 ('Cállate', 122),
 ('callate', 110),
 ('inmigrantes', 102),
 ('mujer', 96),
 ('Callate', 91),
 ('mereces', 82),
 ('cállate', 78),
 ('mierda', 75),
 ('PUTA', 68),
 ('mujeres', 57),
 ('país', 54),
 ('España', 54),
 ('árabes', 53),
 ('novia', 51),
 ('subsaharianos', 50),
 ('hija', 46),
 ('vos', 44),
 ('cara', 39),
 ('indocumentados', 39),
 ('inmigrante', 38),
 ('culo', 36),
 ('refugiados', 36),
 ('PERRA', 35),
 ('papeles', 35),
 ('guarra', 34),
 ('CALLATE', 33),
 ('maldita', 33),
 ('valla', 33),
 ('sudaca', 32),
 ('madre', 32),
 ('vida', 32),
 ('enseñar', 31),
 ('manteros', 29),
 ('pinche', 28),
 ('Ceuta', 28),
 ('españoles', 28),
 ('ilegal', 28),
 ('gente', 28),
 ('sudacas', 27),
 ('Puta', 27),
 ('inmigración', 26),
 ('tienes', 26),
 ('años', 26),
 ('ZORRA', 26),
 ('casa', 25),
 ('vienen', 24),
 ('negros', 24),
 ('árabe', 24),
 ('hombre', 24),
 ('polla', 23),
 ('re', 22),
 ('ilegales', 22),
 ('sos', 22),
 ('moros', 22),
 ('putos', 21),
 

#### 1.2 Word Frequecy for Examples that are Hate Speech and Aggressive

In [71]:
freqs = slice_dataframe_and_compute_word_frequency(df, ['HS', 'AG'], [1, 1], 'text', 'es_core_news_sm')
freqs.most_common()

Found a total of 1502 examples


[('puta', 398),
 ('perra', 322),
 ('zorra', 207),
 ('Cállate', 122),
 ('callate', 109),
 ('Callate', 90),
 ('mereces', 80),
 ('cállate', 78),
 ('mierda', 74),
 ('PUTA', 67),
 ('inmigrantes', 66),
 ('novia', 49),
 ('hija', 45),
 ('vos', 44),
 ('mujer', 42),
 ('árabes', 40),
 ('país', 37),
 ('España', 37),
 ('cara', 35),
 ('PERRA', 34),
 ('CALLATE', 33),
 ('maldita', 33),
 ('culo', 31),
 ('madre', 30),
 ('refugiados', 29),
 ('pinche', 27),
 ('subsaharianos', 27),
 ('enseñar', 27),
 ('Puta', 27),
 ('guarra', 26),
 ('ZORRA', 26),
 ('mujeres', 25),
 ('vida', 25),
 ('indocumentados', 25),
 ('inmigrante', 23),
 ('re', 22),
 ('sudaca', 21),
 ('ilegal', 21),
 ('valla', 21),
 ('tienes', 20),
 ('españoles', 20),
 ('CÁLLATE', 20),
 ('putos', 19),
 ('países', 19),
 ('Perra', 19),
 ('papeles', 19),
 ('sos', 19),
 ('boca', 19),
 ('Ceuta', 19),
 ('polla', 19),
 ('manteros', 18),
 ('moros', 18),
 ('MIERDA', 18),
 ('sudacas', 17),
 ('negros', 17),
 ('indocumentado', 17),
 ('años', 17),
 ('negro', 16),
 

#### 1.3 Word Frequecy for Examples that are Hate Speech but not Aggressive

In [72]:
freqs = slice_dataframe_and_compute_word_frequency(df, ['HS', 'AG'], [1, 0], 'text', 'es_core_news_sm')
freqs.most_common()

Found a total of 2998 examples


[('puta', 804),
 ('hijo', 238),
 ('acoso', 208),
 ('perra', 165),
 ('madre', 151),
 ('polla', 145),
 ('PUTA', 140),
 ('mujer', 124),
 ('inmigrantes', 123),
 ('mierda', 118),
 ('mereces', 114),
 ('violación', 110),
 ('escoria', 98),
 ('mujeres', 93),
 ('árabe', 92),
 ('boca', 83),
 ('cállate', 82),
 ('árabes', 79),
 ('callate', 77),
 ('cara', 75),
 ('Callate', 74),
 ('indocumentados', 73),
 ('enseñar', 73),
 ('vida', 72),
 ('Cállate', 70),
 ('gente', 69),
 ('inmigración', 64),
 ('sexual', 63),
 ('hijos', 60),
 ('país', 59),
 ('tienes', 58),
 ('España', 57),
 ('valla', 54),
 ('refugiados', 51),
 ('hombre', 50),
 ('guarra', 48),
 ('Ceuta', 47),
 ('coño', 47),
 ('MADRE', 46),
 ('inmigrante', 46),
 ('quiero', 46),
 ('merecía', 46),
 ('arabe', 45),
 ('mundo', 44),
 ('zorra', 44),
 ('imbécil', 43),
 ('güero', 42),
 ('CALLATE', 42),
 ('  ', 41),
 ('idea', 40),
 ('subsaharianos', 39),
 ('años', 39),
 ('casa', 39),
 ('tonterías', 38),
 ('culo', 38),
 ('güera', 37),
 ('vía', 35),
 ('hombres', 35)

#### 2.  Word Frequecy for Examples that are not Hate Speech

In [69]:
freqs = slice_dataframe_and_compute_word_frequency(df, ['HS'], [0], 'text', 'es_core_news_sm')
freqs.most_common()

Found a total of 2643 examples


[('puta', 784),
 ('hijo', 237),
 ('acoso', 198),
 ('madre', 149),
 ('perra', 142),
 ('polla', 141),
 ('PUTA', 139),
 ('mierda', 117),
 ('mereces', 112),
 ('violación', 110),
 ('escoria', 98),
 ('inmigrantes', 87),
 ('árabe', 84),
 ('boca', 83),
 ('cállate', 82),
 ('callate', 76),
 ('Callate', 73),
 ('cara', 71),
 ('Cállate', 70),
 ('mujer', 70),
 ('enseñar', 69),
 ('árabes', 66),
 ('vida', 65),
 ('mujeres', 61),
 ('sexual', 59),
 ('indocumentados', 59),
 ('gente', 57),
 ('hijos', 56),
 ('inmigración', 54),
 ('tienes', 52),
 ('MADRE', 46),
 ('refugiados', 44),
 ('merecía', 44),
 ('coño', 43),
 ('imbécil', 43),
 ('quiero', 43),
 ('valla', 42),
 ('CALLATE', 42),
 ('país', 42),
 ('arabe', 41),
 ('España', 40),
 ('guarra', 40),
 ('idea', 39),
 ('güero', 38),
 ('Ceuta', 38),
 ('hombre', 37),
 ('  ', 37),
 ('mundo', 36),
 ('tonterías', 36),
 ('zorra', 35),
 ('HIJO', 35),
 ('culo', 33),
 ('Puta', 33),
 ('güera', 32),
 ('inmigrante', 31),
 ('mil', 30),
 ('vía', 30),
 ('años', 30),
 ('Casado', 2