# Exploratory Analysis

In this notebook we explore the *hatEval* dataset

In [74]:
%load_ext autoreload
%autoreload 2
import pandas as pd
import os
import pathlib


data_dir = os.path.abspath(os.path.join("../../", "data", "hate"))

lang = "en"


train_path = os.path.join(data_dir, f"hateval2019_{lang}_train.csv")
dev_path   = os.path.join(data_dir, f"hateval2019_{lang}_dev.csv")
test_path  = os.path.join(data_dir, f"hateval2019_{lang}_test.csv")

train_df = pd.read_csv(train_path).set_index("id")
dev_df   = pd.read_csv(dev_path).set_index("id")
test_df  = pd.read_csv(test_path).set_index("id")

full_df = pd.concat([train_df, dev_df, test_df])

The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload


In [72]:
len(full_df), len(test_df)

(13000, 3000)

In [95]:
selected_df = train_df

split = "train"
print(f"Language {lang}")
print(f"Split = {split}")

selected_df = {
    "train": train_df,
    "dev": dev_df,
    "test": test_df,
}[split]

selected_df[["HS", "TR", "AG"]].sum(), len(selected_df) - sum(selected_df["HS"])

print(f"{sum(1-selected_df['HS']):,} ({100 * (1-selected_df['HS'].mean()):.1f}\%)")
hateful = sum(selected_df['HS']) 
print(f"{sum(selected_df['HS']):,} ({selected_df['HS'].mean()*100:.1f}\%)")
print(f"{sum(selected_df['TR']):,} ({selected_df['TR'].sum()*100 / hateful:.1f}\%)")
print(f"{sum(selected_df['AG']):,} ({selected_df['AG'].sum()*100 / hateful:.1f}\%)")
print(f"{len(selected_df):,}")


Language en
Split = train
5,217 (58.0\%)
3,783 (42.0\%)
1,341 (35.4\%)
1,559 (41.2\%)
9,000


In [66]:
len(train_df), len(dev_df), len(test_df)

(9000, 1000, 3000)

In [62]:
pd.options.display.max_colwidth = 259

full_df.sample(10)

Unnamed: 0_level_0,text,HS,TR,AG
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
21542,@Rubiaaa31 Cuando cumplas 18 te denuncio por violación y acoso,0,0,0
21949,"Perra, pero callada, me gusta.",1,1,1
32623,"Vanessa Diamonds ( tengo que especificar entre mis Vanessas) lo que necesita es un negrata rico, como su heroína la Jenner. Que haya mucho postu pero que a la hora de la verdad la tenga pequeña.",0,0,0
23863,La conmovedora historia de los niños de combatientes de Estado Islámico varados en un orfanato de Libia https://t.co/wwV32NvFlB Emiratos Árabes Unidos (EAU) bombardea a Libia https://t.co/BYKO9uQ1Y9,0,0,0
24242,No os voy a enseñar lo guapo que está @Dosek14 hoy porque soy una puta egoísta de mierda.,1,1,1
24017,Arabe remix ya te siento,0,0,0
21007,"En que se parece una mujer a un cientifico? En que al cientifico le pasan cosas por la cabeza, y a la mujer le pasan cabezas por la cosa",1,0,0
23016,Tu no eres mala persona TU ERES ESCORIA @angeeles013,0,0,0
33405,"@Almagro_OEA2015 @ReinaldoProfeta @AsambleaVE @OmarBarbozaDip @OEA_oficial Ya Barboza deslegitimó al TSJ q el mismo parlamento eligió y se le califica de legítimo. X esta vía y con esa mentalidad vzla, nicaragua, cuba, etc seguirán siendo reproductoras d ...",0,0,0
31995,"Las concertinas no estaban ahí para hacer daño, sino para que no saltaran. Pero un genio el Marlaska. https://t.co/nW4CokW5O1",0,0,0


- negratas
- musulmonos

In [57]:
errores_de_anotacion = [
    31962,
    22626,
    31308,
]

falta_contexto = [
    22626,
    24333,
]

full_df.loc[errores_de_anotacion + falta_contexto, :]


Unnamed: 0_level_0,text,HS,TR,AG
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
31962,@isaac_c_h @elyyvaliente Subnormal dime que se siente cuando vengas a BARCELONA Y TE PEGUE 4 HOSTIAS PUTO SUDACA MIERDA,0,0,0
22626,"@VilxSouvenir El de perra me luce pero tu eres tan perra que ni te agarra. Te quiero bebé, el proceso está siendo increíble, el siguiente paso es que yo te maquillaje, vas a quedar perfecta.",1,1,1
31308,Como hay gente sudaca que es hincha del Barca o peor del Atlético Madrid,1,0,0
22626,"@VilxSouvenir El de perra me luce pero tu eres tan perra que ni te agarra. Te quiero bebé, el proceso está siendo increíble, el siguiente paso es que yo te maquillaje, vas a quedar perfecta.",1,1,1
24333,Grande Adán!!! Mi novia es sevillista y es una puta más lololooooo!!! CAPITÁN!!!!!!,1,1,1


In [47]:
idxs = set()
keywords = ["negrata", "musulmono", "perra", "zorra", "puta", "güer", "inmigr"]

counts = {}

for idx, txt in enumerate(full_df.text):
    for keyword in keywords:
        if keyword in txt:
            idxs.add(idx)
            counts[keyword] = counts.get(keyword, 0) + 1
len(idxs), counts
        

(3509,
 {'inmigr': 696,
  'puta': 1848,
  'zorra': 313,
  'perra': 571,
  'güer': 134,
  'musulmono': 10,
  'negrata': 38})

In [44]:
full_df.shape

(6600, 4)

In [46]:
not_found = [x for x in full_df.index if x not in idxs]
full_df.loc[not_found]


Unnamed: 0_level_0,text,HS,TR,AG
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
20001,Easyjet quiere duplicar el número de mujeres piloto' Verás tú para aparcar el avión.. http://t.co/46NuLkm09x,1,0,0
20002,El gobierno debe crear un control estricto de inmigración en las zonas fronterizas con Colombia por q después del 20-8querrán venir en masa,1,0,0
20003,Yo veo a mujeres destruidas por acoso laboral y callejero. Otras con depresión debido a violación sexual o maltrato físico. Y conocí a varias que se suicidaron por este tipo de comportamientos machistas. Vas a seguir con tu show pobre? https://t.co/JE6MEg...,0,0,0
20004,"— Yo soy respetuoso con los demás, sólamente les recuerdo lo que son. Y si son escoria no es culpa mía. ... — ¡Claro que lo sé! ¿¡Por quién me tomas!?",0,0,0
20007,Antonio Caballero y como ser de mal gusto e ignorante a la vez. Claro que no es lo mismo acoso sexual y violación pero hay varias conductas que componen la violencia sexual.,0,0,0
...,...,...,...,...
31098,@kaitedo2523 Hasta que los pongan en sus puestos y no le hagan caso o mejor aún cuando el pueblo dueño absoluto de este país se levante y exija deportación masiva de todo inmigrante indocumentado,1,0,1
31006,Y una valla de seis metros con concertinas en la salida de todos los vuelos que vengan de UK que ya estoy hasta los cojones de simios.,1,0,1
30494,"@ArgAcuerdo Tenes razon. Pero muy distintos eran los inmigrantes del siglo pasado que venian con lo puesto, sin conocer el idioma, a TRABAJAR. La basura sudaca que viene ahora lo hace para ser mantenida",1,0,1
33406,@07c05c81f52d432 @eeu_11 Aquí todos los delincuentes ( basura sudaca) que nos ha venido😠 la llevan encima del chándal les pega para ese baile'.. de perros salidos..💩💩⛪,1,0,1
