# Exploratory Analysis

In this notebook we explore the *hatEval* dataset

In [9]:
%load_ext autoreload
%autoreload 2
import pandas as pd
import os
import pathlib


data_dir = os.path.abspath(os.path.join("../../", "data", "hate"))

lang = "es"


train_path = os.path.join(data_dir, f"hateval2019_{lang}_train.csv")
dev_path   = os.path.join(data_dir, f"hateval2019_{lang}_dev.csv")
test_path  = os.path.join(data_dir, f"hateval2019_{lang}_test.csv")

train_df = pd.read_csv(train_path).set_index("id")
dev_df   = pd.read_csv(dev_path).set_index("id")
test_df  = pd.read_csv(test_path).set_index("id")

full_df = pd.concat([train_df, dev_df, test_df])

The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload


In [10]:
len(full_df), len(test_df)

(6600, 1600)

In [11]:
selected_df = train_df

split = "train"
print(f"Language {lang}")
print(f"Split = {split}")

selected_df = {
    "train": train_df,
    "dev": dev_df,
    "test": test_df,
}[split]

selected_df[["HS", "TR", "AG"]].sum(), len(selected_df) - sum(selected_df["HS"])

print(f"{sum(1-selected_df['HS']):,} ({100 * (1-selected_df['HS'].mean()):.1f}\%)")
hateful = sum(selected_df['HS']) 
print(f"{sum(selected_df['HS']):,} ({selected_df['HS'].mean()*100:.1f}\%)")
print(f"{sum(selected_df['TR']):,} ({selected_df['TR'].sum()*100 / hateful:.1f}\%)")
print(f"{sum(selected_df['AG']):,} ({selected_df['AG'].sum()*100 / hateful:.1f}\%)")
print(f"{len(selected_df):,}")


Language es
Split = train
2,643 (58.7\%)
1,857 (41.3\%)
1,129 (60.8\%)
1,502 (80.9\%)
4,500


In [12]:
len(train_df), len(dev_df), len(test_df)

(4500, 500, 1600)

In [13]:
pd.options.display.max_colwidth = 259

full_df.sample(10)

Unnamed: 0_level_0,text,HS,TR,AG
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
21024,"Adán canta “mi novia es sevillista y una puta más”...enhorabuena por la victoria. La prima, podrías usarla para que te enseñen valores, respeto y comprarte algún libro de autoayuda para semejante idiotez.",0,0,0
23320,@HenriFalconLara No digas nada que tú eres cómplice de lo que está pasando... y recuerda seguirás siendo la perra más perra de Venezuela,0,0,0
32474,"Si me volver a ver llorando por vos, pegame. No te mereces ni una puta lágrima más.",0,0,0
20122,"Mirna, para algunas feministas celebrarle un vestido a una mujer es acoso, ojo ahí #pautab @adnradiochile @mirnaschindler",0,0,0
20826,"Se ha reportado la presencia de estos anuncios, panfletos o flyers en otras localidades en la Zona Metropolitana de Omaha #sucesos #nebraska #papillion #omaha #dundee #amenazas #xenofobia #intolerancia #racismo #inmigrantes #migrantes... https://t.co/4yLo...",0,0,0
22450,@JorgeCalabres Tú eres lo peor del mundo grandísimo hijo de perra,0,0,0
23395,@RicarditoZL Cállate perra que fue pura suerte 😭😭😭😭,1,1,1
20991,Estos dos moromierdas son los que han matado a Adrien. R.I.P. https://t.co/WTJUSDeVwn,1,0,0
23180,@AlvaritoMorales Eres el mas estupido comentarista que existe en verdad tu eres una escoria para la profesion!,0,0,0
23733,@RanguGamer Tú puedes rangu si pudiste con la zorra de Dahlia podrás con esta tú eres el phoniex de la vida real,1,1,1


- negratas
- musulmonos

In [38]:
import unidecode

text = "holá güero"

unidecode.unidecode(text)



'hola guero'

In [75]:

idxs = set()
keywords = ["negrata", "la mujer", "mujeres", "musulmono", "ceuta", "refugiad", "perra", "zorra", "puta", "guera", "guero", "guera", "migra", "sudac", "sudak", "concert", "acoso", "arabe", "subsahar", "indocu", "polla", "moro", "manter", "comemela", "escoria", "guarra", "patera", "callate"]

counts = {}

for idx, row in full_df.iterrows():
    txt = unidecode.unidecode(row["text"].lower())
    for keyword in keywords:
        if keyword in txt:
            idxs.add(idx)
            counts[keyword] = counts.get(keyword, 0) + 1
len(idxs), counts
        

(6212,
 {'mujeres': 144,
  'migra': 802,
  'acoso': 284,
  'escoria': 133,
  'puta': 2226,
  'indocu': 182,
  'zorra': 367,
  'callate': 1223,
  'polla': 272,
  'perra': 640,
  'sudak': 39,
  'guero': 106,
  'ceuta': 310,
  'subsahar': 135,
  'arabe': 483,
  'refugiad': 116,
  'guera': 178,
  'patera': 24,
  'sudac': 355,
  'la mujer': 54,
  'moro': 108,
  'comemela': 36,
  'musulmono': 11,
  'manter': 43,
  'guarra': 102,
  'negrata': 49,
  'concert': 135})

In [82]:
full_df.loc[~full_df.index.isin(idxs)].sample(10)

Unnamed: 0_level_0,text,HS,TR,AG
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
23832,Al final un iletrado sin papeles. https://t.co/nQ4IptGJLd,1,1,1
22651,"@anaisbernal El problema de ser un imbécil no es serlo,es demostrarlo. https://t.co/QThkKRNPPw",0,0,0
23888,El biribiri de las estupidas adolescentes manipuladas por la #femimoda aburre a la sociedad y enoja a los abusadores. #feminazis,1,0,1
23377,"Maginense si cuento las veces que me mame y me mande cagadas, fua https://t.co/I9jcZ3X7yn",0,0,0
24867,Pensé que no se te había roto el tomate este mes. -Las Kardashian hablando de su menstruación en español gachupin.,0,0,0
20761,#Pendejos Don't call me gringo You fuckin beaner Stay on your side Of that goddamn river Don't call me gringo You beaner No me digas beaner Mr. puñetero Te sacaré un susto Por racista y culero No me llames frijolero Pinche gringo puñetero,1,0,1
21678,Los lazis catalufos acosan al juez Llarena haciendo gala de la democracia que corre por sus venas mientras la merma saliva imaginando el régimen chekista anhelado.,0,0,0
22492,Qui habite a Cannes/Nice/Monaco,0,0,0
24727,Es la hora de la siesta. ¿Cómo se dice 'siesta' en femenino? Fregar los platos.,1,0,0
21063,🌹 “El Gobierno ha reforzado el sistema nacional de protección internacional y de acogida al aprobar una oferta de empleo público extraordinaria y adicional de 323 plazas destinadas a mejorar la atención a los solicitantes y beneficiarios de protección...”...,0,0,0


In [46]:
not_found = [x for x in full_df.index if x not in idxs]
full_df.loc[not_found]


Unnamed: 0_level_0,text,HS,TR,AG
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
20001,Easyjet quiere duplicar el número de mujeres piloto' Verás tú para aparcar el avión.. http://t.co/46NuLkm09x,1,0,0
20002,El gobierno debe crear un control estricto de inmigración en las zonas fronterizas con Colombia por q después del 20-8querrán venir en masa,1,0,0
20003,Yo veo a mujeres destruidas por acoso laboral y callejero. Otras con depresión debido a violación sexual o maltrato físico. Y conocí a varias que se suicidaron por este tipo de comportamientos machistas. Vas a seguir con tu show pobre? https://t.co/JE6MEg...,0,0,0
20004,"— Yo soy respetuoso con los demás, sólamente les recuerdo lo que son. Y si son escoria no es culpa mía. ... — ¡Claro que lo sé! ¿¡Por quién me tomas!?",0,0,0
20007,Antonio Caballero y como ser de mal gusto e ignorante a la vez. Claro que no es lo mismo acoso sexual y violación pero hay varias conductas que componen la violencia sexual.,0,0,0
...,...,...,...,...
31098,@kaitedo2523 Hasta que los pongan en sus puestos y no le hagan caso o mejor aún cuando el pueblo dueño absoluto de este país se levante y exija deportación masiva de todo inmigrante indocumentado,1,0,1
31006,Y una valla de seis metros con concertinas en la salida de todos los vuelos que vengan de UK que ya estoy hasta los cojones de simios.,1,0,1
30494,"@ArgAcuerdo Tenes razon. Pero muy distintos eran los inmigrantes del siglo pasado que venian con lo puesto, sin conocer el idioma, a TRABAJAR. La basura sudaca que viene ahora lo hace para ser mantenida",1,0,1
33406,@07c05c81f52d432 @eeu_11 Aquí todos los delincuentes ( basura sudaca) que nos ha venido😠 la llevan encima del chándal les pega para ese baile'.. de perros salidos..💩💩⛪,1,0,1
