# Exploración de datos (Trial)

En esta notebook, veamos qué tienen los datos de trial

In [1]:
import pandas as pd

df = pd.read_table("../data/trial/trial_es.tsv", index_col="id")
print(df.shape)
df[:10]

(100, 4)


Unnamed: 0_level_0,text,HS,TR,AG
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
101,@ian_delaCalva @IrantzuVarela @pikaramagazine ...,0,0,0
102,NINGUNA MUJER ES 'PUTA' ❗❗❗ https://t.co/cV0CQ...,0,0,0
103,"Editar, además de complicado, es lo que hace d...",0,0,0
104,Bien joder una puta alegría!! Te lo mereces pe...,0,0,0
105,Todo política... no se levanta la sesión y est...,0,0,0
106,Casuso callate de una puta vez https://t.co/tW...,0,0,0
107,"@BedMM @NayBetania Tú eres la culpable, perra >:v",1,1,1
108,Yo no puedo creer que las propias mujeres natu...,0,0,0
109,@DalasReview @jk_rowling Hijo de puta muerete ...,0,0,0
110,@Wachit0 @100Akshat @_Midoriyaa_ @NeohSJ La id...,0,0,0


Qué significan las columnas?

- `HS`: Si hay discurso de odio, tanto a mujeres o inmigrantes
- `TR`: Si es 1 `HS` ¿está dirigido a un grupo genérico (0) o a un individuo en particular (1)?
- `AG`: Si es 1 `HS` ¿es agresivo o no el tweet?

¿Cuál es la correlación entre HS y AG?


In [2]:
df['HS'].corr(df['AG'])

0.623609564462325

Ok, bastante alta. ¿Cuándo un Tweet tiene Hate Speech y no es Agresivo?

In [3]:
pd.options.display.max_colwidth = 100

for row in df[(df['HS'] == 1) & (df['AG'] == 0)].sample(n=20).iterrows():
    print("***", row[1].text)

*** Decenas de víctimas en ataques de la coalición árabe contra Al Hudaida https://t.co/iiacL0qfmw
*** Qué es un partido doble mixto de tenis? Un single de hombres con obstáculos.
*** A buenas horas, mangas verdes. Tenemos al líder del partido con más fuerza en el Congreso deshumanizando a los inmigrantes con cifras inventadas y luego haciéndose fotos con ellos. Pero no, aquí no habrá populismo:) https://t.co/57cuoVsTMx
*** El problema de algunos no es “la xenofobia" sino que ”la aporofobia”  (rechazo al pobre).  A nadie le molesta el inmigrante millonario como Paulman sino el haitiano pobre que necesita ayuda.
*** Hay racismo cuando no creen que soy su hermana porque soy güera @unpentagono @medicenlore https://t.co/9iHeSpHOIi
*** En que se parece una mujer a un cientifico? En que al cientifico le pasan cosas por la cabeza, y a la mujer le pasan cabezas por la cosa
*** ¿Por qué una mujer no puede ser guapa e inteligente? Porque sería un hombre.
*** Hay que pasarle al canciller Moncada 

## Datos Dev

Veamos qué pinta tienen los dev en Español

In [4]:
%ls ../data


[0m[01;34men[0m/  [01;34mes[0m/  [01;34mtrial[0m/


In [5]:
%ls ../data/es

dev_es.synth.en.tsv  [0m[01;34mreference_test_es[0m/     train_es.synth.fr.tsv
dev_es.tsv           test_es.tsv            train_es.tsv
reference_es.tsv     train_es.synth.en.tsv


**Observación**: cargamos mal los datos antes. Si no le ponemos el `csv.QUOTE_NONE` nos comemos algunas instancias

In [6]:
import csv

dev_df = pd.read_table("../data/es/dev_es.tsv", index_col="id", quoting=csv.QUOTE_NONE)
train_df = pd.read_table("../data/es/train_es.tsv", index_col="id", quoting=csv.QUOTE_NONE)
train_df_ill = pd.read_table("../data/es/train_es.tsv", index_col="id")

print("Español =>")
print("Instancias de entrenamiento: {}".format(len(train_df)))
print("Instancias de entrenamiento (con errores!): {}".format(len(train_df_ill)))
print("Instancias de desarrollo: {}".format(len(dev_df)))

train_df.loc[20849]["text"]

Español =>
Instancias de entrenamiento: 4500
Instancias de entrenamiento (con errores!): 4469
Instancias de desarrollo: 500


'"Querida mamá: Tus vísceras apestan. Odio tu pelo. Debes ser árabe porque tienes una nariz enorme. Los árabes no tienen inteligencia. No entiendes mi personalidad porque no tengo una personalidad: soy un taimado solapado artero inútil anónimo casi gusano...'

In [7]:
dev_df = pd.read_table("../data/en/dev_en.tsv", quoting=csv.QUOTE_NONE)
train_df = pd.read_table("../data/en/train_en.tsv", quoting=csv.QUOTE_NONE)

print("Inglés =>")
print("Instancias de entrenamiento: {}".format(len(train_df)))
print("Instancias de desarrollo: {}".format(len(dev_df)))

Inglés =>
Instancias de entrenamiento: 9000
Instancias de desarrollo: 1000


## Balance de clases

In [8]:
dev_df = pd.read_table("../data/es/dev_es.tsv", quoting=csv.QUOTE_NONE)
train_df = pd.read_table("../data/es/train_es.tsv", quoting=csv.QUOTE_NONE)

print("Train:\n")
print("Cantidad de tweets con HS = 0: {} - {:.2f}%".format(sum(train_df['HS'] == 0), 100* sum(train_df['HS'] == 0) / len(train_df)))
print("Cantidad de tweets con HS = 1: {} - {:.2f}%".format(sum(train_df['HS'] == 1), 100* sum(train_df['HS'] == 1) / len(train_df)))

print("Development:\n")
print("Cantidad de tweets con HS = 0: {} - {:.2f}%".format(sum(dev_df['HS'] == 0), 100* sum(dev_df['HS'] == 0) / len(dev_df)))
print("Cantidad de tweets con HS = 1: {} - {:.2f}%".format(sum(dev_df['HS'] == 1), 100* sum(dev_df['HS'] == 1) / len(dev_df)))


Train:

Cantidad de tweets con HS = 0: 2643 - 58.73%
Cantidad de tweets con HS = 1: 1857 - 41.27%
Development:

Cantidad de tweets con HS = 0: 278 - 55.60%
Cantidad de tweets con HS = 1: 222 - 44.40%


In [9]:
dev_df = pd.read_table("../data/en/dev_en.tsv", quoting=csv.QUOTE_NONE)
train_df = pd.read_table("../data/en/train_en.tsv", quoting=csv.QUOTE_NONE)

print("Train:\n")
print("Cantidad de tweets con HS = 0: {} - {:.2f}%".format(sum(train_df['HS'] == 0), 100* sum(train_df['HS'] == 0) / len(train_df)))
print("Cantidad de tweets con HS = 1: {} - {:.2f}%".format(sum(train_df['HS'] == 1), 100* sum(train_df['HS'] == 1) / len(train_df)))

print("Development:\n")
print("Cantidad de tweets con HS = 0: {} - {:.2f}%".format(sum(dev_df['HS'] == 0), 100* sum(dev_df['HS'] == 0) / len(dev_df)))
print("Cantidad de tweets con HS = 1: {} - {:.2f}%".format(sum(dev_df['HS'] == 1), 100* sum(dev_df['HS'] == 1) / len(dev_df)))


Train:

Cantidad de tweets con HS = 0: 5217 - 57.97%
Cantidad de tweets con HS = 1: 3783 - 42.03%
Development:

Cantidad de tweets con HS = 0: 573 - 57.30%
Cantidad de tweets con HS = 1: 427 - 42.70%
