# Download and Printing the corpus 

## File format

The data have been encoded with the same format, independently of the task and language. Such format consists of a tab-separated file with one line per tweet containing the following fields:

* a numeric ID that uniquely identifies the tweet within the dataset (id column)
* the text of the tweet (text column)
* a binary value {1|0} indicating if hate speech is occurring against one of the given targets, women or immigrants (HS column)
* if HS occurs (i.e. the value for the feature at point 2 is 1), a binary value indicating if the target is a generic group of people (0) or a specific individual (1) (TR column)
* if HS occurs (i.e. the value for the feature at point 2 is 1), a binary value indicating if the tweeter is aggressive (1) or not (0) (AG column)


In [4]:
import pandas as pd
import numpy as np

corpus = pd.read_csv('Corpus/public_development_esTaskA/hashaTags_train_es.txt',delimiter='\t',encoding='utf-8')
print(list(corpus.columns.values)) #file header
print(corpus.tail(10)) #last N rows
print(corpus[[corpus.columns[0],corpus.columns[1],corpus.columns[2]]]) #print the columns: id, text, HS
print(corpus[corpus['HS'] != 0]) #printing the hates twits

['id', 'text', 'HS', 'TR', 'AG']
        id                                               text  HS  TR  AG
433  24914  Mucho rollito con lo de #JuanaRivasSomosTodas ...   1   0   1
434  24922  NO+INMIGRACIÓN NO+INVASIÓN NO MÁS INMIGRANTES,...   1   0   1
435  24932  #AlCongresoPorLosJubilados carrio no sirve lo ...   1   1   1
436  24945  Te habrán dicho que los #inmigrantes traen #pa...   0   0   0
437  24947  ⚡DESTACAMOS | Buenas noticias, el alcalde de F...   0   0   0
438  24970  señor @JorgeSharp #alcadedevalparaiso tiene cl...   0   0   0
439  24980  #OJO Detienen a 95 #indocumentados en desierto...   0   0   0
440  24990  #LoMásLeído | El Gobierno refuerza con 323 pla...   0   0   0
441  24992  Nao: el robot que enseña Alemán a los niños re...   0   0   0
442  24996  @miriaan_ac @Linaveso_2105 @HumildesSquad_ CÁL...   1   1   1
        id                                               text  HS
0    20012  #Noticiasdelalinea: Detienen en Guatapanal mot...   0
1    20020  Todos: -#

# Características del corpus

¿Qué porcentaje del corpus es odioso?

In [5]:
def porcentaje_odioso():
    hate=corpus[corpus['HS'] != 0]
    print(len(hate), len(corpus))
    return corpus['HS'].mean()*100

In [6]:
porcentaje_odioso()

140 443


31.60270880361174

¿Qué porcentaje del corpus es para individuos?

In [7]:
def porcentaje_individuo():
    individual=corpus[corpus['TR'] != 0]
    print(len(individual), len(corpus))
    return corpus['TR'].mean()*100

In [8]:
porcentaje_individuo()

33 443


7.44920993227991

¿Qué porcentaje del corpus es agresivo?

In [9]:
def porcentaje_agresivo_total():    
    aggressive=corpus[corpus['AG'] != 0]
    print(len(aggressive), len(corpus))
    return corpus['AG'].mean()*100

In [10]:
porcentaje_agresivo_total()

98 443


22.121896162528216

¿Qué porcentaje del corpus que son odiosos es agresivo?

In [11]:
def porcentaje_agresivo_hate():
    hate=corpus[corpus['HS'] != 0]
    aggressive=hate[hate['AG'] != 0]
    print(len(aggressive), len(hate))
    return hate['AG'].mean()*100

In [12]:
porcentaje_agresivo_hate()

98 140


70.0