In [37]:
import pandas as pd
import re
from sklearn.model_selection import train_test_split

## Import do Dataset CSV

In [30]:
data = pd.read_csv('../Dados/2019-05-28_portuguese_hate_speech_binary_classification.csv')

## Balanceamento do dataset usando undersampling

In [31]:
from sklearn.utils import resample

df = data

df_label_1 = df[df['hatespeech_comb'] == 1]
df_label_0 = df[df['hatespeech_comb'] == 0]

min_class_size = min(len(df_label_1), len(df_label_0))

df_label_1_downsampled = resample(df_label_1, 
                                  replace=False,
                                  n_samples=min_class_size,
                                  random_state=42)

df_label_0_downsampled = resample(df_label_0, 
                                  replace=False, 
                                  n_samples=min_class_size, 
                                  random_state=42)

df_balanced = pd.concat([df_label_1_downsampled, df_label_0_downsampled]).sample(frac=1, random_state=42)

print(df_balanced['hatespeech_comb'].value_counts())

data = df_balanced


hatespeech_comb
1    1788
0    1788
Name: count, dtype: int64


In [32]:
data.head(20)

Unnamed: 0,text,hatespeech_comb
2051,"Hj é mulher maravilhosa, mulher é isso e aquil...",1
3619,@ProcessinhoBR @srdeabo é engraçado e retrata ...,0
367,"@amora_inlove Gosto não, acho ela bonita nao, ...",0
5255,@tafacill por mim seria 30 dias pra mulher e 1...,1
1827,@franmoraes2 Boa noite esquisitinha legal... r...,0
3994,"RT @atletico: Sócios GNV Prata e GNV Branco, c...",0
151,A esquerdalha (protegida pelo sistema e pelos ...,1
3982,RT @antonutchi: Porque o que mais tem é lobo e...,0
5051,se fosse o mito cuspindo no jean seria homofob...,1
4130,RT @danielaarod: adoro o tempo assim,0


## Aplicação de RegEx para excluir "RT" e identificadores de usuário

In [33]:
# remove os @ "RT" e quebra de linha (/n)
data['text'] = data['text'].str.replace(r'@\S+', '', regex=True)
data['text'] = data['text'].str.replace(r'\n', ' ', regex=True)
data['text'] = data['text'].str.replace(r'RT', '', regex=True)

In [34]:
# Alteração dos nomes das colunas do dataset
data.rename(columns={'text': 'query', 'hatespeech_comb': 'label'}, inplace=True)

In [35]:
data.head()

Unnamed: 0,query,label
2051,"Hj é mulher maravilhosa, mulher é isso e aquil...",1
3619,é engraçado e retrata um pouco do lado 'marg...,0
367,"Gosto não, acho ela bonita nao, nem nada nao....",0
5255,por mim seria 30 dias pra mulher e 1 dia pro ...,1
1827,Boa noite esquisitinha legal... rsrs zzzzzzzz...,0


## Divisão do Dataset em Treino e Teste

In [36]:
df = pd.DataFrame(data)

print(df[df["label"] == 0])
print(df[df["label"] == 1])

df_label_1 = df[df['label'] == 1]
df_label_0 = df[df['label'] == 0]
train_size = 0.7


df_train_1, df_test_1 = train_test_split(df_label_1, train_size=train_size, random_state=42)
df_train_0, df_test_0 = train_test_split(df_label_0, train_size=train_size, random_state=42)

df_train = pd.concat([df_train_1, df_train_0]).sample(frac=1, random_state=42).reset_index(drop=True)
df_test = pd.concat([df_test_1, df_test_0]).sample(frac=1, random_state=42).reset_index(drop=True)

print("Tamanho do conjunto de treino:", len(df_train))
print("Tamanho do conjunto de teste:", len(df_test))


df_train.to_csv('../Dados/train_data2.csv', index=False)
df_test.to_csv('../Dados/test_data2.csv', index=False)

                                                  query  label
3619    é engraçado e retrata um pouco do lado 'marg...      0
367    Gosto não, acho ela bonita nao, nem nada nao....      0
1827   Boa noite esquisitinha legal... rsrs zzzzzzzz...      0
3994    Sócios GNV Prata e GNV Branco, continua a ve...      0
3982    Porque o que mais tem é lobo em pele de cord...      0
...                                                 ...    ...
4937    Acção na Figueira da Foz https://t.co/nLwhy9...      0
3477   Acho q quem sempre se esteve a cagar para a p...      0
5342               Não confunda Trump com George Soros.      0
1340  encontrar os infiltrados no próprio FBI. Infor...      0
2249   essa é a mina do bbb que mandou o cara botar ...      0

[1788 rows x 2 columns]
                                                  query  label
2051  Hj é mulher maravilhosa, mulher é isso e aquil...      1
5255   por mim seria 30 dias pra mulher e 1 dia pro ...      1
151   A esquerdalha (protegida