In [1]:
import pandas as pd
import numpy as np
import os

In [2]:
# Constantes Genericas
dataset = 'toldbr' # lacafe | fortuna | toldbr | offcombr

# Constantes Lacafe
if dataset == 'lacafe':
    PATH = './Datasets/Lacafe' # Caminho para a pasta onde está o arquivo do dataset
    ARCHIVE_NAME = 'df_dataset' # Nome do arquivo do dataset sem extensao
    EXTENSION = 'csv' # Extensao do arquivo

    TEXT_COLUMN = 'txt' # Nome da coluna no arquivo que representa o texto
    CLASS_COLUMN = 'has_anger' # Nome da coluna no arquivo que representa a classe ou rotulo

# Constantes Fortuna
if dataset == 'fortuna':
    PATH = './Datasets/Fortuna' # Caminho para a pasta onde está o arquivo do dataset
    ARCHIVE_NAME = '2019-05-28_portuguese_hate_speech_binary_classification' # Nome do arquivo do dataset sem extensao
    EXTENSION = 'csv' # Extensao do arquivo

    TEXT_COLUMN = 'text' # Nome da coluna no arquivo que representa o texto
    CLASS_COLUMN = 'hatespeech_comb' # Nome da coluna no arquivo que representa a classe ou rotulo

# Constantes ToLD-BR
if dataset == 'toldbr':
    PATH = './Datasets/ToldBR' # Caminho para a pasta onde está o arquivo do dataset
    ARCHIVE_NAME = 'ToLD-BR-Treated' # Nome do arquivo do dataset sem extensao
    EXTENSION = 'csv' # Extensao do arquivo

    TEXT_COLUMN = 'text' # Nome da coluna no arquivo que representa o texto
    CLASS_COLUMN = 'hatespeech' # Nome da coluna no arquivo que representa a classe ou rotulo

# Constantes OffComBr
if dataset == 'offcombr':
    PATH = './Datasets/OffComBR' # Caminho para a pasta onde está o arquivo do dataset
    ARCHIVE_NAME = 'OffComBR2' # Nome do arquivo do dataset sem extensao
    EXTENSION = 'csv' # Extensao do arquivo

    TEXT_COLUMN = 'text' # Nome da coluna no arquivo que representa o texto
    CLASS_COLUMN = 'offensive' # Nome da coluna no arquivo que representa a classe ou rotulo


In [3]:

# Executa a leitura do dataset base
data = pd.read_csv(PATH + '/' + ARCHIVE_NAME + '.' + EXTENSION)

if dataset == 'lacafe':
    data = data[data['docno'] != 20410]

# Descobre quandos exemplos de cada classe existem
total_positive_examples = len(data[data[CLASS_COLUMN] == 1].values)
total_negative_examples = len(data[data[CLASS_COLUMN] == 0].values)
total = len(data.values)

print('Total de dados: ' + str(total))
print('Quantidade de classes positivas: ' + str(total_positive_examples))
print('Quantidade de classes negativas: ' + str(total_negative_examples))
print()

# Pega os exemplos positivos e negativos separadamente e embaralha
positive_examples = data[data[CLASS_COLUMN] == 1]
negative_examples = data[data[CLASS_COLUMN] == 0]
positive_examples = positive_examples.sample(frac=1)
negative_examples = negative_examples.sample(frac=1)

# Divide os datasets em dois (treino e teste)
negative_examples = negative_examples.iloc[0:total_positive_examples]

# Monta os datasets de treino e teste
data = pd.concat([positive_examples, negative_examples])

data = data[[TEXT_COLUMN, CLASS_COLUMN]]

data = data.sample(frac=1)

print('Quantidade de exemplos: ' + str(len(data)))
print()

# Monta o caminho para salvar o arquivo
path = f'{PATH}/{ARCHIVE_NAME}_undersampling.{EXTENSION}'

print('Caminho do arquivo: ' + path)
print()

# Salva o arquivo de treino e teste
if (not os.path.isfile(path)):
    data.to_csv(path, encoding='utf-8', index=False)
else:
    raise Exception(f'Arquivo {path} já existe')

print()

Total de dados: 21000
Quantidade de classes positivas: 4063
Quantidade de classes negativas: 16937

Quantidade de exemplos: 8126

Caminho do arquivo: ./Datasets/ToldBR/ToLD-BR-Treated_undersampling.csv


