In [1]:
import pandas as pd
import numpy as np
import os

In [2]:
# Constantes Genericas
TRAIN_PERCENTAGE = 0.7 # Porcentagem do dataset que sera utilizado para treino

AMOUNT_OF_TRAIN_TEST_DATASETS = 3 # Quantidade de divisoes de treino e teste que deverao ser realizadas

dataset = 'offcombr' # lacafe | fortuna | toldbr | offcombr

# Constantes Lacafe
if dataset == 'lacafe':
    PATH = './Datasets/Lacafe' # Caminho para a pasta onde está o arquivo do dataset
    ARCHIVE_NAME = 'df_dataset' # Nome do arquivo do dataset sem extensao
    EXTENSION = 'csv' # Extensao do arquivo

    TEXT_COLUMN = 'txt' # Nome da coluna no arquivo que representa o texto
    CLASS_COLUMN = 'has_anger' # Nome da coluna no arquivo que representa a classe ou rotulo

# Constantes Fortuna
if dataset == 'fortuna':
    PATH = './Datasets/Fortuna' # Caminho para a pasta onde está o arquivo do dataset
    ARCHIVE_NAME = '2019-05-28_portuguese_hate_speech_binary_classification' # Nome do arquivo do dataset sem extensao
    EXTENSION = 'csv' # Extensao do arquivo

    TEXT_COLUMN = 'text' # Nome da coluna no arquivo que representa o texto
    CLASS_COLUMN = 'hatespeech_comb' # Nome da coluna no arquivo que representa a classe ou rotulo

# Constantes ToLD-BR
if dataset == 'toldbr':
    PATH = './Datasets/ToldBR' # Caminho para a pasta onde está o arquivo do dataset
    ARCHIVE_NAME = 'ToLD-BR-Treated' # Nome do arquivo do dataset sem extensao
    EXTENSION = 'csv' # Extensao do arquivo

    TEXT_COLUMN = 'text' # Nome da coluna no arquivo que representa o texto
    CLASS_COLUMN = 'hatespeech' # Nome da coluna no arquivo que representa a classe ou rotulo

# Constantes OffComBr
if dataset == 'offcombr':
    PATH = './Datasets/OffComBR' # Caminho para a pasta onde está o arquivo do dataset
    ARCHIVE_NAME = 'OffComBR2' # Nome do arquivo do dataset sem extensao
    EXTENSION = 'csv' # Extensao do arquivo

    TEXT_COLUMN = 'text' # Nome da coluna no arquivo que representa o texto
    CLASS_COLUMN = 'offensive' # Nome da coluna no arquivo que representa a classe ou rotulo


In [3]:
for i in range(AMOUNT_OF_TRAIN_TEST_DATASETS):
    # Executa a leitura do dataset base
    data = pd.read_csv(PATH + '/' + ARCHIVE_NAME + '.' + EXTENSION)
    
    if dataset == 'lacafe':
        data = data[data['docno'] != 20410]

    # Descobre quandos exemplos de cada classe existem
    total_positive_examples = len(data[data[CLASS_COLUMN] == 1].values)
    total_negative_examples = len(data[data[CLASS_COLUMN] == 0].values)
    total = len(data.values)

    print('Total de dados: ' + str(total))
    print('Quantidade de classes positivas: ' + str(total_positive_examples))
    print('Quantidade de classes negativas: ' + str(total_negative_examples))
    print()

    # Pega os exemplos positivos e negativos separadamente e embaralha
    positive_examples = data[data[CLASS_COLUMN] == 1]
    negative_examples = data[data[CLASS_COLUMN] == 0]
    positive_examples = positive_examples.sample(frac=1)
    negative_examples = negative_examples.sample(frac=1)

    # Descobre qual eh a porcentagem de exemplos positivos e negativos para o dataset de treino
    train_len_positive_examples = int(total_positive_examples * TRAIN_PERCENTAGE)
    train_len_negative_examples = int(total_negative_examples * TRAIN_PERCENTAGE)

    # Divide os datasets em dois (treino e teste)
    positive_examples_1 = positive_examples.iloc[0:train_len_positive_examples]
    positive_examples_2 = positive_examples.iloc[train_len_positive_examples:total_positive_examples]
    negative_examples_1 = negative_examples.iloc[0:train_len_negative_examples]
    negative_examples_2 = negative_examples.iloc[train_len_negative_examples:total_negative_examples]

    # Monta os datasets de treino e teste
    train_data = pd.concat([positive_examples_1, negative_examples_1])
    test_data = pd.concat([positive_examples_2, negative_examples_2])
    
    train_data = train_data[[TEXT_COLUMN, CLASS_COLUMN]]
    test_data = test_data[[TEXT_COLUMN, CLASS_COLUMN]]
    
    train_data = train_data.sample(frac=1)
    test_data = test_data.sample(frac=1)

    print('Quantidade de exemplos de treino: ' + str(len(train_data)))
    print('Quantidade de exemplos de teste: ' + str(len(test_data)))
    print()

    # Monta o caminho para salvar o arquivo
    train_path = f'{PATH}/{ARCHIVE_NAME}_train_{i+1}.{EXTENSION}'
    test_path = f'{PATH}/{ARCHIVE_NAME}_test_{i+1}.{EXTENSION}'

    print('Caminho do arquivo de treino: ' + train_path)
    print('Caminho de arquivo de teste: ' + test_path)
    print()

    # Salva o arquivo de treino e teste
    if (not os.path.isfile(train_path)):
        train_data.to_csv(train_path, encoding='utf-8', index=False)
    else:
        raise Exception(f'Arquivo {test_path} já existe')
        
    if (not os.path.isfile(test_path)):
        test_data.to_csv(test_path, encoding='utf-8', index=False)
    else:
        raise Exception(f'Arquivo {test_path} já existe')
        
    print()

Total de dados: 1250
Quantidade de classes positivas: 419
Quantidade de classes negativas: 831

Quantidade de exemplos de treino: 874
Quantidade de exemplos de teste: 376

Caminho do arquivo de treino: ./Datasets/OffComBR/OffComBR2_train_1.csv
Caminho de arquivo de teste: ./Datasets/OffComBR/OffComBR2_test_1.csv


Total de dados: 1250
Quantidade de classes positivas: 419
Quantidade de classes negativas: 831

Quantidade de exemplos de treino: 874
Quantidade de exemplos de teste: 376

Caminho do arquivo de treino: ./Datasets/OffComBR/OffComBR2_train_2.csv
Caminho de arquivo de teste: ./Datasets/OffComBR/OffComBR2_test_2.csv


Total de dados: 1250
Quantidade de classes positivas: 419
Quantidade de classes negativas: 831

Quantidade de exemplos de treino: 874
Quantidade de exemplos de teste: 376

Caminho do arquivo de treino: ./Datasets/OffComBR/OffComBR2_train_3.csv
Caminho de arquivo de teste: ./Datasets/OffComBR/OffComBR2_test_3.csv


