# Datasets

A biblioteca `aibox-nlp` disponibiliza datasets e corpus em Português Brasileiro. Os datasets e corpus disponibilizados se encontram no pacote `aibox.nlp.data`, é possível instanciá-los diretamente através das classes.

In [None]:
from aibox.nlp.data.datasets import DatasetEssayBR, DatasetPortugueseNarrativeEssays

In [None]:
# === Essay-BR ===
ds = DatasetEssayBR(extended=False,
                    target_competence='C1')
ds.to_frame().head(5)

In [None]:
# === Essay-BR Estendido ===
ds = DatasetEssayBR(extended=True,
                    target_competence='C1')
ds.to_frame().head(5)

In [None]:
# === Portuguese Narrative Essays ===
ds = DatasetPortugueseNarrativeEssays(target_competence='formal_register')
ds.to_frame().head(5)

## Como utilizar um dataset próprio?

Para utilizar um dataset próprio, só precisamos carregá-lo como um `DataFrame` e utilizar a classe `nlpbox.data.datasets.DatasetDF`.

In [None]:
import pandas as pd
from aibox.nlp.data.datasets import DatasetDF

In [None]:
# === Exemplo de um Dataset do Kaggle ===
# https://www.kaggle.com/datasets/leandrodoze/tweets-from-mgbr?resource=download
df = pd.read_csv('Tweets_Mg.csv')
df.head(5)

In [None]:
# Realizando um pequeno tratamento nos dados
df = df[['Text', 'Classificacao']].dropna()

# Normalização do texto
df['Text'] = df['Text'].str.lower()

# Remoção de caracteres especiais
df['Text'] = df['Text'].str.replace(r'[\w]*[^\w\s][\w]*',
                                    '',
                                    regex=True)

# Removendo possíveis NA
df = df.dropna()

# Removendo duplicados
df = df.drop_duplicates('Text')

# Convertendo coluna de classificação
df['Classificacao'] = df['Classificacao'].replace(['Positivo', 'Neutro', 'Negativo'],
                                                  [0, 1, 2])

# Exemplos
df.head(5)

In [None]:
# === Criando Dataset ===
ds = DatasetDF(df,
               text_column='Text',
               target_column='Classificacao')
ds.to_frame().target.hist()

In [None]:
# === Obtendo splits de treino e teste ===
train, test = ds.train_test_split(0.8, True, 42)

In [None]:
test.target.hist()

In [None]:
train.target.hist()