# Etapa do Pr√©-Processamento
Etapa do pr√©-processamento dos dados para depois, alimentarmos esses dados ao modelo.

Nesta etapa realizamos:
* Transforma√ß√£o de todas as palavras para min√∫sculas;
* Remo√ß√£o de pontua√ß√µes;
* Remo√ß√£o de stopwords;
* Aplicamos o stemming;
* Divis√£o entre treino, valida√ß√£o e teste;
* Tokeniza√ß√£o;
* Padding.

> **Nota**: **Artigo no Medium** da etapa do `pr√©-processemanto` desse sistema em portugu√™s: [An√°lise de Sentimentos Sobre os Quadrinhos da Marvel (Parte 1)‚Ää-‚ÄäIngest√£o, EDA e Pr√©-processamento](https://medium.com/@guineves.py/c5a0e35bb586).

## Table of Contents
* [Pacotes](#1)
* [Pr√©-processamento](#2)
    * [Pr√©-processamento da RNN](#2.1)
        * [Lowercasing, Stopwords, Stemming e Pontua√ß√µes](#2.1.1)
        * [Tokeniza√ß√£o](#2.1.2)
    * [Pr√©-processamento do Transformer](#2.2)

<a name="1"></a>
## Packages (Pacotes)
Pacotes que foram utilizados no sistema:
* [pandas](https://pandas.pydata.org/): √© o principal pacote para manipula√ß√£o de dados;
* [numpy](www.numpy.org): √© o principal pacote para computa√ß√£o cient√≠fica;
* [re](https://docs.python.org/3/library/re.html): fornece opera√ß√µes de correspond√™ncia de express√µes regulares semelhantes √†s encontradas em Perl;
* [string](https://docs.python.org/pt-br/3.13/library/string.html): para opera√ß√µes comuns de strings;
* [nltk](https://www.nltk.org/): NLTK √© uma plataforma l√≠der para a constru√ß√£o de programas Python para trabalhar com dados de linguagem humana;
* [tensorflow](https://www.tensorflow.org/): framework que facilita a cria√ß√£o de modelos de machine learning que podem ser executados em qualquer ambiente;
* [scikit-learn](https://scikit-learn.org/stable/): biblioteca open-source de machine learning;
* [pickle](https://docs.python.org/3/library/pickle.html): implementa protocolos bin√°rios para serializar e desserializar uma estrutura de objeto Python;
* [transformers](https://huggingface.co/docs/transformers/index): fornece APIs e ferramentas para baixar e treinar facilmente modelos pr√©-treinados de √∫ltima gera√ß√£o;
* [datasets](https://huggingface.co/docs/datasets/index): √© uma biblioteca para acessar e compartilhar facilmente datasets para tarefas de √°udio, vis√£o computacional e processamento de linguagem natural (NLP);
* [os](https://docs.python.org/3/library/os.html): m√≥dulo integrado, fornece uma maneira port√°til de usar funcionalidades dependentes do sistema operacional;
* [sys](https://docs.python.org/3/library/sys.html): fornece acesso a algumas vari√°veis usadas ou mantidas pelo interpretador e a fun√ß√µes que interagem fortemente com o interpretador;
* [src](../src/): pacote com todos os c√≥digos de todas as fun√ß√µes utilit√°rias criadas para esse sistema. Localizado dentro do diret√≥rio `../src/`.

In [107]:
import pandas as pd
import numpy as np
import string
from nltk.corpus import stopwords
from sklearn.model_selection import StratifiedShuffleSplit
import pickle
from transformers import DistilBertTokenizer
from datasets import Dataset

import os
import sys
PROJECT_ROOT = os.path.abspath( # Obtendo a vers√£o absoluta normalizada do path ra√≠z do projeto
    os.path.join( # Concatenando os paths
        os.getcwd(), # Obtendo o path do diret√≥rio dos notebooks
        os.pardir # Obtendo a string constante usada pelo OS para fazer refer√™ncia ao diret√≥rio pai
    )
)
# Adicionando o path √† lista de strings que especifica o path de pesquisa para os m√≥dulos
sys.path.append(PROJECT_ROOT)
from src.preprocessing import *

> **Nota**: os c√≥digos para as fun√ß√µes utilit√°rias utilizadas nesse sistema est√£o no script `preprocessing.py` dentro do diret√≥rio `../src/`.

<a name="2"></a>
## Pr√©-processamento
Vamos criar 2 modelos para esse projeto. Portanto, faremos 2 pr√©-processamentos diferentes, um para cada modelo:
1. O primeiro ser√° utilizando uma RNN com uma layer LSTM bidirecional criadas e treinada do zero.
2. O segundo modelo ser√° a aplica√ß√£o de fine-tuning em um modelo com arquitetura transformers pr√©-treinado.

Lendo o dataset que ser√° pr√©-processado e projetando os seus primeiros 5 exemplos.

In [50]:
comics_data = pd.read_csv('../data/raw/comics_corpus.csv')
comics_data.head()

Unnamed: 0,id,title,description,y
0,94799,Demon Days: Mariko (2021) #1 (Variant),IN THE SHADOW OF KIRISAKI MOUNTAIN?A SECRET HI...,non-action
1,93339,The Mighty Valkyries (2021) #3,CHILDREN OF THE AFTERLIFE! While Kraven the Hu...,action
2,94884,The Mighty Valkyries (2021) #3 (Variant),CHILDREN OF THE AFTERLIFE! While Kraven the Hu...,action
3,93350,X-Corp (2021) #2,A SHARK IN THE WATER! After X-CORP‚Äôs shocking ...,non-action
4,94896,X-Corp (2021) #2 (Variant),A SHARK IN THE WATER! After X-CORP?s shocking ...,non-action


Podemos ver algumas frases duplicadas na feature `description`. Mas se explorarmos mais de perto, podemos ver que o que n√£o faz elas se tornarem 100% similares, s√£o as pontua√ß√µes. Portanto, vamos tratar as pontua√ß√µes para eliminar os exemplos duplicados.

In [52]:
print(f'Algum exemplo:\n{comics_data["description"][1]}\n')
print(f'Exemplo duplicado:\n{comics_data["description"][2]}')

Algum exemplo:
CHILDREN OF THE AFTERLIFE! While Kraven the Hunter stalks Jane Foster on Midgard and the newest Valkyrie fights for her soul on Perdita, Karnilla, the queen of Hel, works a miracle in the land of the dead! But Karnilla isn‚Äôt Hel‚Äôs only ruler‚Äîand now she‚Äôs upset the cosmic balance. There will be a price to pay‚Ä¶and Karnilla intends to ensure the Valkyries pay it.

Exemplo duplicado:
CHILDREN OF THE AFTERLIFE! While Kraven the Hunter stalks Jane Foster on Midgard and the newest Valkyrie fights for her soul on Perdita, Karnilla, the queen of Hel, works a miracle in the land of the dead! But Karnilla isn?t Hel?s only ruler?and now she?s upset the cosmic balance. There will be a price to pay?and Karnilla intends to ensure the Valkyries pay it.


<a name="2.1"></a>
### Pr√©-processamento da RNN
Para um classificador de sentimentos, primeiro pr√©-processamos os dados brutos, depois, tokenizamos o nosso train set e extra√≠mos as features √∫teis para treinarmos o nosso modelo e fazermos nossas previs√µes.

Plotando as stopwords em ing√™s e as pontua√ß√µes que ser√£o removidas.

In [57]:
stopwords_en = stopwords.words('english')
punct = string.punctuation
print(f'Stopwords:\n{stopwords_en}\n\nPontua√ß√µes:\n{punct}')

Stopwords:
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', "that'll", 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', 'same', 'so'

<a name="2.1.1"></a>
#### Lowercasing, Stopwords, Stemming e Pontua√ß√µes
Ap√≥s o pr√©-processamento inicial dos dados, acabamos apenas com as palavras que cont√™m todas as informa√ß√µes relevantes sobre o texto. Pr√©-processamentos iniciais antes da divis√£o e tokeniza√ß√£o:
* `Lowercasing`: para reduzir nosso vocabul√°rio sem perder informa√ß√µes valiosas, teremos que colocar cada uma de nossas palavras em lowercase. Portanto, a palavra CHILDREN, Children e children, ser√£o tratadas como sendo exatamente a mesma palavra children.
* `Caracteres especiais`: como s√≠mbolos matem√°ticos, s√≠mbolos monet√°rios, sinais de se√ß√£o e par√°grafo, sinais de marca√ß√£o inline e assim por diante. Geralmente √© seguro exclu√≠-los.
* `Stopwords e pontua√ß√µes`: removemos todas as palavras que n√£o acrescentam significado significativo aos textos, tamb√©m conhecidas como stopwords e sinais de pontua√ß√£o (punctuation marks). Ap√≥s eliminadas, o significado geral da frase pode ser inferido sem nenhum esfor√ßo.
* `Stemming`: √© simplesmente transformar qualquer palavra em sua base stem (raiz base), que podemos definir como o set de caracteres usados para construir a palavra e seus derivados. A palavra works por exemplo, seu stem √© `work`, porque, adicionando a letra "s", forma a palavra works, adicionando o sufixo "e", forma a palavra worke, e adicionando o sufixo "ing", forma a palavra working.
    * Depois de executar a stemming no nosso corpus, as palavras works, worke e working, ser√£o reduzidas para a stem `work`. Portanto, nosso vocabul√°rio ser√° reduzido significativamente ao realizar esse processo para cada palavra do corpus.

Pr√©-processando os dados, contando os exemplos inicialmente pr√©-processados e duplicados, e plotando os primeiros 5 primeiros exemplos do dataset inicialmente pr√©-processado.

In [61]:
comics_data_pre = comics_data.copy()
comics_data_pre['description'] = comics_data_pre['description'].map(rnn_preprocess)
print(f'N√∫mero de exemplos duplicados: {comics_data_pre["description"].duplicated().sum()}')
comics_data_pre.head()

N√∫mero de exemplos duplicados: 790


Unnamed: 0,id,title,description,y
0,94799,Demon Days: Mariko (2021) #1 (Variant),shadow kirisaki mountain secret histori come l...,non-action
1,93339,The Mighty Valkyries (2021) #3,children afterlif kraven hunter stalk jane fos...,action
2,94884,The Mighty Valkyries (2021) #3 (Variant),children afterlif kraven hunter stalk jane fos...,action
3,93350,X-Corp (2021) #2,shark water x corp shock debut got fenc mend h...,non-action
4,94896,X-Corp (2021) #2 (Variant),shark water x corp shock debut got fenc mend h...,non-action


Agora podemos remover os exemplos duplicados, porque est√£o inicialmente pr√©-processados e sem pontua√ß√µes.

Plotando o n√∫mero de duplicatas ap√≥s a remova√ß√£o das duplicatas e plotando os primeiros 5 exemplos do dataset pr√©-processado e sem exemplos duplicados.

In [64]:
comics_data_pre = comics_data_pre.drop_duplicates('description')
print(f'N√∫mero de exemplos duplicados: {comics_data_pre["description"].duplicated().sum()}')
comics_data_pre.head()

N√∫mero de exemplos duplicados: 0


Unnamed: 0,id,title,description,y
0,94799,Demon Days: Mariko (2021) #1 (Variant),shadow kirisaki mountain secret histori come l...,non-action
1,93339,The Mighty Valkyries (2021) #3,children afterlif kraven hunter stalk jane fos...,action
3,93350,X-Corp (2021) #2,shark water x corp shock debut got fenc mend h...,non-action
5,93645,Heroes Reborn: Weapon X & Final Flight (2021) #1,best world without aveng squadron suprem prote...,non-action
6,93052,Heroes Reborn (2021) #6,eon fabl daughter utopia isl known power princ...,non-action


Criando um dataset com apenas as features que ser√£o usadas no modelo, transformando o target label $y$ em bin√°rio e plotando os primeiros 5 exemplos do dataset.

In [67]:
# Definindo o novo dataset
comics_corpus = comics_data_pre[['description', 'y']].copy()
# Transformando o target label y em bin√°rio
comics_corpus['y'] = comics_corpus['y'].map(lambda x: 1 if x == 'action' else 0)
comics_corpus.head()

Unnamed: 0,description,y
0,shadow kirisaki mountain secret histori come l...,0
1,children afterlif kraven hunter stalk jane fos...,1
3,shark water x corp shock debut got fenc mend h...,0
5,best world without aveng squadron suprem prote...,0
6,eon fabl daughter utopia isl known power princ...,0


Dividindo o dataset entre os subsets de treinamento, de valida√ß√£o e de teste. Usamos o split m√©todo `stratified sampling (amostragem estratificada)` para tentarmos manter a mesma propor√ß√£o dos labels na divis√£o entre cada subset, porque temos um leve desbalanceamento de classes e n√£o queremos que isso afete o nosso modelo.

Dividindo o dataset e plotando a dimens√£o de cada um deles.

In [71]:
# Dividindo entre treinamento e o subset da valida√ß√£o e teste
split_train = StratifiedShuffleSplit(n_splits=1, test_size=.4, random_state=42)
for train_index, subset_index in split_train.split(comics_corpus, comics_corpus['y']):
    train_corpus, subset_corpus = comics_corpus.iloc[train_index, :].copy(), comics_corpus.iloc[subset_index, :].copy()

# Dividindo entre valida√ß√£o e teste
split_test = StratifiedShuffleSplit(n_splits=1, test_size=.5, random_state=42)
for val_index, test_index in split_test.split(subset_corpus, subset_corpus['y']):
    val_corpus, test_corpus = subset_corpus.iloc[val_index, :].copy(), subset_corpus.iloc[test_index, :].copy()

print(f'Shape do subset de treinamento: {train_corpus.shape}\nShape do subset de valia√ß√£o: {val_corpus.shape}\nShape do subset de teste: {test_corpus.shape}')

Shape do subset de treinamento: (9682, 2)
Shape do subset de valia√ß√£o: (3227, 2)
Shape do subset de teste: (3228, 2)


Definindo as vari√°veis globais `VOCAB_SIZE` e `MAX_LEN` para tokenizar o training set.

In [74]:
VOCAB_SIZE = 1000
MAX_LEN = max([len(sentence.split()) for sentence in train_corpus['description']])
print(f'Tamanho da maior sequ√™ncia limpa: {MAX_LEN}')

Tamanho da maior sequ√™ncia limpa: 166


<a name="2.1.2"></a>
#### Tokeniza√ß√£o
Nessa etapa, codificamos o nosso corpus do training set em sua representa√ß√£o vetorial, ou seja, primeiro precisamos criar um vocabul√°rio $V$ que nos permite codificar qualquer texto como um vetor de inteiros, por exemplo. Onde o nosso vocabul√°rio $V$ ser√° um vetor de palavras exclusivas do nosso vetor de textos, onde percorremos cada palavra de cada texto e salvamos no vocabul√°rio todas as novas palavras que aparecerem em nossa pesquisa. Ent√£o, mapeamos, ou seja, substitu√≠mos cada palavra encontrada no training set pelo seu √≠ndice no vocabul√°rio.
| Token | √çndice |
| :---: | :----: |
| afterlif | 1 |
| $\vdots$ | $\vdots$ |
| balanc | 615 |
| $\vdots$ | $\vdots$ |
| cosmic | 621 |
| $\vdots$ | $\vdots$ |
| work | VOCAB_SIZE |

A RNN pode receber como input uma representa√ß√£o vetorial de frases tokenizadas e, ent√£o, aplicamos uma embedding layer que transformar√° nossa representa√ß√£o tokenizada de inteiros em valores que representam a sem√¢ntica dessa palavra num√©ricamente. Isso trata um dos problemas, a ordem das palavras, ordem alfab√©tica, neste exemplo, n√£o faz muito sentido do ponto de vista sem√¢ntico. Por exemplo, n√£o h√° raz√£o para que o 'cosmic' receba um n√∫mero maior do que o 'afterlif'.
> Falarei mais sobre embeddings na cria√ß√£o do modelo.

Essa RNN nos permitir√° prever sentimentos em frases complexas, que n√£o conseguir√≠amos classificar corretamente usando m√©todos mais simples, como Naive Bayes, porque eles perdem informa√ß√µes importantes.

A nossa representa√ß√£o $X$ ser√° um vetor de n√∫meros inteiros, ou seja, o √≠ndice de cada token do nosso vocabul√°rio. Depois de obtermos todas as representa√ß√µes vetoriais das nossas frases, precisamos identificar o tamanho m√°ximo do vetor e preencher cada vetor com 0 para corresponder a essa tamanho, esse processo √© chamado de `padding` e garante que todos os nossos vetores tenham o mesmo tamanho, mesmo que nossas frases n√£o tenham.

Para a cria√ß√£o do vocabul√°rio, definimos quais palavras pertencem ao vocabul√°rio. Isso significa que criamos uma lista com as palavras que vamos usar nas nossas representa√ß√µes. Uma forma de criar esse vocabul√°rio √© olhar para o nosso training set, e encontrar as `VOCAB_SIZE` palavras com mais ocorr√™ncia, por exemplo, ou utilizamos dicion√°rios j√° criados que nos digam as `VOCAB_SIZE` palavras mais comumente usadas na l√≠ngua da nossa tarefa.

Em algumas tarefas como speech recognition, ou question aswering, encontraremos e geraremos somente palavras a partir de um set fixo de palavras, por exemplo, um chatbot s√≥ pode responder em sets limitados de perguntas. Essa lista fixa de palavras tamb√©m √© chamada de `closed vocabulary`. No entanto, usar um set fixo de palavras nem sempre √© suficiente para a tarefa. Muitas vezes, precisamos lidar com palavras que nunca vimos antes, o que resulta em um `open vocabulary`. **Open vocabulary** significa simplesmente que podemos encontrar palavras out of vocabulary (fora do vocabul√°rio), como o nome de uma nova cidade no training set.

Se treinarmos uma rede neural em um corpus de textos com base nesse nosso vocabul√°rio, quando quisermos fazer infer√™ncia com o modelo treinado, precisaremos codificar o texto que desejamos inferir com o mesmo vocabul√°rio. Caso contr√°rio, n√£o far√° sentido, porque as palavras seriam mapeadas para n√∫meros diferentes, tokens diferentes. Qualquer palavra no corpus de treino que n√£o esteja no vocabul√°rio ser√° substitu√≠da por `<UNK>`. As unknown words tamb√©m s√£o chamadas de `Out of vocabulary (OOV)`. Uma forma de lidar com palavras OOV √© model√°-las com uma palavra especial, **\<UNK>**. Para fazermos isso, substitu√≠mos todas as palavras OOV por \<UNK>, o special token, `<UNK>`. A propor√ß√£o de unknown words no test set √© chamada de `OOV rate`.

No final, aplicamos o `padding`, adicionamos 0 ao final de cada sequence e fazemos com que todas tenham o mesmo comprimento. Isso √© chamado de `post-padding (p√≥s-padding)`, porque os tokens de padding est√£o no final das sequ√™ncias.

O tensorflow e o Keras nos oferecem v√°rias maneiras de tokenizar palavras. Uma delas √© a layer que estou usando nesse sistema, [`tensorflow.keras.layers.TextVectorization()`](https://www.tensorflow.org/api_docs/python/tf/keras/layers/TextVectorization).
* `TextVectorization()`: gerar√° o vocabul√°rio e criar√° vetores a partir das frases. Ela retira pontua√ß√µes, ou seja, ela ir√° gerenciar os tokens, transformando as frases em uma lista de inteiros (os √≠ndices de cada token no vocabul√°rio) e etc. 
* `adapt()`: m√©todo da layer TextVectorization(), que pega os dados e gera um vocabul√°rio a partir das palavras encontradas nessas frases.

Treinando o tokenizador no training set com o `VOCAB_SIZE` e `MAX_LEN` definidos anteriormente e projetando o tamanho do vocabul√°rio.

In [80]:
sentence_vec = rnn_tokenizer(train_corpus['description'], max_tokens=VOCAB_SIZE, max_len=MAX_LEN)
print(f'Tamanho do vocabul√°rio: {sentence_vec.vocabulary_size()}')

Tamanho do vocabul√°rio: 1000


Aplicando o tokenizador treinado em cada subset e plotando as suas dimens√µes e o primeiro exemplo tokenizado do training set.

In [83]:
train_tokenized = sentence_vec(train_corpus['description'])
val_tokenized = sentence_vec(val_corpus['description'])
test_tokenized = sentence_vec(test_corpus['description'])
print(f'Dimens√£o das sequ√™ncias de treino tokenizadas e com padding: {train_tokenized.shape}\n\nPrimeira sequ√™ncia de treino com padding:\n{train_tokenized[0]}\n')
print(f'Dimens√£o das sequ√™ncias de valida√ß√£o tokenizadas e com padding: {val_tokenized.shape}')
print(f'Dimens√£o das sequ√™ncias de teste tokenizadas e com padding: {test_tokenized.shape}')

Dimens√£o das sequ√™ncias de treino tokenizadas e com padding: (9682, 166)

Primeira sequ√™ncia de treino com padding:
[202 101  80  45 332 101  80 804 323 767   1   1 815 649 499 795 303  92
 409 624   3   1   1   1   1 413   0   0   0   0   0   0   0   0   0   0
   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
   0   0   0   0]

Dimens√£o das sequ√™ncias de valida√ß√£o tokenizadas e com padding: (3227, 166)
Dimens√£o das sequ√™ncias de teste tokenizadas e com padding: (3228, 166)


Carregando o modelo de tokeniza√ß√£o treinado no diret√≥rio `../models/` para usarmos posteriormente. Salvamos os hiperpar√¢metros que foram utilizados no treinamento e o vocabul√°rio gerado.

In [34]:
pickle.dump(
    {'config': sentence_vec.get_config(), 'vocabulary': sentence_vec.get_vocabulary()},
    open('../models/vectorizer.pkl', 'wb')
)

Transformando os labels $y$ em um vetor de coluna, concatenando cada corpus tokenizado com os labels $y$ correspondentes e plotando a dimens√£o de cada subset.

In [87]:
# Transformando os labels y em um vetor de coluna
labels_train = train_corpus[['y']].copy()
labels_val = val_corpus[['y']].copy()
labels_test = test_corpus[['y']].copy()

# Concatenando o corpus de cada subset e os labels correspondentes
train_tokens = np.concatenate([train_tokenized, labels_train], axis=1)
val_tokens = np.concatenate([val_tokenized, labels_val], axis=1)
test_tokens = np.concatenate([test_tokenized, labels_test], axis=1)
print(f'Dimens√£o do subset de treino pr√©-processado: {train_tokens.shape}')
print(f'Dimens√£o do subset de valida√ß√£o pr√©-processado: {val_tokens.shape}')
print(f'Dimens√£o do subset de teste pr√©-processado: {test_tokens.shape}')

Dimens√£o do subset de treino pr√©-processado: (9682, 167)
Dimens√£o do subset de valida√ß√£o pr√©-processado: (3227, 167)
Dimens√£o do subset de teste pr√©-processado: (3228, 167)


Carregando cada dataset pr√©-processado no diret√≥rio `../data/preprocessed/`.

In [47]:
# Carregando no disco o dataset com pr√©-processamento inicial
comics_corpus.to_csv('../data/preprocessed/comics_corpus.csv', index=False)
# Carregando no disco os datasets tokenizados
np.save('../data/preprocessed/train_tokens.npy', train_tokens)
np.save('../data/preprocessed/validation_tokens.npy', val_tokens)
np.save('../data/preprocessed/test_tokens.npy', test_tokens)

<a name="2.2"></a>
### Pr√©-processamento do Transformers
Para o pr√©-processamento do transformers, vamos utilizar um tokenizador pr√©-treinado do checkpoint do `DistilBERT` para aplicar a tokeniza√ß√£o e o padding.

DistilBERT √© um modelo Transformers pequeno, r√°pido, barato e leve treinado pela destila√ß√£o do modelo base BERT (Bidirectional Encoder Representation from Transformers). Ele tem 40% menos par√¢metros que o bert-base-uncased, roda 60% mais r√°pido e preserva mais de 95% do desempenho do Bert conforme medido no benchmark GLUE (General Language Understanding Evaluation).

[Hugging Face](https://huggingface.co/) (ü§ó) √© o melhor recurso para transformers pr√©-treinados. Suas bibliotecas open-source simplificam o download, o fine-tuning e o uso de modelos de transformers como DeepSeek, BERT, Llama, T5, Qwen, GPT-2 e muito mais. E a melhor parte, voc√™ pode us√°-los junto com TensorFlow, PyTorch ou Flax. Neste sistema, utilizo transformers ü§ó para usar o modelo `DistilBERT` para classifica√ß√£o de sentimento. Para a etapa do pr√©-processamento, usamos o tokenizador do DistilBERT `distilbert-base-uncased-finetuned-sst-2-english` pr√©-treinado, para isso inicializamos a classe DistilBertTokenizer e definidos o modelo pr√©-treinado desejado.
> No fine-tuning do modelo, no notebook `05_transformers_finetuning.ipynb`, falarei com mais detalhes sobre o transfer learning e o fine-tuning.

Tokenizando, aplicando o padding no corpus e retornando o corpus tokenizado como tensores pytorch utilizando o tokenizer `DistilBERT` pr√©-treinado. Definindo o tokenizer e plotando as representa√ß√µes vetoriais do corpus.

In [94]:
# Definindo o modelo pr√©-treinado
tokenizer = DistilBertTokenizer.from_pretrained('distilbert-base-uncased-finetuned-sst-2-english')
# Definindo o tokenizer
comics_transformers = tokenizer(
    comics_data['description'].tolist(),
    return_tensors='pt',
    padding='max_length',
    truncation=True
)
# Acessando as representa√ß√µes vetoriais do corpus
transformers_tokens = comics_transformers['input_ids']
transformers_attention = comics_transformers['attention_mask']
transformers_tokens

tensor([[  101,  1999,  1996,  ...,     0,     0,     0],
        [  101,  2336,  1997,  ...,     0,     0,     0],
        [  101,  2336,  1997,  ...,     0,     0,     0],
        ...,
        [  101,  1037,  3181,  ...,     0,     0,     0],
        [  101,  1996,  2028,  ...,     0,     0,     0],
        [  101, 16228,  2023,  ...,     0,     0,     0]])

Selecionando os labels do dataset bruto e dividindo o tensor tokenizado entre os subsets de treinamento, de valida√ß√£o e de teste. Usamos o m√©todo de split `stratified sampling (amostragem estratificada)` para tentarmos manter a mesma propor√ß√£o dos labels na divis√£o entre cada subset.

Dividindo o dataset e plotando o tamanho de cada um deles.

In [96]:
# Selecionando os labels do dataset bruto
labels = (comics_data['y']
          .map(lambda x: 1 if x == 'action' else 0)
          .to_numpy()
          .reshape(-1, 1))

# Dividindo entre treinamento e o subset da valida√ß√£o e teste
train_idx, subset_idx = next(split_train.split(transformers_tokens, labels))
# Dividindo entre valida√ß√£o e teste
val_idx, test_idx = next(split_test.split(transformers_tokens[subset_idx], labels[subset_idx]))
print(f'Tamanho do subset de treino: {len(train_idx)}\nTamanho do subset de valida√ß√£o: {len(val_idx)}\nTamanho do subset de teste: {len(test_idx)}')

Tamanho do subset de treino: 10156
Tamanho do subset de valida√ß√£o: 3385
Tamanho do subset de teste: 3386


Transformando os subsets de tensores pytorch tokenizados divididos pela `stratified sampling split` para o tipo `Dataset` em formato de dicion√°rio, para executarmos o fine-tuning do transformers e plotando cada dataset.

In [98]:
train_dataset = tensors_to_dataset(transformers_tokens, transformers_attention, labels, train_idx)
val_dataset = tensors_to_dataset(transformers_tokens, transformers_attention, labels, val_idx)
test_dataset = tensors_to_dataset(transformers_tokens, transformers_attention, labels, test_idx)
print(f'Dataset de treino: {train_dataset}\nDataset de valida√ß√£o: {val_dataset}\nDataset de teste: {test_dataset}')

Dataset de treino: Dataset({
    features: ['input_ids', 'attention_mask', 'labels'],
    num_rows: 10156
})
Dataset de valida√ß√£o: Dataset({
    features: ['input_ids', 'attention_mask', 'labels'],
    num_rows: 3385
})
Dataset de teste: Dataset({
    features: ['input_ids', 'attention_mask', 'labels'],
    num_rows: 3386
})


Carregando cada dataset pr√©-processado e seus metadados dentro de seu diret√≥rio espec√≠fico dentro do diret√≥rio `../data/preprocessed/`.

In [65]:
train_dataset.save_to_disk('../data/preprocessed/train_dataset')
val_dataset.save_to_disk('../data/preprocessed/validation_dataset')
test_dataset.save_to_disk('../data/preprocessed/test_dataset')

Saving the dataset (0/1 shards):   0%|          | 0/10156 [00:00<?, ? examples/s]

Saving the dataset (0/1 shards):   0%|          | 0/3385 [00:00<?, ? examples/s]

Saving the dataset (0/1 shards):   0%|          | 0/3386 [00:00<?, ? examples/s]