# Pré-processamento de Texto

Neste notebook iremos explorar as funcionalidades de pré-processamento de textos da biblioteca PyTorch.

In [8]:
import torch
import torch.nn as nn
from torchtext.legacy import data as ttd
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from datetime import datetime

Começaremos criando dados falsos experimentais:

In [2]:
data = {
    "label": [0, 1, 1],
    "data": [
        "I like eggs and ham.",
        "Eggs I like!",
        "Ham and eggs or just ham?",
    ]
}

Em seguida, vamos carregar esses dados em um DataFrame pandas:

In [3]:
df = pd.DataFrame(data)

Observe que agora temos os dados em um formato tabular:

In [4]:
df.head()

Unnamed: 0,label,data
0,0,I like eggs and ham.
1,1,Eggs I like!
2,1,Ham and eggs or just ham?


Agora iremos salvar o DataFrame em um arquivo CSV:

In [5]:
df.to_csv('textos.csv', index=False)

Agora temos um arquivo csv chamado *textos.csv*:

In [6]:
!head textos.csv

label,data
0,I like eggs and ham.
1,Eggs I like!
1,Ham and eggs or just ham?


Criaremos dois objetos **Field**, um para o texto e outro para o label.

In [10]:
TEXT = ttd.Field(
    sequential=True,
    batch_first=True,
    lower=True,
    tokenize='spacy',
    pad_first=True)

LABEL = ttd.Field(sequential=False, use_vocab=False, is_target=True)

Criaremos um objeto **TabularDataset** em que passamos para ele o arquivo CSV que exportamos com pandas:

In [11]:
dataset = ttd.TabularDataset(
    path='textos.csv',
    format='csv',
    skip_header=True,
    fields=[('label', LABEL), ('data', TEXT)]
)

Em seguida, checamos o atributo **examples** do objeto **dataset**:

In [13]:
ex = dataset.examples[0]
print(type(ex))
print(ex.data)
print(ex.label)

<class 'torchtext.legacy.data.example.Example'>
['i', 'like', 'eggs', 'and', 'ham', '.']
0


Dividimos o nosso conjunto de dados em treinamento e teste com o método **split()**:

In [14]:
train_dataset, test_dataset = dataset.split(0.66)

Usamos a função **build_vocab** para construir um vocabulário a partir dos nossos dados de treinamento:

In [15]:
TEXT.build_vocab(train_dataset,)

E então inspecionamos o atributo **vocab**:

In [17]:
vocab = TEXT.vocab
print(type(vocab))
print(vocab.stoi)
print(vocab.itos)

<class 'torchtext.legacy.vocab.Vocab'>
defaultdict(<bound method Vocab._default_unk_index of <torchtext.legacy.vocab.Vocab object at 0x7f029b6e2650>>, {'<unk>': 0, '<pad>': 1, 'eggs': 2, 'ham': 3, '!': 4, '?': 5, 'and': 6, 'i': 7, 'just': 8, 'like': 9, 'or': 10})
['<unk>', '<pad>', 'eggs', 'ham', '!', '?', 'and', 'i', 'just', 'like', 'or']


A seguir, criamos o nosso objeto **device** que representa o dispositivo de processamento que está sendo utilizado:

In [18]:
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
print(device)

cpu


Criamos iteradores a partir do nosso conjunto de dados de treinamento e teste:

In [19]:
train_iter, test_iter = ttd.Iterator.splits((train_dataset, test_dataset), sort_key=lambda x: len(x.data), batch_sizes=(2, 2), device=device)

Finalmente, vamos um loop sob cada iterador para observar o comportamento da biblioteca PyTorch:

In [20]:
for inputs, targets in train_iter:
    print("inputs:", inputs, "shape:", inputs.shape)
    print("targets:", targets, "shape:", targets.shape)
    break

inputs: tensor([[ 1,  1,  1,  2,  7,  9,  4],
        [ 3,  6,  2, 10,  8,  3,  5]]) shape: torch.Size([2, 7])
targets: tensor([1, 1]) shape: torch.Size([2])


In [21]:
for inputs, targets in test_iter:
    print("inputs:", inputs, "shape:", inputs.shape)
    print("targets:", targets, "shape:", targets.shape)
    break

inputs: tensor([[7, 9, 2, 6, 3, 0]]) shape: torch.Size([1, 6])
targets: tensor([0]) shape: torch.Size([1])
