In [1]:
import warnings
warnings.filterwarnings('ignore')

___
### NLTK
[site](https://www.nltk.org/)

NLTK é uma biblioteca Python usada em processamento de linguagem natural (NLP) para tarefas como tokenização e processamento de texto.

O exemplo de código mostra como você pode tokenizar texto usando o tokenizador baseado em palavras do NLTK.

In [2]:
import nltk
from nltk.tokenize import word_tokenize

In [6]:
nltk.download('punkt')

In [4]:
text = "Unicorns are real. I saw a unicorn yesterday. I couldn't see it today."

In [5]:
token = word_tokenize(text)
print(token)

['Unicorns', 'are', 'real', '.', 'I', 'saw', 'a', 'unicorn', 'yesterday', '.', 'I', 'could', "n't", 'see', 'it', 'today', '.']


___
### spaCy
[site](https://spacy.io/)

spaCy é uma biblioteca de código aberto usada em NLP. Ela oferece ferramentas para tarefas como tokenização e embeddings de palavras.

O exemplo de código mostra como você pode tokenizar texto usando o tokenizador baseado em palavras do spaCy.

In [7]:
import spacy

In [8]:
text = "Unicorns are real. I saw a unicorn yesterday. I couldn't see it today."

In [9]:
nlp = spacy.load('en_core_web_sm')

In [10]:
doc = nlp(text)

In [11]:
token_list = [token.text for token in doc]
print(token_list)

['Unicorns', 'are', 'real', '.', 'I', 'saw', 'a', 'unicorn', 'yesterday', '.', 'I', 'could', "n't", 'see', 'it', 'today', '.']


___
### BertTokenizer
[site](https://huggingface.co/transformers/v3.0.2/model_doc/bert.html)

BertTokenizer é um tokenizador baseado em subpalavras que utiliza o algoritmo WordPiece.

O exemplo de código mostra como você pode tokenizar texto usando o BertTokenizer.

In [12]:
from transformers import BertTokenizer

In [13]:
text = "Unicorns are real. I saw a unicorn yesterday. I couldn't see it today."

In [14]:
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

In [15]:
tokenizer.tokenize(text)

['unicorn',
 '##s',
 'are',
 'real',
 '.',
 'i',
 'saw',
 'a',
 'unicorn',
 'yesterday',
 '.',
 'i',
 'couldn',
 "'",
 't',
 'see',
 'it',
 'today',
 '.']

___
### XLNetTokenizer
[site](https://huggingface.co/docs/transformers/model_doc/xlnet)

XLNetTokenizer tokeniza texto usando algoritmos Unigram e SentencePiece.
    
O exemplo de código mostra como você pode tokenizar texto usando XLNetTokenizer.

In [17]:
from transformers import XLNetTokenizer

In [18]:
text = "Unicorns are real. I saw a unicorn yesterday. I couldn't see it today."

In [19]:
tokenizer = XLNetTokenizer.from_pretrained('xlnet-base-cased')

In [20]:
tokenizer.tokenize(text)

['▁Uni',
 'corn',
 's',
 '▁are',
 '▁real',
 '.',
 '▁I',
 '▁saw',
 '▁a',
 '▁',
 'uni',
 'corn',
 '▁yesterday',
 '.',
 '▁I',
 '▁couldn',
 "'",
 't',
 '▁see',
 '▁it',
 '▁today',
 '.']

___
### torchtext
[site](https://pytorch.org/text/stable/index.html)

A biblioteca torchtext faz parte do ecossistema PyTorch e fornece as ferramentas e funcionalidades necessárias para PNL.

In [23]:
from torchtext.vocab import build_vocab_from_iterator
from torchtext.data.utils import get_tokenizer

In [22]:
# Defines a dataset
dataset = [
    (1,"Introduction to NLP"),
    (2,"Basics of PyTorch"),
    (1,"NLP Techniques for Text Classification"),
    (3,"Named Entity Recognition with PyTorch"),
    (3,"Sentiment Analysis using PyTorch"),
    (3,"Machine Translation with PyTorch"),
    (1,"NLP Named Entity,Sentiment Analysis, Machine Translation"),
    (1,"Machine Translation with NLP"),
    (1,"Named Entity vs Sentiment Analysis NLP")
]

In [24]:
# Applies the tokenizer to th text to get the tokens as a list
tokenizer = get_tokenizer("basic_english")

In [25]:
tokenizer(dataset[0][1])

['introduction', 'to', 'nlp']

In [26]:
# Takes a data iterator as input, processes text from the iterator, and yields the tokenized output individually
def yield_tokens(data_iter):
    for _, text in data_iter:
        yield tokenizer(text)

In [27]:
# Creates an iterator
my_iterator = yield_tokens(dataset)

In [28]:
# Fetches the next set of tokens from the data set
next(my_iterator)

['introduction', 'to', 'nlp']

In [29]:
next(my_iterator)

['basics', 'of', 'pytorch']

In [30]:
# Converts tokens to indices and sets <unk> as the default word if a word is not found in the vocabulary
vocab = build_vocab_from_iterator(yield_tokens(dataset), 
                                  specials=["<unk>"]
                                 )
vocab.set_default_index(vocab["<unk>"])

In [31]:
# Fives a dictionary that maps words to their corresponding numerical indices
vocab.get_stoi()

{'<unk>': 0,
 'nlp': 1,
 'pytorch': 2,
 'analysis': 3,
 'sentiment': 7,
 'entity': 4,
 'named': 6,
 'techniques': 17,
 'machine': 5,
 'translation': 8,
 'with': 9,
 ',': 10,
 'basics': 11,
 'classification': 12,
 'for': 13,
 'introduction': 14,
 'of': 15,
 'recognition': 16,
 'text': 18,
 'to': 19,
 'using': 20,
 'vs': 21}

___
### vocab
[site](https://pytorch.org/text/main/vocab.html)

O objeto vocab faz parte da biblioteca torchtext do PyTorch. Ele mapeia tokens para índices.

O exemplo de código mostra como você pode aplicar o objeto vocab a tokens diretamente

In [32]:
# Takes an iterator as input and extracts the next tokenized sentence. 
# Creates a list of token indices using the vocab dictionary for each token

def get_tokenized_sentence_and_indices(iterator):
    tokenized_sentence = next(iterator)
    token_indices = [vocab[token] for token in tokenized_sentence]
    return tokenized_sentence, token_indices

In [33]:
# Returns the tokenized sentences and the corresponding token indices. Repeats the process
tokenized_sentence, token_indices = get_tokenized_sentence_and_indices(my_iterator)
next(my_iterator)

['named', 'entity', 'recognition', 'with', 'pytorch']

In [34]:
# Prints the tokenized sentence and its corresponding token indices
print("Tokenized sentence:", tokenized_sentence)
print("Token indices:", token_indices)

Tokenized sentence: ['nlp', 'techniques', 'for', 'text', 'classification']
Token indices: [1, 17, 13, 18, 12]


___
### Special tokens in PyTorch: `<eos> and <bos>`

Tokens Especiais são tokens introduzidos nas sequências de entrada para transmitir informações específicas ou cumprir uma função particular durante o treinamento.

O exemplo de código mostra o uso de <bos> e <eos> durante a tokenização. O token <bos> indica o início da sequência de entrada, enquanto o token <eos> indica o final.

In [41]:
lines = ["IBM taught me tokenization", 
         "Special tokenizers are ready and they will blow your mind", 
         "just saying hi!"]

In [36]:
# Appends <bos> at the beginning and <eos> at the end of the tokenized sentences 
# using a loop that iterates over th sentences in the input data
tokenizer_en = get_tokenizer('spacy', 
                             language='en_core_web_sm'
                            )

In [42]:
tokens = []
max_length = 0

for line in lines:
    tokenized_line = tokenizer_en(line)
    tokenized_line = ['<bos>'] + tokenized_line + ['<eos>']
    tokens.append(tokenized_line)
    max_length = max(max_length, len(tokenized_line))

In [43]:
tokens

[['<bos>', 'IBM', 'taught', 'me', 'tokenization', '<eos>'],
 ['<bos>',
  'Special',
  'tokenizers',
  'are',
  'ready',
  'and',
  'they',
  'will',
  'blow',
  'your',
  'mind',
  '<eos>'],
 ['<bos>', 'just', 'saying', 'hi', '!', '<eos>']]

___
### Special tokens in PyTorch: `<pad>`

O exemplo de código mostra o uso do token <pad> para garantir que todas as frases tenham o mesmo comprimento.

In [45]:
# Pads the tokenized lines
for i in range(len(tokens)):
    tokens[i] = tokens[i] + ['<pad>'] * (max_length - len(tokens[i]))

In [46]:
tokens

[['<bos>',
  'IBM',
  'taught',
  'me',
  'tokenization',
  '<eos>',
  '<pad>',
  '<pad>',
  '<pad>',
  '<pad>',
  '<pad>',
  '<pad>'],
 ['<bos>',
  'Special',
  'tokenizers',
  'are',
  'ready',
  'and',
  'they',
  'will',
  'blow',
  'your',
  'mind',
  '<eos>'],
 ['<bos>',
  'just',
  'saying',
  'hi',
  '!',
  '<eos>',
  '<pad>',
  '<pad>',
  '<pad>',
  '<pad>',
  '<pad>',
  '<pad>']]

___
### Dataset class in PyTorch
[site](https://pytorch.org/tutorials/beginner/basics/data_tutorial.html)

A classe Dataset permite acessar e recuperar amostras individuais de um conjunto de dados.

O exemplo de código mostra como você pode criar um conjunto de dados personalizado e acessar amostras

In [47]:
from torch.utils.data import Dataset

In [51]:
sentences = ["If you want to know what a man's like, take a \
good look at how he treats his inferiors, not his equals.",
"Fae's a fickle friend, Harry."]
sentences

["If you want to know what a man's like, take a good look at how he treats his inferiors, not his equals.",
 "Fae's a fickle friend, Harry."]

In [52]:
class CustomDataset(Dataset):
    def __init__(self, sentences):
        self.sentences = sentences

    # Returns the data length
    def __len__(self):
        return len(self.sentences)

    # Returns one item on the index
    def __getitem__(self, idx):
        return self.sentences[idx]

In [53]:
# Create a dataset object
dataset = CustomDataset(sentences)

In [54]:
dataset[0]

"If you want to know what a man's like, take a good look at how he treats his inferiors, not his equals."

In [55]:
len(dataset)

2

___
### Dataloader class in PyTorch
[site](https://pytorch.org/tutorials/beginner/basics/data_tutorial.html)

Uma classe DataLoader permite carregamento e iteração eficientes sobre conjuntos de dados para treinamento de modelos de aprendizado profundo.

O exemplo de código mostra como você pode usar a classe DataLoader para gerar lotes de sentenças para processamento posterior, como treinamento de um modelo de rede neural

In [57]:
from torch.utils.data import DataLoader

In [58]:
# Define batch size
batch_size = 2

In [61]:
# Create a DataLoader
dataloader = DataLoader(dataset,
                        batch_size=batch_size,
                        shuffle=True)

In [62]:
# Creates an iterator object
data_iter = iter(dataloader)

In [63]:
# Calls the next function to return new batches of samples
next(data_iter)

["Fae's a fickle friend, Harry.",
 "If you want to know what a man's like, take a good look at how he treats his inferiors, not his equals."]

In [64]:
custom_dataset = CustomDataset(sentences)

# Specifies a batch size
batch_size = 2

# Creates a data loader
dataloader = DataLoader(custom_dataset,
batch_size=batch_size, shuffle=True)

In [66]:
# Prints the sentences in each batch
for batch in dataloader:
 print(batch)

["If you want to know what a man's like, take a good look at how he treats his inferiors, not his equals.", "Fae's a fickle friend, Harry."]


___
### Custom collate function in PyTorch

A função de colagem personalizada é uma função definida pelo usuário que especifica como as amostras individuais são agrupadas em batches. Você pode usar a função de colagem para tarefas como tokenização, conversão de índices tokenizados e transformação do resultado em um tensor.

O exemplo de código mostra como você pode usar uma função de colagem personalizada em um data loader.l

In [82]:
import torch
from torch.nn.utils.rnn import pad_sequence

In [79]:
# Defines a custom collate function
def collate_fn(batch):
    tensor_batch = []
    # Tokenizes each sample in the batch
    for sample in batch:
        tokens = tokenizer(sample)
        
    # Maps tokens to numbers using the vocab
    tensor_batch.append(torch.tensor([vocab[token] for token in tokens]))

    # Pads the sequences within the batch to have equal lengths
    padded_batch = pad_sequence(tensor_batch,batch_first=True)
    
    return padded_batch

In [80]:
# Creates a data loader using the collate function and the custom dataset
dataloader = DataLoader(custom_dataset,
                        batch_size=batch_size, 
                        shuffle=True, 
                        collate_fn=collate_fn)

In [83]:
for batch in dataloader:
    print(batch)
    print("shape of sample",len(batch), "\n---")

tensor([[ 0,  0,  0,  0,  0,  0, 10,  0,  0]])
shape of sample 1 
---


____
Esse material tem como referência o curso [Generative AI and LLMs: Architecture and Data Preparation](https://www.coursera.org/learn/generative-ai-llm-architecture-data-preparation?specialization=generative-ai-engineering-with-llms)