## Implementando Tokenization


Tokenizadores são ferramentas essenciais no processamento de linguagem natural que dividem o texto em unidades menores chamadas tokens. Esses tokens podem ser palavras, caracteres ou subpalavras, tornando o texto complexo compreensível para computadores. Ao dividir o texto em partes gerenciáveis, os tokenizadores permitem que as máquinas processem e analisem a linguagem humana, possibilitando diversas aplicações relacionadas a linguagem, como tradução, análise de sentimentos e chatbots. Essencialmente, os tokenizadores fazem a ponte entre a linguagem humana e a compreensão da máquina.

#### 1. Instalar bibliotecas

- nltk (Natural Language Toolkit): será empregada para tarefas de gerenciamento de dados. Ela oferece ferramentas e recursos abrangentes para o processamento de texto em linguagem natural, tornando-se uma escolha valiosa para tarefas como pré-processamento e análise de texto.

- spaCy: uma biblioteca de software de código aberto para processamento avançado de linguagem natural em Python. O spaCy é renomado por sua velocidade e precisão no processamento de grandes volumes de dados textuais.

- BertTokenizer: parte da biblioteca Transformers da Hugging Face, amplamente usada para trabalhar com modelos de linguagem pré-treinados de última geração. O BertTokenizer é especificamente projetado para tokenizar texto de acordo com as especificações do modelo BERT.

- XLNetTokenizer: outro componente da biblioteca Transformers da Hugging Face, adaptado para tokenizar texto em conformidade com os requisitos do modelo XLNet.

- torchtext: faz parte do ecossistema PyTorch e lida com várias tarefas de processamento de linguagem natural. Simplifica o trabalho com dados textuais e oferece funcionalidades para pré-processamento de dados, tokenização, gerenciamento de vocabulário e criação de lotes (batching).

In [9]:
def warn(*args, **kwargs):
    pass
    
import warnings
warnings.warn = warn
warnings.filterwarnings('ignore')

import importlib.util
import subprocess
import sys

def check_and_install(package, pip_name=None):
    if pip_name is None:
        pip_name = package
    spec = importlib.util.find_spec(package)
    if spec is None:
        print(f"{package} não está instalado. Instalando...")
        subprocess.check_call([sys.executable, "-m", "pip", "install", pip_name])
    else:
        print(f"{package} já está instalado.")

In [10]:
#!pip install nltk
#!pip install transformers
#!pip install sentencepiece
#!pip install spacy
#!pip install numpy==1.24
#!python -m spacy download en_core_web_sm
#!python -m spacy download de_core_news_sm
#!pip install numpy scikit-learn
#!pip install torch==2.0.3
#!pip install torchtext==0.15.2

In [12]:
# Checando e instalando pacotes
check_and_install('nltk')
check_and_install('transformers')
check_and_install('sentencepiece')
check_and_install('spacy')
check_and_install('numpy', 'numpy==1.24')
subprocess.check_call([sys.executable, "-m", "spacy", "download", "en_core_web_sm"])
subprocess.check_call([sys.executable, "-m", "spacy", "download", "de_core_news_sm"])
check_and_install('scikit-learn')
check_and_install('torch', 'torch==2.0.3')
check_and_install('torchtext', 'torchtext==0.15.2')

nltk já está instalado.
transformers já está instalado.
sentencepiece já está instalado.
spacy já está instalado.
numpy já está instalado.
scikit-learn não está instalado. Instalando...
torch já está instalado.
torchtext já está instalado.


#### 2. Impotar bibliotecas

In [13]:
import nltk
nltk.download("punkt")
nltk.download('punkt_tab')
import spacy
from nltk.tokenize import word_tokenize
from nltk.probability import FreqDist
from nltk.util import ngrams
from transformers import BertTokenizer
from transformers import XLNetTokenizer

from torchtext.data.utils import get_tokenizer
from torchtext.vocab import build_vocab_from_iterator

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\murilo.silvestrini\AppData\Roaming\nltk_data.
[nltk_data]     ..
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\murilo.silvestrini\AppData\Roaming\nltk_data.
[nltk_data]     ..
[nltk_data]   Package punkt_tab is already up-to-date!


#### O que é um tokenizador e por que o usamos?
Tokenizadores desempenham um papel fundamental no processamento de linguagem natural, segmentando o texto em unidades menores conhecidas como tokens. Esses tokens são, então, transformados em representações numéricas chamadas índices de tokens, que são diretamente utilizados por algoritmos de aprendizado profundo.


#### Tipos de tokenizadores
A representação significativa pode variar dependendo do modelo utilizado. Diversos modelos empregam algoritmos de tokenização distintos, e você abordará amplamente as seguintes abordagens. Transformar texto em valores numéricos pode parecer simples à primeira vista, mas envolve várias considerações que devem ser levadas em conta.

#### Tokenizador baseado em palavras
##### nltk
Como o nome sugere, esse tipo de tokenização divide o texto com base nas palavras. Existem diferentes regras para tokenizadores baseados em palavras, como dividir pelo espaço ou pela pontuação. Cada opção atribui um ID específico a cada palavra dividida. Aqui, você usa o word_tokenize do nltk

In [14]:
text = "This is a sample sentence for word tokenization."
tokens = word_tokenize(text)
print(tokens)

['This', 'is', 'a', 'sample', 'sentence', 'for', 'word', 'tokenization', '.']


Bibliotecas gerais como nltk e spaCy frequentemente dividem palavras como "don't" e "couldn't", que são contrações, em palavras individuais distintas. Não há uma regra universal, e cada biblioteca possui suas próprias regras de tokenização para tokenizadores baseados em palavras. No entanto, a diretriz geral é preservar o formato de entrada após a tokenização para que corresponda à forma como o modelo foi treinado.

In [15]:
text = "I couldn't help the dog. Can't you do it? Don't be afraid if you are."
tokens = word_tokenize(text)
print(tokens)

['I', 'could', "n't", 'help', 'the', 'dog', '.', 'Ca', "n't", 'you', 'do', 'it', '?', 'Do', "n't", 'be', 'afraid', 'if', 'you', 'are', '.']


In [16]:
# Use spaCy
nlp = spacy.load("en_core_web_sm")
doc = nlp(text)

In [17]:
# Making a list of the tokens
token_list = [token.text for token in doc]
print("Tokens:", token_list)

Tokens: ['I', 'could', "n't", 'help', 'the', 'dog', '.', 'Ca', "n't", 'you', 'do', 'it', '?', 'Do', "n't", 'be', 'afraid', 'if', 'you', 'are', '.']


In [22]:
# Showing token details
for token in doc:
    print(token.text," | Details: ", token.pos_, token.dep_)

I  | Details:  PRON nsubj
could  | Details:  AUX aux
n't  | Details:  PART neg
help  | Details:  VERB ROOT
the  | Details:  DET det
dog  | Details:  NOUN dobj
.  | Details:  PUNCT punct
Ca  | Details:  AUX aux
n't  | Details:  PART neg
you  | Details:  PRON nsubj
do  | Details:  VERB ROOT
it  | Details:  PRON dobj
?  | Details:  PUNCT punct
Do  | Details:  AUX aux
n't  | Details:  PART neg
be  | Details:  AUX ROOT
afraid  | Details:  ADJ acomp
if  | Details:  SCONJ mark
you  | Details:  PRON nsubj
are  | Details:  AUX advcl
.  | Details:  PUNCT punct


Explicação de algumas linhas:

- I PRON nsubj: "I" é um pronome (PRON) e é o sujeito nominal (nsubj) da sentença.
- help VERB ROOT: "help" é um verbo (VERB) e é a ação principal (ROOT) da sentença.
- afraid ADJ acomp: "afraid" é um adjetivo (ADJ) e é um complemento adjetival (acomp), que dá mais informações sobre um estado ou qualidade relacionado ao verbo.

O problema com esse algoritmo é que palavras com significados semelhantes recebem IDs diferentes, fazendo com que sejam tratadas como palavras completamente separadas, com significados distintos. Por exemplo, a forma plural de uma palavra é considerada separada da forma singular, mas um tokenizador baseado em palavras as trataria como palavras independentes, o que pode levar o modelo a perder a relação semântica entre elas.

In [23]:
text = "Unicorns are real. I saw a unicorn yesterday."
token = word_tokenize(text)
print(token)

['Unicorns', 'are', 'real', '.', 'I', 'saw', 'a', 'unicorn', 'yesterday', '.']


Cada palavra é dividida em um token, o que leva a um aumento significativo no vocabulário total do modelo. Cada token é mapeado para um grande vetor que contém os significados da palavra, resultando em parâmetros de modelo volumosos.

Como as línguas geralmente possuem um grande número de palavras, os vocabulários baseados nelas sempre serão extensos. No entanto, o número de caracteres em uma língua é sempre menor em comparação com o número de palavras.

#### Tokenizador baseado em caracteres
Como o nome sugere, a tokenização baseada em caracteres divide o texto em caracteres individuais. A vantagem desse método é que os vocabulários resultantes são inerentemente pequenos. Além disso, como as línguas possuem um conjunto limitado de caracteres, o número de tokens fora do vocabulário também é reduzido, diminuindo o desperdício de tokens.

Por exemplo:
Texto de entrada: "This is a sample sentence for tokenization."

Saída da tokenização baseada em caracteres:
['T', 'h', 'i', 's', ' ', 'i', 's', ' ', 'a', ' ', 's', 'a', 'm', 'p', 'l', 'e', ' ', 's', 'e', 'n', 't', 'e', 'n', 'c', 'e', ' ', 'f', 'o', 'r', ' ', 't', 'o', 'k', 'e', 'n', 'i', 'z', 'a', 't', 'i', 'o', 'n', '.']

No entanto, é importante observar que a tokenização baseada em caracteres tem suas limitações. Caracteres isolados podem não transmitir as mesmas informações que palavras inteiras, e o comprimento total dos tokens aumenta significativamente, o que pode causar problemas com o tamanho do modelo e perda de desempenho.

Os transformers empregam a tokenização baseada em subpalavras.

#### Tokenizador baseado em subpalavras
O tokenizador baseado em subpalavras permite que palavras de uso frequente permaneçam intactas, enquanto palavras menos comuns são divididas em subpalavras significativas. Técnicas como SentencePiece ou WordPiece são amplamente utilizadas para tokenização de subpalavras. Esses métodos aprendem unidades de subpalavras a partir de um corpus de texto, identificando prefixos, sufixos e raízes comuns como tokens de subpalavras com base em sua frequência de ocorrência. Essa abordagem permite representar uma gama mais ampla de palavras e adaptar-se aos padrões específicos de linguagem de um corpus.


##### WordPiece
Inicialmente, o WordPiece inicia seu vocabulário incluindo cada caractere presente nos dados de treinamento e, gradualmente, aprende um número especificado de regras de combinação. O WordPiece não seleciona o par de símbolos mais frequente, mas sim aquele que maximiza a probabilidade dos dados de treinamento ao ser adicionado ao vocabulário. Em essência, o WordPiece avalia o que "sacrifica" ao combinar dois símbolos, garantindo que seja uma escolha vantajosa.

Atualmente, o tokenizador WordPiece é implementado no BertTokenizer. Observe que o BertTokenizer trata palavras compostas como tokens separados.

In [24]:
tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")

vocab.txt: 100%|████████████████████████████████████████████████████████████████████| 232k/232k [00:00<00:00, 2.39MB/s]
tokenizer_config.json: 100%|████████████████████████████████████████████████████████████████| 48.0/48.0 [00:00<?, ?B/s]
config.json: 100%|████████████████████████████████████████████████████████████████████████████| 570/570 [00:00<?, ?B/s]


In [25]:
tokenizer.tokenize("IBM and Coursera taught me tokenization!")

['ibm', 'and', 'course', '##ra', 'taught', 'me', 'token', '##ization', '!']

- 'ibm': "IBM" é tokenizado como 'ibm'. O BERT converte tokens em letras minúsculas, pois não mantém a informação de maiúsculas/minúsculas ao usar o modelo "bert-base-uncased".
- 'taught', 'me', '.': Esses tokens são iguais às palavras ou pontuação originais, apenas em letras minúsculas (exceto a pontuação).
- 'token', '##ization': "Tokenization" é dividida em dois tokens. "Token" é uma palavra inteira, e "##ization" é uma parte da palavra original. O "##" indica que "ization" deve ser reconectado a "token" ao detokenizar (transformar tokens de volta em palavras).

#### Unigram e SentencePiece
Unigram é um método para dividir palavras ou textos em partes menores. Ele faz isso começando com uma lista ampla de possibilidades e, em seguida, a reduz gradualmente com base na frequência dessas partes no texto. Essa abordagem facilita uma tokenização de texto eficiente.

SentencePiece é uma ferramenta que divide o texto em partes menores e mais gerenciáveis, atribui IDs a esses segmentos e garante consistência. Assim, ao usar SentencePiece no mesmo texto repetidamente, você obterá os mesmos subwords e IDs de forma consistente.

Unigram e SentencePiece funcionam juntos implementando o método de tokenização de subpalavras do Unigram dentro da estrutura do SentencePiece. O SentencePiece gerencia a segmentação de subpalavras e a atribuição de IDs, enquanto os princípios do Unigram orientam a redução de vocabulário para criar uma representação mais eficiente dos dados de texto. Essa combinação é especialmente valiosa para várias tarefas de NLP, nas quais a tokenização de subpalavras pode melhorar o desempenho dos modelos de linguagem.








In [26]:
tokenizer = XLNetTokenizer.from_pretrained("xlnet-base-cased")

spiece.model: 100%|█████████████████████████████████████████████████████████████████| 798k/798k [00:00<00:00, 2.08MB/s]
config.json: 100%|████████████████████████████████████████████████████████████████████████████| 760/760 [00:00<?, ?B/s]


In [27]:
tokenizer.tokenize("IBM and Coursera taught me tokenization.")

['▁IBM', '▁and', '▁Course', 'ra', '▁taught', '▁me', '▁token', 'ization', '.']

- '▁IBM': O "▁" (frequentemente chamado de "caractere de espaço") antes de "IBM" indica que esse token é precedido por um espaço no texto original. "IBM" é mantido como está, pois é reconhecido como um token completo pelo XLNet, preservando a capitalização, pois você está usando o modelo "xlnet-base-cased".
- '▁taught', '▁me', '▁token': Da mesma forma, esses tokens são prefixados com "▁" para indicar que são novas palavras precedidas por um espaço no texto original, preservando as palavras inteiras e mantendo a capitalização original.
- 'ization': Diferente do BertTokenizer, o XLNetTokenizer não usa "##" para indicar tokens de subpalavras. "ization" aparece como seu próprio token, sem um prefixo, pois segue diretamente a palavra anterior "token" sem espaço no texto original.
- '.': O ponto final é tokenizado como um token separado, uma vez que a pontuação é tratada separadamente.

#### Tokenização com PyTorch
No PyTorch, especialmente com a biblioteca torchtext, o tokenizador divide o texto de um conjunto de dados em palavras ou subpalavras individuais, facilitando sua conversão para formato numérico. Após a tokenização, o vocab (vocabulário) mapeia esses tokens para inteiros únicos, permitindo que sejam alimentados em redes neurais. Esse processo é essencial, pois modelos de aprendizado profundo operam com dados numéricos e não conseguem processar texto bruto diretamente. Assim, a tokenização e o mapeamento de vocabulário servem como uma ponte entre o texto legível para humanos e os dados numéricos operáveis pelas máquinas.

In [28]:
dataset = [
    (1,"Introduction to NLP"),
    (2,"Basics of PyTorch"),
    (1,"NLP Techniques for Text Classification"),
    (3,"Named Entity Recognition with PyTorch"),
    (3,"Sentiment Analysis using PyTorch"),
    (3,"Machine Translation with PyTorch"),
    (1," NLP Named Entity,Sentiment Analysis,Machine Translation "),
    (1," Machine Translation with NLP "),
    (1," Named Entity vs Sentiment Analysis  NLP ")]

In [29]:
from torchtext.data.utils import get_tokenizer

Na biblioteca torchtext, a função get_tokenizer é utilizada para obter um tokenizador pelo nome. Ela oferece suporte a uma variedade de métodos de tokenização, incluindo divisão básica de strings, e retorna diferentes tokenizadores com base no argumento fornecido.

In [30]:
tokenizer = get_tokenizer("basic_english")

In [50]:
for i in range(0,len(dataset)):
    print(tokenizer(dataset[i][1]))

['introduction', 'to', 'nlp']
['basics', 'of', 'pytorch']
['nlp', 'techniques', 'for', 'text', 'classification']
['named', 'entity', 'recognition', 'with', 'pytorch']
['sentiment', 'analysis', 'using', 'pytorch']
['machine', 'translation', 'with', 'pytorch']
['nlp', 'named', 'entity', ',', 'sentiment', 'analysis', ',', 'machine', 'translation']
['machine', 'translation', 'with', 'nlp']
['named', 'entity', 'vs', 'sentiment', 'analysis', 'nlp']


#### Índices de tokens
Palavras são representadas como números, pois algoritmos de NLP conseguem processar e manipular números de forma mais eficiente e rápida do que texto bruto. Para isso, você utiliza a função build_vocab_from_iterator, cujo resultado é normalmente chamado de "índices de tokens" ou simplesmente "índices". Esses índices representam as representações numéricas dos tokens no vocabulário.

A função build_vocab_from_iterator, quando aplicada a uma lista de tokens, atribui um índice único a cada token com base em sua posição no vocabulário. Esses índices servem como uma forma de representar os tokens em um formato numérico que pode ser facilmente processado por modelos de aprendizado de máquina.

Por exemplo, dado um vocabulário com os tokens ["apple", "banana", "orange"], os índices correspondentes poderiam ser [0, 1, 2], onde "apple" é representado pelo índice 0, "banana" pelo índice 1 e "orange" pelo índice 2.

O dataset é um iterável. Assim, você usa uma função geradora yield_tokens para aplicar o tokenizador. O objetivo da função geradora yield_tokens é gerar textos tokenizados um de cada vez. Em vez de processar todo o conjunto de dados e retornar todos os textos tokenizados de uma só vez, a função geradora processa e gera cada texto tokenizado individualmente conforme solicitado. O processo de tokenização é realizado de forma lazy (preguiçosa), o que significa que o próximo texto tokenizado é gerado apenas quando necessário, economizando memória e recursos computacionais.

In [51]:
def yield_tokens(data_iter):
    for _, text in data_iter:
        yield tokenizer(text)

In [52]:
my_iterator = yield_tokens(dataset)

In [55]:
my_iterator

<generator object yield_tokens at 0x000002DDF7C28BA0>

Isso cria um iterador chamado my_iterator usando o generator. Para começar a avaliação do generator e recuperar os valores, você pode iterar sobre my_iterator usando um loop for ou recuperar valores dele usando a função next().

In [58]:
next(my_iterator)

['nlp', 'techniques', 'for', 'text', 'classification']

In [59]:
next(my_iterator)

['named', 'entity', 'recognition', 'with', 'pytorch']

Você constrói um vocabulário a partir dos textos tokenizados gerados pela função geradora yield_tokens, que processa o conjunto de dados. A função build_vocab_from_iterator() constrói o vocabulário, incluindo um token especial <unk> para representar palavras fora do vocabulário (out-of-vocabulary ou OOV).

#### Out-of-vocabulary (OOV)
Ao tokenizar dados textuais, pode haver palavras que não estão presentes no vocabulário porque são raras ou não foram vistas durante o processo de construção do vocabulário. Ao encontrar essas palavras OOV durante tarefas reais de processamento de linguagem, como geração de texto ou modelagem de linguagem, o modelo pode usar o token <unk> para representá-las.

Por exemplo, se a palavra "apple" está presente no vocabulário, mas "pineapple" não, "apple" será usada normalmente no texto, enquanto "pineapple" (sendo uma palavra OOV) será substituída pelo token <unk>.

Ao incluir o token <unk> no vocabulário, você fornece uma maneira consistente de lidar com palavras fora do vocabulário em seu modelo de linguagem ou outras tarefas de processamento de linguagem natural.

In [61]:
vocab = build_vocab_from_iterator(yield_tokens(dataset),
                                  specials=["<unk>"])
vocab.set_default_index(vocab["<unk>"])

Este código demonstra como buscar uma frase tokenizada de um iterador, converter seus tokens em índices usando um vocabulário fornecido e, então, imprimir a frase original e seus índices correspondentes.

In [62]:
def get_tokenized_sentence_and_indices(iterator):
    tokenized_sentence = next(iterator)
    token_indices = [vocab[token] for token in tokenized_sentence]
    return tokenized_sentence, token_indices

In [63]:
tokenized_sentence, token_indices = get_tokenized_sentence_and_indices(my_iterator)
next(my_iterator)

print("Tokenized sentence: ", tokenized_sentence)
print("Token indices: ", token_indices)

Tokenized sentence:  ['sentiment', 'analysis', 'using', 'pytorch']
Token indices:  [7, 3, 20, 2]


In [64]:
tokenized_sentence, token_indices = get_tokenized_sentence_and_indices(my_iterator)
next(my_iterator)

print("Tokenized sentence: ", tokenized_sentence)
print("Token indices: ", token_indices)

Tokenized sentence:  ['nlp', 'named', 'entity', ',', 'sentiment', 'analysis', ',', 'machine', 'translation']
Token indices:  [1, 6, 4, 10, 7, 3, 10, 5, 8]


#### Construção de vocabulário no PyTorch.

In [65]:
lines = ["IBM taught me tokenization", 
         "Special tokenizers are ready and they will blow your mind", 
         "just saying hi!"]

special_symbols = ['<unk>', '<pad>', '<bos>', '<eos>']

In [66]:
tokenizer_en = get_tokenizer('spacy', language='en_core_web_sm')

In [67]:
tokens = []
max_length = 0

for line in lines:
    tokenized_line = tokenizer_en(line)
    tokenized_line = ['<bos>'] + tokenized_line + ['<eos>']
    tokens.append(tokenized_line)
    max_length = max(max_length, len(tokenized_line))

In [68]:
for i in range(len(tokens)):
    tokens[i] = tokens[i] + ['<pad>'] * (max_length - len(tokens[i]))

In [69]:
print("Lines after adding special tokens:\n", tokens)

Lines after adding special tokens:
 [['<bos>', 'IBM', 'taught', 'me', 'tokenization', '<eos>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>'], ['<bos>', 'Special', 'tokenizers', 'are', 'ready', 'and', 'they', 'will', 'blow', 'your', 'mind', '<eos>'], ['<bos>', 'just', 'saying', 'hi', '!', '<eos>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>', '<pad>']]


In [71]:
# Build vocabulary without unk_init
vocab = build_vocab_from_iterator(tokens, specials=['<unk>'])
vocab.set_default_index(vocab['<unk>'])

In [74]:
# Vocabulary and Token IDs
print("Vocabulary:\n", vocab.get_itos())
print("\nToken IDs for 'tokenization':\n", vocab.get_stoi())

Vocabulary:
 ['<unk>', '<pad>', '<bos>', '<eos>', '!', 'IBM', 'Special', 'and', 'are', 'blow', 'hi', 'just', 'me', 'mind', 'ready', 'saying', 'taught', 'they', 'tokenization', 'tokenizers', 'will', 'your']

Token IDs for 'tokenization':
 {'<bos>': 2, 'blow': 9, '<unk>': 0, 'and': 7, '<eos>': 3, '<pad>': 1, '!': 4, 'will': 20, 'are': 8, 'IBM': 5, 'Special': 6, 'hi': 10, 'just': 11, 'me': 12, 'mind': 13, 'ready': 14, 'saying': 15, 'taught': 16, 'they': 17, 'your': 21, 'tokenization': 18, 'tokenizers': 19}


##### a. Tokens Especiais:

- Token: "<unk>", Índice: 0 – <unk> representa "desconhecido" e é usado para palavras que não foram vistas durante a construção do vocabulário, geralmente durante a inferência em um novo texto.
- Token: "<pad>", Índice: 1 – <pad> é um token de "preenchimento" usado para igualar o comprimento de sequências de palavras ao agrupá-las em batches.
- Token: "<bos>", Índice: 2 – <bos> é um acrônimo de "início da sequência" e é usado para denotar o começo de uma sequência de texto.
- Token: "<eos>", Índice: 3 – <eos> é um acrônimo de "fim da sequência" e é usado para denotar o final de uma sequência de texto.

##### b. Tokens de Palavras:
O restante dos tokens são palavras ou pontuações extraídas das frases fornecidas, cada uma com um índice único:
- Token: "IBM", Índice: 5
- Token: "taught", Índice: 16
- Token: "me", Índice: 12
… e assim por diante.

##### c. Vocabulário:
Denota o número total de tokens nas frases sobre as quais o vocabulário é construído.

##### d. IDs de Tokens para 'tokenization'::
Representa os IDs de tokens atribuídos no vocabulário, onde um número representa sua presença na sentença.

In [75]:
new_line = "I learned about embeddings and attention mechanisms."

In [76]:
# Tokenize the new line
tokenized_new_line = tokenizer_en(new_line)
tokenized_new_line = ['<bos>'] + tokenized_new_line + ['<eos>']

In [78]:
# Pad the new line to match the maximum length of previous lines
new_line_padded = tokenized_new_line + ['<pad>'] * (max_length - len(tokenized_new_line))

In [79]:
# Convert tokens to IDs and handle unknown words
new_line_ids = [vocab[token] if token in vocab else vocab['<unk>'] for token in new_line_padded]

In [80]:
# Example usage
print("Token IDs for new line:", new_line_ids)

Token IDs for new line: [2, 0, 0, 0, 0, 7, 0, 0, 0, 3, 1, 1]


#### Tokens Especiais:

- Token: "<unk>", Índice: 0 – <unk> significa "desconhecido" e representa palavras que não foram vistas durante a construção do vocabulário, geralmente durante a inferência em um novo texto.
- Token: "<pad>", Índice: 1 – <pad> é um token de "preenchimento" usado para padronizar o comprimento das sequências de palavras ao agrupá-las em batches.
- Token: "<bos>", Índice: 2 – <bos> é um acrônimo para "início da sequência" e é usado para marcar o início de uma sequência de texto.
- Token: "<eos>", Índice: 3 – <eos> é um acrônimo para "fim da sequência" e é usado para marcar o final de uma sequência de texto.

O token "and" é reconhecido na sentença e recebe o token_id de 7.








____
Esse material tem como referência o curso [Generative AI and LLMs: Architecture and Data Preparation](https://www.coursera.org/learn/generative-ai-llm-architecture-data-preparation?specialization=generative-ai-engineering-with-llms)