<a href="https://colab.research.google.com/github/luanatxds/Estudos-LLM/blob/main/Tokeniza%C3%A7%C3%A3o.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introdução à Tokenização em NLP

Tokenização é o processo de transformar texto em partes menores chamadas *tokens*, que servem como a unidade básica de leitura dos modelos de linguagem. Em vez de interpretar frases completas, os modelos trabalham com essas unidades para entender padrões, significado e contexto.

Nos modelos modernos, esses tokens geralmente não são palavras inteiras, mas **subpalavras**. Esse tipo de tokenização permite lidar melhor com palavras desconhecidas ou muito raras, dividindo-as em partes menores sem perder totalmente o sentido.

Algoritmos como **WordPiece**, **Unigram** e **SentencePiece** são amplamente usados por modelos atuais para criar essas divisões de forma eficiente e estatística. Eles determinam como o texto será quebrado e, portanto, influenciam diretamente a forma como o modelo compreende e processa a linguagem.

In [1]:
#instalar bibliotecas
!pip install transformers



In [2]:
#importar o tokenizer pré-treinado
from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer_config.json:   0%|          | 0.00/48.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

config.json:   0%|          | 0.00/570 [00:00<?, ?B/s]

In [3]:
#tokenizar o texto
text = "Tokenization is essential for NLP."
tokens = tokenizer.tokenize(text)
print(tokens)

['token', '##ization', 'is', 'essential', 'for', 'nl', '##p', '.']


In [4]:
#converter para IDs
token_ids = tokenizer.convert_tokens_to_ids(tokens)
print(token_ids)

[19204, 3989, 2003, 6827, 2005, 17953, 2361, 1012]


In [7]:
#criar inputs formatados para o modelo
inputs = tokenizer(text, return_tensors='pt', padding=True, truncation=True)
inputs

{'input_ids': tensor([[  101, 19204,  3989,  2003,  6827,  2005, 17953,  2361,  1012,   102]]), 'token_type_ids': tensor([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1]])}

# Interpretação da saída


```
{
 'input_ids': tensor([[  101, 19204,  3989,  2003,  6827,  2005, 17953,  2361,  1012, 102 ]]),

 'token_type_ids': tensor([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0]]),

 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1]])
}
```

# *input_ids*

São os IDs numéricos dos tokens que representam o texto, convertidos a partir das subpalavras do WordPiece.
Incluem:

101 → [CLS] (token especial de início)

... demais números → subpalavras do texto

102 → [SEP] (token especial de fim)

Esses IDs são exatamente o que o modelo lê como entrada.

# *token_type_ids*

Também chamados de segment IDs.

No BERT, são usados para diferenciar sentença A (0) de sentença B (1) quando o modelo recebe duas frases ao mesmo tempo.

Como você só passou uma frase, todos os valores são 0.

Muitos modelos nem usam mais isso.

# *attention_mask*

Diz ao modelo quais tokens devem ser considerados:

1 → token real

0 → padding (quando o texto precisa ser completado para atingir um tamanho fixo)

Como sua frase é curta e não precisou de padding, tudo é 1.