# Tokens

Agora que os `LLLMs` est√£o na moda, continuamos ouvindo sobre o n√∫mero de `tokens` suportados por cada modelo, mas o que s√£o `tokens`? S√£o as unidades m√≠nimas de representa√ß√£o de palavras.

Este caderno foi traduzido automaticamente para torn√°-lo acess√≠vel a mais pessoas, por favor me avise se voc√™ vir algum erro de digita√ß√£o..

Para explicar o que s√£o `tokens`, vamos primeiro dar uma olhada em um exemplo pr√°tico: vamos usar o tokenizador da OpenAI, chamado [tiktoken] (https://github.com/openai/tiktoken).

Ent√£o, primeiro instalamos o pacote:

````bash
pip install tiktoken
```

Depois de instalado, criamos um tokenizador usando o modelo `cl100k_base`, que o notebook de exemplo [How to count tokens with tiktoken] (https://github.com/openai/openai-cookbook/blob/main/examples/How_to_count_tokens_with_tiktoken.ipynb) explica que √© usado pelos modelos `gpt-4`, `gpt-3.5-turbo` e `text-embedding-ada-002`.

In [1]:
import tiktoken

encoder = tiktoken.get_encoding("cl100k_base")

Agora, criamos uma palavra de amostra tara e a tokenizamos

In [14]:
example_word = "breakdown"

E n√≥s o simbolizamos

In [15]:
tokens = encoder.encode(example_word)
tokens

[9137, 2996]

A palavra foi dividida em 2 tokens, o `9137` e o `2996`. Vamos ver a quais palavras elas correspondem

In [21]:
word1 = encoder.decode([tokens[0]])
word2 = encoder.decode([tokens[1]])
word1, word2

('break', 'down')

O tokenizador `OpenAI` dividiu a palavra `breakdown` nas palavras `break` e `down`. Ou seja, ele dividiu a palavra em duas palavras mais simples.

Isso √© importante porque, quando se diz que um `LLM` suporta x `token`s`, n√£o significa que ele suporta x palavras, mas que suporta x unidades m√≠nimas de representa√ß√£o de palavras.

Se voc√™ tiver um texto e quiser ver o n√∫mero de `token`s que ele tem para o tokenizador `OpenAI`, poder√° visualiz√°-lo na p√°gina [Tokenizer](https://platform.openai.com/tokenizer), que mostra cada `token` em uma cor diferente.

![tokenizer](http://maximofn.com/wp-content/uploads/2023/12/tokenizer.webp)

Vimos o tokenizador `OpenAI`, mas cada `LLM` poder√° usar outro.

Como dissemos, os `tokens` s√£o as unidades m√≠nimas de representa√ß√£o de palavras, portanto, vamos ver quantos tokens diferentes o `tiktoken` tem.

In [28]:
n_vocab = encoder.n_vocab
print(f"Vocab size: {n_vocab}")

Vocab size: 100277


Vamos ver como ele tokeniza outros tipos de palavras.

In [37]:
def encode_decode(word):
    tokens = encoder.encode(word)
    decode_tokens = []
    for token in tokens:
        decode_tokens.append(encoder.decode([token]))
    return tokens, decode_tokens

In [52]:
word = "dog"
tokens, decode_tokens = encode_decode(word)
print(f"Word: {word} ==> tokens: {tokens}, decode_tokens: {decode_tokens}")

word = "tomorrow..."
tokens, decode_tokens = encode_decode(word)
print(f"Word: {word} ==> tokens: {tokens}, decode_tokens: {decode_tokens}")

word = "artificial intelligence"
tokens, decode_tokens = encode_decode(word)
print(f"Word: {word} ==> tokens: {tokens}, decode_tokens: {decode_tokens}")

word = "Python"
tokens, decode_tokens = encode_decode(word)
print(f"Word: {word} ==> tokens: {tokens}, decode_tokens: {decode_tokens}")

word = "12/25/2023"
tokens, decode_tokens = encode_decode(word)
print(f"Word: {word} ==> tokens: {tokens}, decode_tokens: {decode_tokens}")

word = "üòä"
tokens, decode_tokens = encode_decode(word)
print(f"Word: {word} ==> tokens: {tokens}, decode_tokens: {decode_tokens}")

Word: dog ==> tokens: [18964], decode_tokens: ['dog']
Word: tomorrow... ==> tokens: [38501, 7924, 1131], decode_tokens: ['tom', 'orrow', '...']
Word: artificial intelligence ==> tokens: [472, 16895, 11478], decode_tokens: ['art', 'ificial', ' intelligence']
Word: Python ==> tokens: [31380], decode_tokens: ['Python']
Word: 12/25/2023 ==> tokens: [717, 14, 914, 14, 2366, 18], decode_tokens: ['12', '/', '25', '/', '202', '3']
Word: üòä ==> tokens: [76460, 232], decode_tokens: ['ÔøΩ', 'ÔøΩ']


Por fim, vamos dar uma olhada em palavras em outro idioma

In [54]:
word = "perro"
tokens, decode_tokens = encode_decode(word)
print(f"Word: {word} ==> tokens: {tokens}, decode_tokens: {decode_tokens}")

word = "perra"
tokens, decode_tokens = encode_decode(word)
print(f"Word: {word} ==> tokens: {tokens}, decode_tokens: {decode_tokens}")

word = "ma√±ana..."
tokens, decode_tokens = encode_decode(word)
print(f"Word: {word} ==> tokens: {tokens}, decode_tokens: {decode_tokens}")

word = "inteligencia artificial"
tokens, decode_tokens = encode_decode(word)
print(f"Word: {word} ==> tokens: {tokens}, decode_tokens: {decode_tokens}")

word = "Python"
tokens, decode_tokens = encode_decode(word)
print(f"Word: {word} ==> tokens: {tokens}, decode_tokens: {decode_tokens}")

word = "12/25/2023"
tokens, decode_tokens = encode_decode(word)
print(f"Word: {word} ==> tokens: {tokens}, decode_tokens: {decode_tokens}")

word = "üòä"
tokens, decode_tokens = encode_decode(word)
print(f"Word: {word} ==> tokens: {tokens}, decode_tokens: {decode_tokens}")

Word: perro ==> tokens: [716, 299], decode_tokens: ['per', 'ro']
Word: perra ==> tokens: [79, 14210], decode_tokens: ['p', 'erra']
Word: ma√±ana... ==> tokens: [1764, 88184, 1131], decode_tokens: ['ma', '√±ana', '...']
Word: inteligencia artificial ==> tokens: [396, 39567, 8968, 21075], decode_tokens: ['int', 'elig', 'encia', ' artificial']
Word: Python ==> tokens: [31380], decode_tokens: ['Python']
Word: 12/25/2023 ==> tokens: [717, 14, 914, 14, 2366, 18], decode_tokens: ['12', '/', '25', '/', '202', '3']
Word: üòä ==> tokens: [76460, 232], decode_tokens: ['ÔøΩ', 'ÔøΩ']


Podemos ver que, para palavras semelhantes, mais tokens s√£o gerados em espanhol do que em ingl√™s, portanto, para o mesmo texto, com um n√∫mero semelhante de palavras, o n√∫mero de tokens ser√° maior em espanhol do que em ingl√™s.