In [None]:
# Demonstração de Tokens: Caracteres, Sílabas e Fonemas

Neste notebook, vamos explorar o conceito de tokens e como eles diferem de outras unidades linguísticas como caracteres, sílabas e fonemas. Esta distinção é importante para entender como os modelos de linguagem processam o texto.

In [2]:
import tiktoken
import re

## 1. O que são Tokens?

Tokens são as unidades básicas de processamento em modelos de linguagem. Ao contrário de caracteres ou palavras, os tokens representam fragmentos de texto que foram identificados por um processo chamado "tokenização". Dependendo do modelo e do tokenizador:

- Um token pode ser menor que uma palavra (como um prefixo ou sufixo)
- Um token pode ser uma palavra inteira
- Um token pode ser maior que uma palavra (algumas frases comuns)
- Caracteres especiais e espaços também podem ser tokens

Vamos ver como o tokenizador do OpenAI GPT processa um texto simples:

In [3]:
# Vamos usar o codificador cl100k_base, usado pelo GPT-4
encoding = tiktoken.get_encoding("cl100k_base")

# Exemplo de texto
texto = "Olá mundo! Como funciona a tokenização?"

# Tokenizar o texto
tokens = encoding.encode(texto)

# Decodificar cada token de volta para visualizar
tokens_decodificados = [encoding.decode([token]) for token in tokens]

print(f"Texto original: {texto}")
print(f"Número de caracteres: {len(texto)}")
print(f"Número de tokens: {len(tokens)}")
print(f"Tokens: {tokens}")
print(f"Tokens decodificados: {tokens_decodificados}")

Texto original: Olá mundo! Como funciona a tokenização?
Número de caracteres: 39
Número de tokens: 10
Tokens: [43819, 1995, 29452, 0, 46774, 87996, 264, 4037, 48476, 30]
Tokens decodificados: ['Ol', 'á', ' mundo', '!', ' Como', ' funciona', ' a', ' token', 'ização', '?']


In [9]:
texto = "Pernambuco você é meu"
silabas = ["Per", "nam", "bu", "co", "vo", "cê", "é", "meu"]

# Tokenizar o texto
tokens = encoding.encode(texto)

# Decodificar cada token de volta para visualizar
tokens_decodificados = [encoding.decode([token]) for token in tokens]

print(f"Texto original: {texto}")
print(f"Caracteres: {[c for c in texto]}")
print(f"Número de caracteres: {len(texto)}")
print(f"Sílabas: {silabas}")
print(f"Número de sílabas: {len(silabas)}")
print(f"Tokens: {tokens}")
print(f"Tokens decodificados: {tokens_decodificados}")
print(f"Número de tokens: {len(tokens)}")

Texto original: Pernambuco você é meu
Caracteres: ['P', 'e', 'r', 'n', 'a', 'm', 'b', 'u', 'c', 'o', ' ', 'v', 'o', 'c', 'ê', ' ', 'é', ' ', 'm', 'e', 'u']
Número de caracteres: 21
Sílabas: ['Per', 'nam', 'bu', 'co', 'vo', 'cê', 'é', 'meu']
Número de sílabas: 8
Tokens: [47, 944, 3042, 95514, 25738, 4046, 56309]
Tokens decodificados: ['P', 'ern', 'amb', 'uco', ' você', ' é', ' meu']
Número de tokens: 7
