<a href="https://colab.research.google.com/github/felipesayegg/nlp-embeddings-intro/blob/main/NLP_Token_embedding.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## TOKENIZAÇÃO

In [None]:
from transformers import GPT2Tokenizer # ## IMPORTAÇÃO DSA BIBLIOTECAS
import torch
from transformers import BertTokenizer, BertModel

In [None]:
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertModel.from_pretrained('bert-base-uncased')
# --------------------------------------------
# RESUMO DO QUE ACONTECE AQUI:
#
# GPT2Tokenizer.from_pretrained("gpt2"):
# 1) Procura no cache local do Hugging Face se já existe o tokenizador do modelo "gpt2".
# 2) Se não existir, baixa os arquivos necessários do Hugging Face Hub:
#    - vocab.json       → lista de tokens (subpalavras) e seus IDs numéricos
#    - merges.txt       → regras de junção de subpalavras (BPE - Byte Pair Encoding)
#    - tokenizer.json   → versão compacta com vocabulário + merges
#    - tokenizer_config.json → configurações do tokenizador
#    - config.json      → parâmetros do modelo (número de camadas, dimensões etc.)
# 3) Carrega esses arquivos em memória e deixa o tokenizador pronto para uso.
#
# O argumento "gpt2" é o nome do modelo no repositório do Hugging Face.
# Poderia ser trocado por outros modelos compatíveis, ex:
#    GPT2Tokenizer.from_pretrained("distilgpt2")   # versão reduzida
#    GPT2Tokenizer.from_pretrained("gpt2-medium") # versão maior
#
# Obs: Esse passo NÃO treina nada, apenas carrega um modelo pré-treinado.
# --------------------------------------------


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer_config.json:   0%|          | 0.00/48.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

config.json:   0%|          | 0.00/570 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/440M [00:00<?, ?B/s]

In [None]:
# INSIRA SEU TEXTO ABAIXO EM FORMATO DE STRING
text = "SOU UM ALUNO DA FIAP E ADORO APRENDER A USAR INTELIGÊNCIA ARTIFICIAL"


In [None]:
palavra = text.split()
palavra

['SOU',
 'UM',
 'ALUNO',
 'DA',
 'FIAP',
 'E',
 'ADORO',
 'APRENDER',
 'A',
 'USAR',
 'INTELIGÊNCIA',
 'ARTIFICIAL']

In [None]:
quantidade_palavras = len(palavra)
quantidade_palavras

12

In [None]:
input_ids = tokenizer.encode(text, add_special_tokens=True)
# tokenizer.encode(text, add_special_tokens=True):
# - Usa o tokenizador pré-treinado (GPT-2) para:
#   1) Quebrar o texto em tokens (subpalavras)
#   2) Converter cada token em um número (ID)
# - text → string que quero transformar em IDs
# - add_special_tokens=True → adiciona tokens especiais usados pelo modelo
#   (ex: [CLS], [SEP] no BERT ou  no GPT-2)
# Resultado: lista de números que representam o texto no vocabulário do modelo


In [None]:
print("Token IDs:", input_ids)
## Depois de gerar os input_ids, vamos imprimir para ver o resultado.
# Cada número dessa lista representa um token (subpalavra) do texto no vocabulário do modelo.
# Exemplo: [50256, 4186, 2216, 1234, ...]
# - 50256 → token especial de início/fim usado pelo GPT-2
# - outros números → IDs das subpalavras que formam a frase original
# pode ser quebrado em diversas maneiras não so em palavras ceritnhas igual função split


Token IDs: [101, 2061, 2226, 8529, 2632, 27819, 4830, 19807, 2361, 1041, 4748, 14604, 19804, 10497, 2121, 1037, 3915, 2099, 13420, 29206, 7405, 7976, 102]


In [None]:
# Converte cada ID de volta para o token correspondente
raw_tokens = [tokenizer.decode([token_id]) for token_id in input_ids]
print("Raw tokens:", raw_tokens)
print("Numero de tokens:", len(raw_tokens))

# Converte cada ID individualmente de volta para o token original (em texto)
# Isso ajuda a visualizar como o modelo quebrou a frase.
# Obs: Tokens nem sempre são palavras inteiras; podem ser pedaços ou até caracteres.
# Ex: "INTELIGÊNCIA" pode virar ['IN', 'TEL', 'IG', 'ÊNCIA'] dependendo do vocabulário.


Raw tokens: ['[CLS]', 'so', '##u', 'um', 'al', '##uno', 'da', 'fia', '##p', 'e', 'ad', '##oro', 'apr', '##end', '##er', 'a', 'usa', '##r', 'intel', '##igen', '##cia', 'artificial', '[SEP]']
Numero de tokens: 23


In [None]:
input_ids_tensor = torch.tensor([input_ids])
input_ids_tensor
# Converte a lista de IDs para um tensor do PyTorch
# [input_ids] → adiciona dimensão de "batch" (número de sequências processadas ao mesmo tempo)
# Resultado: tensor com formato (1, seq_len)
# - 1 = tamanho do batch (aqui só 1 frase)
# - seq_len = número de tokens na frase

tensor([[  101,  2061,  2226,  8529,  2632, 27819,  4830, 19807,  2361,  1041,
          4748, 14604, 19804, 10497,  2121,  1037,  3915,  2099, 13420, 29206,
          7405,  7976,   102]])

In [None]:
# Passa os IDs tokenizados pelo modelo BERT
# - torch.no_grad(): desativa cálculo de gradiente (mais rápido e economiza memória)
# - model(input_ids_tensor): executa o BERT em modo de inferência
# Saída (outputs):
#   outputs.last_hidden_state → tensor com embeddings de cada token (formato: [batch, seq_len, hidden_size])
#     hidden_size = 768 para o BERT-base
with torch.no_grad():
    outputs = model(input_ids_tensor)


In [None]:
# Extrair embeddings
embeddings = outputs.last_hidden_state
print(embeddings.shape)  # (batch, seq_len, hidden_size)

torch.Size([1, 23, 768])


In [None]:
# Primeiro token da sequência (posição 0)
cls_embedding = embeddings[0, 0]  # shape: (768,)  # pegou o primeiro vetor o primeiro embading olha quantos numeros deu para esse tokken
print(cls_embedding)
print(cls_embedding.shape)


tensor([-7.4655e-01, -1.1009e-01, -3.1705e-01,  9.2295e-02,  2.4380e-02,
        -2.9407e-01,  7.7377e-01,  4.6714e-01,  3.2910e-02, -3.9996e-01,
        -1.9786e-01, -2.8201e-02, -9.2810e-02,  5.3863e-02,  7.4676e-02,
         3.8527e-01, -5.4789e-02,  1.9717e-01,  5.3608e-01,  1.5638e-01,
        -7.4645e-01, -3.5815e-01, -3.6500e-01, -6.2996e-02, -3.7211e-02,
        -4.0205e-01,  1.3043e-01, -3.7730e-02, -3.0122e-01,  3.0217e-01,
         1.6821e-01,  5.9987e-01, -5.5338e-01,  5.5967e-02,  1.0607e-01,
         4.0472e-01,  2.8866e-01, -4.2832e-01,  1.7845e-01,  1.8752e-01,
         2.3776e-01,  3.3371e-01,  7.1222e-03, -2.3689e-01,  1.2785e-01,
        -7.5599e-02, -2.4890e+00,  2.6831e-01, -1.5071e-01,  2.0907e-01,
         7.2286e-02,  3.3021e-01, -3.4583e-01,  5.7270e-01, -2.4442e-01,
        -3.7400e-01, -1.9725e-01,  4.2337e-01,  2.9335e-01, -2.2869e-01,
        -1.0349e-01,  2.0007e-01, -1.1120e-01,  1.9522e-01,  1.6837e-01,
        -3.8650e-01, -1.2543e-01,  4.6474e-02,  1.4

In [None]:
king_token_id = tokenizer.convert_tokens_to_ids(["king"])[0]
king_embedding = model.embeddings.word_embeddings(torch.tensor([king_token_id]))

queen_token_id = tokenizer.convert_tokens_to_ids(["queen"])[0]
queen_embedding = model.embeddings.word_embeddings(torch.tensor([queen_token_id]))

cos = torch.nn.CosineSimilarity(dim=1)
similarity = cos(king_embedding, queen_embedding)
print(similarity[0])


tensor(0.6469, grad_fn=<SelectBackward0>)


In [None]:
# --- Similaridade cosseno (tabela de embeddings do BERT EN) ---
# Observação: em 'bert-base-uncased' SEMPRE use minúsculas para lookup direto.
def get_table_embedding_en(token_str: str):
    tid = tokenizer.convert_tokens_to_ids(token_str)  # int (ID no vocabulário)
    return model.embeddings.word_embeddings(torch.tensor([tid]))  # shape: (1, hidden=768)

cos = torch.nn.CosineSimilarity(dim=1)

pairs = [("king", "queen"), ("cat", "dog"), ("house", "queen")]
for a, b in pairs:
    a_emb = get_table_embedding_en(a)
    b_emb = get_table_embedding_en(b)
    sim = float(cos(a_emb, b_emb)[0])
    print(f"cos({a},{b}) = {sim:.4f}")

    # ================================================================
# O QUE ESTE BLOCO FAZ (explicação humana, sem mistério):
#
# Ideia: perguntar ao BERT se duas palavras “se parecem” no sentido.
# Como? Pegamos, no “dicionário interno” do BERT (vocabulário),
# o vetor que representa cada palavra (embedding fixo da tabela),
# e comparamos esses vetores usando similaridade cosseno.
#
# Por que isso é útil?
# - Mostra que o modelo tem um “mapa” de significados: palavras
#   relacionadas ficam mais próximas (cosseno alto), e palavras
#   sem relação ficam mais longe (cosseno baixo).
#
# Passo a passo do que o código faz:
# 1) Pega o ID da palavra no vocabulário do BERT (ex.: "king" -> 4832).
# 2) Usa esse ID para buscar o vetor da palavra na tabela de embeddings
#    (um vetor de 768 números no BERT-base).
# 3) Faz a mesma coisa para outra palavra (ex.: "queen").
# 4) Compara os dois vetores com a similaridade cosseno:
#       1.0  = muito parecidos (mesma direção)
#       0.0  = nada a ver (90 graus, ortogonais)
#      -1.0  = opostos (direções contrárias — raro nesses embeddings)
# 5) Imprime o quão “próximas” as palavras são no espaço do modelo.
#
# Observações importantes:
# - Aqui comparamos os VETORES DA TABELA (sem contexto da frase).
#   Se quiser o “significado no contexto”, use outputs.last_hidden_state.
# - Em 'bert-base-uncased', use tokens minúsculos no lookup direto.
# - Valores baixos e positivos (ex.: 0.27) significam “distantes”, mas
#   não necessariamente “opostos”; por isso nem sempre veremos números
#   negativos.
#
# Exemplos típicos:
# - cos("king","queen")  ~ 0.6+  → conceitos relacionados
# - cos("cat","dog")     ~ 0.5   → ambos animais, relação moderada
# - cos("house","queen") ~ 0.2-0.3 → pouca relação semântica
#
# Erros comuns e dicas:
# - Misturar tokenizadores/modelos (ex.: IDs do GPT-2 no BERT) → IndexError.
# - Usar "House" (maiúscula) no BERT uncased no lookup direto → pode virar [UNK].
# - Rodar células fora de ordem e perder variáveis → NameError.
#
# Dica extra para portfólio:
# - Mostre também 1 exemplo “contextual”: pegue embeddings de
#   outputs.last_hidden_state para um token da sua frase e compare
#   como o vetor muda em frases diferentes. Isso prova entendimento
#   de “contextualidade”.
# ==============================


cos(king,queen) = 0.6469
cos(cat,dog) = 0.5082
cos(house,queen) = 0.2762


## SIMILARIDADE EM PORTUGUÊS

In [None]:
# ================================================================
# Similaridade cosseno em PT-BR usando BERT português
#
# Aqui vamos repetir a mesma lógica da etapa anterior (EN),
# mas trocando o modelo/tokenizador para um treinado em português.
#
# Por que isso importa?
# - O BERT inglês não tem no vocabulário as palavras "rei" e "rainha"
#   (ou teria só como [UNK], token desconhecido).
# - O modelo português já foi treinado com essas palavras, então
#   conhece seus vetores reais no vocabulário e pode compará-los.
# ================================================================

from transformers import AutoTokenizer, AutoModel
import torch

# Carregar modelo e tokenizador em português
tok_pt = AutoTokenizer.from_pretrained("neuralmind/bert-base-portuguese-cased")
model_pt = AutoModel.from_pretrained("neuralmind/bert-base-portuguese-cased")
model_pt.eval()

# Função para buscar vetor de um token no vocabulário PT
def get_table_embedding_pt(token_str: str):
    tid = tok_pt.convert_tokens_to_ids(token_str)  # ID da palavra no vocabulário PT
    return model_pt.embeddings.word_embeddings(torch.tensor([tid]))

# Criar função de similaridade
cos = torch.nn.CosineSimilarity(dim=1)

# Embeddings fixos da tabela
rei_emb = get_table_embedding_pt("rei")
rainha_emb = get_table_embedding_pt("rainha")

# Calcular similaridade
sim_pt = float(cos(rei_emb, rainha_emb)[0])

print(f"[PT] cos(rei, rainha) = {sim_pt:.4f}")


tokenizer_config.json:   0%|          | 0.00/43.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/647 [00:00<?, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

added_tokens.json:   0%|          | 0.00/2.00 [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/438M [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/438M [00:00<?, ?B/s]

[PT] cos(rei, rainha) = 0.4243
