NLP - TOKENIZAÇÃO E WORD EMBEDDINGS - PROF. DR. SÉRGIO E PALMIERE - FIAP

TOKENIZAÇÃO

In [30]:
## IMPORTAÇÃO DSA BIBLIOTECAS
from transformers import GPT2Tokenizer

In [31]:
# INICIALIZANDO O TOKENIZADOR
tokenizer = GPT2Tokenizer.from_pretrained("gpt2")

In [32]:
# INSIRA SEU TEXTO ABAIXO EM FORMATO DE STRING
text = "SOU UM ALUNO DA FIAP E ADORO APRENDER A USAR INTELIGÊNCIA ARTIFICIAL"

In [33]:
# CONTABILIZANDO A QUANTIDADE DE PALAVRAS USADAS
palavras = text.split()
quantidade_palavras = len(palavras)
print(f"Quantidade de palavras: {quantidade_palavras}")
print(f"Lista das palavras: {palavras}")

Quantidade de palavras: 12
Lista das palavras: ['SOU', 'UM', 'ALUNO', 'DA', 'FIAP', 'E', 'ADORO', 'APRENDER', 'A', 'USAR', 'INTELIGÊNCIA', 'ARTIFICIAL']


In [34]:
# TOKENIZAR O TEXTO
token_ids = tokenizer.encode(text, add_special_tokens=True)

In [35]:
# IMPRIMIR AS token IDs
print("Token IDs:", token_ids)

Token IDs: [50, 2606, 44352, 8355, 4944, 46, 17051, 18930, 2969, 412, 5984, 1581, 46, 40410, 10619, 1137, 317, 1294, 1503, 17828, 3698, 3528, 127, 232, 7792, 3539, 24278, 30643, 12576]


In [36]:
# CONVERTER AS TOKEN IDs PARA PALAVRAS
raw_tokens = [tokenizer.decode([token_id]) for token_id in token_ids]
print("Raw tokens:", raw_tokens)

Raw tokens: ['S', 'OU', ' UM', ' AL', 'UN', 'O', ' DA', ' FI', 'AP', ' E', ' AD', 'OR', 'O', ' APR', 'END', 'ER', ' A', ' US', 'AR', ' INT', 'EL', 'IG', '�', '�', 'NC', 'IA', ' ART', 'IFIC', 'IAL']


In [37]:
print("Numero de tokens:", len(raw_tokens))

Numero de tokens: 29


GERANDO EMBEDDINGS

# EXISTEM DIFERENTES MÉTODOS DE TOKENIZAÇÃO, ENTRE OS MAIS POPULARES PODEMOS LISTAR:
WORD2VEC;
GLOVE - GLOBAL VECTORS FOR WORD REPRESENTATION;
FASTTEXT;
BERT - BIDIRECTIONAL ENCODER REPRESENTATIONS FROM TRANSFORMERS;
ELMO - EMBEDDINGS FROM LANGUAGE MODELS;

## ADOTAREMOS O BERT NESTE EXEMPLO PARA A CRIAÇÃO DOS EMBEDDINGS

In [38]:
## IMPORTANDO AS BIBLIOTECAS
from transformers import BertTokenizer, BertModel
import torch

In [39]:
# CARREGAR O TOKENIZADOR PRÉ TREINADO
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

In [40]:
# CARREGAR O MODELO PRÉ TREINADO
model = BertModel.from_pretrained('bert-base-uncased')

In [41]:
# INSIRA SEU TEXTO ABAIXO EM FORMATO DE STRING
text = "SOU UM ALUNO DA FIAP E ADORO APRENDER A USAR INTELIGÊNCIA ARTIFICIAL"

In [42]:
# ENCODER
input_ids = tokenizer.encode(text, add_special_tokens=True)

In [43]:
# SAIDA DOS TOKEN ID"s
print("Token IDs:", input_ids)

Token IDs: [101, 2061, 2226, 8529, 2632, 27819, 4830, 19807, 2361, 1041, 4748, 14604, 19804, 10497, 2121, 1037, 3915, 2099, 13420, 29206, 7405, 7976, 102]


In [44]:
# CONVERTER A LISTA DE IDs EM UM TENSOR
input_ids_tensor = torch.tensor([input_ids])

In [45]:
# PASSAR A ENTRADA ATRAVÉS DO MODELO
with torch.no_grad():
    outputs = model(input_ids_tensor)

In [46]:
# EXTRAIR OS EMBEDDINGS
embeddings = outputs.last_hidden_state

In [47]:
# IMPRIMIR OS EMBEDDINGS
print("Embeddings: ", embeddings)

Embeddings:  tensor([[[-0.7466, -0.1101, -0.3171,  ..., -0.0031,  0.1145,  0.8123],
         [-1.0425, -0.3233, -0.1863,  ...,  0.1881, -0.5169,  1.3471],
         [-0.8666, -0.2228, -0.3656,  ..., -0.2968, -0.7810,  0.7648],
         ...,
         [ 0.0328, -0.3408, -0.0090,  ..., -0.1945, -0.3911,  0.6928],
         [-0.6658, -0.2540, -0.2076,  ...,  0.3166,  0.3039,  0.4889],
         [ 0.6560, -0.0285, -0.4460,  ...,  0.0170, -0.5746, -0.1175]]])


In [48]:
print(embeddings.shape)

torch.Size([1, 23, 768])


O vetor de palavras retornado tem um tamanho de 768 dimensões, o mesmo do modelo BERT. Podemos usar esses vetores para comparar suas similaridades utilizando a função de similaridade cosseno do PyTorch.

A similaridade cosseno é uma forma de medir o quão semelhantes duas coisas são. É frequentemente usada no processamento de linguagem natural para comparar o conteúdo de dois textos.

Para calcular a similaridade cosseno, observamos o ângulo entre dois vetores. Se os vetores apontam na mesma direção, eles são mais semelhantes; se apontam em direções opostas, são menos semelhantes.

O resultado é um número entre -1 e 1, onde 1 significa que os vetores são idênticos e -1 significa que são completamente diferentes.

In [55]:
king_token_id = tokenizer.convert_tokens_to_ids(["king"])[0]
king_embedding = model.embeddings.word_embeddings(torch.tensor([king_token_id]))

queen_token_id = tokenizer.convert_tokens_to_ids(["queen"])[0]
queen_embedding = model.embeddings.word_embeddings(torch.tensor([queen_token_id]))

cos = torch.nn.CosineSimilarity(dim=1)
similarity = cos(king_embedding, queen_embedding)
print(similarity[0])
# 0.6469

tensor(0.6469, grad_fn=<SelectBackward0>)


In [60]:
Cat_token_id = tokenizer.convert_tokens_to_ids(["cat"])[0]
Cat_embedding = model.embeddings.word_embeddings(torch.tensor([Cat_token_id]))

Dog_token_id = tokenizer.convert_tokens_to_ids(["dog"])[0]
Dog_embedding = model.embeddings.word_embeddings(torch.tensor([Dog_token_id]))

cos = torch.nn.CosineSimilarity(dim=1)
similarity = cos(Cat_embedding, Dog_embedding)
print(similarity[0])
# 0.5082

tensor(0.5082, grad_fn=<SelectBackward0>)


In [58]:
# SIMILARIDADE ENTRE HOUSE E QUEEN
house_token_id = tokenizer.convert_tokens_to_ids(["House"])[0]
house_embedding = model.embeddings.word_embeddings(torch.tensor([house_token_id]))
similarity = cos(house_embedding, queen_embedding)
print(similarity[0])
# 0.2123

tensor(0.2123, grad_fn=<SelectBackward0>)


In [61]:
rei_token_id = tokenizer.convert_tokens_to_ids(["rei"])[0]
rei_embedding = model.embeddings.word_embeddings(torch.tensor([king_token_id]))

rainha_token_id = tokenizer.convert_tokens_to_ids(["rainha"])[0]
rainha_embedding = model.embeddings.word_embeddings(torch.tensor([rainha_token_id]))

cos = torch.nn.CosineSimilarity(dim=1)
similarity = cos(rei_embedding, rainha_embedding)
print(similarity[0])
# 0.6469

tensor(0.1946, grad_fn=<SelectBackward0>)


## SIMILARIDADE EM PORTUGUÊS

In [62]:
from transformers import AutoTokenizer, AutoModel
import torch

# Usar modelo treinado em português
tokenizer = AutoTokenizer.from_pretrained("neuralmind/bert-base-portuguese-cased")
model = AutoModel.from_pretrained("neuralmind/bert-base-portuguese-cased")

rei_token_id = tokenizer.convert_tokens_to_ids("rei")
rainha_token_id = tokenizer.convert_tokens_to_ids("rainha")

rei_embedding = model.embeddings.word_embeddings(torch.tensor([rei_token_id]))
rainha_embedding = model.embeddings.word_embeddings(torch.tensor([rainha_token_id]))

cos = torch.nn.CosineSimilarity(dim=1)
similarity = cos(rei_embedding, rainha_embedding)
print(similarity.item())


tokenizer_config.json:   0%|          | 0.00/43.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/647 [00:00<?, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

added_tokens.json:   0%|          | 0.00/2.00 [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/438M [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/438M [00:00<?, ?B/s]

0.4243432283401489
