# Teste 3 - Criando embeddings

## 1. Cria dataframe com 4 conjuntos cada um com 3 frases distintas em inglês. Frases do mesmo conjunto devem ter uma forte relação semântica, enquanto frases em conjuntos diferentes são distantes semanticamente.

In [1]:
import pandas as pd

# Dados das frases organizados em um dicionário
data = {
    "Conjunto": ["Tecnologia e Inovação", "Tecnologia e Inovação", "Tecnologia e Inovação",
                 "Mudanças Climáticas e Meio Ambiente", "Mudanças Climáticas e Meio Ambiente", "Mudanças Climáticas e Meio Ambiente",
                 "Saúde e Bem-estar", "Saúde e Bem-estar", "Saúde e Bem-estar",
                 "Viagens e Cultura", "Viagens e Cultura", "Viagens e Cultura"],
    "Frase": ["Advancements in artificial intelligence are transforming industries.",
              "The development of quantum computing holds the potential to revolutionize data processing.",
              "Innovative technologies like blockchain are reshaping financial transactions.",
              "Global warming is leading to more extreme weather patterns.",
              "Deforestation contributes significantly to the increase in atmospheric carbon dioxide levels.",
              "Renewable energy sources are crucial for reducing greenhouse gas emissions.",
              "Regular exercise is key to maintaining a healthy lifestyle.",
              "Mental health awareness is becoming increasingly important in society.",
              "Balanced nutrition is essential for physical and mental well-being.",
              "Exploring different cultures enriches our understanding of the world.",
              "Travel restrictions have impacted international tourism significantly.",
              "Learning a new language opens up opportunities for cultural exchange."]
}

# Criando o DataFrame
df = pd.DataFrame(data)

# Exibindo o DataFrame
display(df)

Unnamed: 0,Conjunto,Frase
0,Tecnologia e Inovação,Advancements in artificial intelligence are tr...
1,Tecnologia e Inovação,Advancements in neural artificial intelligence...
2,Tecnologia e Inovação,Innovative technologies like blockchain are re...
3,Mudanças Climáticas e Meio Ambiente,Global warming is leading to more extreme weat...
4,Mudanças Climáticas e Meio Ambiente,Deforestation contributes significantly to the...
5,Mudanças Climáticas e Meio Ambiente,Renewable energy sources are crucial for reduc...
6,Saúde e Bem-estar,Regular exercise is key to maintaining a healt...
7,Saúde e Bem-estar,Mental health awareness is becoming increasing...
8,Saúde e Bem-estar,Balanced nutrition is essential for physical a...
9,Viagens e Cultura,Exploring different cultures enriches our unde...


## 2. Tokenização do texto.

In [2]:
from transformers import AutoTokenizer

#Carregando o nokenizador Distilbert
model_ckpt = "distilbert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(model_ckpt)



In [3]:
#Definição da função que realizará a tokenização em lotes
def tokenize(batch):
    return tokenizer(batch["Frase"], padding=True, truncation=True)

In [4]:
# Aplicando a função de tokenização aos dados
data_encoded = data.copy()
tokenized_outputs = tokenize(data_encoded)
tokenized_outputs

{'input_ids': [[101, 12607, 2015, 1999, 7976, 4454, 2024, 17903, 6088, 1012, 102, 0, 0, 0, 0], [101, 12607, 2015, 1999, 15756, 7976, 4454, 2024, 17903, 6088, 1012, 102, 0, 0, 0], [101, 9525, 6786, 2066, 3796, 24925, 2078, 2024, 24501, 3270, 4691, 3361, 11817, 1012, 102], [101, 3795, 12959, 2003, 2877, 2000, 2062, 6034, 4633, 7060, 1012, 102, 0, 0, 0], [101, 13366, 25794, 16605, 6022, 2000, 1996, 3623, 1999, 12483, 6351, 14384, 3798, 1012, 102], [101, 13918, 2943, 4216, 2024, 10232, 2005, 8161, 16635, 3806, 11768, 1012, 102, 0, 0], [101, 3180, 6912, 2003, 3145, 2000, 8498, 1037, 7965, 9580, 1012, 102, 0, 0, 0], [101, 5177, 2740, 7073, 2003, 3352, 6233, 2590, 1999, 2554, 1012, 102, 0, 0, 0], [101, 12042, 14266, 2003, 6827, 2005, 3558, 1998, 5177, 2092, 1011, 2108, 1012, 102, 0], [101, 11131, 2367, 8578, 4372, 13149, 2229, 2256, 4824, 1997, 1996, 2088, 1012, 102, 0], [101, 3604, 9259, 2031, 19209, 2248, 6813, 6022, 1012, 102, 0, 0, 0, 0, 0], [101, 4083, 1037, 2047, 2653, 7480, 2039, 6695,

In [5]:
# Armazenando input_ids e attention_mask em data_encoded
data_encoded['input_ids'] = tokenized_outputs['input_ids']
data_encoded['attention_mask'] = tokenized_outputs['attention_mask']
data_encoded.keys()

dict_keys(['Conjunto', 'Frase', 'input_ids', 'attention_mask'])

In [6]:
for frase, input_id in zip(data_encoded["Frase"], data_encoded["input_ids"]):
    print(f"Frase: {frase}, \nInput IDs: {tokenizer.convert_ids_to_tokens(input_id)}\n")

Frase: Advancements in artificial intelligence are transforming industries., 
Input IDs: ['[CLS]', 'advancement', '##s', 'in', 'artificial', 'intelligence', 'are', 'transforming', 'industries', '.', '[SEP]', '[PAD]', '[PAD]', '[PAD]', '[PAD]']

Frase: Advancements in neural artificial intelligence are transforming industries., 
Input IDs: ['[CLS]', 'advancement', '##s', 'in', 'neural', 'artificial', 'intelligence', 'are', 'transforming', 'industries', '.', '[SEP]', '[PAD]', '[PAD]', '[PAD]']

Frase: Innovative technologies like blockchain are reshaping financial transactions., 
Input IDs: ['[CLS]', 'innovative', 'technologies', 'like', 'block', '##chai', '##n', 'are', 'res', '##ha', '##ping', 'financial', 'transactions', '.', '[SEP]']

Frase: Global warming is leading to more extreme weather patterns., 
Input IDs: ['[CLS]', 'global', 'warming', 'is', 'leading', 'to', 'more', 'extreme', 'weather', 'patterns', '.', '[SEP]', '[PAD]', '[PAD]', '[PAD]']

Frase: Deforestation contributes sig

## 3. Obtenção dos embeddings.

In [7]:
import torch
from transformers import AutoModel

#Carregar modelo distilbert
model_ckpt = "distilbert-base-uncased"

#Caso exista GPU utilize-a, caso contrário use a CPU
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model = AutoModel.from_pretrained(model_ckpt).to(device)

In [8]:
#Função para extração da última camada oculta (apenas a representação do token [CLS])
def extract_hidden_states(batch):
    # Place model inputs on the GPU
    inputs = {k:v.to(device) for k,v in batch.items() 
              if k in tokenizer.model_input_names}
    # Extract last hidden states
    with torch.no_grad():
        last_hidden_state = model(**inputs).last_hidden_state
    # Return vector for [CLS] token
    return {"hidden_state": last_hidden_state[:,0].cpu().numpy()}

In [9]:
#Transforma os input_ids e attention_mask em tensores
data_encoded['input_ids'] = torch.tensor(data_encoded['input_ids'])
data_encoded['attention_mask'] = torch.tensor(data_encoded['attention_mask'])

In [10]:
#Extrai a última camada oculta de data_encoded e armazena em hidden_state
hidden_state = extract_hidden_states(data_encoded)

In [11]:
#Transforma hidden_state em tensor
data_hidden = data_encoded.copy()
data_hidden['hidden_state'] = torch.tensor(hidden_state['hidden_state'])
data_hidden

{'Conjunto': ['Tecnologia e Inovação',
  'Tecnologia e Inovação',
  'Tecnologia e Inovação',
  'Mudanças Climáticas e Meio Ambiente',
  'Mudanças Climáticas e Meio Ambiente',
  'Mudanças Climáticas e Meio Ambiente',
  'Saúde e Bem-estar',
  'Saúde e Bem-estar',
  'Saúde e Bem-estar',
  'Viagens e Cultura',
  'Viagens e Cultura',
  'Viagens e Cultura'],
 'Frase': ['Advancements in artificial intelligence are transforming industries.',
  'Advancements in neural artificial intelligence are transforming industries.',
  'Innovative technologies like blockchain are reshaping financial transactions.',
  'Global warming is leading to more extreme weather patterns.',
  'Deforestation contributes significantly to the increase in atmospheric carbon dioxide levels.',
  'Renewable energy sources are crucial for reducing greenhouse gas emissions.',
  'Regular exercise is key to maintaining a healthy lifestyle.',
  'Mental health awareness is becoming increasingly important in society.',
  'Balanced 

In [12]:
#Dimensões de data_hidden
data_hidden['hidden_state'].size()

torch.Size([12, 768])

## 4. Cálculo da distância entre os embeddings.

In [13]:
# Extraindo os embeddings de duas frases
embedding1_tensor = data_hidden['hidden_state'][0]
embedding2_tensor = data_hidden['hidden_state'][1]

# Normalizando os embeddings
embedding1_norm = embedding1_tensor / embedding1_tensor.norm()
embedding2_norm = embedding2_tensor / embedding2_tensor.norm()

# Calculando a similaridade por cosseno
cosine_similarity = torch.dot(embedding1_norm, embedding2_norm)

print(f"Similaridade por cosseno: {cosine_similarity.item()}")


Similaridade por cosseno: 0.9968863725662231


In [14]:
Usar o FAISS para criar banco ve

SyntaxError: invalid syntax (2417172878.py, line 1)