## 1. Configura√ß√£o Inicial

Primeiro, vamos instalar e importar as bibliotecas necess√°rias.

In [None]:
# Instala√ß√£o das bibliotecas (execute apenas uma vez)
!pip install openai numpy scipy matplotlib scikit-learn python-dotenv -q

In [None]:
import warnings
from dotenv import load_dotenv
from openai import OpenAI

# Importando fun√ß√µes do m√≥dulo local
from embedding_utils import (
    get_embedding,
    cosine_similarity,
    plot_similarity_matrix,
    plot_embeddings_2d,
    comparar_palavras,
)

warnings.filterwarnings("ignore")

# Carrega vari√°veis do arquivo .env
load_dotenv()

print("‚úÖ Bibliotecas importadas com sucesso!")

In [None]:
# A chave da API √© carregada automaticamente do arquivo .env
client = OpenAI()

print("‚úÖ Cliente OpenAI configurado!")

## 2. Grupos de Palavras Relacionadas

Vamos definir tr√™s grupos de palavras semanticamente relacionadas:
- üçé **Frutas**: palavras relacionadas a frutas
- üöó **Ve√≠culos**: palavras relacionadas a transporte
- üê∂ **Animais**: palavras relacionadas a animais

In [None]:
# Definindo grupos de palavras relacionadas
grupos = {
    "üçé Frutas": ["ma√ß√£", "banana", "laranja", "morango", "uva"],
    "üöó Ve√≠culos": ["carro", "moto", "bicicleta", "√¥nibus", "caminh√£o"],
    "üê∂ Animais": [
        "c√£o",
        "gato",
        "vaca",
        "cavalo",
        "ovelha",
    ],
}

# Vamos visualizar os grupos
for grupo, palavras in grupos.items():
    print(f"{grupo}: {', '.join(palavras)}")

## 3. Gerando Embeddings para Cada Palavra

Agora vamos gerar os embeddings para todas as palavras.

In [None]:
# Gerando embeddings para todas as palavras
embeddings = {}
todas_palavras = []
todos_embeddings = []
cores = []

cor_por_grupo = {"üçé Frutas": "red", "üöó Ve√≠culos": "blue", "üê∂ Animais": "green"}

print("Gerando embeddings...\n")

for grupo, palavras in grupos.items():
    print(f"Processando {grupo}...")
    for palavra in palavras:
        embedding = get_embedding(client, palavra)
        embeddings[palavra] = {"embedding": embedding, "grupo": grupo}
        todas_palavras.append(palavra)
        todos_embeddings.append(embedding)
        cores.append(cor_por_grupo[grupo])
        print(f"  ‚úì {palavra} (vetor com {len(embedding)} dimens√µes)")

print(f"\n‚úÖ Total: {len(embeddings)} embeddings gerados!")
print(f"üìê Cada embedding tem {len(embedding)} dimens√µes")

## 4. Calculando Similaridade Entre Palavras

Vamos calcular a similaridade de cosseno entre algumas palavras para demonstrar que:
- Palavras do **mesmo grupo** t√™m alta similaridade
- Palavras de **grupos diferentes** t√™m baixa similaridade

In [None]:
# Comparando palavras do MESMO grupo
print("‚ïê" * 50)
print("üîµ SIMILARIDADE ENTRE PALAVRAS DO MESMO GRUPO")
print("‚ïê" * 50)

comparacoes_mesmo_grupo = [
    ("uva", "morango"),
    ("carro", "moto"),
    ("c√£o", "gato"),
]

for palavra1, palavra2 in comparacoes_mesmo_grupo:
    sim = cosine_similarity(
        embeddings[palavra1]["embedding"], embeddings[palavra2]["embedding"]
    )
    print(f"{palavra1} ‚Üî {palavra2}: {sim:.4f} ({sim*100:.1f}%)")

In [None]:
# Comparando palavras de GRUPOS DIFERENTES
print("‚ïê" * 50)
print("üî¥ SIMILARIDADE ENTRE PALAVRAS DE GRUPOS DIFERENTES")
print("‚ïê" * 50)

comparacoes_grupos_diferentes = [
    ("uva", "caminh√£o"),
    ("banana", "c√£o"),
    ("√¥nibus", "vaca"),
]

for palavra1, palavra2 in comparacoes_grupos_diferentes:
    sim = cosine_similarity(
        embeddings[palavra1]["embedding"], embeddings[palavra2]["embedding"]
    )
    print(f"{palavra1} ‚Üî {palavra2}: {sim:.4f} ({sim*100:.1f}%)")

## 5. Matriz de Similaridade

Vamos criar uma matriz visual mostrando a similaridade entre todas as palavras.

In [None]:
# Chamando a fun√ß√£o plot_similarity_matrix (importada de embedding_utils.py)
matriz = plot_similarity_matrix(todas_palavras, embeddings, group_separators=[4.5, 9.5])

print("\nüìä Observe como os blocos na diagonal (mesmo grupo) s√£o mais verdes!")

## 6. Visualiza√ß√£o 2D com t-SNE

Os embeddings t√™m muitas dimens√µes (1536). Vamos usar **t-SNE** para reduzir para 2 dimens√µes e visualizar.

In [None]:
# Configura√ß√£o da legenda
legenda_grupos = [
    {"color": "red", "label": "Frutas"},
    {"color": "blue", "label": "Ve√≠culos"},
    {"color": "green", "label": "Animais"},
]

# Chamando a fun√ß√£o plot_embeddings_2d (importada de embedding_utils.py)
embeddings_2d = plot_embeddings_2d(
    todas_palavras, todos_embeddings, cores, legenda_config=legenda_grupos
)

print("\nüéØ Note como palavras do mesmo grupo se agrupam!")

## 7. Experimento Interativo

Vamos testar a compara√ß√£o de palavras livremente!

In [None]:
# Teste voc√™ mesmo! Experimente diferentes pares de palavras:

comparar_palavras(client, "rei", "rainha")
comparar_palavras(client, "rei", "cadeira")
comparar_palavras(client, "cachorro", "gato")

## üìù Resumo

Neste notebook, aprendemos:

1. **O que s√£o embeddings**: representa√ß√µes vetoriais de texto
2. **Como gerar embeddings**: usando a API da OpenAI
3. **Similaridade de cosseno**: mede o qu√£o "pr√≥ximos" dois vetores est√£o
4. **Propriedade sem√¢ntica**: palavras relacionadas t√™m embeddings similares

### üöÄ Pr√≥ximos passos

No pr√≥ximo notebook (`02_embeddings_frases.ipynb`), vamos:
- Trabalhar com **frases e par√°grafos** (n√£o apenas palavras)
- Criar um sistema de **busca sem√¢ntica**
- Entender a base do **RAG (Retrieval Augmented Generation)**!