## 1. Configura√ß√£o Inicial

In [None]:
# Instala√ß√£o das bibliotecas (execute apenas uma vez)
!pip install openai numpy scipy matplotlib scikit-learn python-dotenv -q

In [None]:
import warnings
from dotenv import load_dotenv
from openai import OpenAI

# Importando fun√ß√µes do m√≥dulo local
from embedding_utils import (
    get_embedding,
    cosine_similarity,
    plot_embeddings_2d,
    buscar_afirmacao_mais_relevante,
    mostrar_busca,
)

warnings.filterwarnings("ignore")

# Carrega vari√°veis do arquivo .env
load_dotenv()

print("‚úÖ Bibliotecas importadas com sucesso!")

In [None]:
# A chave da API √© carregada automaticamente do arquivo .env
client = OpenAI()

print("‚úÖ Cliente OpenAI configurado!")

## 2. Base de Conhecimento

Vamos criar uma base de conhecimento com afirma√ß√µes sobre diversos temas.

In [None]:
# Base de conhecimento: afirma√ß√µes/fatos
afirmacoes = [
    # Geografia (√≠ndices 0-5)
    "A capital do Brasil √© Bras√≠lia",
    "A Torre Eiffel fica em Paris",
    "O Rio Amazonas √© o maior rio do mundo em volume de √°gua",
    "T√≥quio √© a capital do Jap√£o",
    "A Muralha da China tem mais de 20 mil quil√¥metros",
    "O Monte Everest √© a montanha mais alta do mundo",
    # Natureza/Ci√™ncia (√≠ndices 6-11)
    "A casca da banana √© amarela",
    "A √°gua ferve a 100 graus Celsius",
    "O sol √© uma estrela",
    "O cora√ß√£o humano tem quatro c√¢maras",
    "A luz viaja a 300 mil quil√¥metros por segundo",
    "O DNA cont√©m as informa√ß√µes gen√©ticas dos seres vivos",
    # Pessoas/Cultura (√≠ndices 12-16)
    "Messi nasceu na Argentina",
    "Leonardo da Vinci pintou a Mona Lisa",
    "Cristiano Ronaldo √© Portugu√™s",
    "Beethoven comp√¥s a Nona Sinfonia",
    "Shakespeare escreveu Romeu e Julieta",
    # Tecnologia (√≠ndices 17-19)
    "Python √© uma linguagem de programa√ß√£o",
    "O primeiro computador ocupava uma sala inteira",
    "A internet foi criada na d√©cada de 1960",
]

print("üìö Base de Conhecimento:")
print("=" * 60)
for i, afirmacao in enumerate(afirmacoes, 1):
    print(f"{i:2}. {afirmacao}")

## 3. Gerando Embeddings das Afirma√ß√µes

In [None]:
# Gerando embeddings para todas as afirma√ß√µes
print("Gerando embeddings das afirma√ß√µes...\n")

embeddings_afirmacoes = []
for afirmacao in afirmacoes:
    emb = get_embedding(client, afirmacao)
    embeddings_afirmacoes.append(emb)
    print(f"‚úì {afirmacao[:40]}...")

print(f"\n‚úÖ {len(embeddings_afirmacoes)} embeddings de frases gerados!")

In [None]:
# Verificando a dimens√£o do embedding
print(f"Dimens√£o de cada embedding: {len(embeddings_afirmacoes[0])}")

## 4. Visualiza√ß√£o 2D das Afirma√ß√µes

Vamos ver como as afirma√ß√µes se distribuem no espa√ßo vetorial usando t-SNE.

In [None]:
# Categorias para colorir (baseado no tema da afirma√ß√£o)
categorias = {
    "Geografia": [0, 1, 2, 3, 4, 5],
    "Natureza/Ci√™ncia": [6, 7, 8, 9, 10, 11],
    "Pessoas/Cultura": [12, 13, 14, 15, 16],
    "Tecnologia/Outros": [17, 18, 19],
}

cores_map = {
    "Geografia": "blue",
    "Natureza/Ci√™ncia": "green",
    "Pessoas/Cultura": "red",
    "Tecnologia/Outros": "purple",
}

# Criando lista de cores para cada afirma√ß√£o
cores_afirmacoes = ["gray"] * len(afirmacoes)
for categoria, indices in categorias.items():
    for idx in indices:
        cores_afirmacoes[idx] = cores_map[categoria]

# Configura√ß√£o da legenda
legenda_afirmacoes = [
    {"color": "blue", "label": "Geografia"},
    {"color": "green", "label": "Natureza/Ci√™ncia"},
    {"color": "red", "label": "Pessoas/Cultura"},
    {"color": "purple", "label": "Tecnologia/Outros"},
]

# Usando a fun√ß√£o de visualiza√ß√£o 2D
embeddings_afirmacoes_2d = plot_embeddings_2d(
    palavras=[a[:30] + "..." if len(a) > 30 else a for a in afirmacoes],
    embeddings_list=embeddings_afirmacoes,
    cores=cores_afirmacoes,
    legenda_config=legenda_afirmacoes,
    perplexity=5,
    figsize=(16, 12),
)

print("\nüéØ Observe como afirma√ß√µes de temas similares tendem a se agrupar!")

## 5. Testando a Busca Sem√¢ntica

Vamos fazer perguntas e ver qual afirma√ß√£o √© mais relevante para cada uma!

In [None]:
# Teste 1: Pergunta sobre geografia
mostrar_busca(client, "Qual √© a capital do Brasil?", afirmacoes, embeddings_afirmacoes)

In [None]:
# Teste 2: Pergunta sobre esporte
mostrar_busca(client, "Onde o Messi nasceu?", afirmacoes, embeddings_afirmacoes)

In [None]:
# Teste 3: Pergunta sobre ci√™ncia
mostrar_busca(
    client,
    "A que temperatura a √°gua entra em ebuli√ß√£o?",
    afirmacoes,
    embeddings_afirmacoes,
)

In [None]:
# Teste 4: Pergunta sobre frutas (formulada de forma diferente)
mostrar_busca(client, "De que cor √© uma banana?", afirmacoes, embeddings_afirmacoes)

In [None]:
# Teste 5: Pergunta sobre arte
mostrar_busca(client, "Quem pintou a Mona Lisa?", afirmacoes, embeddings_afirmacoes)

In [None]:
# Teste 6: Pergunta em linguagem bem diferente da afirma√ß√£o
mostrar_busca(
    client,
    "Qual √© o pico mais elevado do planeta Terra?",
    afirmacoes,
    embeddings_afirmacoes,
)

In [None]:
mostrar_busca(
    client,
    "Como √© dividido nosso principal m√∫sculo que bombeia sangue?",
    afirmacoes,
    embeddings_afirmacoes,
)

In [None]:
mostrar_busca(
    client,
    "Qual o tamanho das m√°quinas de computa√ß√£o primordias?",
    afirmacoes,
    embeddings_afirmacoes,
)

## 6. Experimente voc√™ mesmo!

Fa√ßa suas pr√≥prias perguntas e veja qual afirma√ß√£o o sistema encontra!

In [None]:
# Digite sua pergunta aqui!
mostrar_busca(client, "Onde fica a Torre Eiffel?", afirmacoes, embeddings_afirmacoes)

## üí° O que aprendemos?

1. **Busca sem√¢ntica funciona!** - O sistema encontra a afirma√ß√£o correta mesmo quando a pergunta usa palavras diferentes
2. **N√£o √© busca por palavras-chave** - "pico mais elevado" encontrou "montanha mais alta" 
3. **Base para RAG** - Isso √© exatamente o que sistemas RAG fazem: encontram informa√ß√µes relevantes para dar contexto ao LLM

### üöÄ Pr√≥ximo passo: RAG completo

No pr√≥ximo notebook, vamos combinar:
- **Busca sem√¢ntica** (o que fizemos aqui)
- **LLM** (para gerar respostas)
- **Contexto** (as afirma√ß√µes encontradas)

Isso √© o **RAG (Retrieval Augmented Generation)**!