## 1. Configura√ß√£o Inicial

In [2]:
import warnings
import json
import numpy as np
import pandas as pd
from dotenv import load_dotenv
from openai import OpenAI
from tqdm import tqdm
import time

# Importando fun√ß√µes do m√≥dulo local
from embedding_utils import (
    get_embedding,
    cosine_similarity,
    buscar_wikipedia,
    dividir_em_chunks,
)

warnings.filterwarnings("ignore")

# Carrega vari√°veis do arquivo .env
load_dotenv()

# Cliente OpenAI
client = OpenAI()

print("‚úÖ Bibliotecas importadas e cliente OpenAI configurado!")

‚úÖ Bibliotecas importadas e cliente OpenAI configurado!


## 2. Lista de 30 Escritores Brasileiros de Renome

Selecionamos escritores importantes da literatura brasileira de diferentes per√≠odos.

In [20]:
# Lista de 50 escritores brasileiros cl√°ssicos (formato Wikipedia)
escritores_brasileiros = [
    # Romantismo e Realismo
    "Machado_de_Assis",
    "Jos√©_de_Alencar",
    "Lima_Barreto_(escritor)",
    "Alu√≠sio_Azevedo",
    "Joaquim_Manuel_de_Macedo",
    "Visconde_de_Taunay",
    "Raul_Pompeia",
    "Bernardo_Guimar√£es",
    # Modernismo - 1¬™ Gera√ß√£o
    "M√°rio_de_Andrade",
    "Oswald_de_Andrade",
    "Manuel_Bandeira",
    "Menotti_Del_Picchia",
    "Cassiano_Ricardo",
    # Modernismo - 2¬™ Gera√ß√£o (Prosa)
    "Graciliano_Ramos",
    "Jorge_Amado",
    "Jos√©_Lins_do_Rego",
    "√ârico_Ver√≠ssimo",
    "Rachel_de_Queiroz",
    "Dyonelio_Machado",
    # Modernismo - 2¬™ Gera√ß√£o (Poesia)
    "Carlos_Drummond_de_Andrade",
    "Cec√≠lia_Meireles",
    "Vin√≠cius_de_Moraes",
    "Murilo_Mendes",
    "Jorge_de_Lima",
    # Modernismo - 3¬™ Gera√ß√£o
    "Guimar√£es_Rosa",
    "Clarice_Lispector",
    "Jo√£o_Cabral_de_Melo_Neto",
    "Ferreira_Gullar",
    # Parnasianismo e Simbolismo
    "Olavo_Bilac",
    "Raimundo_Correia",
    "Greg√≥rio_de_Matos",
    "Cruz_e_Sousa",
    "Alphonsus_de_Guimaraens",
    # Pr√©-Modernismo
    "Euclides_da_Cunha",
    "Monteiro_Lobato",
    "Augusto_dos_Anjos",
    "Coelho_Neto",
    "Gra√ßa_Aranha",
    # Poesia Rom√¢ntica
    "Castro_Alves",
    "Gon√ßalves_Dias",
    "√Ålvares_de_Azevedo",
    "Casimiro_de_Abreu",
    "Fagundes_Varela",
    # Contempor√¢neos Cl√°ssicos
    "Rubem_Braga",
    "Rubem_Fonseca",
    "Lygia_Fagundes_Telles",
    "Hilda_Hilst",
    "Ariano_Suassuna",
    "Autran_Dourado",
]

print(
    f"üìö Lista de {len(escritores_brasileiros)} escritores brasileiros cl√°ssicos para an√°lise:"
)
for i, escritor in enumerate(escritores_brasileiros, 1):
    print(f"   {i:2d}. {escritor.replace('_', ' ')}")

üìö Lista de 49 escritores brasileiros cl√°ssicos para an√°lise:
    1. Machado de Assis
    2. Jos√© de Alencar
    3. Lima Barreto (escritor)
    4. Alu√≠sio Azevedo
    5. Joaquim Manuel de Macedo
    6. Visconde de Taunay
    7. Raul Pompeia
    8. Bernardo Guimar√£es
    9. M√°rio de Andrade
   10. Oswald de Andrade
   11. Manuel Bandeira
   12. Menotti Del Picchia
   13. Cassiano Ricardo
   14. Graciliano Ramos
   15. Jorge Amado
   16. Jos√© Lins do Rego
   17. √ârico Ver√≠ssimo
   18. Rachel de Queiroz
   19. Dyonelio Machado
   20. Carlos Drummond de Andrade
   21. Cec√≠lia Meireles
   22. Vin√≠cius de Moraes
   23. Murilo Mendes
   24. Jorge de Lima
   25. Guimar√£es Rosa
   26. Clarice Lispector
   27. Jo√£o Cabral de Melo Neto
   28. Ferreira Gullar
   29. Olavo Bilac
   30. Raimundo Correia
   31. Greg√≥rio de Matos
   32. Cruz e Sousa
   33. Alphonsus de Guimaraens
   34. Euclides da Cunha
   35. Monteiro Lobato
   36. Augusto dos Anjos
   37. Coelho Neto
   38. Gra√ßa A

## 3. Coleta de Dados da Wikipedia

In [21]:
# Buscando conte√∫do da Wikipedia para cada escritor
conteudos_escritores = {}
erros = []

print("üîç Buscando informa√ß√µes na Wikipedia...\n")

for escritor in tqdm(escritores_brasileiros, desc="Coletando dados"):
    try:
        dados = buscar_wikipedia(escritor)
        conteudos_escritores[escritor] = dados
        time.sleep(0.5)  # Delay para n√£o sobrecarregar a Wikipedia
    except Exception as e:
        erros.append((escritor, str(e)))
        print(f"   ‚ö†Ô∏è Erro ao buscar {escritor}: {e}")

print(f"\n‚úÖ {len(conteudos_escritores)} p√°ginas carregadas com sucesso!")
if erros:
    print(f"‚ö†Ô∏è {len(erros)} erros encontrados")

üîç Buscando informa√ß√µes na Wikipedia...



Coletando dados: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 49/49 [00:52<00:00,  1.08s/it]


‚úÖ 49 p√°ginas carregadas com sucesso!





In [24]:
# Visualizando um exemplo
if conteudos_escritores:
    exemplo_escritor = list(conteudos_escritores.keys())[0]
    exemplo_dados = conteudos_escritores[exemplo_escritor]

    print(f"üìñ Exemplo - {exemplo_dados['titulo']}")
    print(f"üîó URL: {exemplo_dados['url']}")
    print(f"üìù N√∫mero de par√°grafos: {len(exemplo_dados['conteudo'])}")
    print(f"\nüìÑ Primeiro par√°grafo:")
    print(exemplo_dados["conteudo"][0][:500] + "...")

üìñ Exemplo - Machado de Assis
üîó URL: https://pt.wikipedia.org/wiki/Machado_de_Assis
üìù N√∫mero de par√°grafos: 107

üìÑ Primeiro par√°grafo:
Joaquim Maria Machado de Assis (Rio de Janeiro, 21 de junho de 1839 ‚Äì Rio de Janeiro, 29 de setembro de 1908) foi um escritor brasileiro, amplamente reconhecido por cr√≠ticos, estudiosos, escritores e leitores como o maior expoente da literatura brasileira. Sua produ√ß√£o liter√°ria abrangeu praticamente todos os g√™neros, incluindo poesia, romance, cr√¥nica, dramaturgia, conto, folhetim, jornalismo e cr√≠tica liter√°ria. Machado de Assis testemunhou a Aboli√ß√£o da Escravatura e a transi√ß√£o pol√≠tica do B...


## 4. Cria√ß√£o de Chunks e Gera√ß√£o de Embeddings

In [25]:
# Criando chunks de todos os conte√∫dos
todos_chunks = []
metadados_escritores = []

print("üì¶ Criando chunks para cada escritor...\n")

for escritor, dados in conteudos_escritores.items():
    # Junta todos os par√°grafos
    texto_completo = " ".join(dados["conteudo"])

    # Debug: verificar se o texto est√° vazio
    if len(texto_completo.strip()) < 100:
        print(
            f"   ‚ö†Ô∏è {dados['titulo']}: texto muito curto ({len(texto_completo)} chars)"
        )
        print(f"      Par√°grafos retornados: {len(dados['conteudo'])}")
        if dados["conteudo"]:
            print(f"      Primeiro par√°grafo: {dados['conteudo'][0][:100]}...")
        continue

    # Divide em chunks
    chunks = dividir_em_chunks(
        texto_completo, titulo_pagina=dados["titulo"], tamanho_max=1000, overlap=150
    )

    print(f"   üìÑ {dados['titulo']}: {len(chunks)} chunks")

    for chunk in chunks:
        todos_chunks.append(chunk)
        metadados_escritores.append(
            {
                "escritor": dados["titulo"],
                "escritor_wiki": escritor,
                "url": dados["url"],
            }
        )

print(f"\n‚úÖ Total: {len(todos_chunks)} chunks criados!")

# Verificar escritores sem chunks
escritores_com_chunks = set([m["escritor"] for m in metadados_escritores])
escritores_buscados = set([d["titulo"] for d in conteudos_escritores.values()])
sem_chunks = escritores_buscados - escritores_com_chunks
if sem_chunks:
    print(f"\n‚ö†Ô∏è Escritores sem chunks: {sem_chunks}")

üì¶ Criando chunks para cada escritor...

   üìÑ Machado de Assis: 133 chunks
   üìÑ Jos√© de Alencar: 40 chunks
   üìÑ Lima Barreto (escritor): 16 chunks
   üìÑ Alu√≠sio Azevedo: 4 chunks
   üìÑ Joaquim Manuel de Macedo: 4 chunks
   üìÑ Visconde de Taunay: 11 chunks
   üìÑ Raul Pompeia: 15 chunks
   üìÑ Bernardo Guimar√£es: 6 chunks
   üìÑ M√°rio de Andrade: 34 chunks
   üìÑ Oswald de Andrade: 31 chunks
   üìÑ Manuel Bandeira: 16 chunks
   üìÑ Menotti Del Picchia: 6 chunks
   üìÑ Cassiano Ricardo: 5 chunks
   üìÑ Graciliano Ramos: 9 chunks
   üìÑ Jorge Amado: 19 chunks
   üìÑ Jos√© Lins do Rego: 15 chunks
   üìÑ √ârico Ver√≠ssimo: 32 chunks
   üìÑ Rachel de Queiroz: 35 chunks
   üìÑ Dyonelio Machado: 5 chunks
   üìÑ Carlos Drummond de Andrade: 6 chunks
   üìÑ Cec√≠lia Meireles: 16 chunks
   üìÑ Vin√≠cius de Moraes: 34 chunks
   üìÑ Murilo Mendes: 30 chunks
   üìÑ Jorge de Lima: 14 chunks
   üìÑ Guimar√£es Rosa: 9 chunks
   üìÑ Clarice Lispector: 35 chunks
  

In [None]:
# Gerando embeddings para todos os chunks
print("üß† Gerando embeddings para todos os chunks...\n")
print("   ‚è≥ Isso pode levar alguns minutos...\n")

embeddings_escritores = []

for i, chunk in enumerate(tqdm(todos_chunks, desc="Gerando embeddings")):
    emb = get_embedding(client, chunk)
    embeddings_escritores.append(emb)

    # Pequena pausa para respeitar rate limits
    if (i + 1) % 50 == 0:
        time.sleep(1)

embeddings_escritores = np.array(embeddings_escritores)

print(f"\n‚úÖ {len(embeddings_escritores)} embeddings gerados!")
print(f"üìê Dimens√£o dos embeddings: {embeddings_escritores.shape}")

üß† Gerando embeddings para todos os chunks...

   ‚è≥ Isso pode levar alguns minutos...



Gerando embeddings:  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 612/972 [04:21<02:25,  2.48it/s]

In [None]:
# Salvando os dados para uso futuro
np.save("embeddings_escritores.npy", embeddings_escritores)

with open("metadados_escritores.json", "w", encoding="utf-8") as f:
    json.dump(metadados_escritores, f, ensure_ascii=False, indent=2)

with open("chunks_escritores.json", "w", encoding="utf-8") as f:
    json.dump(todos_chunks, f, ensure_ascii=False, indent=2)

print("üíæ Dados salvos:")
print("   - embeddings_escritores.npy")
print("   - metadados_escritores.json")
print("   - chunks_escritores.json")

## 5. Busca Sem√¢ntica: Chunks Relacionados √† Morte de Cada Escritor

In [None]:
def buscar_chunks_relevantes(query: str, escritor_filtro: str, top_k: int = 3) -> list:
    """
    Busca os chunks mais relevantes para uma query, filtrando por escritor.

    Args:
        query: A consulta de busca
        escritor_filtro: Nome do escritor para filtrar (formato t√≠tulo, n√£o wiki)
        top_k: N√∫mero de chunks a retornar

    Returns:
        Lista de dicion√°rios com chunk, similaridade e metadados
    """
    # Gera embedding da query
    emb_query = get_embedding(client, query)

    # Filtra chunks do escritor espec√≠fico e calcula similaridade
    resultados = []
    for i, (chunk, meta) in enumerate(zip(todos_chunks, metadados_escritores)):
        if meta["escritor"] == escritor_filtro:
            sim = cosine_similarity(emb_query, embeddings_escritores[i])
            resultados.append(
                {
                    "chunk": chunk,
                    "similaridade": sim,
                    "escritor": meta["escritor"],
                    "url": meta["url"],
                }
            )

    # Ordena por similaridade
    resultados.sort(key=lambda x: x["similaridade"], reverse=True)

    return resultados[:top_k]


print("‚úÖ Fun√ß√£o de busca sem√¢ntica definida!")

In [None]:
# Para cada escritor, buscar chunks relacionados √† morte
TOP_K = 3  # N√∫mero de chunks por escritor

print("üîç Buscando chunks relacionados √† morte de cada escritor...\n")

chunks_morte_por_escritor = {}
query_morte = "morte falecimento causa √≥bito doen√ßa acidente assassinato"

escritores_unicos = list(set([m["escritor"] for m in metadados_escritores]))

for escritor in tqdm(escritores_unicos, desc="Buscando chunks"):
    chunks_relevantes = buscar_chunks_relevantes(
        query=query_morte, escritor_filtro=escritor, top_k=TOP_K
    )
    chunks_morte_por_escritor[escritor] = chunks_relevantes

print(
    f"\n‚úÖ Chunks de morte encontrados para {len(chunks_morte_por_escritor)} escritores!"
)

In [None]:
# Visualizando um exemplo
exemplo = list(chunks_morte_por_escritor.items())[0]
print(f"üìñ Exemplo: {exemplo[0]}")
print(f"{'‚îÄ' * 70}")
for i, chunk_info in enumerate(exemplo[1], 1):
    print(f"\nüîπ Chunk {i} (similaridade: {chunk_info['similaridade']:.4f}):")
    print(f"   {chunk_info['chunk'][:300]}...")

## 6. Defini√ß√£o das Classes de Causa de Morte

In [None]:
# Classes pr√©-definidas para classifica√ß√£o
CLASSES_CAUSA_MORTE = [
    "problema_cardiaco",  # Infarto, insufici√™ncia card√≠aca, etc.
    "cancer",  # Qualquer tipo de c√¢ncer
    "acidente",  # Acidentes de tr√¢nsito, quedas, etc.
    "assassinato",  # Morte violenta intencional
    "doenca_respiratoria",  # Pneumonia, tuberculose, etc.
    "avc",  # Acidente vascular cerebral
    "diabetes",  # Complica√ß√µes de diabetes
    "suicidio",  # Suic√≠dio
    "doenca_neurologica",  # Alzheimer, Parkinson, etc.
    "complicacoes_cirurgicas",  # Morte durante ou ap√≥s cirurgias
    "infeccao",  # Sepse, infec√ß√µes graves
    "idade_avancada",  # Morte natural por idade
    "outra_doenca",  # Outras doen√ßas n√£o especificadas
    "desconhecida",  # Informa√ß√£o n√£o dispon√≠vel
]

CLASSES_DESCRICAO = """
Classes dispon√≠veis para classifica√ß√£o:
- problema_cardiaco: Infarto, insufici√™ncia card√≠aca, arritmia, etc.
- cancer: Qualquer tipo de c√¢ncer ou neoplasia
- acidente: Acidentes de tr√¢nsito, quedas, afogamento, etc.
- assassinato: Morte violenta intencional, homic√≠dio
- doenca_respiratoria: Pneumonia, tuberculose, enfisema, etc.
- avc: Acidente vascular cerebral (derrame)
- diabetes: Complica√ß√µes de diabetes
- suicidio: Suic√≠dio confirmado
- doenca_neurologica: Alzheimer, Parkinson, ELA, etc.
- complicacoes_cirurgicas: Morte durante ou ap√≥s procedimentos cir√∫rgicos
- infeccao: Sepse, infec√ß√µes graves
- idade_avancada: Morte natural por senilidade
- outra_doenca: Outras doen√ßas n√£o listadas acima
- desconhecida: Quando a informa√ß√£o n√£o est√° dispon√≠vel no contexto
"""

print("üìã Classes de causa de morte definidas:")
for classe in CLASSES_CAUSA_MORTE:
    print(f"   ‚Ä¢ {classe}")

## 7. Prompts para Classifica√ß√£o

### 7.1 Prompt B√°sico
Um prompt simples e direto, sem t√©cnicas avan√ßadas de engenharia de prompts.

### 7.2 Prompt com Engenharia de Prompts
Utiliza diversas t√©cnicas:
- **Chain-of-Thought (CoT)**: Solicita racioc√≠nio passo a passo
- **Few-shot examples**: Fornece exemplos de classifica√ß√£o
- **Role prompting**: Define um papel espec√≠fico para o modelo
- **Output formatting**: Estrutura clara para a resposta
- **Confidence scoring**: Solicita n√≠vel de confian√ßa

In [None]:
# ============================================
# PROMPT B√ÅSICO
# ============================================


def criar_prompt_basico(escritor: str, chunks: list) -> tuple:
    """
    Cria um prompt b√°sico para classifica√ß√£o de causa de morte.

    Returns:
        Tupla (system_prompt, user_prompt)
    """
    contexto = "\n\n".join([c["chunk"] for c in chunks])

    system_prompt = "Voc√™ √© um assistente que classifica causas de morte."

    user_prompt = f"""Com base no texto abaixo sobre {escritor}, classifique a causa da morte.

Texto:
{contexto}

Classes poss√≠veis: {', '.join(CLASSES_CAUSA_MORTE)}

Responda apenas com a classe e a data da morte no formato:
CLASSE: [classe]
DATA_MORTE: [data ou "desconhecida"]
"""

    return system_prompt, user_prompt


print("‚úÖ Fun√ß√£o de prompt b√°sico definida!")

In [None]:
# ============================================
# PROMPT COM ENGENHARIA DE PROMPTS AVAN√áADA
# ============================================


def criar_prompt_avancado(escritor: str, chunks: list) -> tuple:
    """
    Cria um prompt avan√ßado usando t√©cnicas de engenharia de prompts:
    - Role prompting
    - Chain-of-Thought (CoT)
    - Few-shot examples
    - Structured output
    - Confidence scoring

    Returns:
        Tupla (system_prompt, user_prompt)
    """
    contexto = "\n\n".join([c["chunk"] for c in chunks])

    system_prompt = """Voc√™ √© um especialista em hist√≥ria da literatura brasileira e an√°lise biogr√°fica, com vasto conhecimento sobre a vida e morte de escritores brasileiros. Sua tarefa √© analisar cuidadosamente textos biogr√°ficos para determinar a causa de morte de escritores.

REGRAS IMPORTANTES:
1. Analise APENAS as informa√ß√µes presentes no contexto fornecido
2. Se n√£o houver informa√ß√£o clara sobre a causa da morte, classifique como "desconhecida"
3. Seja preciso e baseie-se em evid√™ncias do texto
4. Considere termos m√©dicos e suas equival√™ncias populares
5. Se houver m√∫ltiplas causas mencionadas, escolha a principal/determinante"""

    user_prompt = f"""# TAREFA: Classificar a causa de morte do escritor "{escritor}"

## CONTEXTO BIOGR√ÅFICO:
{contexto}

## CLASSES DISPON√çVEIS:
{CLASSES_DESCRICAO}

## EXEMPLOS DE CLASSIFICA√á√ÉO:

Exemplo 1:
- Texto: "Morreu em decorr√™ncia de um infarto fulminante em sua resid√™ncia"
- An√°lise: O texto menciona explicitamente "infarto", que √© uma condi√ß√£o card√≠aca
- Classifica√ß√£o: problema_cardiaco
- Confian√ßa: ALTA

Exemplo 2:
- Texto: "Faleceu ap√≥s longa batalha contra um tumor no pulm√£o"
- An√°lise: "Tumor" indica neoplasia/c√¢ncer
- Classifica√ß√£o: cancer
- Confian√ßa: ALTA

Exemplo 3:
- Texto: "O escritor morreu em 1950, deixando grande legado liter√°rio"
- An√°lise: N√£o h√° men√ß√£o √† causa espec√≠fica da morte
- Classifica√ß√£o: desconhecida
- Confian√ßa: ALTA (para a classifica√ß√£o como desconhecida)

## SUA AN√ÅLISE:
Siga este processo passo a passo:

1. **EVID√äNCIAS**: Liste as palavras-chave ou frases do texto que mencionam a morte ou causas
2. **RACIOC√çNIO**: Explique qual classe melhor se encaixa nas evid√™ncias encontradas
3. **DATA**: Identifique a data da morte, se mencionada
4. **CLASSIFICA√á√ÉO FINAL**: Forne√ßa sua resposta no formato estruturado abaixo

## RESPOSTA (formato obrigat√≥rio):
EVIDENCIAS: [liste as evid√™ncias encontradas no texto]
RACIOCINIO: [explique seu racioc√≠nio]
CLASSE: [uma das classes listadas]
DATA_MORTE: [data no formato "DD de m√™s de AAAA" ou "desconhecida"]
CONFIANCA: [ALTA, MEDIA ou BAIXA]
"""

    return system_prompt, user_prompt


print("‚úÖ Fun√ß√£o de prompt avan√ßado definida!")

In [None]:
# Visualizando a diferen√ßa entre os prompts
exemplo_escritor = list(chunks_morte_por_escritor.keys())[0]
exemplo_chunks = chunks_morte_por_escritor[exemplo_escritor]

print("=" * 80)
print("üìù COMPARA√á√ÉO DOS PROMPTS")
print("=" * 80)

sys_basico, user_basico = criar_prompt_basico(exemplo_escritor, exemplo_chunks)
sys_avancado, user_avancado = criar_prompt_avancado(exemplo_escritor, exemplo_chunks)

print(f"\nüîπ PROMPT B√ÅSICO:")
print(f"   System prompt: {len(sys_basico)} caracteres")
print(f"   User prompt: {len(user_basico)} caracteres")

print(f"\nüîπ PROMPT AVAN√áADO:")
print(f"   System prompt: {len(sys_avancado)} caracteres")
print(f"   User prompt: {len(user_avancado)} caracteres")

print(
    f"\nüìä O prompt avan√ßado √© {len(user_avancado)/len(user_basico):.1f}x maior que o b√°sico"
)

## 8. Classifica√ß√£o com a API da OpenAI

In [None]:
def classificar_causa_morte(
    escritor: str,
    chunks: list,
    usar_prompt_avancado: bool = False,
    modelo: str = "gpt-4o-mini",
) -> dict:
    """
    Classifica a causa de morte de um escritor usando a API da OpenAI.

    Args:
        escritor: Nome do escritor
        chunks: Lista de chunks relevantes
        usar_prompt_avancado: Se True, usa o prompt com t√©cnicas de engenharia
        modelo: Modelo da OpenAI a utilizar

    Returns:
        Dicion√°rio com a classifica√ß√£o e metadados
    """
    # Seleciona o tipo de prompt
    if usar_prompt_avancado:
        system_prompt, user_prompt = criar_prompt_avancado(escritor, chunks)
    else:
        system_prompt, user_prompt = criar_prompt_basico(escritor, chunks)

    try:
        response = client.chat.completions.create(
            model=modelo,
            messages=[
                {"role": "system", "content": system_prompt},
                {"role": "user", "content": user_prompt},
            ],
            temperature=0.1,  # Baixa temperatura para respostas mais consistentes
            max_tokens=500,
        )

        resposta_texto = response.choices[0].message.content

        # Extrai informa√ß√µes da resposta
        resultado = {
            "escritor": escritor,
            "resposta_completa": resposta_texto,
            "chunks_utilizados": [c["chunk"] for c in chunks],
            "similaridades": [c["similaridade"] for c in chunks],
            "modelo": modelo,
            "tipo_prompt": "avancado" if usar_prompt_avancado else "basico",
        }

        # Parse da resposta para extrair classe e data
        linhas = resposta_texto.upper().split("\n")
        for linha in linhas:
            if "CLASSE:" in linha:
                classe = linha.split("CLASSE:")[-1].strip().lower()
                # Limpa a classe
                classe = classe.replace("[", "").replace("]", "").strip()
                resultado["classe"] = (
                    classe if classe in CLASSES_CAUSA_MORTE else "desconhecida"
                )
            if "DATA_MORTE:" in linha or "DATA:" in linha:
                data = linha.split(":")[-1].strip()
                resultado["data_morte"] = data.lower().replace("[", "").replace("]", "")
            if "CONFIANCA:" in linha or "CONFIAN√áA:" in linha:
                resultado["confianca"] = linha.split(":")[-1].strip()

        # Valores padr√£o se n√£o encontrados
        if "classe" not in resultado:
            resultado["classe"] = "desconhecida"
        if "data_morte" not in resultado:
            resultado["data_morte"] = "desconhecida"
        if "confianca" not in resultado:
            resultado["confianca"] = "N/A"

        return resultado

    except Exception as e:
        return {
            "escritor": escritor,
            "erro": str(e),
            "classe": "erro",
            "data_morte": "erro",
            "chunks_utilizados": [c["chunk"] for c in chunks],
            "tipo_prompt": "avancado" if usar_prompt_avancado else "basico",
        }


print("‚úÖ Fun√ß√£o de classifica√ß√£o definida!")

In [None]:
# Executando classifica√ß√£o com PROMPT B√ÅSICO
print("üîÑ Executando classifica√ß√£o com PROMPT B√ÅSICO...\n")

resultados_basico = []

for escritor, chunks in tqdm(chunks_morte_por_escritor.items(), desc="Prompt B√°sico"):
    resultado = classificar_causa_morte(escritor, chunks, usar_prompt_avancado=False)
    resultados_basico.append(resultado)
    time.sleep(0.5)  # Delay para respeitar rate limits

print(f"\n‚úÖ {len(resultados_basico)} classifica√ß√µes conclu√≠das com prompt b√°sico!")

In [None]:
# Executando classifica√ß√£o com PROMPT AVAN√áADO
print("üîÑ Executando classifica√ß√£o com PROMPT AVAN√áADO...\n")

resultados_avancado = []

for escritor, chunks in tqdm(chunks_morte_por_escritor.items(), desc="Prompt Avan√ßado"):
    resultado = classificar_causa_morte(escritor, chunks, usar_prompt_avancado=True)
    resultados_avancado.append(resultado)
    time.sleep(0.5)  # Delay para respeitar rate limits

print(f"\n‚úÖ {len(resultados_avancado)} classifica√ß√µes conclu√≠das com prompt avan√ßado!")

## 9. Cria√ß√£o dos DataFrames com Resultados

In [None]:
# Criando DataFrame para PROMPT B√ÅSICO
df_basico = pd.DataFrame(
    [
        {
            "escritor": r["escritor"],
            "data_morte": r.get("data_morte", "desconhecida"),
            "classificacao_causa": r.get("classe", "desconhecida"),
            "chunk_1": (
                r["chunks_utilizados"][0] if len(r["chunks_utilizados"]) > 0 else ""
            ),
            "chunk_2": (
                r["chunks_utilizados"][1] if len(r["chunks_utilizados"]) > 1 else ""
            ),
            "chunk_3": (
                r["chunks_utilizados"][2] if len(r["chunks_utilizados"]) > 2 else ""
            ),
            "resposta_modelo": r.get("resposta_completa", ""),
        }
        for r in resultados_basico
    ]
)

print("üìä DataFrame com resultados do PROMPT B√ÅSICO:")
print(f"   Shape: {df_basico.shape}")
display(df_basico[["escritor", "data_morte", "classificacao_causa"]].head(10))

In [None]:
# Criando DataFrame para PROMPT AVAN√áADO
df_avancado = pd.DataFrame(
    [
        {
            "escritor": r["escritor"],
            "data_morte": r.get("data_morte", "desconhecida"),
            "classificacao_causa": r.get("classe", "desconhecida"),
            "confianca": r.get("confianca", "N/A"),
            "chunk_1": (
                r["chunks_utilizados"][0] if len(r["chunks_utilizados"]) > 0 else ""
            ),
            "chunk_2": (
                r["chunks_utilizados"][1] if len(r["chunks_utilizados"]) > 1 else ""
            ),
            "chunk_3": (
                r["chunks_utilizados"][2] if len(r["chunks_utilizados"]) > 2 else ""
            ),
            "resposta_modelo": r.get("resposta_completa", ""),
        }
        for r in resultados_avancado
    ]
)

print("üìä DataFrame com resultados do PROMPT AVAN√áADO:")
print(f"   Shape: {df_avancado.shape}")
display(
    df_avancado[["escritor", "data_morte", "classificacao_causa", "confianca"]].head(10)
)

In [None]:
# Salvando os DataFrames em CSV
df_basico.to_csv(
    "classificacao_morte_prompt_basico.csv", index=False, encoding="utf-8-sig"
)
df_avancado.to_csv(
    "classificacao_morte_prompt_avancado.csv", index=False, encoding="utf-8-sig"
)

print("üíæ DataFrames salvos:")
print("   - classificacao_morte_prompt_basico.csv")
print("   - classificacao_morte_prompt_avancado.csv")

## 10. An√°lise Comparativa dos Resultados

In [None]:
# Compara√ß√£o das classifica√ß√µes entre os dois prompts
print("=" * 80)
print("üìä COMPARA√á√ÉO: PROMPT B√ÅSICO vs PROMPT AVAN√áADO")
print("=" * 80)

# Juntando os resultados para compara√ß√£o
df_comparacao = pd.DataFrame(
    {
        "escritor": df_basico["escritor"],
        "classe_basico": df_basico["classificacao_causa"],
        "classe_avancado": df_avancado["classificacao_causa"],
        "confianca_avancado": df_avancado["confianca"],
    }
)

# Calculando concord√¢ncia
df_comparacao["concordancia"] = (
    df_comparacao["classe_basico"] == df_comparacao["classe_avancado"]
)
concordancia_total = df_comparacao["concordancia"].mean() * 100

print(f"\nüéØ Taxa de concord√¢ncia entre prompts: {concordancia_total:.1f}%")
print(f"\nüìã Casos onde os prompts discordaram:")
discordantes = df_comparacao[~df_comparacao["concordancia"]]
if len(discordantes) > 0:
    display(discordantes)
else:
    print("   Todos os casos concordaram!")

In [None]:
# Distribui√ß√£o das classes - Prompt B√°sico
print("\nüìä Distribui√ß√£o de classes - PROMPT B√ÅSICO:")
distribuicao_basico = df_basico["classificacao_causa"].value_counts()
print(distribuicao_basico)

print("\nüìä Distribui√ß√£o de classes - PROMPT AVAN√áADO:")
distribuicao_avancado = df_avancado["classificacao_causa"].value_counts()
print(distribuicao_avancado)

In [None]:
# Visualiza√ß√£o gr√°fica
import matplotlib.pyplot as plt

fig, axes = plt.subplots(1, 2, figsize=(16, 6))

# Gr√°fico 1: Prompt B√°sico
distribuicao_basico.plot(kind="barh", ax=axes[0], color="steelblue")
axes[0].set_title("Distribui√ß√£o - Prompt B√°sico", fontsize=14)
axes[0].set_xlabel("Quantidade")
axes[0].set_ylabel("Causa da Morte")

# Gr√°fico 2: Prompt Avan√ßado
distribuicao_avancado.plot(kind="barh", ax=axes[1], color="darkgreen")
axes[1].set_title("Distribui√ß√£o - Prompt Avan√ßado", fontsize=14)
axes[1].set_xlabel("Quantidade")
axes[1].set_ylabel("Causa da Morte")

plt.tight_layout()
plt.savefig("comparacao_distribuicao_causas.png", dpi=150, bbox_inches="tight")
plt.show()

print("üìà Gr√°fico salvo: comparacao_distribuicao_causas.png")

In [None]:
# Tabela final resumida
print("\n" + "=" * 100)
print("üìã TABELA FINAL: CLASSIFICA√á√ÉO DE CAUSA DE MORTE DOS ESCRITORES BRASILEIROS")
print("=" * 100)

tabela_final = pd.DataFrame(
    {
        "Escritor": df_basico["escritor"],
        "Data Morte": df_avancado["data_morte"],
        "Causa (B√°sico)": df_basico["classificacao_causa"],
        "Causa (Avan√ßado)": df_avancado["classificacao_causa"],
        "Confian√ßa": df_avancado["confianca"],
    }
)

# Formatando para exibi√ß√£o
pd.set_option("display.max_colwidth", 50)
pd.set_option("display.max_rows", 35)

display(tabela_final)

In [None]:
# Salvando tabela final
tabela_final.to_csv("tabela_final_classificacao.csv", index=False, encoding="utf-8-sig")
print("üíæ Tabela final salva: tabela_final_classificacao.csv")

## 11. Exemplo de Resposta Detalhada do Prompt Avan√ßado

In [None]:
# Mostrando um exemplo completo de resposta do prompt avan√ßado
exemplo_idx = 0
exemplo_resultado = resultados_avancado[exemplo_idx]

print("=" * 80)
print(f"üìñ EXEMPLO DETALHADO: {exemplo_resultado['escritor']}")
print("=" * 80)

print("\nüìù CHUNKS UTILIZADOS:")
for i, chunk in enumerate(exemplo_resultado["chunks_utilizados"], 1):
    print(f"\n--- Chunk {i} ---")
    print(chunk[:500] + "..." if len(chunk) > 500 else chunk)

print("\n" + "=" * 80)
print("ü§ñ RESPOSTA DO MODELO (Prompt Avan√ßado):")
print("=" * 80)
print(exemplo_resultado.get("resposta_completa", "N√£o dispon√≠vel"))

## üìå Conclus√µes

Este notebook demonstrou um pipeline completo para:

1. **Coleta automatizada** de dados biogr√°ficos de 30 escritores brasileiros da Wikipedia
2. **Processamento com embeddings** para busca sem√¢ntica eficiente
3. **Classifica√ß√£o com LLM** usando duas estrat√©gias de prompt

### Diferen√ßas entre os prompts:

| Aspecto | Prompt B√°sico | Prompt Avan√ßado |
|---------|---------------|-----------------|
| Tamanho | ~200 tokens | ~800 tokens |
| T√©cnicas | Instru√ß√£o direta | CoT, Few-shot, Role |
| Estrutura | Resposta livre | Formato estruturado |
| Confian√ßa | N√£o solicita | Inclui score |
| Custo API | Menor | Maior |

### Recomenda√ß√µes:

- **Use o prompt b√°sico** quando: custo √© priorit√°rio, contexto √© claro, alta velocidade √© necess√°ria
- **Use o prompt avan√ßado** quando: precis√£o √© cr√≠tica, casos amb√≠guos, precisa de explicabilidade