# APIs para GPTs e outros LLMs no Python

## Por qu√™ usar LLMs no Python:
1) Automatiza√ß√£o
2) Controle
3) Escala 

## O que esse treinamento deve proporcionar
1) Configura√ß√£o do ambiente: como criar e onde salvar a chave da API, como estabelecer limites de gastos
2) Primeiros passos: fazendo uma requisi√ß√£o b√°sica
3) Trabalhando em escala: como utilizar batchs (s√≠ncrono e ass√≠ncrono)
4) Ganhando complexidade: use case Reclame Aqui 

Observa√ß√µes: utilizar YAML 
agents/
    - mapeador de tend√™ncias.yaml
    - comparador_entre_trend_e_macrotrend.yaml
    - ...

yaml:
    - modelo de API (ex: gpt4o)
    - temperatura
    - outros par√¢metros
    - sys

## 1) Configurando o ambiente 

Application Programming Interface (APIs) s√£o como pontes padronizadas para que dois sistemas conversem com seguran√ßa e rapidez. Na pr√°tica, serve para que possamos extrair funcionalidades de aplica√ß√µes sem que seja necess√°rio entendermos o que tem por tr√°s da aplica√ß√£o, apenas como nos conectar. APIs envolvem algumas regras, como autentica√ß√£o, limites de pedidos e hor√°rio de funcionamneto.

No caso de LLMs, a API serve para utilizarmos modelos sem que precisemos de todo a aplica√ß√£o web. No geral, o processo √© parecido para quase todos os provedores (OpenAI, Google, Anthropic). Diferente da utiliza√ß√£o tradicional em que se paga uma mensalidade, na utiliza√ß√£o de APIs se paga por tokens utilizados (input/output). 

### Criando uma chave

O processo de cria√ß√£o √© bem simples. Para a OpenAI, LLM que estaremos utilizando principalmente nesse treinamento, voc√™ pode criar sua pr√≥pria chave aqui https://platform.openai.com/api-keys. Na maioria dos casos, voc√™ s√≥ consegue ler a chave completa quando cria, e ap√≥s isso ela fica em grande parte oculta por seguran√ßa.

A chave ter√° um formato similar a esse: "sk-proj-XlTrIjLDJ...."

### Onde armazenar sua chave
√â importante que sua chave fique armazenada em um local seguro. Para isso, normalmente utilizamos um arquivo ".env". Ele √© onde voc√™ armazenam vari√°veis que dependem da m√°quina ou que n√£o devem ser salvas em seu .git ou em locais p√∫blicos. O .env n√£o √© 100% seguro mas √© bom para vari√°veis espec√≠ficas da m√°quina ou usu√°rio. 

No caso de utilizarmos .git em algum projeto, √© recomendado deixar o .env dentro do .gitignore para evitarmos que essas vari√°veis sejam enviadas ao reposit√≥rio.

A Mirow possui chaves para utiliza√ß√£o geral.

## 2) Realizando requisi√ß√µes 
Vamos fazer uma requisi√ß√£o b√°sica a OpenAI

In [2]:
from openai import OpenAI
import os
from dotenv import load_dotenv

# Carrega as vari√°veis do arquivo .env
load_dotenv()

# Inicializa o cliente
client = OpenAI(api_key=os.getenv("OPENAI_API_KEY"))

# Requisi√ß√£o
response = client.chat.completions.create(
    model="gpt-4o-mini",
    messages=[
        {
            "role": "system",  # Instru√ß√µes de alto n√≠vel para o modelo (tom, formato, regras)
            "content": "Voc√™ √© um especialista em Python e an√°lise de dados. Responda de forma clara e did√°tica.",
        },
        {
            "role": "user",  # Pergunta ou comando do usu√°rio
            "content": "Explique o que s√£o APIs e por que s√£o importantes para trabalhar com LLMs.",
        },
        {
            "role": "assistant",  # Resposta j√° geradas do assistente (modelo)
            "content": "APIs s√£o interfaces que permitem comunica√ß√£o entre sistemas diferentes de forma padronizada.",
        },
        {
            "role": "user",  # Nova pergunta ou comando do usu√°rio
            "content": "Agora me d√™ um exemplo pr√°tico de uso.",
        },
    ],
    temperature=0.7,
    max_tokens=1000,
)

# Exibe a resposta
print(response.choices[0].message.content)

Claro! Vamos considerar um exemplo pr√°tico de uso de uma API em um contexto de um modelo de linguagem grande (LLM).

### Exemplo: Usando a API do OpenAI para gerar texto

Suponha que voc√™ deseja criar um aplicativo que gera resumos de textos longos usando um modelo de linguagem como o GPT da OpenAI. Aqui est√° como voc√™ poderia fazer isso usando a API do OpenAI:

1. **Obten√ß√£o da chave da API**: Primeiro, voc√™ precisaria se inscrever no servi√ßo da OpenAI e obter uma chave da API, que permitir√° que voc√™ fa√ßa requisi√ß√µes ao modelo.

2. **Configura√ß√£o do ambiente**: Voc√™ precisaria de um ambiente Python com a biblioteca `requests` instalada. Voc√™ pode instal√°-la usando o pip:

   ```bash
   pip install requests
   ```

3. **Fazendo uma requisi√ß√£o √† API**: Aqui est√° um exemplo de c√≥digo que realiza uma requisi√ß√£o para gerar um resumo:

   ```python
   import requests

   # Defina sua chave da API
   api_key = 'sua_chave_da_api_aqui'

   # O texto que voc√™ deseja re

**Principais par√¢metros:**
- `model`: modelo a ser utilizado (ex: gpt-4o, gpt-4o-mini, gpt-3.5-turbo)
- `messages`: lista de mensagens com roles (system, user, assistant)
- `temperature`: criatividade da resposta (0 a 2), dependendo da aplica√ß√£o
- `max_tokens`: limite de tokens na resposta
- `response_format`: for√ßa o modelo a retornar dados em formato estruturado espec√≠fico

Al√©m de OpenAI, podemos utilizar outras LLMs como Claude ou Gemini. Tamb√©m √© poss√≠vel usar LiteLLM, que possibilita variedade de LLMs em um √∫nico ambiente.

In [None]:
# Claude (Anthropic)
from anthropic import Anthropic

client = Anthropic(api_key=os.getenv("ANTHROPIC_API_KEY"))

response = client.messages.create(
    model="claude-3-sonnet-20240229",
    messages=[{"role": "user", "content": "..."}],
    max_tokens=1024,
)

# Gemini (Google)
import google.generativeai as genai

genai.configure(api_key=os.getenv("GOOGLE_API_KEY"))
model = genai.GenerativeModel("gemini-pro")
response = model.generate_content("...")

In [None]:
import pandas as pd
from pydantic import BaseModel
from typing import Literal

# Exemplo de uso de response_format com Structured Outputs


# Definir o schema com Pydantic
class Tendencia(BaseModel):
    nome: str
    descricao: str
    impacto: Literal["alto", "medio", "baixo"]
    prazo: Literal["curto", "medio", "longo"]


class TendenciasResponse(BaseModel):
    tendencias: list[Tendencia]


# Requisi√ß√£o para pensarmos em tend√™ncias de um mercado
response_temperature1 = client.chat.completions.create(
    model="gpt-4o-mini",
    messages=[
        {
            "role": "system",
            "content": (
                "You are an automotive market analyst. "
                "Return ONLY valid JSON with the schema: "
                '{"tendencias": [{"nome": str, "descricao": str, '
                '"impacto": "alto|medio|baixo", "prazo": "curto|medio|longo"}]} '
                "No extra text, markdown, or code fences."
            ),
        },
        {
            "role": "user",
            "content": (
                "List the 10 main automotive trends in Brazil following the required JSON schema."
            ),
        },
    ],
    temperature=0.2,
    max_tokens=800,
)

response_temperature2 = client.beta.chat.completions.parse(
    model="gpt-4o-mini",
    messages=[
        {
            "role": "system",
            "content": ("You are an automotive market analyst. "),
        },
        {
            "role": "user",
            "content": (
                "List the 10 main automotive trends in Brazil following the required JSON schema."
            ),
        },
    ],
    response_format=TendenciasResponse,
    temperature=1.5,
    max_tokens=2000,
)

In [25]:
import json

data_temperature1 = response_temperature1.choices[0].message.content
data_temperature2 = response_temperature2.choices[0].message.content

# Tentar carregar JSON com tratamento de erro
try:
    payload1 = json.loads(data_temperature1)
    df_temperature1 = pd.json_normalize(payload1["tendencias"])
except json.JSONDecodeError as e:
    print(f"Erro ao decodificar JSON de temperature1: {e}")
    df_temperature1 = pd.DataFrame()

try:
    payload2 = json.loads(data_temperature2)
    df_temperature2 = pd.json_normalize(payload2["tendencias"])
except json.JSONDecodeError as e:
    print(f"Erro ao decodificar JSON de temperature2: {e}")
    print("Resposta recebida (primeiros 500 caracteres):")
    print(data_temperature2[:500])
    df_temperature2 = pd.DataFrame()

Erro ao decodificar JSON de temperature2: Expecting ',' delimiter: line 12 column 259 (char 681)
Resposta recebida (primeiros 500 caracteres):
{
  "tendencias": [
    {
      "nome": "Ve√≠culos El√©tricos",
      "descricao": "A expans√£o da linha de ve√≠culos el√©tricos comerciais e particulares em resposta √†s crescentes preocupa√ß√µes ambientais.",
      "impacto": "alto",
      "prazo": "medio"
    },
    {
      "nome": "Conectividade",
      "descricao": "Intera√ß√£o e integra√ß√£o de ve√≠culos com estrat√©gia em casa, por meio de aplicativos e sistemas integrados.",
      "impacto": "altamente amplia automaticamente as futuras infraestruturas


In [5]:
df_temperature1

Unnamed: 0,nome,descricao,impacto,prazo
0,Ve√≠culos El√©tricos,Aumento na ado√ß√£o de ve√≠culos el√©tricos devido...,alto,medio
1,Carros Conectados,Integra√ß√£o de tecnologia de conectividade nos ...,alto,medio
2,Mobilidade Urbana,"Crescimento de solu√ß√µes de mobilidade urbana, ...",medio,curto
3,Autonomia Veicular,Desenvolvimento de tecnologias para ve√≠culos a...,alto,longo
4,Sustentabilidade,Foco em pr√°ticas sustent√°veis na produ√ß√£o e op...,medio,medio
5,Carros H√≠bridos,Aumento na venda de ve√≠culos h√≠bridos como uma...,medio,curto
6,Tecnologia de Assist√™ncia ao Motorista,Implementa√ß√£o de sistemas avan√ßados de assist√™...,alto,medio
7,Mudan√ßas Regulat√≥rias,Novas regulamenta√ß√µes ambientais e de seguran√ß...,alto,curto
8,Digitaliza√ß√£o da Experi√™ncia do Cliente,"Ado√ß√£o de plataformas digitais para vendas, se...",medio,curto
9,Aumento da Concorr√™ncia,Entrada de novas montadoras e startups no merc...,medio,medio


In [None]:
df_temperature2

Unnamed: 0,nome,descricao,impacto,prazo
0,Eletrifica√ß√£o dos Ve√≠culos,Crescimento no mercado de ve√≠culos el√©tricos e...,alto,medio
1,Digitaliza√ß√£o e Conectividade,"Integra√ß√£o de tecnologias de conectividade, in...",alto,curto
2,Ve√≠culos Aut√¥nomos,Pesquisas para desenvolvimento de ve√≠culos aut...,medio,longo
3,Foco em Sustentabilidade,Marcas est√£o adotando pr√°ticas mais ecol√≥gicas...,alto,longo
4,Recupera√ß√£o e Crescimento P√≥s-Pandemia,O mercado automotivo est√° mostrando sinais de ...,alto,curto
5,Populariza√ß√£o dos SUVs,A prefer√™ncia por SUVs est√° crescendo entre os...,alto,medio
6,Uso de Tecnologia de Assist√™ncia ao Motorista,Motoristas mostram maior interesse por localiz...,medio,curto
7,Unifica√ß√£o das Plataformas CPFs,Concentra√ß√£o no compartilhamento de melhores p...,medio,medio
8,Aumento do E-commerce de Autom√≥veis,"Veio devido √† pandemia, um aumento no comercio...",medio,curto
9,Mobilidade Servida como Servi√ßo (MaaS),Modelos de compras de inicia-se a implementar ...,baixo,longo


## 3) Trabalhando em escala

**Batches** permitem agrupar v√°rias requisi√ß√µes em um √∫nico envio ass√≠ncrono. A API processa cada item separadamente, mas voc√™ ganha pre√ßo reduzido (tarifa de batch) e n√£o precisa segurar a execu√ß√£o do seu c√≥digo local enquanto a infer√™ncia acontece. O fluxo b√°sico: gerar um arquivo NDJSON com todas as requisi√ß√µes, enviar esse arquivo para a OpenAI e disparar um job de batch. Depois, consultar o status at√© que os resultados estejam prontos e baix√°-los.

**Requisi√ß√µes ass√≠ncronas** (_async_) s√£o √∫teis quando voc√™ quer disparar v√°rias chamadas r√°pidas e continuar trabalhando enquanto espera o retorno. Em Python, usamos `asyncio` e o cliente ass√≠ncrono da OpenAI para mandar v√°rias requisi√ß√µes em paralelo sem bloquear a thread principal.

In [7]:
import json
import time
from pathlib import Path

BATCH_COMPLETION_WINDOW = "24h"  # janela m√≠nima exigida pela API no momento

batch_requests = [
    {
        "custom_id": "trend-macro-001",
        "method": "POST",
        "url": "/v1/chat/completions",
        "body": {
            "model": "gpt-4o-mini",
            "messages": [
                {
                    "role": "system",
                    "content": (
                        "You are an automotive market analyst. Return ONLY valid JSON "
                        "with keys: tendencias -> [{nome, descricao, impacto, prazo}]"
                    ),
                },
                {
                    "role": "user",
                    "content": "Liste 5 tend√™ncias automotivas no Brasil seguindo o schema solicitado.",
                },
            ],
            "temperature": 0.0,
            "max_tokens": 400,
        },
    },
    {
        "custom_id": "trend-macro-002",
        "method": "POST",
        "url": "/v1/chat/completions",
        "body": {
            "model": "gpt-4o-mini",
            "messages": [
                {
                    "role": "system",
                    "content": (
                        "You are an automotive market analyst. Return ONLY valid JSON "
                        "with keys: tendencias -> [{nome, descricao, impacto, prazo}]"
                    ),
                },
                {
                    "role": "user",
                    "content": "Liste 5 tend√™ncias automotivas na Europa seguindo o schema solicitado.",
                },
            ],
            "temperature": 0.0,
            "max_tokens": 400,
        },
    },
]

batch_file = Path("batch_requests.ndjson")
batch_file.write_text(
    "\n".join(json.dumps(item) for item in batch_requests), encoding="utf-8"
)
print(f"Arquivo de batch gerado em: {batch_file.resolve()}")

uploaded = client.files.create(file=batch_file.open("rb"), purpose="batch")
batch_job = client.batches.create(
    input_file_id=uploaded.id,
    endpoint="/v1/chat/completions",
    completion_window=BATCH_COMPLETION_WINDOW,
)
print("Batch criado:", batch_job.id)

batch_job = client.batches.retrieve(batch_job.id)

Arquivo de batch gerado em: C:\Mirow\Treinamento Python\APIs\Treinamento\batch_requests.ndjson
Batch criado: batch_6903a98366ac81909ba4f920e0855841


In [None]:
from openai import OpenAI
import os
from dotenv import load_dotenv

# Carrega as vari√°veis do arquivo .env
load_dotenv()

# Inicializa o cliente
client = OpenAI(api_key=os.getenv("OPENAI_API_KEY"))

# batch_id = "batch_6903a98366ac81909ba4f920e0855841"
batch_id = "batch_6903a98366ac81909ba4f920e0855841"

batch_obj = client.batches.retrieve(batch_id)

print(f"Status do batch {batch_id}: {batch_obj.status}")

if batch_obj.status == "completed":
    print("\n‚úÖ Batch completo! Baixando resultados...\n")
    result_file_id = batch_obj.output_file_id
    file_response = client.files.content(result_file_id)

    # Processar linhas JSONL
    results = []
    for line in file_response.text.strip().split("\n"):
        result = json.loads(line)
        results.append(result)

    print(f"üì¶ Total de resultados: {len(results)}\n")

    for idx, result in enumerate(results):
        custom_id = result.get("custom_id")
        response_body = result.get("response", {}).get("body", {})

        # Extrair conte√∫do da resposta
        message_content = (
            response_body.get("choices", [{}])[0].get("message", {}).get("content", "")
        )

        print(f"‚úì Resultado {idx} ({custom_id}):")
        print(f"  {message_content[:100]}...")

Status do batch batch_6903a98366ac81909ba4f920e0855841: completed

‚úÖ Batch completo! Baixando resultados...

üì¶ Total de resultados: 2

‚úì Resultado 0 (trend-macro-001):
  ```json
{
  "tendencias": [
    {
      "nome": "Ve√≠culos El√©tricos",
      "descricao": "Aumento na...
‚úì Resultado 1 (trend-macro-002):
  ```json
{
  "tendencias": [
    {
      "nome": "Eletrifica√ß√£o de Ve√≠culos",
      "descricao": "Aum...
üì¶ Total de resultados: 2

‚úì Resultado 0 (trend-macro-001):
  ```json
{
  "tendencias": [
    {
      "nome": "Ve√≠culos El√©tricos",
      "descricao": "Aumento na...
‚úì Resultado 1 (trend-macro-002):
  ```json
{
  "tendencias": [
    {
      "nome": "Eletrifica√ß√£o de Ve√≠culos",
      "descricao": "Aum...


## 4) Use case: classifica√ß√£o de reclama√ß√µes no Reclame Aqui

### Project Structure

```
02. Classificador RA/
‚îú‚îÄ‚îÄ main.py                    # Main orchestrator
‚îú‚îÄ‚îÄ src/
‚îÇ   ‚îî‚îÄ‚îÄ scraper.py                 # Phase 1: Data collection
‚îÇ   ‚îî‚îÄ‚îÄtheme_discovery.py         # Phase 2: Theme discovery
‚îÇ   ‚îî‚îÄ‚îÄclassifier.py              # Phase 4: Classification
‚îÇ   ‚îî‚îÄ‚îÄusage_tracker.py           # OpenAI API usage tracking
‚îÇ   ‚îî‚îÄ‚îÄview_usage.py              # View usage statistics
‚îÇ   ‚îî‚îÄ‚îÄconfig.py                  # Configuration
‚îú‚îÄ‚îÄ requirements.txt           # Dependencies
‚îú‚îÄ‚îÄ .env                       # Environment variables (create from .env.example)
‚îú‚îÄ‚îÄ input/
‚îÇ   ‚îî‚îÄ‚îÄ complaints_raw.json    # Scraped complaints (Phase 1 output)
‚îî‚îÄ‚îÄ output/
    ‚îú‚îÄ‚îÄ proposed_taxonomy.json        # Proposed categories (Phase 2 output)
    ‚îú‚îÄ‚îÄ curated_taxonomy.json         # Final taxonomy (Phase 3 input)
    ‚îú‚îÄ‚îÄ classification_results.json   # Classifications (Phase 4 output)
    ‚îî‚îÄ‚îÄ openai_usage.json             # API usage log (auto-generated)

### Execu√ß√£o direta da pipeline no notebook
As c√©lulas abaixo reutilizam os componentes do projeto para demonstrar cada fase sem sair do Jupyter.

#### Configura√ß√£o: exibir estat√≠sticas de uso da API

In [2]:
from pathlib import Path
import sys
import json
import pandas as pd

PROJECT_ROOT = Path("02. Classificador RA").resolve()
SRC_DIR = PROJECT_ROOT / "src"
if str(SRC_DIR) not in sys.path:
    sys.path.append(str(SRC_DIR))

import config

# Nomes de arquivos e diret√≥rios
config.DATA_DIR = str(PROJECT_ROOT / "data")
config.OUTPUT_DIR = str(PROJECT_ROOT / "output")
config.API_USAGE_LOG_FILE = str(Path(config.OUTPUT_DIR) / "openai_usage.json")

config.SHOW_API_USAGE = True
config.SHOW_API_USAGE_DETAILS = False

config.COMPLAINTS_FILE = str(Path(config.DATA_DIR) / "complaints_raw.json")
config.PROPOSED_TAXONOMY_FILE = str(Path(config.OUTPUT_DIR) / "proposed_taxonomy.json")
config.CURATED_TAXONOMY_FILE = str(Path(config.OUTPUT_DIR) / "curated_taxonomy.json")
config.CLASSIFICATION_RESULTS_FILE = str(
    Path(config.OUTPUT_DIR) / "classification_results.json"
)

Path(config.DATA_DIR).mkdir(parents=True, exist_ok=True)
Path(config.OUTPUT_DIR).mkdir(parents=True, exist_ok=True)

complaints_path = Path(config.COMPLAINTS_FILE)
fallback_path = PROJECT_ROOT / "input" / "complaints_raw.json"


print(
    "Uso de API habilitado. Estat√≠sticas ser√£o gravadas em:", config.API_USAGE_LOG_FILE
)

Uso de API habilitado. Estat√≠sticas ser√£o gravadas em: C:\Mirow\Treinamento Python\APIs\Treinamento\02. Classificador RA\output\openai_usage.json


#### 1. Scraping das reclama√ß√µes (ou carregamento da base local)

In [3]:
from scraper import ReclameAquiAPIExtractor, SELENIUM_AVAILABLE

complaints_path = Path(config.COMPLAINTS_FILE)
fallback_path = PROJECT_ROOT / "input" / "complaints_raw.json"

# Extrair reclama√ß√µes do ReclameAqui
if SELENIUM_AVAILABLE:
    extractor = ReclameAquiAPIExtractor(config.RECLAME_AQUI_URL, delay=1.5)
    complaints = extractor.scrape_all_complaints(max_pages=20)
else:
    if fallback_path.exists():
        print(
            "Selenium n√£o dispon√≠vel. Reutilizando base salva em input/complaints_raw.json."
        )
    else:
        raise RuntimeError(
            "Nem Selenium nem arquivo local dispon√≠vel para carregar as reclama√ß√µes."
        )

with open(complaints_path, "w", encoding="utf-8") as fp:
    json.dump(complaints, fp, ensure_ascii=False, indent=2)

print(f"Reclama√ß√µes dispon√≠veis: {len(complaints)}")
pd.DataFrame(complaints)[["complaint_id", "complaint_title", "status"]].head()

Starting scrape: up to 20 pages
Fetching page 1...
Fetching page 1...
‚úì Extracted 10 complaints from page 1
‚úì Extracted 10 complaints from page 1
Fetching page 2...
Fetching page 2...
‚úì Extracted 10 complaints from page 2
‚úì Extracted 10 complaints from page 2
Fetching page 3...
Fetching page 3...
‚úì Extracted 10 complaints from page 3
‚úì Extracted 10 complaints from page 3
Fetching page 4...
Fetching page 4...
‚úì Extracted 10 complaints from page 4
‚úì Extracted 10 complaints from page 4
Fetching page 5...
Fetching page 5...
‚úì Extracted 10 complaints from page 5
‚úì Extracted 10 complaints from page 5
Fetching page 6...
Fetching page 6...
‚úì Extracted 10 complaints from page 6
‚úì Extracted 10 complaints from page 6
Fetching page 7...
Fetching page 7...
‚úì Extracted 10 complaints from page 7
‚úì Extracted 10 complaints from page 7
Fetching page 8...
Fetching page 8...
‚úì Extracted 10 complaints from page 8
‚úì Extracted 10 complaints from page 8
Fetching page 9...
Fetch

Unnamed: 0,complaint_id,complaint_title,status
0,COMPLAINT_FNftCrSvmjTVSTIi,Negativa de garantia para pe√ßa substitu√≠da ant...,Aguardando resposta
1,COMPLAINT_hMBfJpzQmQ46G4_k,Caminh√£o com [NOME] de √ìleo e [NOME] em Garantia,Aguardando resposta
2,COMPLAINT_LeSwbKMr-EZHSWpw,[NOME] 2024/2025 com problemas na marcha e dir...,Aguardando resposta
3,COMPLAINT_A5atRAmWVxU9E32k,Absurdo no pre√ßo do banco e durabilidade infer...,Aguardando resposta
4,COMPLAINT_E5euaQanLCg2t2et,Solicita√ß√£o de [NOME] e Revis√£o da An√°lise de ...,Aguardando resposta


### Configura√ß√£o de Agentes com YAML

Para facilitar a manuten√ß√£o e permitir ajustes r√°pidos sem alterar c√≥digo, externalizamos as configura√ß√µes dos agentes LLM em arquivos YAML.

#### Estrutura de Diret√≥rios
```
02. Classificador RA/
‚îú‚îÄ‚îÄ agents/
‚îÇ   ‚îú‚îÄ‚îÄ theme_discovery.yaml        # Agente de descoberta de temas
‚îÇ   ‚îî‚îÄ‚îÄ complaint_classifier.yaml   # Agente de classifica√ß√£o
‚îî‚îÄ‚îÄ src/
    ‚îú‚îÄ‚îÄ agent_loader.py             # Carrega configs YAML
    ‚îú‚îÄ‚îÄ theme_discovery.py          # Usa theme_discovery.yaml
    ‚îî‚îÄ‚îÄ classifier.py               # Usa complaint_classifier.yaml
```

#### Exemplo de Arquivo YAML: `agents/theme_discovery.yaml`

```model: "gpt-4-turbo"
temperature:  0.3
max_tokens: 2000

system_prompt: |
  You are an expert in analyzing customer complaints and identifying patterns.
  Your task is to propose a taxonomy of categories that best represents the themes
  present in a set of complaints.

user_prompt_template: |
  Based on the following complaints, propose between {min_categories} and {max_categories}
  thematic categories that would best organize them.
  
  Complaints:
  {complaints_sample}
  
  Return ONLY valid JSON with this exact structure:
  {{
    "proposed_categories": [
      {{
        "category_name": "Category Name",
        "category_description": "Detailed description",
        "keywords": ["keyword1", "keyword2"]
      }}
    ]
  }}
```

#### Como Usar no C√≥digo

```python
# src/agent_loader.py
import yaml
from pathlib import Path

def load_agent_config(agent_name: str) -> dict:
    config_path = Path(__file__).parent.parent / "agents" / f"{agent_name}.yaml"
    with open(config_path, 'r', encoding='utf-8') as f:
        return yaml.safe_load(f)

# src/theme_discovery.py
from agent_loader import load_agent_config

class ThemeDiscovery:
    def __init__(self, api_key: str):
        # Carrega configura√ß√£o do YAML
        self.config = load_agent_config('theme_discovery')
        self.model = self.config['model']
        self.temperature = self.config['temperature']
        self.system_prompt = self.config['system_prompt']
        
    def generate_taxonomy(self, complaints):
        response = client.chat.completions.create(
            model=self.model,
            temperature=self.temperature,
            messages=[
                {"role": "system", "content": self.system_prompt},
                {"role": "user", "content": self.config['user_prompt_template'].format(
                    min_categories=5,
                    max_categories=15,
                    complaints_sample=complaints
                )}
            ]
        )
        return response
```

#### Vantagens desta Abordagem

1. **Separa√ß√£o de Responsabilidades**: L√≥gica de c√≥digo separada de configura√ß√£o
2. **Itera√ß√£o R√°pida**: Ajuste prompts sem tocar no c√≥digo Python
3. **Controle de Vers√£o**: F√°cil comparar mudan√ßas nos prompts via Git
4. **Experimenta√ß√£o**: Teste m√∫ltiplas vers√µes de prompts facilmente
5. **Manutenibilidade**: Prompts longos ficam mais leg√≠veis em YAML

#### Reload de Configs no Notebook

Se voc√™ alterar um arquivo YAML durante a execu√ß√£o do notebook, force o reload:

```python
import importlib
import sys

if 'agent_loader' in sys.modules:
    importlib.reload(sys.modules['agent_loader'])
if 'theme_discovery' in sys.modules:
    importlib.reload(sys.modules['theme_discovery'])
```

In [5]:
# For√ßar reload dos m√≥dulos para pegar altera√ß√µes no YAML
import importlib
import sys

# Recarregar m√≥dulos se j√° estiverem em cache
if "agent_loader" in sys.modules:
    importlib.reload(sys.modules["agent_loader"])
    print("‚úì agent_loader recarregado")

if "theme_discovery" in sys.modules:
    importlib.reload(sys.modules["theme_discovery"])
    print("‚úì theme_discovery recarregado")

if "classifier" in sys.modules:
    importlib.reload(sys.modules["classifier"])
    print("‚úì classifier recarregado")

print("\nVerificando YAML atual:")
from agent_loader import load_agent_config

print(f"theme_discovery model: {load_agent_config('theme_discovery').get('model')}")

‚úì agent_loader recarregado

Verificando YAML atual:
theme_discovery model: gpt-4-turbo


#### 2. Gera√ß√£o autom√°tica de categorias com OpenAI

In [6]:
from theme_discovery import ThemeDiscovery

if not config.OPENAI_API_KEY:
    raise RuntimeError(
        "Defina OPENAI_API_KEY no arquivo .env antes de gerar a taxonomia."
    )

# Classe do Theme Discovery
discovery = ThemeDiscovery(config.OPENAI_API_KEY, track_usage=True)

# Verificando se iremos trackear utiliza√ß√£o da API
if discovery.tracker:
    discovery.tracker.start_session(
        "Notebook - Fase 2 (Theme Discovery)", discovery.model
    )

complaints = discovery.load_complaints(config.COMPLAINTS_FILE)
sample = discovery.sample_complaints(complaints, config.SAMPLE_SIZE_FOR_DISCOVERY)
taxonomy_payload = discovery.generate_taxonomy(sample)
discovery.save_taxonomy(
    taxonomy_payload, config.PROPOSED_TAXONOMY_FILE
)  # Salvar taxonomia proposta

print(f"Categorias propostas: {len(taxonomy_payload['proposed_categories'])}")
taxonomy_df = pd.DataFrame(taxonomy_payload["proposed_categories"])
display(taxonomy_df[["category_name", "category_description"]])

if discovery.tracker:
    session_data = discovery.tracker.end_session()
    if session_data:
        print("\nUso da API - Fase 2 (Theme Discovery):")
        print(
            json.dumps(
                {
                    "total_tokens": session_data["total_tokens"],
                    "input_tokens": session_data["total_input_tokens"],
                    "output_tokens": session_data["total_output_tokens"],
                    "estimated_cost_usd": session_data["estimated_cost_usd"],
                    "api_calls": len(session_data["calls"]),
                },
                indent=2,
                ensure_ascii=False,
            )
        )

Categorias propostas: 6


Unnamed: 0,category_name,category_description
0,Warranty and Part Replacement Issues,Customers express dissatisfaction due to denie...
1,Quality and Durability Concerns,Customers report problems with the quality and...
2,Service and Support Challenges,Customers encounter poor service experiences i...
3,Technology and Connectivity Issues,Issues related to the functionality and user a...
4,Cost and Pricing Disputes,"Customers feel certain costs are unjustified, ..."
5,Recall Management Issues,Customers are dissatisfied with how recalls ar...



Uso da API - Fase 2 (Theme Discovery):
{
  "total_tokens": 18308,
  "input_tokens": 17731,
  "output_tokens": 577,
  "estimated_cost_usd": 0.1946,
  "api_calls": 1
}


#### 3. Classifica√ß√£o das reclama√ß√µes com a taxonomia definida

In [10]:
from classifier import ComplaintClassifier

if not config.OPENAI_API_KEY:
    raise RuntimeError(
        "Defina OPENAI_API_KEY no arquivo .env antes de classificar as reclama√ß√µes."
    )

taxonomy_path = Path(config.CURATED_TAXONOMY_FILE)
if not taxonomy_path.exists():
    print("Taxonomia curada n√£o encontrada. Usando proposta rec√©m-gerada.")
    taxonomy_path = Path(config.PROPOSED_TAXONOMY_FILE)

classifier = ComplaintClassifier(config.OPENAI_API_KEY, track_usage=True)
if classifier.tracker:
    classifier.tracker.start_session(
        "Notebook - Fase 3 (Classifica√ß√£o)", classifier.model
    )

taxonomy = classifier.load_taxonomy(str(taxonomy_path))
complaints = classifier.load_complaints(config.COMPLAINTS_FILE)
results = classifier.classify_all(
    complaints=complaints, taxonomy=taxonomy, use_batch=True
)
summary = classifier.generate_summary(results)

output_payload = {
    "taxonomy_used": taxonomy,
    "classification_results": results,
    "summary": summary,
}
with open(config.CLASSIFICATION_RESULTS_FILE, "w", encoding="utf-8") as fp:
    json.dump(output_payload, fp, ensure_ascii=False, indent=2)

print(f"Reclama√ß√µes classificadas nesta c√©lula: {len(results)}")
display(pd.DataFrame(summary["category_distribution"]))

if classifier.tracker:
    session_data = classifier.tracker.end_session()
    if session_data:
        print("\nUso da API - Fase 3 (Classifica√ß√£o):")
        print(
            json.dumps(
                {
                    "total_tokens": session_data["total_tokens"],
                    "input_tokens": session_data["total_input_tokens"],
                    "output_tokens": session_data["total_output_tokens"],
                    "estimated_cost_usd": session_data["estimated_cost_usd"],
                    "api_calls": len(session_data["calls"]),
                },
                indent=2,
                ensure_ascii=False,
            )
        )

Classifying complaints: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 20/20 [03:11<00:00,  9.57s/it]

Reclama√ß√µes classificadas nesta c√©lula: 200





Unnamed: 0,category,count,percentage
0,Quality and Durability Concerns,78,39.0
1,Warranty and Part Replacement Issues,54,27.0
2,Service and Support Challenges,23,11.5
3,Technology and Connectivity Issues,20,10.0
4,OTHER,12,6.0
5,Recall Management Issues,10,5.0
6,Cost and Pricing Disputes,3,1.5



Uso da API - Fase 3 (Classifica√ß√£o):
{
  "total_tokens": 30160,
  "input_tokens": 22507,
  "output_tokens": 7653,
  "estimated_cost_usd": 0.008,
  "api_calls": 20
}


### Insights Adicionais e An√°lises Poss√≠veis

#### An√°lises Quantitativas
- **Evolu√ß√£o temporal**: Identificar tend√™ncias de reclama√ß√µes ao longo do tempo (sazonalidade, picos)
- **An√°lise de sentimento**: Classificar reclama√ß√µes por intensidade emocional (urgente, frustrado, neutro)
- **Taxa de resolu√ß√£o**: Correlacionar categorias com status de resolu√ß√£o para identificar gargalos

#### An√°lises Qualitativas
- **Extra√ß√£o de palavras-chave**: Identificar termos mais frequentes por categoria usando TF-IDF ou embeddings
- **Clustering autom√°tico**: Agrupar reclama√ß√µes similares para descobrir subcategorias n√£o mapeadas
- **An√°lise de causa raiz**: Usar LLMs para identificar causas subjacentes comuns em cada categoria

#### An√°lises Comparativas
- **Benchmarking**: Comparar padr√µes de reclama√ß√µes entre diferentes modelos de ve√≠culos ou concession√°rias
- **An√°lise competitiva**: Contrastar taxonomia e volumes com outras montadoras premium

#### Automatiza√ß√£o e Monitoramento
- **Alertas inteligentes**: Detectar anomalias (ex: aumento s√∫bito de reclama√ß√µes em categoria espec√≠fica)
- **Dashboard em tempo real**: Visualizar distribui√ß√£o de categorias e m√©tricas de classifica√ß√£o
- **Sistema de prioriza√ß√£o**: Ranquear reclama√ß√µes por urg√™ncia e impacto potencial usando scoring multi-crit√©rio