In [1]:
import os
import requests
from dotenv import load_dotenv
import json
import time
from IPython.display import clear_output
from transformers import AutoTokenizer
import re
import psycopg2
import pandas as pd
from datetime import datetime, date  # Importando as classes datetime e date corretamente
import matplotlib.pyplot as plt
import numpy as np
import openai

#Configurando certificado digital
certificados_serpro = "ca-pro.pem"
os.environ["REQUESTS_CA_BUNDLE"] = certificados_serpro
os.environ["SSL_CERT_FILE"] = certificados_serpro


In [2]:
# Conexão
def get_connection():
    return psycopg2.connect(
        dbname="PROCESSOS",
        user="postgres",
        password="",
        host="",
        port="5432"
    )

In [4]:
import requests 

data = {"grant_type":"client_credentials"}
url = ""
result = requests.request('POST',url, data=data, auth=(client_id,client_secret))

In [5]:
# Variáveis globais para armazenar o token e o horário em que foi gerado
token = None
last_token_time = 0

# Função para obter o token da API
def get_token():
    client_id = ''
    client_secret = ''
    result = requests.request('POST', 
        "...", 
        data={"grant_type":"client_credentials"}, 
        auth=(client_id, client_secret))

    if result.ok:
        return result.json()['access_token']
    else:
        raise Exception("Erro ao obter o token")

# Função para verificar se o token está expirado (renova se necessário)
def get_valid_token():
    global token, last_token_time
    current_time = time.time()
    
    # Se o token não existe ou já passaram mais de 20 minutos, obtemos um novo
    if token is None or (current_time - last_token_time) > 20 * 60:  # 20 minutos em segundos
        token = get_token()
        last_token_time = current_time
        print("Novo token obtido.")

    return token

# Função para invocar o LLM
def invoke(prompt, modelo,token, temperature=0, max_tokens=10000, stream=False):
    # Obtém o token válido (renova se necessário)
    

    payload_data = {
        "model": modelo,
        "messages": [{"role": "user", "content": prompt}],
        "temperature": temperature,
        "max_tokens": max_tokens,
        "stream": stream
    }

    result = requests.request("POST", 
        '...', 
        data=json.dumps(payload_data), 
        headers={
            "Authorization": f"Bearer {token}", 
            "Content-Type":"application/json"})

    if result.ok:
        res = result.json()
        resposta = res["choices"][0]["message"]['content']
        return resposta
    else:
        print(result.text)


In [7]:
# Supondo que a função get_token já esteja definida
token = get_token()


In [8]:
# Supondo que a função get_token já esteja definida
token = get_token()

def listarModelos():
    url = "..."
    headers = {"Authorization": f"Bearer {token}"}
    result = requests.request("GET", url, headers=headers)
    if result.ok:
        res = result.json()
        return res['data']
    else:
        print("Nenhum modelo encontrado")

def print_modelos(modelos):
    for modelo in modelos:
        print(json.dumps(modelo, indent=4, ensure_ascii=False))

modelos = listarModelos()
if modelos:
    print_modelos(modelos)


{
    "id": "codestral-22b",
    "object": "model",
    "created": 1745856871,
    "owned_by": "vllm",
    "root": "mistralai/Codestral-22B-v0.1",
    "parent": null,
    "max_model_len": 72080,
    "permission": [
        {
            "id": "modelperm-4b07584c66c14b84bdcd979ec745c6e4",
            "object": "model_permission",
            "created": 1745856871,
            "allow_create_engine": false,
            "allow_sampling": true,
            "allow_logprobs": true,
            "allow_search_indices": false,
            "allow_view": true,
            "allow_fine_tuning": false,
            "organization": "*",
            "group": null,
            "is_blocking": false
        }
    ],
    "model_type": "LLM",
    "model_label": "Codestral 22B"
}
{
    "id": "deepseek-r1-distill-qwen-14b",
    "object": "model",
    "created": 1745856871,
    "owned_by": "vllm",
    "root": "deepseek-ai/DeepSeek-R1-Distill-Qwen-14B",
    "parent": null,
    "max_model_len": 131072,
    "permi

### 📊 Comparativo de Modelos para Sumarização de Textos Jurídicos (100 a 20.000 tokens)

| Modelo                         | Parâmetros   | Capacidade de Tokens | Adequação para Ementas com até 20.000 Tokens |
|-------------------------------|--------------|-----------------------|---------------------------------------------|
| **Codestral 22B**             | 22 bilhões   | 32.768                | ✅ Alta: Capaz de lidar com textos extensos com boa precisão linguística |
| **LLaMa 3.1 8B**              | 8 bilhões    | 131.072               | ✅ Alta: Excelente para ementas extensas, robusto e versátil             |
| **DeepSeek R1 Distill Qwen 14B** | 14 bilhões | 131.072               | ✅ Alta: Muito eficaz para textos jurídicos longos, boa generalização    |
| **Pixtral 12B**               | 12 bilhões   | 72.080                | ✅ Alta: Ótimo equilíbrio entre capacidade e desempenho                  |
| **Mistral NeMo**              | 12 bilhões         | 46.080                | ⚠️ Moderada: Suporta até o limite exigido, mas com menor margem         |
| **Gemma 3 4B**                | 4 bilhões    | 131.072               | ⚠️ Moderada: Janela larga, mas modelo menos potente                     |
| **Gemma 2 9B**                | 9 bilhões    | 4.096                 | ❌ Baixa: Insuficiente para textos boa parte das ementas                          |
| **all-minilm-l6-v2**          | N/A          | N/A                   | ❌ Baixa: Embedding model, não realiza sumarização                      |
| **multilingual-e5-large**     | N/A          | N/A                   | ❌ Baixa: Focado em vetorização, não geração                            |
| **bge-reranker-v2-m3**        | N/A          | N/A                   | ❌ Baixa: Especializado em reranking, não sumariza textos               |

> Testar **LLaMa 3.1 8B**, **DeepSeek R1**, **Codestral 22B** ou **Pixtral 12B**. Estes suportam textos extensos com precisão, verificar qual melhor sumariza.

## Selecionando as amostras de 200 processos

### 🎯 Estratégia de Seleção da Amostra de Processos

Para análises e testes de sumarização automática de ementas jurídicas, foi construída uma amostra balanceada contendo **200 processos** a partir da base original. O critério de seleção considerou a **quantidade de tokens da ementa** (`qtd_tokens_ementa`), respeitando os seguintes passos:

#### 🧹 Pré-processamento
- Foram considerados apenas os processos cuja ementa possui **100 tokens ou mais**.

#### 📊 Estratificação por Faixas de Comprimento
Com base na distribuição estatística dos tokens, foram calculados os seguintes quartis:
- **Q1 (25%)**: primeiro quartil
- **Mediana (50%)**
- **Q3 (75%)**
- **Limite Superior**: definido como `Q3 + 1.5 × IQR`, onde `IQR = Q3 - Q1`

A partir disso, a amostra foi estratificada em **quatro faixas de tamanho**, com **50 processos selecionados aleatoriamente** em cada uma delas:

| Faixa                      | Critério de Seleção                        | Quantidade |
|----------------------------|--------------------------------------------|------------|
| Faixa 1 – Curta            | 100 tokens até antes de Q1                 | 50         |
| Faixa 2 – Média-curta      | Q1 até antes da Mediana                   | 50         |
| Faixa 3 – Média-longa      | Mediana até antes de Q3                   | 50         |
| Faixa 4 – Longa            | Q3 até o limite superior (Q3 + 1.5 × IQR) | 50         |

#### 📦 Resultado Final
- Total de processos selecionados: **200**
- Campos considerados: `numero_processo_tribunal`, `ementa_completa`, `qtd_tokens_ementa`

Essa amostra reflete  a variação real no tamanho das ementas, permitindo a avaliação de modelos de linguagem para diferentes níveis de complexidade textual.


In [None]:
# Modelos
modelos = ['codestral-22b', 'deepseek-r1-distill-qwen-14b', 'llama-3.1-8B-instruct', 'pixtral-12b']

# Carregar dados com pelo menos 100 tokens
conn = get_connection()
df = pd.read_sql_query("""
    SELECT numero_processo_tribunal, ementa_completa, qtd_tokens_ementa
    FROM processos
    WHERE qtd_tokens_ementa IS NOT NULL AND qtd_tokens_ementa >= 100
""", conn)
conn.close()

# Calcular quartis
q1 = np.percentile(df['qtd_tokens_ementa'], 25)
q2 = np.percentile(df['qtd_tokens_ementa'], 50)
q3 = np.percentile(df['qtd_tokens_ementa'], 75)
iqr = q3 - q1
limite_sup = q3 + 1.5 * iqr

# Selecionar 50 amostras de cada faixa
amostra_1 = df[df['qtd_tokens_ementa'] < q1].sample(n=50, random_state=42)
amostra_2 = df[(df['qtd_tokens_ementa'] >= q1) & (df['qtd_tokens_ementa'] < q2)].sample(n=50, random_state=42)
amostra_3 = df[(df['qtd_tokens_ementa'] >= q2) & (df['qtd_tokens_ementa'] < q3)].sample(n=50, random_state=42)
amostra_4 = df[(df['qtd_tokens_ementa'] >= q3) & (df['qtd_tokens_ementa'] <= limite_sup)].sample(n=50, random_state=42)

# Unir amostras
amostra = pd.concat([amostra_1, amostra_2, amostra_3, amostra_4], ignore_index=True)

# Replicar cada registro 4 vezes, um para cada modelo
amostras_replicadas = pd.DataFrame([
    {
        'numero_processo_tribunal': row['numero_processo_tribunal'],
        'ementa_completa': row['ementa_completa'],
        'qtd_tokens_ementa': row['qtd_tokens_ementa'],
        'modelo': modelo
    }
    for _, row in amostra.iterrows()
    for modelo in modelos
])

# Inserir no banco
conn = get_connection()
cursor = conn.cursor()

for _, row in amostras_replicadas.iterrows():
    cursor.execute("""
        INSERT INTO avaliacoes_sumarizacao (
            numero_processo_tribunal,
            ementa_completa,
            qtd_tokens_ementa,
            modelo
        ) VALUES (%s, %s, %s, %s)
    """, (
        row['numero_processo_tribunal'],
        row['ementa_completa'],
        int(row['qtd_tokens_ementa']),
        row['modelo']
    ))

conn.commit()
cursor.close()
conn.close()

print(f"{len(amostras_replicadas)} registros inseridos com sucesso.")


## 📌 Extração de Informações com Modelos de Linguagem (LLMs)

Serão aplicados **quatro modelos de linguagem** para realizar a extração automática de informações jurídicas a partir de 200 processos selecionados. Os modelos utilizados são:

- `codestral-22b`  
- `deepseek-r1-distill-qwen-14b`  
- `llama-3.1-8B-instruct`  
- `pixtral-12b`

Cada modelo será aplicado sobre os **200 processos**, resultando em um total de **800 avaliações geradas**.

### 💾 Armazenamento dos Resultados

As respostas geradas por cada LLM serão armazenadas na tabela `avaliacoes_sumarizacao`, no campo `resposta`.

### 🧪 Avaliação Posterior

As respostas serão posteriormente avaliadas em dois aspectos principais:

1. **Formato:** Verificação da conformidade com a estrutura JSON esperada e com os domínios esperados (pergunta 1 a 4)  
2. **Conteúdo:** Análise da correção e completude das informações extraídas, com base na ementa original. (perguntas 5 a 10)




In [13]:
def montar_prompt(ementa):
    prompt = f"""### INSTRUÇÕES ###
Você atua como um assistente jurídico com expertise em tornar ementas judiciais complexas mais compreensíveis, utilizando linguagem clara e acessível. Sua atuação está alinhada com as diretrizes estabelecidas pelo Pacto Nacional do Judiciário pela Linguagem Simples, iniciativa do Conselho Nacional de Justiça (CNJ).
Sua tarefa é transformar o texto em uma resposta clara, direta e fácil de entender por qualquer pessoa.
Não introduza novas informações, hipóteses, argumentos, fundamentos jurídicos ou conclusões que não estejam expressamente contidos no texto fornecido e não realize inferências especulativas.
Responda exclusivamente em português. Siga exatamente os formatos indicados.

Com base na ementa fornecida, extraia os seguintes campos e retorne a resposta em formato JSON. 
Campos esperados:

- "descricao_caso": Resuma o que aconteceu no processo, explicando os principais fatos e o que foi pedido. Não cite nomes de pessoas ou empresas. Use até 100 palavras.
- "questoes_em_discussao": Liste os principais pontos discutidos no julgamento. Use até 200 palavras.
- "solucoes_propostas": Explique, de forma resumida, como o problema foi analisado ou resolvido. Use até 200 palavras.
- "decisao": Informe o resultado do processo. Use apenas uma das opções: "Aceito", "Negado" ou "Em análise".
- "tese": Se houver, diga qual foi a ideia principal da decisão, como uma regra que pode ser usada em outros casos parecidos. Use até 100 palavras.
- "envolve_mei": Informe apenas "Sim" ou "Não" se o processo fala de forma clara que um Microempreendedor Individual (MEI) é autor ou réu. Se for só uma citação genérica ou indireta, responda "Não".
- "mei_do_processo": Se envolve_mei for "Sim", diga se o MEI é o "Autor" ou o "Réu". Se não der para saber claramente, escreva "Ninguém".

### Exemplo de resposta esperada:
```json
{{
  "descricao_caso": "Um MEI entrou com uma ação contra o município alegando cobrança indevida de taxas que não estavam previstas em lei.",
  "questoes_em_discussao": "Foi discutido se a cobrança tinha base legal e se era proporcional ao tipo de atividade do MEI.",
  "solucoes_propostas": "O tribunal entendeu que a cobrança era indevida por falta de previsão legal e por não ser proporcional à atividade.",
  "decisao": "Aceito",
  "tese": "O município não pode cobrar taxas de MEI sem base legal e proporcionalidade.",
  "envolve_mei": "Sim",
  "mei_do_processo": "Autor"
}}
---

### EMENTA ###
{ementa}
"""
    return prompt


In [14]:
from IPython.display import clear_output
import psycopg2
import pandas as pd

# Modelos para avaliação
modelos = [ 'deepseek-r1-distill-qwen-14b', 'llama-3.1-8B-instruct', 'pixtral-12b','codestral-22b',]
token = get_token()

# Função para conectar ao banco
def get_connection():
    return psycopg2.connect(
        dbname="PROCESSOS",
        user="postgres",
        password="admin",
        host="localhost",
        port="5432"
    )

# Loop por modelo
for modelo in modelos:
    # Buscar registros ainda não respondidos para o modelo atual
    conn = get_connection()
    query = """
        SELECT id, numero_processo_tribunal, ementa_completa, qtd_tokens_ementa
        FROM avaliacoes_sumarizacao
        WHERE modelo = %s AND resposta IS NULL
    """
    df_modelo = pd.read_sql_query(query, conn, params=(modelo,))
    conn.close()

    total = len(df_modelo)
    print(f"Total de registros pendentes para {modelo}: {total}")
    
    for i, row in df_modelo.iterrows():
        print(f"{i+1}/{total}")
        
        
        processo = row['numero_processo_tribunal']
        ementa = row['ementa_completa']
        qtd_tokens = row['qtd_tokens_ementa']
        prompt = montar_prompt(ementa)
        
        print(f"Modelo: {modelo} | Processo: {processo}")
        print(prompt)

        try:
            resposta = invoke(prompt, modelo, token)
            clear_output(wait=True)
            
            resposta_crua = resposta  # manter original para debug ou fallback
            if (modelo == 'deepseek-r1-distill-qwen-14b'):
                # Tenta extrair bloco JSON entre delimitadores ```json ... ```
                match = re.search(r"```json\s*(\{.*?\})\s*```", resposta_crua, re.DOTALL)

                if match:
                    try:
                        parsed = json.loads(match.group(1))  # valida e padroniza o JSON
                        resposta = json.dumps(parsed, ensure_ascii=False)
                    except Exception as e:
                        resposta = f"[ERRO ao parsear JSON: {e}]\n\n{resposta_crua}"
                else:
                    resposta = resposta_crua  # usa a resposta como está (por exemplo, Codestral já responde direto)

        except Exception as e:
            resposta = f"[ERRO: {e}]"

        print(resposta)

        # Atualiza resposta no banco
        conn = get_connection()
        cursor = conn.cursor()
        cursor.execute("""
            UPDATE avaliacoes_sumarizacao
            SET resposta = %s
            WHERE id = %s
        """, (resposta, row['id']))
        conn.commit()
        cursor.close()
        conn.close()


 {
  "descricao_caso": "Um recurso inominado foi interposto contra a cobrança de honorários advocatícios por uma pessoa física. O recurso questionou fatos não propostos no juízo anterior e a constitucionalidade da ação.",
  "questoes_em_discussao": "As questões discutidas incluem a revelia de fatos não propostos, a análise de questões de ordem pública, a aplicabilidade do FONAJE, o prazo da resposta, a competência do juizado especial e a possibilidade de processamento de pretensão veiculada por pessoa jurídica.",
  "solucoes_propostas": "O tribunal analisou as questões e reconheceu a incompetência do juizado especial apenas em relação à pessoa jurídica EFFTING ADVOGADOS ASSOCIADOS S/C. O recurso foi desprovido em parte.",
  "decisao": "Parcialmente Aceito",
  "tese": "O prazo da resposta que se inicia no dia da citação não se aplica ao sistema dos juizados especiais. A pessoa jurídica só pode processar pretensão veiculada por pessoa física em casos específicos.",
  "envolve_mei": "Não"

In [17]:
# EM algumas respostas ele esta colocando os termos ```json e ```, pedi para retirar

# Conectar ao banco e carregar os dados com resposta não nula
conn = get_connection()
df = pd.read_sql_query("SELECT id, resposta FROM avaliacoes_sumarizacao WHERE resposta IS NOT NULL", conn)

# Limpa os delimitadores ``` e ```json
def limpar_delimitadores(texto):
    texto = re.sub(r"```json\s*", "", texto, flags=re.IGNORECASE)
    texto = re.sub(r"```", "", texto)
    return texto.strip()

# Aplicar limpeza e armazenar atualizações
updates = []
for _, row in df.iterrows():
    resposta_limpa = limpar_delimitadores(row['resposta'])
    if resposta_limpa != row['resposta']:
        updates.append((resposta_limpa, row['id']))

# Atualizar banco de dados
if updates:
    cursor = conn.cursor()
    for resposta_limpa, id_ in updates:
        cursor.execute("""
            UPDATE avaliacoes_sumarizacao
            SET resposta = %s
            WHERE id = %s
        """, (resposta_limpa, id_))
    conn.commit()
    cursor.close()

conn.close()
print(f"{len(updates)} respostas limpas e atualizadas.")

0 respostas limpas e atualizadas.


  df = pd.read_sql_query("SELECT id, resposta FROM avaliacoes_sumarizacao WHERE resposta IS NOT NULL", conn)


# 🧪 Avaliação Automática das Respostas Geradas (Notas 1 a 4)

Este script realiza a **validação automática das respostas JSON geradas pelos modelos LLM** e atribui **notas de 1 a 4** com base em critérios objetivos, para controle de qualidade da sumarização jurídica.

## 🎯 Critérios de Avaliação

| Nota | Critério                                                                                   | Valor Esperado     | Pontuação |
|------|---------------------------------------------------------------------------------------------|--------------------|-----------|
| 1    | O campo `resumo` contém um JSON bem formado (válido no `json.loads`)                        | JSON válido        | 1 ou 0    |
| 2    | O campo `"decisao"` da resposta contém apenas `"Aceito"` ou `"Negado"`                     | "Aceito" / "Negado"| 1 ou 0    |
| 3    | O campo `"envolve_mei"` contém apenas `"Sim"` ou `"Não"`                                    | "Sim" / "Não"      | 1 ou 0    |
| 4    | O campo `"mei_do_processo"` contém apenas `"Autor"`, `"Réu"` ou `"Ninguém"`                | Válidos            | 1 ou 0    |

---

## 🧩 Identificação e Atualização no Banco

- Cada entrada no banco de dados é identificada pela coluna `id` da tabela `avaliacoes_sumarizacao`.
- O campo `resumo` contém a resposta textual retornada pelo modelo.
- O script **lê o campo `resumo`**, avalia os critérios acima e **atualiza diretamente os campos `nota1` a `nota4`** no banco de dados para o respectivo registro.

---

✅ Isso permite que a avaliação seja incremental, reproduzível e utilizada em análises comparativas entre diferentes modelos.


In [18]:
def avaliar_resposta(resposta_json):
    try:
        dados = json.loads(resposta_json)
        nota1 = 1
        nota2 = 1 if dados.get("decisao") in ["Aceito", "Negado","Em análise"] else 0
        nota3 = 1 if dados.get("envolve_mei") in ["Sim", "Não"] else 0
        nota4 = 1 if dados.get("mei_do_processo") in ["Autor", "Réu", "Ninguém"] else 0
    except Exception:
        nota1 = nota2 = nota3 = nota4 = 0
    return nota1, nota2, nota3, nota4

conn = get_connection()
df = pd.read_sql_query("SELECT id, resposta FROM avaliacoes_sumarizacao", conn)

for _, row in df.iterrows():
    id_registro = row["id"]
    resposta = row["resposta"]
    nota1, nota2, nota3, nota4 = avaliar_resposta(resposta)

    cursor = conn.cursor()
    cursor.execute("""
        UPDATE avaliacoes_sumarizacao
        SET nota1 = %s, nota2 = %s, nota3 = %s, nota4 = %s
        WHERE id = %s
    """, (nota1, nota2, nota3, nota4, id_registro))
    conn.commit()
    cursor.close()

conn.close()


  df = pd.read_sql_query("SELECT id, resposta FROM avaliacoes_sumarizacao", conn)


# 🤖 Avaliação das Respostas Geradas com GPT-3.5 (Notas 5 a 8)

Este bloco realiza uma avaliação semântica dos campos retornados pelo modelo de linguagem, utilizando o **GPT-3.5 da OpenAI via API**. O objetivo é verificar se os campos da resposta JSON seguem corretamente os critérios esperados quanto ao conteúdo, clareza e aderência à instrução original.

---

## 🧪 Critérios Avaliados

| Nota | Campo Avaliado         | Critério                                                                                     | Esperado |
|------|------------------------|----------------------------------------------------------------------------------------------|----------|
| 5    | `descricao_caso`       | O texto apresenta os **fatos principais do processo** e **o que foi pedido na ação**?        | 1 ou 0   |
| 6    | `questoes_em_discussao`| O texto **resume os principais pontos discutidos** no julgamento?                           | 1 ou 0   |
| 7    | `tese`                 | O texto apresenta uma **regra geral da decisão** que pode ser usada em casos semelhantes?   | 1 ou 0   |
| 8    | `solucoes_propostas`   | O texto explica, de forma breve, **os fundamentos usados na decisão**, focando na solução? | 1 ou 0   |
| 9    | `envolve_mei`   | O campo **"envolve_mei"** recebeu a resposta correta? | 1 ou 0   |
| 10    | `mei_do_processo`   |O campo **"mei_do_processo"** recebeu a resposta correta? | 1 ou 0   |

---

## ⚙️ Estratégia Técnica

- Para cada campo, uma **pergunta específica** é feita ao modelo GPT-3.5.
- O texto correspondente do campo é passado como **contexto** dentro do prompt.
- O GPT deve responder **apenas com `"1"` ou `"0"`**, sem justificativa.
- A temperatura é fixada em `0.0` para garantir consistência e reduzir variação de resposta.

---

✅ Esse método permite **validação automatizada com interpretação semântica**, sem depender apenas de regras fixas.


In [21]:

openai.api_key = "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"

def get_connection():
    return psycopg2.connect(
        dbname="PROCESSOS",
        user="postgres",
        password="admin",
        host="localhost",
        port="5432"
    )

def avaliar_campos_com_gpt35(ementa, resposta_json):
    prompt = f"""
Você é um criterioso avaliador de respostas geradas por um modelo de linguagem para ementas judiciais.

Receberá a ementa original e a resposta em JSON gerada por outro modelo. Sua tarefa é avaliar se cada campo da resposta está correto, comparando com a ementa.

Avalie e retorne APENAS este JSON com "1" (correto) ou "0" (incorreto) para cada campo:

{{
  "nota5": ...,
  "nota6": ...,
  "nota7": ...,
  "nota8": ...,
  "nota9": ...,
  "nota10": ...
}}

Critérios:
- "nota5": O campo "descricao_caso" apresenta os fatos principais do processo e o que foi pedido?
- "nota6": O campo "questoes_em_discussao" resume os pontos centrais discutidos no julgamento?
- "nota7": O campo "tese" traz uma regra geral da decisão ou informa que não foi possível extrair a tese?
- "nota8": O campo "solucoes_propostas" explica os fundamentos usados com foco na solução do problema?
- "nota9": O campo "envolve_mei" recebeu a resposta correta?
- "nota10": O campo "mei_do_processo" recebeu a resposta correta?

### EMENTA ###
{ementa}

### RESPOSTA ###
{resposta_json}
"""

    try:
        print(prompt)
        response = openai.chat.completions.create(
            model="gpt-3.5-turbo",
            messages=[{"role": "user", "content": prompt}],
            temperature=0.0,
            max_tokens=200
        )
        resultado = response.choices[0].message.content.strip()
        print("🔍 Resposta da API:", resultado)
        notas = json.loads(resultado)
        return (
            int(notas.get("nota5", 0)),
            int(notas.get("nota6", 0)),
            int(notas.get("nota7", 0)),
            int(notas.get("nota8", 0)),            
            int(notas.get("nota9", 0)),            
            int(notas.get("nota10", 0))
        )
    except Exception as e:
        print(f" Erro ao avaliar: {e}")
        return 0, 0, 0, 0

# Conectar e carregar os dados
conn = get_connection()
df = pd.read_sql_query("SELECT id, ementa_completa, resposta AS resposta FROM avaliacoes_sumarizacao where nota5 is null", conn)

# Avaliar e atualizar no banco
total = len(df)
for idx, row in df.iterrows():
    id_registro = row["id"]
    ementa = row["ementa_completa"]
    resposta_json = row["resposta"]

    print(f"\n Avaliando processo {idx + 1} de {total} (ID: {id_registro})")
    nota5, nota6, nota7, nota8, nota9, nota10 = avaliar_campos_com_gpt35(ementa, resposta_json)

    cursor = conn.cursor()
    cursor.execute("""
        UPDATE avaliacoes_sumarizacao
        SET nota5 = %s, nota6 = %s, nota7 = %s, nota8 = %s, nota9 = %s, nota10 = %s
        WHERE id = %s
    """, (nota5, nota6, nota7, nota8, nota9, nota10, id_registro))
    conn.commit()
    cursor.close()
    clear_output(wait=True)
conn.close()
print("\n✅ Avaliação concluída.")



✅ Avaliação concluída.


## RESULTADO

## 🎯 Critérios de Avaliação

| Nota | Critério                                                                                   | Valor Esperado     | Pontuação |
|------|---------------------------------------------------------------------------------------------|--------------------|-----------|
| 1    | O campo `resumo` contém um JSON bem formado (válido no `json.loads`)                        | JSON válido        | 1 ou 0    |
| 2    | O campo `"decisao"` da resposta contém apenas `"Aceito"` ou `"Negado"`                     | "Aceito" / "Negado"| 1 ou 0    |
| 3    | O campo `"envolve_mei"` contém apenas `"Sim"` ou `"Não"`                                    | "Sim" / "Não"      | 1 ou 0    |
| 4    | O campo `"mei_do_processo"` contém apenas `"Autor"`, `"Réu"` ou `"Ninguém"`                | `"Autor"`, `"Réu"` ou `"Ninguém"`            | 1 ou 0    |
| 5    | O campo `"descricao_caso"` apresenta os **fatos principais do processo** e **o que foi pedido na ação** | -                  | 1 ou 0    |
| 6    | O campo `"questoes_em_discussao"` resume os **principais pontos discutidos** no julgamento | -                  | 1 ou 0    |
| 7    | O campo `"tese"` apresenta uma **regra geral da decisão** aplicável a casos semelhantes     | -                  | 1 ou 0    |
| 8    | O campo `"solucoes_propostas"` explica, de forma breve, **os fundamentos usados na decisão**, focando na solução | - | 1 ou 0    |
| 9    | O campo `"envolve_mei"` recebeu a resposta correta (Sim/Não) de acordo com o conteúdo da ementa | -               | 1 ou 0    |
| 10   | O campo `"mei_do_processo"` recebeu a resposta correta (Autor/Réu/Ninguém) conforme o processo | -               | 1 ou 0    |

---



In [25]:
# Query base
query = """
    SELECT modelo,
           SUM(nota1) AS soma_nota1,
           SUM(nota2) AS soma_nota2,
           SUM(nota3) AS soma_nota3,
           SUM(nota4) AS soma_nota4,
           SUM(nota5) AS soma_nota5,
           SUM(nota6) AS soma_nota6,
           SUM(nota7) AS soma_nota7,
           SUM(nota8) AS soma_nota8,
           SUM(nota9) AS soma_nota9,
           SUM(nota10) AS soma_nota10
    FROM avaliacoes_sumarizacao
    GROUP BY modelo
    ORDER BY modelo
"""

# Carregar dados
conn = get_connection()
df = pd.read_sql_query(query, conn)
conn.close()

# Agrupamentos
df['nota_formato'] = df[['soma_nota1', 'soma_nota2', 'soma_nota3', 'soma_nota4']].sum(axis=1)
df['nota_conteudo'] = df[['soma_nota5', 'soma_nota6', 'soma_nota7', 'soma_nota8', 'soma_nota9', 'soma_nota10']].sum(axis=1)
df['nota_total'] = df['nota_formato'] + df['nota_conteudo']

# Exibir resumo geral
print("📊 Desempenho dos Modelos por Categoria:")
print(df[['modelo', 'nota_formato', 'nota_conteudo', 'nota_total']].sort_values(by='nota_total', ascending=False))

# Exibir detalhamento completo (nota a nota)
print("\n📋 Detalhamento por nota:")
print(df)

📊 Desempenho dos Modelos por Categoria:
                         modelo  nota_formato  nota_conteudo  nota_total
3                   pixtral-12b           792           1176        1968
0                 codestral-22b           776           1170        1946
1  deepseek-r1-distill-qwen-14b           719           1146        1865
2         llama-3.1-8B-instruct           799           1050        1849

📋 Detalhamento por nota:
                         modelo  soma_nota1  soma_nota2  soma_nota3  \
0                 codestral-22b         200         183         200   
1  deepseek-r1-distill-qwen-14b         200         193         177   
2         llama-3.1-8B-instruct         200         200         200   
3                   pixtral-12b         200         194         200   

   soma_nota4  soma_nota5  soma_nota6  soma_nota7  soma_nota8  soma_nota9  \
0         193         199         199         195         194         198   
1         149         197         197         198         1

  df = pd.read_sql_query(query, conn)


In [26]:
df

Unnamed: 0,modelo,soma_nota1,soma_nota2,soma_nota3,soma_nota4,soma_nota5,soma_nota6,soma_nota7,soma_nota8,soma_nota9,soma_nota10,nota_formato,nota_conteudo,nota_total
0,codestral-22b,200,183,200,193,199,199,195,194,198,185,776,1170,1946
1,deepseek-r1-distill-qwen-14b,200,193,177,149,197,197,198,196,183,175,719,1146,1865
2,llama-3.1-8B-instruct,200,200,200,199,179,178,176,176,178,163,799,1050,1849
3,pixtral-12b,200,194,200,198,198,198,197,198,194,191,792,1176,1968
