# 📄 Extração de Informações e Sumarização de Processos

Este notebook tem como objetivo Extrair informações relevantes de textos jurídicos (ex: descrição do caso, questões em discussão, soluções, teses).


In [1]:
import os
import requests
from dotenv import load_dotenv
import json
import time
from IPython.display import clear_output
from transformers import AutoTokenizer
import re
import psycopg2
import pandas as pd
from datetime import datetime, date  # Importando as classes datetime e date corretamente
import numpy as np

#Configurando certificado digital
certificados_serpro = ""
os.environ["REQUESTS_CA_BUNDLE"] = certificados_serpro
os.environ["SSL_CERT_FILE"] = certificados_serpro


In [2]:
# Conexão
def get_connection():
    return psycopg2.connect(
        dbname="PROCESSOS",
        user="postgres",
        password="",
        host="",
        port="5432"
    )

In [3]:
#dados para autenticação
client_id = ''
client_secret = ''

In [4]:
import requests 

data = {"grant_type":"client_credentials"}
url = "..."
result = requests.request('POST',url, data=data, auth=(client_id,client_secret))

In [5]:
# Variáveis globais para armazenar o token e o horário em que foi gerado
token = None
last_token_time = 0

# Função para obter o token da API
def get_token():
    client_id = ''
    client_secret = ''
    result = requests.request('POST', 
        "...", 
        #"https://e-api-serprollm.ni.estaleiro.serpro.gov.br/token",
        data={"grant_type":"client_credentials"}, 
        auth=(client_id, client_secret))

    if result.ok:
        return result.json()['access_token']
    else:
        raise Exception("Erro ao obter o token")

# Função para verificar se o token está expirado (renova se necessário)
def get_valid_token():
    global token, last_token_time
    current_time = time.time()
    
    # Se o token não existe ou já passaram mais de 20 minutos, obtemos um novo
    if token is None or (current_time - last_token_time) > 20 * 60:  # 20 minutos em segundos
        token = get_token()
        last_token_time = current_time
        print("Novo token obtido.")

    return token

# Função para invocar o LLM
def invoke(prompt, modelo,token, temperature=0, max_tokens=10000, stream=False):
    # Obtém o token válido (renova se necessário)
    

    payload_data = {
        "model": modelo,
        "messages": [{"role": "user", "content": prompt}],
        "temperature": temperature,
        "max_tokens": max_tokens,
        "stream": stream
    }

    result = requests.request("POST", 
        '...', 

        data=json.dumps(payload_data), 
        headers={
            "Authorization": f"Bearer {token}", 
            "Content-Type":"application/json"})

    if result.ok:
        res = result.json()
        resposta = res["choices"][0]["message"]['content']
        return resposta
    else:
        print(result.text)


In [6]:
def montar_prompt(ementa):
    prompt = f"""### INSTRUÇÕES ###
Você atua como um assistente jurídico com expertise em tornar ementas judiciais complexas mais compreensíveis, utilizando linguagem clara e acessível. Sua atuação está alinhada com as diretrizes estabelecidas pelo Pacto Nacional do Judiciário pela Linguagem Simples, iniciativa do Conselho Nacional de Justiça (CNJ).
Sua tarefa é transformar o texto em uma resposta clara, direta e fácil de entender por qualquer pessoa.
Não introduza novas informações, hipóteses, argumentos, fundamentos jurídicos ou conclusões que não estejam expressamente contidos no texto fornecido e não realize inferências especulativas.
Responda exclusivamente em português. Siga exatamente os formatos indicados.

Com base na ementa fornecida, extraia os seguintes campos e retorne a resposta em formato JSON. 
Campos esperados:

- "descricao_caso": Resuma o que aconteceu no processo, explicando os principais fatos e o que foi pedido. Não cite nomes de pessoas ou empresas. Use até 300 palavras.
- "questoes_em_discussao": Liste os principais pontos discutidos no julgamento. Use até 300 palavras.
- "solucoes_propostas": Explique, de forma resumida, como o problema foi analisado ou resolvido. Use até 200 palavras.
- "decisao": Informe o resultado do processo. Use apenas uma das opções: "Aceito", "Negado", "Aceito parcialmente" ou "Em análise".
- "tese": Se houver, diga qual foi a ideia principal da decisão, como uma regra que pode ser usada em outros casos parecidos. Use até 100 palavras.
- "envolve_mei": Informe apenas "Sim" ou "Não" se o processo fala de forma clara que um Microempreendedor Individual (MEI) é autor ou réu. Se for só uma citação genérica ou indireta, responda "Não".
- "mei_do_processo": Se envolve_mei for "Sim", diga se o MEI é o "Autor" ou o "Réu". Se não der para saber claramente, escreva "Ninguém".

### Exemplo de resposta esperada:
```json
{{
  "descricao_caso": "Um MEI entrou com uma ação contra o município alegando cobrança indevida de taxas que não estavam previstas em lei.",
  "questoes_em_discussao": "Foi discutido se a cobrança tinha base legal e se era proporcional ao tipo de atividade do MEI.",
  "solucoes_propostas": "O tribunal entendeu que a cobrança era indevida por falta de previsão legal e por não ser proporcional à atividade.",
  "decisao": "Aceito",
  "tese": "O município não pode cobrar taxas de MEI sem base legal e proporcionalidade.",
  "envolve_mei": "Sim",
  "mei_do_processo": "Autor"
}}
---

### EMENTA ###
{ementa}
"""
    return prompt


In [7]:


def extrair():
    modelo = 'pixtral-12b'
    
    # Função com retry para pegar token
    def tentar_obter_token_com_retry(max_tentativas=5, espera_segundos=120):
        for tentativa in range(max_tentativas):
            try:
                return get_token()
            except Exception as e:
                print(f"❌ Erro ao obter token: {e}")
                if tentativa < max_tentativas - 1:
                    print(f"⏳ Aguardando {espera_segundos // 60} min para tentar novamente ({tentativa+1}/{max_tentativas})...")
                    time.sleep(espera_segundos)
                else:
                    print("⛔ Máximo de tentativas para obter token excedido.")
                    raise

    token = tentar_obter_token_com_retry()

    # Conectar e buscar processos pendentes de sumarização
    conn = get_connection()
    query = """ 
        SELECT id, numero_processo_tribunal, ementa_completa, qtd_tokens_ementa
        FROM processos 
        WHERE response IS NULL AND qtd_tokens_ementa > 150  and 
        (json_bem_formado is null or json_bem_formado = 0) 
        and numero_processo_tribunal not in ('00004773020205070025_TRT-7','22438250820078130223_TJ-MG', '5003570032014404710250035700320144047102_TRF-4','00002223020205070039_TRT-7')
        order by qtd_tokens_ementa ASC

    """
    df = pd.read_sql_query(query, conn)
    conn.close()

    total = len(df)
    print(f"Total de registros pendentes para {modelo}: {total}")

    for i, row in df.iterrows():
        print(f"{i+1}/{total}")
        processo = row['numero_processo_tribunal']
        print(f"Processo: {processo}")

        ementa = row['ementa_completa']
        prompt = montar_prompt(ementa)
        print(prompt)

        try:
            resposta_crua = invoke(prompt, modelo, token)

            # Remover delimitadores ```json ... ``` se existirem
            match = re.search(r"```json\s*(\{.*?\})\s*```", resposta_crua, re.DOTALL)
            if match:
                resposta = match.group(1).replace('\n', '').replace('  ', '').strip()
            else:
                resposta = resposta_crua.strip()

            clear_output(wait=True)
            print(resposta)

            # Atualizar banco
            conn = get_connection()
            cursor = conn.cursor()
            cursor.execute("""
                UPDATE processos
                SET response = %s
                WHERE id = %s
            """, (resposta, row['id']))
            conn.commit()
            cursor.close()
            conn.close()

        except Exception as e:
            print(f"❌ Erro ao processar processo {processo}: {e}")
            print("⏳ Aguardando 5 minutos antes de tentar o próximo...")
            #time.sleep(300)  # Espera 3 minutos antes de continuar
            token = tentar_obter_token_com_retry()  # Tenta obter novo token


In [None]:
while True:
    print("🟢 Iniciando extração...")
    extrair()
    print("⏳ Aguardando 10 minutos até a próxima extração...")
    time.sleep(600)

🟢 Iniciando extração...


  df = pd.read_sql_query(query, conn)


Total de registros pendentes para pixtral-12b: 8
1/8
Processo: 1597163815971638_TJ-PR
### INSTRUÇÕES ###
Você atua como um assistente jurídico com expertise em tornar ementas judiciais complexas mais compreensíveis, utilizando linguagem clara e acessível. Sua atuação está alinhada com as diretrizes estabelecidas pelo Pacto Nacional do Judiciário pela Linguagem Simples, iniciativa do Conselho Nacional de Justiça (CNJ).
Sua tarefa é transformar o texto em uma resposta clara, direta e fácil de entender por qualquer pessoa.
Não introduza novas informações, hipóteses, argumentos, fundamentos jurídicos ou conclusões que não estejam expressamente contidos no texto fornecido e não realize inferências especulativas.
Responda exclusivamente em português. Siga exatamente os formatos indicados.

Com base na ementa fornecida, extraia os seguintes campos e retorne a resposta em formato JSON. 
Campos esperados:

- "descricao_caso": Resuma o que aconteceu no processo, explicando os principais fatos e 