# üìÑ Extra√ß√£o de Informa√ß√µes e Sumariza√ß√£o de Processos

Este notebook tem como objetivo Extrair informa√ß√µes relevantes de textos jur√≠dicos (ex: descri√ß√£o do caso, quest√µes em discuss√£o, solu√ß√µes, teses).


In [1]:
import os
import requests
from dotenv import load_dotenv
import json
import time
from IPython.display import clear_output
from transformers import AutoTokenizer
import re
import psycopg2
import pandas as pd
from datetime import datetime, date  # Importando as classes datetime e date corretamente
import numpy as np

#Configurando certificado digital
certificados_serpro = ""
os.environ["REQUESTS_CA_BUNDLE"] = certificados_serpro
os.environ["SSL_CERT_FILE"] = certificados_serpro


In [2]:
# Conex√£o
def get_connection():
    return psycopg2.connect(
        dbname="PROCESSOS",
        user="postgres",
        password="",
        host="",
        port="5432"
    )

In [3]:
#dados para autentica√ß√£o
client_id = ''
client_secret = ''

In [4]:
import requests 

data = {"grant_type":"client_credentials"}
url = "..."
result = requests.request('POST',url, data=data, auth=(client_id,client_secret))

In [5]:
# Vari√°veis globais para armazenar o token e o hor√°rio em que foi gerado
token = None
last_token_time = 0

# Fun√ß√£o para obter o token da API
def get_token():
    client_id = ''
    client_secret = ''
    result = requests.request('POST', 
        "...", 
        #"https://e-api-serprollm.ni.estaleiro.serpro.gov.br/token",
        data={"grant_type":"client_credentials"}, 
        auth=(client_id, client_secret))

    if result.ok:
        return result.json()['access_token']
    else:
        raise Exception("Erro ao obter o token")

# Fun√ß√£o para verificar se o token est√° expirado (renova se necess√°rio)
def get_valid_token():
    global token, last_token_time
    current_time = time.time()
    
    # Se o token n√£o existe ou j√° passaram mais de 20 minutos, obtemos um novo
    if token is None or (current_time - last_token_time) > 20 * 60:  # 20 minutos em segundos
        token = get_token()
        last_token_time = current_time
        print("Novo token obtido.")

    return token

# Fun√ß√£o para invocar o LLM
def invoke(prompt, modelo,token, temperature=0, max_tokens=10000, stream=False):
    # Obt√©m o token v√°lido (renova se necess√°rio)
    

    payload_data = {
        "model": modelo,
        "messages": [{"role": "user", "content": prompt}],
        "temperature": temperature,
        "max_tokens": max_tokens,
        "stream": stream
    }

    result = requests.request("POST", 
        '...', 

        data=json.dumps(payload_data), 
        headers={
            "Authorization": f"Bearer {token}", 
            "Content-Type":"application/json"})

    if result.ok:
        res = result.json()
        resposta = res["choices"][0]["message"]['content']
        return resposta
    else:
        print(result.text)


In [6]:
def montar_prompt(ementa):
    prompt = f"""### INSTRU√á√ïES ###
Voc√™ atua como um assistente jur√≠dico com expertise em tornar ementas judiciais complexas mais compreens√≠veis, utilizando linguagem clara e acess√≠vel. Sua atua√ß√£o est√° alinhada com as diretrizes estabelecidas pelo Pacto Nacional do Judici√°rio pela Linguagem Simples, iniciativa do Conselho Nacional de Justi√ßa (CNJ).
Sua tarefa √© transformar o texto em uma resposta clara, direta e f√°cil de entender por qualquer pessoa.
N√£o introduza novas informa√ß√µes, hip√≥teses, argumentos, fundamentos jur√≠dicos ou conclus√µes que n√£o estejam expressamente contidos no texto fornecido e n√£o realize infer√™ncias especulativas.
Responda exclusivamente em portugu√™s. Siga exatamente os formatos indicados.

Com base na ementa fornecida, extraia os seguintes campos e retorne a resposta em formato JSON. 
Campos esperados:

- "descricao_caso": Resuma o que aconteceu no processo, explicando os principais fatos e o que foi pedido. N√£o cite nomes de pessoas ou empresas. Use at√© 300 palavras.
- "questoes_em_discussao": Liste os principais pontos discutidos no julgamento. Use at√© 300 palavras.
- "solucoes_propostas": Explique, de forma resumida, como o problema foi analisado ou resolvido. Use at√© 200 palavras.
- "decisao": Informe o resultado do processo. Use apenas uma das op√ß√µes: "Aceito", "Negado", "Aceito parcialmente" ou "Em an√°lise".
- "tese": Se houver, diga qual foi a ideia principal da decis√£o, como uma regra que pode ser usada em outros casos parecidos. Use at√© 100 palavras.
- "envolve_mei": Informe apenas "Sim" ou "N√£o" se o processo fala de forma clara que um Microempreendedor Individual (MEI) √© autor ou r√©u. Se for s√≥ uma cita√ß√£o gen√©rica ou indireta, responda "N√£o".
- "mei_do_processo": Se envolve_mei for "Sim", diga se o MEI √© o "Autor" ou o "R√©u". Se n√£o der para saber claramente, escreva "Ningu√©m".

### Exemplo de resposta esperada:
```json
{{
  "descricao_caso": "Um MEI entrou com uma a√ß√£o contra o munic√≠pio alegando cobran√ßa indevida de taxas que n√£o estavam previstas em lei.",
  "questoes_em_discussao": "Foi discutido se a cobran√ßa tinha base legal e se era proporcional ao tipo de atividade do MEI.",
  "solucoes_propostas": "O tribunal entendeu que a cobran√ßa era indevida por falta de previs√£o legal e por n√£o ser proporcional √† atividade.",
  "decisao": "Aceito",
  "tese": "O munic√≠pio n√£o pode cobrar taxas de MEI sem base legal e proporcionalidade.",
  "envolve_mei": "Sim",
  "mei_do_processo": "Autor"
}}
---

### EMENTA ###
{ementa}
"""
    return prompt


In [7]:


def extrair():
    modelo = 'pixtral-12b'
    
    # Fun√ß√£o com retry para pegar token
    def tentar_obter_token_com_retry(max_tentativas=5, espera_segundos=120):
        for tentativa in range(max_tentativas):
            try:
                return get_token()
            except Exception as e:
                print(f"‚ùå Erro ao obter token: {e}")
                if tentativa < max_tentativas - 1:
                    print(f"‚è≥ Aguardando {espera_segundos // 60} min para tentar novamente ({tentativa+1}/{max_tentativas})...")
                    time.sleep(espera_segundos)
                else:
                    print("‚õî M√°ximo de tentativas para obter token excedido.")
                    raise

    token = tentar_obter_token_com_retry()

    # Conectar e buscar processos pendentes de sumariza√ß√£o
    conn = get_connection()
    query = """ 
        SELECT id, numero_processo_tribunal, ementa_completa, qtd_tokens_ementa
        FROM processos 
        WHERE response IS NULL AND qtd_tokens_ementa > 150  and 
        (json_bem_formado is null or json_bem_formado = 0) 
        and numero_processo_tribunal not in ('00004773020205070025_TRT-7','22438250820078130223_TJ-MG', '5003570032014404710250035700320144047102_TRF-4','00002223020205070039_TRT-7')
        order by qtd_tokens_ementa ASC

    """
    df = pd.read_sql_query(query, conn)
    conn.close()

    total = len(df)
    print(f"Total de registros pendentes para {modelo}: {total}")

    for i, row in df.iterrows():
        print(f"{i+1}/{total}")
        processo = row['numero_processo_tribunal']
        print(f"Processo: {processo}")

        ementa = row['ementa_completa']
        prompt = montar_prompt(ementa)
        print(prompt)

        try:
            resposta_crua = invoke(prompt, modelo, token)

            # Remover delimitadores ```json ... ``` se existirem
            match = re.search(r"```json\s*(\{.*?\})\s*```", resposta_crua, re.DOTALL)
            if match:
                resposta = match.group(1).replace('\n', '').replace('  ', '').strip()
            else:
                resposta = resposta_crua.strip()

            clear_output(wait=True)
            print(resposta)

            # Atualizar banco
            conn = get_connection()
            cursor = conn.cursor()
            cursor.execute("""
                UPDATE processos
                SET response = %s
                WHERE id = %s
            """, (resposta, row['id']))
            conn.commit()
            cursor.close()
            conn.close()

        except Exception as e:
            print(f"‚ùå Erro ao processar processo {processo}: {e}")
            print("‚è≥ Aguardando 5 minutos antes de tentar o pr√≥ximo...")
            #time.sleep(300)  # Espera 3 minutos antes de continuar
            token = tentar_obter_token_com_retry()  # Tenta obter novo token


In [None]:
while True:
    print("üü¢ Iniciando extra√ß√£o...")
    extrair()
    print("‚è≥ Aguardando 10 minutos at√© a pr√≥xima extra√ß√£o...")
    time.sleep(600)

üü¢ Iniciando extra√ß√£o...


  df = pd.read_sql_query(query, conn)


Total de registros pendentes para pixtral-12b: 8
1/8
Processo: 1597163815971638_TJ-PR
### INSTRU√á√ïES ###
Voc√™ atua como um assistente jur√≠dico com expertise em tornar ementas judiciais complexas mais compreens√≠veis, utilizando linguagem clara e acess√≠vel. Sua atua√ß√£o est√° alinhada com as diretrizes estabelecidas pelo Pacto Nacional do Judici√°rio pela Linguagem Simples, iniciativa do Conselho Nacional de Justi√ßa (CNJ).
Sua tarefa √© transformar o texto em uma resposta clara, direta e f√°cil de entender por qualquer pessoa.
N√£o introduza novas informa√ß√µes, hip√≥teses, argumentos, fundamentos jur√≠dicos ou conclus√µes que n√£o estejam expressamente contidos no texto fornecido e n√£o realize infer√™ncias especulativas.
Responda exclusivamente em portugu√™s. Siga exatamente os formatos indicados.

Com base na ementa fornecida, extraia os seguintes campos e retorne a resposta em formato JSON. 
Campos esperados:

- "descricao_caso": Resuma o que aconteceu no processo, explicando