Com a coluna conteudo resumida

In [None]:
import pandas as pd
df_final = pd.read_csv("../dados/df_final.csv")

Extrair informações importantes de texto

Limite de tokens: Gemini 1.5 Flash suporta até 1 milhão de tokens contextuais, mas é mais rápido e mais barato com textos curtos. Se o documento for muito longo, divida em trechos.

Prompt estruturado = melhor resultado: Use listas, marcadores e perguntas diretas.

Padronize o input: Remova cabeçalhos, assinaturas ou trechos irrelevantes.

Verifique consistência: LLMs podem gerar variações. Se precisar de formato JSON, peça explicitamente.

In [19]:
import os, json
import pandas as pd
from dotenv import load_dotenv
from tqdm.auto import tqdm
import google.generativeai as genai

load_dotenv()
API_KEY = os.getenv("GOOGLE_API_KEY")

# Configura o Gemini
genai.configure(api_key=API_KEY)
modelo = genai.GenerativeModel(
    "gemini-1.5-flash",
    generation_config={"temperature": 0.1}  
)



In [28]:
# ---------------------------------------------------------------
# 1. Função de limpeza do JSON
# ---------------------------------------------------------------
def _json_limpo(resposta):
    """Isola o bloco JSON e converte em dict."""
    resposta = resposta.strip()
    bloco = resposta[resposta.find("{"): resposta.rfind("}") + 1]
    return json.loads(bloco)

# ---------------------------------------------------------------
# 2. Prompt fixo + extrair_info
# ---------------------------------------------------------------
_PROMPT = """
Devolva apenas JSON com as chaves e tipos abaixo, usando null onde faltar:

{{
  "valor_multa_reais": float|null,
  "tipo_infracao_concorrencial": string|null,
  "seguiu_nota_tecnica": true|false,
  "houve_condenacao": true|false,
  "tipo_decisao": string|null,
  "houve_acordo": true|false,
  "reincidencia": true|false,
}}

TEXTO:
\"\"\"{texto}\"\"\"
"""

def extrair_info(texto):
    """Executa o prompt no Gemini e devolve dict com 21 campos."""
    resposta = modelo.generate_content(_PROMPT.format(texto=texto))
    return _json_limpo(resposta.text)



In [29]:
a= df_final['resumo'].iloc[0]
extrair_info(a)

{'valor_multa_reais': 324116.21,
 'tipo_infracao_concorrencial': 'cartel de peças automotivas',
 'seguiu_nota_tecnica': True,
 'houve_condenacao': True,
 'tipo_decisao': 'Condenação parcial com imposição de multa pecuniária',
 'houve_acordo': True,
 'reincidencia': False}

In [24]:
a= df_final['conteudo'].iloc[0]
extrair_info(a)

{'valor_multa_reais': 324116.21,
 'percentual_faturamento': None,
 'numero_multas': None,
 'setor_padronizado': 'Peças Automotivas',
 'quantidade_conselheiros': None,
 'votos_favoraveis': None,
 'votos_contrarios': None,
 'voto_vencedor': 'Condenação',
 'tipo_infracao_concorrencial': 'Cartel',
 'seguiu_nota_tecnica': True,
 'tempo_processual_dias': None,
 'houve_condenacao': True,
 'tipo_decisao': 'Condenação Parcial',
 'houve_acordo': True,
 'empresa_envolvida': ['Federal Mogul Sistemas Automotivos Ltda.',
  'KSPG Automotive Brazil Ltda.',
  'Mahle Metal Leve S.A.',
  'MAHLE GmbH'],
 'porte_empresa': None,
 'relator_voto': 'Carlos Jacques Vieira Gomes',
 'ano_decisao': 2024,
 'reincidencia': False,
 'descricao_fatos_relevantes': 'O presente Processo Administrativo apura potenciais condutas anticompetitivas no mercado de peças automotivas, voltadas ao mercado independente de peças de reposição (“IAM”), bem como ao mercado peças originais (“OEM”). As condutas teriam ocorrido entre 2004 

In [27]:
df_final.head(2)

Unnamed: 0,id,ano_documento,descricao_tipo_documento,decisao_tribunal,setor_economico,data_processo,data_documento,diferenca_dias,assinaturas,id_unidade,mercado_relevante,descricao_especificacao,conteudo,resumo
0,abbdc450-7ff1-4990-9bcc-8ae4386592f0,2024,Voto Processo Administrativo,vazio,Fabricação de Peças e Acessórios para o Sistem...,2019-09-13,2024-05-23,1714,Outras,110000967.0,"pistões de motor, bronzinas, camisas, pinos, b...","- Desmembrado Bernd Brünig, Faustino Luigi Mi...",SEI/CADE - 1390607 - Voto Processo Administrat...,"['\nREPRESENTADOS(AS): BERND BRÜNIG, FAUSTINO ..."
1,b41e8f1f-449e-4d28-a574-18f365d32b6f,2024,Voto Processo Administrativo,condenacao,Rare,2015-05-21,2024-05-09,3276,Gustavo Augusto Freitas de Lima,110000969.0,Mercado imobiliário,Influencia de conduta uniforme - COFECI,SEI/CADE - 1384594 - Voto Processo Administrat...,"['\nNOS TERMOS DO VOTO RECORRIDO, ESTE TRIBUNA..."


In [26]:
a= df_final['resumo'].iloc[1]
extrair_info(a)

{'valor_multa_reais': 100000.0,
 'percentual_faturamento': None,
 'numero_multas': 1,
 'setor_padronizado': None,
 'quantidade_conselheiros': None,
 'votos_favoraveis': None,
 'votos_contrarios': None,
 'voto_vencedor': 'Condenação',
 'tipo_infracao_concorrencial': 'Imposição de preços mínimos',
 'seguiu_nota_tecnica': None,
 'tempo_processual_dias': None,
 'houve_condenacao': True,
 'tipo_decisao': 'Descumprimento de TCC',
 'houve_acordo': True,
 'empresa_envolvida': ['CRECI-MS'],
 'porte_empresa': None,
 'relator_voto': 'GUSTAVO AUGUSTO FREITAS DE LIMA',
 'ano_decisao': 2024,
 'reincidencia': None,
 'descricao_fatos_relevantes': 'Descumprimento do Termo de Compromisso de Cessação (TCC) por instauração de procedimento disciplinar para impor cumprimento de tabela de preços de corretagem, após assinatura do TCC.',
 'documento_origem': None}

In [25]:
a= df_final['conteudo'].iloc[1]
extrair_info(a)

{'valor_multa_reais': 100000.0,
 'percentual_faturamento': None,
 'numero_multas': None,
 'setor_padronizado': 'Mercado de Corretagem de Imóveis',
 'quantidade_conselheiros': None,
 'votos_favoraveis': None,
 'votos_contrarios': None,
 'voto_vencedor': 'Arquivamento',
 'tipo_infracao_concorrencial': 'Imposição de preços mínimos',
 'seguiu_nota_tecnica': None,
 'tempo_processual_dias': None,
 'houve_condenacao': False,
 'tipo_decisao': 'Pedido de Reapreciação',
 'houve_acordo': True,
 'empresa_envolvida': ['Conselho Regional dos Corretores de Imóveis da 14ª região – CRECI-MS',
  'Sindicato dos Corretores de Imóveis no Estado de Mato Grosso do Sul',
  'Conselho Federal de Corretores de Imóveis – COFECI',
  'Conselho Regional dos Corretores de Imóveis da 23ª Região – CRECI/PI',
  'Conselho Regional dos Corretores de Imóveis da 18ª Região – CRECI/AM-RR',
  'Conselho Regional dos Corretores de Imóveis da 3ª Região – CRECI-RS',
  'Conselho Regional dos Corretores de Imóveis da 6ª Região – CR

In [23]:
a= df_final['resumo'].iloc[2]
extrair_info(a)

{'valor_multa_reais': None,
 'percentual_faturamento': None,
 'numero_multas': None,
 'setor_padronizado': 'Revenda de combustíveis',
 'quantidade_conselheiros': None,
 'votos_favoraveis': None,
 'votos_contrarios': None,
 'voto_vencedor': 'Arquivamento',
 'tipo_infracao_concorrencial': 'Cartél',
 'seguiu_nota_tecnica': True,
 'tempo_processual_dias': None,
 'houve_condenacao': False,
 'tipo_decisao': 'Arquivamento',
 'houve_acordo': False,
 'empresa_envolvida': ['AUTO POSTO PACAEMBU LTDA',
  'AUTO POSTO BEIJA FLOR (FRANCIENE SOARES ROCHA)',
  'AUTO CENTER PACAEMBU',
  'CENTRAL AUTO POSTO LTDA',
  'AUTO POSTO MELO BORGES EIRELI',
  'AUTO POSTO CAPELINHA EIRELI',
  'POSTO BRASIL LTDA',
  'AUTO SERVICE JOIA COMERCIO DE COMBUSTÍVEIS EIRELI (KURUJÃO 93)',
  'AUTO POSTO K92 EIRELI (KURUJÃO 92)',
  'COSTA E LOURENÇO COMERCIO DE COMBUSTÍVEIS LTDA (KURUJÃO 83)',
  'POSTO NOSSA SENHORA APARECIDA LTDA (POSTO NOSSA SENHORA APARECIDA)',
  'POSTO VIA AZUL LTDA',
  'POSTO MIRANTE PRIME LTDA (POSTO M

In [None]:
import pandas as pd

# Define the column names and their descriptions
columns_with_descriptions = {
    "valor_multa_reais": "Valor da multa aplicada em reais (float).",
    "percentual_faturamento": "Multa como percentual do faturamento da empresa (%).",
    "numero_multas": "Quantidade total de multas aplicadas na decisão.",
    "setor_padronizado": "Setor econômico ao qual a empresa pertence (ex: saúde, financeiro).",
    "quantidade_conselheiros": "Número total de conselheiros que votaram.",
    "votos_favoraveis": "Número de votos favoráveis à condenação.",
    "votos_contrarios": "Número de votos contrários à condenação.",
    "voto_vencedor": "Resultado do voto vencedor (ex: condenação, arquivamento).",
    "tipo_infracao_concorrencial": "Tipo da infração (ex: cartel, abuso de posição dominante).",
    "seguiu_nota_tecnica": "Indica se a decisão seguiu a nota técnica (True/False).",
    "tempo_processual_dias": "Tempo total do processo em dias.",
    "houve_condenacao": "Indica se houve condenação na decisão (True/False).",
    "tipo_decisao": "Classificação da decisão (ex: condenação, arquivamento, acordo).",
    "houve_acordo": "Indica se houve acordo como TCC (True/False).",
    "empresa_envolvida": "Nome da(s) empresa(s) envolvida(s).",
    "porte_empresa": "Porte da empresa (ex: micro, pequena, média, grande).",
    "relator_voto": "Nome do conselheiro relator do processo.",
    "ano_decisao": "Ano da decisão final.",
    "reincidencia": "Indica se a empresa é reincidente (True/False).",
    "descricao_fatos_relevantes": "Resumo dos fatos relevantes do caso.",
    "documento_origem": "Link ou identificador do documento de origem."
}

# Create an empty DataFrame with these columns
df = pd.DataFrame(columns=columns_with_descriptions.keys())

import ace_tools as tools; tools.display_dataframe_to_user(name="CADE_Analise_Variaveis", dataframe=df)
