# 31. Auditoria: Agente de An√°lise de Di√°rio Oficial (PDF)

Este notebook demonstra como criar um "Agente Auditor" que:
1.  L√™ um arquivo PDF de Di√°rio Oficial (simulado).
2.  Extrai estruturadamente todas as compras e contrata√ß√µes usando **Google Gemini** e **Pydantic**.
3.  Analisa os dados extra√≠dos em busca de anomalias ou pontos de aten√ß√£o.
4.  Gera um Relat√≥rio Executivo autom√°tico.

**Fluxo:** PDF -> Texto -> Extra√ß√£o Estruturada (LLM) -> An√°lise de Regras -> Relat√≥rio Final.

In [None]:
### INJECTION START ###
import os
from dotenv import load_dotenv
# Carregar vari√°veis de ambiente locais se existirem
load_dotenv()
### INJECTION END ###

# Instala√ß√£o das depend√™ncias
!pip install -qU langchain langchain-google-genai pypdf fpdf

## 1. Gerando um Di√°rio Oficial de Exemplo (PDF)

Para tornar este exemplo reprodut√≠vel, vamos criar um PDF fict√≠cio contendo algumas publica√ß√µes de compras, algumas normais e outras suspeitas.

In [None]:
from fpdf import FPDF
import os

class PDF(FPDF):
    def header(self):
        self.set_font('Arial', 'B', 12)
        self.cell(0, 10, 'DI√ÅRIO OFICIAL DO MUNIC√çPIO - EXEMPLO', 0, 1, 'C')
        self.ln(10)

def create_dummy_pdf(filename="diario_exemplo.pdf"):
    pdf = PDF()
    pdf.add_page()
    pdf.set_font("Arial", size=10)
    
    texto = """
    ATOS DO PODER EXECUTIVO
    
    DECRETO N¬∫ 123/2024 - Nomeia servidor Jo√£o da Silva para cargo de Assessor.
    
    EXTRATO DE CONTRATO N¬∫ 001/2024
    Processo Administrativo 50/2023.
    Contratante: Secretaria de Educa√ß√£o.
    Contratada: PAPELARIA EXEMPLAR LTDA.
    Objeto: Aquisi√ß√£o de material de escrit√≥rio (l√°pis, caneta, papel A4) para as escolas municipais.
    Valor: R$ 15.000,00 (Quinze mil reais).
    Vig√™ncia: 12 meses.
    
    AVISO DE LICITA√á√ÉO DESERTA
    Preg√£o Eletr√¥nico 05/2024. Objeto: Reforma da Pra√ßa Central. Nenhuma empresa interessada.
    
    EXTRATO DE CONTRATO N¬∫ 002/2024
    Processo: Dispensa de Licita√ß√£o 02/2024.
    Contratante: Fundo Municipal de Sa√∫de.
    Contratada: SUPER TECH INOVA√á√ïES EIRELI.
    Objeto: Fornecimento de 5 notebooks de alto desempenho para o gabinete do Secret√°rio.
    Valor: R$ 85.000,00 (Oitenta e cinco mil reais).
    Nota: Valor unit√°rio de R$ 17.000,00.
    
    EXTRATO DE TERMO ADITIVO
    Contrato Original 10/2022. Empresa: Construtora Pedra Fundamental.
    Objeto: Prorroga√ß√£o de prazo por mais 6 meses para conclus√£o da obra da creche.
    Valor Adicional: R$ 0,00.
    
    EXTRATO DE COMPRA DIRETA
    Autoriza√ß√£o: Secretaria de Obras.
    Fornecedor: Irm√£os Silva Materiais de Constru√ß√£o.
    Objeto: Compra de 50 sacos de cimento emergencial.
    Valor: R$ 2.500,00.
    """
    
    # Escrevendo linha a linha para evitar problemas de quebra
    for line in texto.split('\n'):
        pdf.multi_cell(0, 8, line.strip())
        
    pdf.output(filename)
    print(f"Arquivo '{filename}' gerado com sucesso.")

create_dummy_pdf()

## 2. Carregando e Processando o PDF

Uso do `PyPDFLoader` para obter o texto bruto.

In [None]:
from langchain_community.document_loaders import PyPDFLoader

loader = PyPDFLoader("diario_exemplo.pdf")
pages = loader.load()
full_text = "\n".join([p.page_content for p in pages])

print(f"Texto carregado ({len(full_text)} caracteres).")
# print(full_text) # Opcional: imprimir texto para conferir

## 3. Definindo o Schema de Extra√ß√£o (Pydantic)

Definimos exatamente quais dados queremos capturar de cada compra.

In [None]:
from typing import List, Optional
from langchain_core.pydantic_v1 import BaseModel, Field

class Compra(BaseModel):
    """Representa uma compra ou contrato extra√≠do do di√°rio oficial."""
    numero_contrato: Optional[str] = Field(None, description="N√∫mero do contrato ou processo")
    contratante: str = Field(..., description="√ìrg√£o ou secretaria que est√° comprando")
    contratada: str = Field(..., description="Nome da empresa ou pessoa contratada")
    objeto: str = Field(..., description="Descri√ß√£o do bem ou servi√ßo adquirido")
    valor: float = Field(..., description="Valor total da compra em Reais (converter para float)")
    modalidade: Optional[str] = Field(None, description="Modalidade (Licita√ß√£o, Dispensa, Preg√£o, etc)")

class DiarioOficial(BaseModel):
    """Lista de todas as compras encontradas no texto."""
    compras: List[Compra] = Field(description="Lista de compras e contratos identificados")

## 4. Agente de Extra√ß√£o (Gemini)

Usamos `with_structured_output` para obrigar o LLM a retornar JSON conforme nosso schema.

In [None]:
import os
from langchain_google_genai import ChatGoogleGenerativeAI
from langchain_core.prompts import ChatPromptTemplate

# Configura√ß√£o da API
if "GOOGLE_API_KEY" not in os.environ:
    os.environ["GOOGLE_API_KEY"] = "SUA_CHAVE_AQUI" # No Colab use userdata
    try:
        from google.colab import userdata
        os.environ["GOOGLE_API_KEY"] = userdata.get('GOOGLE_API_KEY')
    except:
        pass

llm = ChatGoogleGenerativeAI(model="gemini-2.0-flash", temperature=0)

structured_llm = llm.with_structured_output(DiarioOficial)

prompt = ChatPromptTemplate.from_template(
    """Voc√™ √© um assistente de IA especializado em ler Di√°rios Oficiais.
    Extraia TODAS as informa√ß√µes sobre compras, contratos e licita√ß√µes do texto abaixo.
    Se n√£o encontrar o valor exato, tente estimar ou extrair o n√∫mero dispon√≠vel.
    Ignore nomea√ß√µes de pessoal ou decretos que n√£o envolvam gastos com fornecedores.
    
    TEXTO DO DI√ÅRIO:
    {text}
    """
)

chain_extract = prompt | structured_llm

In [None]:
print("‚è≥ Extraindo dados com IA...")
resultado = chain_extract.invoke({"text": full_text})

print(f"‚úÖ Extra√ß√£o completa! Encontradas {len(resultado.compras)} compras.")
for i, compra in enumerate(resultado.compras):
    print(f"{i+1}. {compra.contratada} | R$ {compra.valor:,.2f} | {compra.objeto[:50]}...")

## 5. Agente de Auditoria (An√°lise)

Agora vamos criar uma fun√ß√£o que avalia as compras extra√≠das e busca "red flags" (bandeiras vermelhas).

In [None]:
def analisar_compras(dados: DiarioOficial) -> str:
    analise_prompt = ChatPromptTemplate.from_template(
        """Voc√™ √© um Auditor Geral. Analise a lista de compras extra√≠das do Di√°rio Oficial abaixo.
        Identifique poss√≠veis irregularidades, pre√ßos abusivos ou descri√ß√µes vagas. 
        D√™ aten√ß√£o especial a compras de alto valor ou itens de luxo/desnecess√°rios.
        
        DADOS DAS COMPRAS:
        {dados_json}
        
        Gere um RELAT√ìRIO EXECUTIVO em Markdown contendo:
        1. Resumo dos gastos (Total, Maior Compra).
        2. Pontos de Aten√ß√£o (Red Flags) - com justificativa.
        3. Recomenda√ß√µes de Fiscaliza√ß√£o.
        """
    )
    
    # Convertendo os dados Pydantic para JSON string para o prompt
    dados_json = dados.json()
    
    chain_analise = analise_prompt | llm
    response = chain_analise.invoke({"dados_json": dados_json})
    return response.content

print("üìä Gerando Relat√≥rio de Auditoria...")
relatorio = analisar_compras(resultado)
from IPython.display import Markdown
display(Markdown(relatorio))

### Conclus√£o

Criamos um pipeline completo 'End-to-End':
1.  O PDF entra no sistema.
2.  O Gemini estrutura os dados n√£o estruturados.
3.  O Gemini (em outra chamada) atua como auditor e gera intelig√™ncia sobre os dados.