# üìÑ DocumentSegmenterAgent - Classificador de Partes do Of√≠cio

Este notebook define o agente respons√°vel por **classificar e segmentar** as partes de um of√≠cio judicial de quebra de sigilo banc√°rio.

## Objetivo
Antes de extrair subs√≠dios, investigados ou datas, precisamos **entender a estrutura do documento** e **classificar cada trecho** para:
1. Identificar quais partes s√£o relevantes para o Banco X
2. Descartar ru√≠do (headers OCR, fundamenta√ß√£o jur√≠dica extensa, etc.)
3. Direcionar cada trecho para o agente especializado correto

---

## 1. Contexto do Sistema SIMBA

### O que √© o SIMBA?
O SIMBA √© um sistema do **Banco X** para processamento automatizado de of√≠cios judiciais de quebra de sigilo banc√°rio. Ele recebe documentos digitalizados (OCR) de varas criminais, promotorias e outros √≥rg√£os, e precisa:

1. **Identificar** quem s√£o os investigados (pessoas f√≠sicas/jur√≠dicas)
2. **Extrair** quais informa√ß√µes banc√°rias est√£o sendo solicitadas (subs√≠dios)
3. **Determinar** os per√≠odos de cada solicita√ß√£o
4. **Validar** se o pedido √© realmente direcionado ao Banco X
5. **Gerar** a resposta estruturada para atendimento

### O que √© Quebra de Sigilo Banc√°rio?
√â uma determina√ß√£o judicial que obriga institui√ß√µes financeiras a fornecerem informa√ß√µes protegidas pelo sigilo banc√°rio sobre clientes espec√≠ficos. Pode incluir:
- Extratos de contas
- Movimenta√ß√µes financeiras
- Contratos
- Dados cadastrais
- Hist√≥rico de transa√ß√µes

### O que √© um Subs√≠dio?
No contexto do SIMBA, **subs√≠dio** √© cada tipo de informa√ß√£o/documento banc√°rio que pode ser solicitado em um of√≠cio. Exemplos:
- Extrato de conta corrente
- Fatura de cart√£o de cr√©dito
- Contratos de empr√©stimo
- Logs de acesso digital
- Consulta ao CCS/SISBACEN

## 2. Estrutura T√≠pica de um Of√≠cio Judicial

Um of√≠cio de quebra de sigilo pode conter **qualquer combina√ß√£o** dos seguintes elementos, **sem padr√£o fixo**:

| Categoria | Descri√ß√£o | Relev√¢ncia para Extra√ß√£o |
|-----------|-----------|-------------------------|
| `header_ocr` | Artefatos do scanner: "Scanned by...", "P√°gina 1/5", linhas "___" | ‚ùå Ignorar |
| `header_juridico` | Cabe√ßalho institucional: "PODER JUDICI√ÅRIO", "COMARCA DE..." | ‚ö™ Contexto |
| `identificacao_documento` | N√∫mero do processo, data, natureza do procedimento | ‚ö™ Metadados |
| `descricao_caso` | Contexto da investiga√ß√£o, descri√ß√£o do crime | ‚ö™ Contexto |
| `fundamentacao_juridica` | Artigos de lei, justificativas, precedentes | ‚ùå Ignorar |
| `solicitacao_quebra_sigilo` | **O pedido em si**: produtos, servi√ßos, per√≠odos | ‚úÖ **CR√çTICO** |
| `informacoes_investigado` | Nomes, CPFs, CNPJs, endere√ßos | ‚úÖ **CR√çTICO** |
| `identificacao_instituicao` | Para qual banco/institui√ß√£o √© o pedido | ‚úÖ **CR√çTICO** |
| `prazo` | Prazo para cumprimento | ‚ö™ Metadados |
| `assinatura` | Assinatura do juiz/promotor | ‚ö™ Metadados |
| `ruido` | Texto ileg√≠vel, caracteres corrompidos | ‚ùå Ignorar |

## 3. Imports e Configura√ß√£o

In [None]:
import json
from typing import List, Optional, Literal
from enum import Enum
from pydantic import BaseModel, Field
from datetime import datetime

## 4. Defini√ß√£o dos Schemas (Response Format)

In [None]:
# ============================================================
# ENUMS E TIPOS
# ============================================================

class CategoriaConteudo(str, Enum):
    """Categorias poss√≠veis para classifica√ß√£o de trechos do of√≠cio."""
    HEADER_OCR = "header_ocr"
    HEADER_JURIDICO = "header_juridico"
    IDENTIFICACAO_DOCUMENTO = "identificacao_documento"
    DESCRICAO_CASO = "descricao_caso"
    FUNDAMENTACAO_JURIDICA = "fundamentacao_juridica"
    SOLICITACAO_QUEBRA_SIGILO = "solicitacao_quebra_sigilo"
    INFORMACOES_INVESTIGADO = "informacoes_investigado"
    IDENTIFICACAO_INSTITUICAO = "identificacao_instituicao"
    PRAZO = "prazo"
    ASSINATURA = "assinatura"
    RUIDO = "ruido"


class TipoDestinatario(str, Enum):
    """Tipos de institui√ß√£o destinat√°ria."""
    BANCO_X = "banco_x"
    INSTITUICAO_FINANCEIRA_GENERICA = "instituicao_financeira_generica"
    BACEN = "bacen"
    RECEITA_FEDERAL = "receita_federal"
    OPERADORA_TELEFONIA = "operadora_telefonia"
    OUTRO_BANCO = "outro_banco"
    OUTRA_INSTITUICAO = "outra_instituicao"
    NAO_ESPECIFICADO = "nao_especificado"


class NivelRelevancia(str, Enum):
    """N√≠vel de relev√¢ncia do trecho para o Banco X."""
    CRITICO = "critico"      # Deve ser processado (solicita√ß√µes, investigados)
    CONTEXTO = "contexto"    # √ötil para entendimento, mas n√£o essencial
    IGNORAR = "ignorar"      # Pode ser descartado

In [None]:
# ============================================================
# SCHEMAS DE RESPOSTA (Pydantic)
# ============================================================

class SegmentoClassificado(BaseModel):
    """Representa um segmento/trecho do texto classificado."""
    
    segment_id: int = Field(
        description="ID sequencial do segmento (1, 2, 3...)"
    )
    
    texto: str = Field(
        description="Texto completo do segmento"
    )
    
    categoria: Literal[
        "header_ocr", "header_juridico", "identificacao_documento",
        "descricao_caso", "fundamentacao_juridica", "solicitacao_quebra_sigilo",
        "informacoes_investigado", "identificacao_instituicao", "prazo",
        "assinatura", "ruido"
    ] = Field(
        description="Categoria do conte√∫do deste segmento"
    )
    
    destinatario: Literal[
        "banco_x", "instituicao_financeira_generica", "bacen",
        "receita_federal", "operadora_telefonia", "outro_banco",
        "outra_instituicao", "nao_especificado"
    ] = Field(
        description="Institui√ß√£o destinat√°ria identificada neste segmento (se aplic√°vel)"
    )
    
    relevancia_banco_x: Literal["critico", "contexto", "ignorar"] = Field(
        description="N√≠vel de relev√¢ncia deste segmento para o Banco X"
    )
    
    contem_investigado: bool = Field(
        description="Se o segmento cont√©m informa√ß√µes de investigado (nome, CPF, CNPJ)"
    )
    
    contem_subsidio: bool = Field(
        description="Se o segmento cont√©m solicita√ß√£o de subs√≠dios/documentos"
    )
    
    contem_periodo: bool = Field(
        description="Se o segmento cont√©m datas ou per√≠odos"
    )
    
    justificativa_classificacao: str = Field(
        description="Explica√ß√£o do porqu√™ esta classifica√ß√£o foi atribu√≠da"
    )
    
    palavras_chave_encontradas: List[str] = Field(
        default=[],
        description="Palavras-chave que ajudaram na classifica√ß√£o"
    )


class MetadadosDocumento(BaseModel):
    """Metadados extra√≠dos do documento."""
    
    numero_processo: Optional[str] = Field(
        default=None,
        description="N√∫mero do processo judicial, se identificado"
    )
    
    numero_oficio: Optional[str] = Field(
        default=None,
        description="N√∫mero do of√≠cio, se identificado"
    )
    
    data_documento: Optional[str] = Field(
        default=None,
        description="Data do documento, se identificada"
    )
    
    orgao_emissor: Optional[str] = Field(
        default=None,
        description="√ìrg√£o que emitiu o of√≠cio (vara, promotoria, etc.)"
    )
    
    autoridade_signataria: Optional[str] = Field(
        default=None,
        description="Nome do juiz/promotor que assina"
    )
    
    prazo_cumprimento: Optional[str] = Field(
        default=None,
        description="Prazo para cumprimento da ordem"
    )


class QualidadeOCR(BaseModel):
    """Avalia√ß√£o da qualidade do OCR."""
    
    score: float = Field(
        description="Score de qualidade de 0.0 a 1.0"
    )
    
    classificacao: Literal["boa", "media", "ruim"] = Field(
        description="Classifica√ß√£o qualitativa"
    )
    
    problemas_detectados: List[str] = Field(
        default=[],
        description="Lista de problemas identificados no OCR"
    )
    
    recomendacao: Optional[str] = Field(
        default=None,
        description="Recomenda√ß√£o sobre o processamento"
    )


class ResultadoSegmentacao(BaseModel):
    """Resultado completo da segmenta√ß√£o do documento."""
    
    timestamp: str = Field(
        default_factory=lambda: datetime.now().isoformat(),
        description="Timestamp da an√°lise"
    )
    
    qualidade_ocr: QualidadeOCR = Field(
        description="Avalia√ß√£o da qualidade do OCR"
    )
    
    metadados: MetadadosDocumento = Field(
        description="Metadados extra√≠dos do documento"
    )
    
    total_segmentos: int = Field(
        description="N√∫mero total de segmentos identificados"
    )
    
    segmentos: List[SegmentoClassificado] = Field(
        description="Lista de todos os segmentos classificados"
    )
    
    resumo_relevancia: dict = Field(
        description="Contagem de segmentos por n√≠vel de relev√¢ncia"
    )
    
    segmentos_criticos_banco_x: List[int] = Field(
        description="IDs dos segmentos cr√≠ticos para o Banco X"
    )
    
    destinatarios_identificados: List[str] = Field(
        description="Lista de destinat√°rios √∫nicos identificados"
    )
    
    documento_relevante_banco_x: bool = Field(
        description="Se o documento como um todo √© relevante para o Banco X"
    )
    
    justificativa_relevancia: str = Field(
        description="Explica√ß√£o sobre a relev√¢ncia do documento para o Banco X"
    )

In [None]:
# ============================================================
# JSON SCHEMA PARA OPENAI (response_format)
# ============================================================

RESPONSE_FORMAT_JSON_SCHEMA = {
    "type": "json_schema",
    "json_schema": {
        "name": "resultado_segmentacao",
        "strict": True,
        "schema": {
            "type": "object",
            "properties": {
                "qualidade_ocr": {
                    "type": "object",
                    "properties": {
                        "score": {"type": "number", "minimum": 0, "maximum": 1},
                        "classificacao": {"type": "string", "enum": ["boa", "media", "ruim"]},
                        "problemas_detectados": {"type": "array", "items": {"type": "string"}},
                        "recomendacao": {"type": ["string", "null"]}
                    },
                    "required": ["score", "classificacao", "problemas_detectados"],
                    "additionalProperties": False
                },
                "metadados": {
                    "type": "object",
                    "properties": {
                        "numero_processo": {"type": ["string", "null"]},
                        "numero_oficio": {"type": ["string", "null"]},
                        "data_documento": {"type": ["string", "null"]},
                        "orgao_emissor": {"type": ["string", "null"]},
                        "autoridade_signataria": {"type": ["string", "null"]},
                        "prazo_cumprimento": {"type": ["string", "null"]}
                    },
                    "required": [],
                    "additionalProperties": False
                },
                "total_segmentos": {"type": "integer"},
                "segmentos": {
                    "type": "array",
                    "items": {
                        "type": "object",
                        "properties": {
                            "segment_id": {"type": "integer"},
                            "texto": {"type": "string"},
                            "categoria": {
                                "type": "string",
                                "enum": [
                                    "header_ocr", "header_juridico", "identificacao_documento",
                                    "descricao_caso", "fundamentacao_juridica", "solicitacao_quebra_sigilo",
                                    "informacoes_investigado", "identificacao_instituicao", "prazo",
                                    "assinatura", "ruido"
                                ]
                            },
                            "destinatario": {
                                "type": "string",
                                "enum": [
                                    "banco_x", "instituicao_financeira_generica", "bacen",
                                    "receita_federal", "operadora_telefonia", "outro_banco",
                                    "outra_instituicao", "nao_especificado"
                                ]
                            },
                            "relevancia_banco_x": {
                                "type": "string",
                                "enum": ["critico", "contexto", "ignorar"]
                            },
                            "contem_investigado": {"type": "boolean"},
                            "contem_subsidio": {"type": "boolean"},
                            "contem_periodo": {"type": "boolean"},
                            "justificativa_classificacao": {"type": "string"},
                            "palavras_chave_encontradas": {
                                "type": "array",
                                "items": {"type": "string"}
                            }
                        },
                        "required": [
                            "segment_id", "texto", "categoria", "destinatario",
                            "relevancia_banco_x", "contem_investigado", "contem_subsidio",
                            "contem_periodo", "justificativa_classificacao", "palavras_chave_encontradas"
                        ],
                        "additionalProperties": False
                    }
                },
                "resumo_relevancia": {
                    "type": "object",
                    "properties": {
                        "critico": {"type": "integer"},
                        "contexto": {"type": "integer"},
                        "ignorar": {"type": "integer"}
                    },
                    "required": ["critico", "contexto", "ignorar"],
                    "additionalProperties": False
                },
                "segmentos_criticos_banco_x": {
                    "type": "array",
                    "items": {"type": "integer"}
                },
                "destinatarios_identificados": {
                    "type": "array",
                    "items": {"type": "string"}
                },
                "documento_relevante_banco_x": {"type": "boolean"},
                "justificativa_relevancia": {"type": "string"}
            },
            "required": [
                "qualidade_ocr", "metadados", "total_segmentos", "segmentos",
                "resumo_relevancia", "segmentos_criticos_banco_x", "destinatarios_identificados",
                "documento_relevante_banco_x", "justificativa_relevancia"
            ],
            "additionalProperties": False
        }
    }
}

print("‚úÖ JSON Schema definido para response_format")

## 5. System Prompt do DocumentSegmenterAgent

In [None]:
SYSTEM_PROMPT_SEGMENTER = """
# AGENTE DE SEGMENTA√á√ÉO E CLASSIFICA√á√ÉO DE OF√çCIOS JUDICIAIS

Voc√™ √© um agente especializado do sistema SIMBA do Banco X, respons√°vel por analisar e 
classificar as diferentes partes de of√≠cios judiciais de quebra de sigilo banc√°rio.

---

## CONTEXTO DO SISTEMA SIMBA

### O que √© o SIMBA?
O SIMBA (Sistema de Informa√ß√µes para Mandados Banc√°rios) √© a plataforma do Banco X para 
processamento automatizado de of√≠cios judiciais. Ele recebe documentos digitalizados via OCR 
e precisa extrair informa√ß√µes estruturadas para atendimento das ordens judiciais.

### O que √© Quebra de Sigilo Banc√°rio?
√â uma determina√ß√£o judicial (art. 4¬∫ da LC 105/2001) que obriga institui√ß√µes financeiras a 
fornecerem informa√ß√µes protegidas sobre clientes espec√≠ficos para fins de investiga√ß√£o.

### O que √© um Subs√≠dio?
No contexto SIMBA, "subs√≠dio" √© cada tipo de informa√ß√£o/documento banc√°rio solicitado:
- Extratos (conta corrente, poupan√ßa, investimentos)
- Faturas de cart√£o de cr√©dito
- Contratos (empr√©stimos, financiamentos)
- Dados cadastrais
- Transfer√™ncias (DOC, TED, PIX)
- Logs de acesso digital
- Consultas ao CCS/SISBACEN
- Entre outros

---

## SUA TAREFA

Voc√™ deve:
1. **Segmentar** o texto em par√°grafos/blocos l√≥gicos
2. **Classificar** cada segmento em uma categoria
3. **Identificar** o destinat√°rio de cada trecho (quando aplic√°vel)
4. **Determinar** a relev√¢ncia para o Banco X
5. **Extrair** metadados do documento
6. **Avaliar** a qualidade do OCR

---

## CATEGORIAS DE CLASSIFICA√á√ÉO

### 1. header_ocr
**O que √©:** Artefatos gerados pelo scanner/OCR, n√£o fazem parte do documento original.
**Como identificar:**
- "Scanned by CamScanner", "Digitized by..."
- "P√°gina X de Y", "Page X/Y"
- Linhas de underscores: "_______________"
- C√≥digos de barras textualizados
- Timestamps de digitaliza√ß√£o
**Relev√¢ncia:** IGNORAR

### 2. header_juridico
**O que √©:** Cabe√ßalho institucional do documento jur√≠dico.
**Como identificar:**
- "PODER JUDICI√ÅRIO", "MINIST√âRIO P√öBLICO"
- "TRIBUNAL DE JUSTI√áA DO ESTADO DE..."
- "COMARCA DE...", "FORO...", "VARA..."
- Bras√µes, logotipos (descritos)
**Relev√¢ncia:** CONTEXTO

### 3. identificacao_documento
**O que √©:** Dados que identificam o documento espec√≠fico.
**Como identificar:**
- "Processo n¬∫", "Autos n¬∫", "Procedimento n¬∫"
- "OF√çCIO N¬∫", "MANDADO N¬∫"
- "Natureza:", "Classe:"
- Data do documento
- "Ref:", "Assunto:"
**Relev√¢ncia:** CONTEXTO (metadados √∫teis)

### 4. descricao_caso
**O que √©:** Narrativa sobre a investiga√ß√£o/processo.
**Como identificar:**
- "Trata-se de investiga√ß√£o..."
- "Nos autos do inqu√©rito que apura..."
- Descri√ß√£o de crimes investigados
- Hist√≥rico do processo
- "O investigado √© acusado de..."
**Relev√¢ncia:** CONTEXTO

### 5. fundamentacao_juridica
**O que √©:** Justificativas legais para a quebra de sigilo.
**Como identificar:**
- Cita√ß√µes de artigos: "Art. 4¬∫ da LC 105/2001"
- "Conforme jurisprud√™ncia..."
- "Nos termos do art..."
- Refer√™ncias a decis√µes anteriores
- Longas justificativas legais
**Relev√¢ncia:** IGNORAR (n√£o necess√°rio para extra√ß√£o)

### 6. solicitacao_quebra_sigilo ‚≠ê CR√çTICO
**O que √©:** O PEDIDO EM SI - quais informa√ß√µes est√£o sendo solicitadas.
**Como identificar:**
- "DETERMINO a quebra de sigilo..."
- "Solicito o envio de..."
- "Requisito as seguintes informa√ß√µes..."
- "Forne√ßa:", "Providencie:"
- Listas de documentos/extratos/informa√ß√µes
- "1. Extratos de conta corrente; 2. Faturas..."
- Men√ß√£o a tipos de documentos banc√°rios
**Relev√¢ncia:** CR√çTICO ‚úÖ

### 7. informacoes_investigado ‚≠ê CR√çTICO
**O que √©:** Dados dos alvos da quebra de sigilo.
**Como identificar:**
- Nomes pr√≥prios em destaque/mai√∫sculas
- CPF: XXX.XXX.XXX-XX
- CNPJ: XX.XXX.XXX/XXXX-XX
- "Investigado:", "R√©u:", "Indiciado:"
- RG, endere√ßos, filia√ß√£o
- "do(a) cliente", "do(a) correntista"
**Relev√¢ncia:** CR√çTICO ‚úÖ

### 8. identificacao_instituicao ‚≠ê CR√çTICO
**O que √©:** Identifica√ß√£o de PARA QUEM √© o pedido.
**Como identificar:**
- "Ao Banco X", "√Ä institui√ß√£o financeira"
- "OFICIE-SE ao...", "Expe√ßa-se of√≠cio ao..."
- "Senhor Gerente do Banco..."
- Endere√ßos de ag√™ncias banc√°rias
- "√Äs institui√ß√µes financeiras em geral"
**Relev√¢ncia:** CR√çTICO ‚úÖ

### 9. prazo
**O que √©:** Prazo para cumprimento da ordem.
**Como identificar:**
- "Prazo: X dias"
- "No prazo de..."
- "Em at√© X dias √∫teis"
- "Sob pena de..."
**Relev√¢ncia:** CONTEXTO

### 10. assinatura
**O que √©:** Assinatura e identifica√ß√£o do signat√°rio.
**Como identificar:**
- "Dr./Dra. [Nome]"
- "Juiz de Direito", "Promotor de Justi√ßa"
- "Delegado de Pol√≠cia"
- Assinaturas digitais, certificados
- Local e data ao final
**Relev√¢ncia:** CONTEXTO

### 11. ruido
**O que √©:** Texto ileg√≠vel ou corrompido pelo OCR.
**Como identificar:**
- Muitos caracteres especiais sem sentido: "@#$%&*"
- Palavras quebradas incompreens√≠veis
- Sequ√™ncias aleat√≥rias de letras
- Texto que n√£o forma frases coerentes
**Relev√¢ncia:** IGNORAR

---

## REGRAS DE IDENTIFICA√á√ÉO DE DESTINAT√ÅRIO

### banco_x
Quando menciona EXPLICITAMENTE:
- "Banco X", "BANCO X S/A", "Banco X S.A."
- Varia√ß√µes do nome do Banco X

### instituicao_financeira_generica
Quando menciona de forma GEN√âRICA:
- "institui√ß√£o financeira", "institui√ß√µes banc√°rias"
- "bancos em geral", "estabelecimentos banc√°rios"
- "todas as institui√ß√µes financeiras"
‚Üí **CONSIDERAR RELEVANTE para Banco X**

### bacen
Quando √© EXCLUSIVAMENTE para o Banco Central:
- "Oficie-se ao BACEN", "Ao Banco Central do Brasil"
- Pedido de informa√ß√µes do CCS enviado ao BCB
‚Üí **N√ÉO relevante** (a menos que pe√ßa ao Banco X para consultar)

‚ö†Ô∏è **ATEN√á√ÉO:** Se o texto pede que o BANCO X consulte o CCS/SISBACEN, 
ent√£o √â RELEVANTE para o Banco X!

### receita_federal
- "Receita Federal", "RFB", "Fisco"
- Quebra de sigilo fiscal
‚Üí **N√ÉO relevante**

### operadora_telefonia
- Vivo, Claro, TIM, Oi, Nextel
- Sigilo telef√¥nico/telem√°tico
‚Üí **N√ÉO relevante**

### outro_banco
Quando menciona OUTRO banco espec√≠fico:
- Ita√∫, Bradesco, Santander, Caixa, etc.
- Bancos que N√ÉO fazem parte do grupo Banco X
‚Üí **N√ÉO relevante** (se exclusivo para outro banco)

### outra_instituicao
- Seguradoras, corretoras, cart√≥rios
- √ìrg√£os p√∫blicos diversos
‚Üí **N√ÉO relevante**

### nao_especificado
Quando N√ÉO menciona nenhuma institui√ß√£o:
- Pedido gen√©rico sem destinat√°rio expl√≠cito
‚Üí **PRESUMIR relevante** para institui√ß√£o financeira (inclui Banco X)

---

## REGRAS DE RELEV√ÇNCIA PARA O BANCO X

### CR√çTICO (deve ser processado)
- Segmentos com `categoria` = solicitacao_quebra_sigilo, informacoes_investigado, identificacao_instituicao
- E `destinatario` = banco_x, instituicao_financeira_generica, ou nao_especificado

### CONTEXTO (√∫til mas n√£o essencial)
- header_juridico, identificacao_documento, descricao_caso, prazo, assinatura
- Ou segmentos cr√≠ticos para outras institui√ß√µes (manter para refer√™ncia)

### IGNORAR (descartar)
- header_ocr, fundamentacao_juridica (muito longa), ruido
- Segmentos exclusivos para institui√ß√µes n√£o relacionadas ao Banco X

---

## AVALIA√á√ÉO DE QUALIDADE DO OCR

Calcule um score de 0.0 a 1.0 baseado em:

| Indicador | Impacto no Score |
|-----------|------------------|
| Muitos caracteres especiais isolados (@#$%&) | -0.2 |
| Palavras quebradas por h√≠fen incorreto | -0.1 |
| Espa√ßamento irregular | -0.1 |
| Linhas com apenas s√≠mbolos | -0.1 |
| Texto coerente e leg√≠vel | +0.3 |
| Estrutura de par√°grafos clara | +0.2 |
| N√∫meros e datas bem formatados | +0.1 |

Classifica√ß√£o:
- **boa**: score >= 0.7
- **media**: 0.4 <= score < 0.7
- **ruim**: score < 0.4

---

## INSTRU√á√ïES DE SEGMENTA√á√ÉO

1. **Divida o texto em par√°grafos/blocos l√≥gicos**
   - Use quebras de linha duplas como separadores principais
   - Mantenha listas numeradas juntas
   - N√£o quebre frases no meio

2. **Para cada segmento, determine:**
   - Qual a categoria mais apropriada
   - Se h√° um destinat√°rio identific√°vel
   - Se cont√©m dados de investigado (nome/CPF/CNPJ)
   - Se cont√©m solicita√ß√£o de subs√≠dios
   - Se cont√©m datas/per√≠odos

3. **Seja conservador:**
   - Na d√∫vida entre duas categorias, escolha a mais espec√≠fica
   - Se um segmento tem m√∫ltiplos prop√≥sitos, classifique pelo principal
   - N√£o invente informa√ß√µes que n√£o est√£o no texto

4. **Extraia metadados quando encontrar:**
   - N√∫mero do processo/of√≠cio
   - Data do documento
   - √ìrg√£o emissor
   - Autoridade signat√°ria
   - Prazo de cumprimento

---

## EXEMPLOS DE CLASSIFICA√á√ÉO

### Exemplo 1: header_ocr
```
Scanned by CamScanner
_______________________________________________
```
‚Üí categoria: header_ocr | relevancia: ignorar

### Exemplo 2: solicitacao_quebra_sigilo + identificacao_instituicao
```
OFICIE-SE AO BANCO X S/A para que forne√ßa, no prazo de 15 dias:
1. Extratos de conta corrente do per√≠odo de jan/2023 a dez/2024;
2. Faturas de cart√£o de cr√©dito;
3. Contratos de empr√©stimo vigentes.
```
‚Üí categoria: solicitacao_quebra_sigilo | destinatario: banco_x | relevancia: critico

### Exemplo 3: informacoes_investigado
```
Investigado: JO√ÉO DA SILVA SANTOS
CPF: 123.456.789-00
RG: 12.345.678-9 SSP/SP
```
‚Üí categoria: informacoes_investigado | contem_investigado: true | relevancia: critico

### Exemplo 4: fundamentacao_juridica (IGNORAR)
```
Considerando o disposto no art. 4¬∫, ¬ß1¬∫, da Lei Complementar n¬∫ 105/2001, 
que autoriza a quebra de sigilo banc√°rio mediante requisi√ß√£o judicial, e 
tendo em vista a jurisprud√™ncia consolidada do STF no sentido de que...
[texto longo de justificativa legal]
```
‚Üí categoria: fundamentacao_juridica | relevancia: ignorar

### Exemplo 5: M√∫ltiplos destinat√°rios
```
I - OFICIE-SE AO BACEN para informa√ß√µes do CCS;
II - OFICIE-SE √ÄS INSTITUI√á√ïES FINANCEIRAS para extratos;
III - OFICIE-SE √Ä RECEITA FEDERAL para declara√ß√µes de IR.
```
‚Üí Segmentar em 3 partes:
   - I: destinatario: bacen, relevancia: contexto
   - II: destinatario: instituicao_financeira_generica, relevancia: critico
   - III: destinatario: receita_federal, relevancia: ignorar

---

## FORMATO DE SA√çDA

Retorne um JSON seguindo EXATAMENTE o schema definido.
Seja preciso, n√£o alucine, e justifique cada classifica√ß√£o.
"""

print(f"‚úÖ System Prompt definido ({len(SYSTEM_PROMPT_SEGMENTER)} caracteres)")

## 6. User Prompt Template

In [None]:
USER_PROMPT_TEMPLATE = """
Analise e classifique o seguinte texto de of√≠cio judicial de quebra de sigilo banc√°rio.

## TEXTO DO OF√çCIO:

```
{texto_oficio}
```

## INSTRU√á√ïES:

1. Avalie a qualidade do OCR (score de 0 a 1)
2. Extraia os metadados dispon√≠veis (n√∫mero do processo, data, etc.)
3. Segmente o texto em blocos l√≥gicos
4. Classifique cada segmento conforme as categorias definidas
5. Identifique o destinat√°rio de cada segmento (quando aplic√°vel)
6. Determine a relev√¢ncia para o Banco X
7. Marque quais segmentos cont√™m investigados, subs√≠dios ou per√≠odos

## LEMBRE-SE:

- Segmentos para "institui√ß√£o financeira gen√©rica" ou "n√£o especificado" S√ÉO relevantes para o Banco X
- Segmentos EXCLUSIVOS para BACEN, Receita, outros bancos N√ÉO s√£o relevantes
- Se pedir ao Banco X para consultar CCS/SISBACEN, √â relevante
- Extraia o texto completo de cada segmento, n√£o resuma

Retorne o JSON conforme o schema definido.
"""

def get_user_prompt(texto_oficio: str) -> str:
    return USER_PROMPT_TEMPLATE.format(texto_oficio=texto_oficio)

print("‚úÖ User Prompt Template definido")

## 7. Tool de Segmenta√ß√£o (smolagents)

In [None]:
from smolagents import Tool

class DocumentSegmenterTool(Tool):
    """
    Tool para segmentar e classificar partes de um of√≠cio judicial.
    Identifica categorias, destinat√°rios e relev√¢ncia para o Banco X.
    """
    
    name = "document_segmenter"
    description = """Segmenta e classifica as partes de um of√≠cio judicial de quebra de sigilo banc√°rio.
    Identifica:
    - Categoria de cada trecho (header, solicita√ß√£o, investigado, etc.)
    - Destinat√°rio (Banco X, BACEN, Receita, etc.)
    - Relev√¢ncia para o Banco X (cr√≠tico, contexto, ignorar)
    - Se cont√©m dados de investigados, subs√≠dios ou per√≠odos
    Retorna JSON estruturado com a segmenta√ß√£o completa."""
    
    inputs = {
        "texto_oficio": {
            "type": "string",
            "description": "Texto completo do of√≠cio judicial (pode ser OCR)"
        }
    }
    output_type = "string"
    
    def __init__(self, model_name: str = "gpt-4o", **kwargs):
        super().__init__(**kwargs)
        self.model_name = model_name
        self._client = None
    
    @property
    def client(self):
        if self._client is None:
            from openai import OpenAI
            self._client = OpenAI()
        return self._client
    
    def forward(self, texto_oficio: str) -> str:
        """
        Executa a segmenta√ß√£o e classifica√ß√£o do of√≠cio.
        
        Args:
            texto_oficio: Texto do of√≠cio judicial
        
        Returns:
            JSON string com resultado da segmenta√ß√£o
        """
        try:
            response = self.client.chat.completions.create(
                model=self.model_name,
                messages=[
                    {"role": "system", "content": SYSTEM_PROMPT_SEGMENTER},
                    {"role": "user", "content": get_user_prompt(texto_oficio)}
                ],
                temperature=0.1,
                response_format=RESPONSE_FORMAT_JSON_SCHEMA
            )
            
            resultado = json.loads(response.choices[0].message.content)
            resultado["timestamp"] = datetime.now().isoformat()
            resultado["modelo_utilizado"] = self.model_name
            
            return json.dumps(resultado, ensure_ascii=False, indent=2)
            
        except Exception as e:
            return json.dumps({
                "erro": str(e),
                "timestamp": datetime.now().isoformat()
            }, ensure_ascii=False)


print("‚úÖ DocumentSegmenterTool definida")

## 8. Tools Auxiliares (Heur√≠sticas)

In [None]:
import re

class HeuristicAnalyzerTool(Tool):
    """
    Tool para an√°lise heur√≠stica (regex/keywords) do texto.
    Executa ANTES do LLM para pr√©-identificar padr√µes.
    """
    
    name = "heuristic_analyzer"
    description = """Analisa o texto usando heur√≠sticas (regex e palavras-chave) para 
    pr√©-identificar padr√µes como CPFs, CNPJs, datas, institui√ß√µes e express√µes jur√≠dicas.
    √ötil para valida√ß√£o cruzada com o resultado do LLM."""
    
    inputs = {
        "texto": {
            "type": "string",
            "description": "Texto a ser analisado"
        }
    }
    output_type = "string"
    
    # Padr√µes regex
    PATTERNS = {
        "cpf": r"\b\d{3}[.-]?\d{3}[.-]?\d{3}[.-]?\d{2}\b",
        "cnpj": r"\b\d{2}[.-]?\d{3}[.-]?\d{3}[/]?\d{4}[.-]?\d{2}\b",
        "processo": r"\b\d{7}[.-]?\d{2}[.-]?\d{4}[.-]?\d[.-]?\d{2}[.-]?\d{4}\b",
        "data_completa": r"\b\d{1,2}[/.-]\d{1,2}[/.-]\d{2,4}\b",
        "periodo": r"(?:per√≠odo|de|entre)\s+(?:\d{1,2}[/.-]\d{1,2}[/.-]\d{2,4})\s+(?:a|at√©|e)\s+(?:\d{1,2}[/.-]\d{1,2}[/.-]\d{2,4})",
        "valor_monetario": r"R\$\s*[\d.,]+",
    }
    
    # Keywords por categoria
    KEYWORDS = {
        "instituicao_banco_x": ["banco x", "banco x s/a", "banco x s.a."],
        "instituicao_generica": ["institui√ß√£o financeira", "institui√ß√µes banc√°rias", "bancos em geral", "estabelecimentos banc√°rios"],
        "bacen": ["bacen", "banco central", "bcb", "sisbacen", "ccs"],
        "receita_federal": ["receita federal", "rfb", "fisco", "sigilo fiscal"],
        "operadora": ["vivo", "claro", "tim", "oi", "nextel", "sigilo telef√¥nico", "sigilo telem√°tico"],
        "outros_bancos": ["ita√∫", "bradesco", "santander", "caixa econ√¥mica", "banco do brasil", "nubank", "inter"],
        "expressoes_quebra": ["quebra de sigilo", "determino a quebra", "oficie-se", "requisito", "solicito", "forne√ßa"],
        "subsidios": ["extrato", "fatura", "cart√£o", "conta corrente", "poupan√ßa", "investimento", "empr√©stimo", 
                      "financiamento", "pix", "ted", "doc", "cheque", "cadastr", "contrato"],
        "header_ocr": ["scanned", "digitized", "p√°gina", "page", "___"],
    }
    
    def forward(self, texto: str) -> str:
        texto_lower = texto.lower()
        resultado = {
            "padroes_encontrados": {},
            "keywords_encontradas": {},
            "metricas_qualidade": {},
            "sugestoes_categoria": []
        }
        
        # Buscar padr√µes regex
        for nome, pattern in self.PATTERNS.items():
            matches = re.findall(pattern, texto, re.IGNORECASE)
            if matches:
                resultado["padroes_encontrados"][nome] = list(set(matches))
        
        # Buscar keywords
        for categoria, keywords in self.KEYWORDS.items():
            encontradas = [kw for kw in keywords if kw in texto_lower]
            if encontradas:
                resultado["keywords_encontradas"][categoria] = encontradas
        
        # M√©tricas de qualidade
        resultado["metricas_qualidade"] = {
            "total_caracteres": len(texto),
            "total_palavras": len(texto.split()),
            "proporcao_especiais": len(re.findall(r"[^\w\s.,;:!?()-]", texto)) / max(len(texto), 1),
            "linhas_vazias": texto.count("\n\n"),
            "tem_cpf": "cpf" in resultado["padroes_encontrados"],
            "tem_cnpj": "cnpj" in resultado["padroes_encontrados"],
            "tem_processo": "processo" in resultado["padroes_encontrados"],
        }
        
        # Sugest√µes de categoria baseadas em keywords
        if "expressoes_quebra" in resultado["keywords_encontradas"]:
            resultado["sugestoes_categoria"].append("solicitacao_quebra_sigilo")
        if resultado["metricas_qualidade"]["tem_cpf"] or resultado["metricas_qualidade"]["tem_cnpj"]:
            resultado["sugestoes_categoria"].append("informacoes_investigado")
        if "instituicao_banco_x" in resultado["keywords_encontradas"]:
            resultado["sugestoes_categoria"].append("identificacao_instituicao")
        if "header_ocr" in resultado["keywords_encontradas"]:
            resultado["sugestoes_categoria"].append("header_ocr")
        
        return json.dumps(resultado, ensure_ascii=False, indent=2)


print("‚úÖ HeuristicAnalyzerTool definida")

In [None]:
class OCRQualityTool(Tool):
    """
    Tool para avaliar a qualidade do OCR de forma determin√≠stica.
    """
    
    name = "ocr_quality_checker"
    description = """Avalia a qualidade do texto OCR usando m√©tricas determin√≠sticas.
    Retorna score de 0 a 1 e lista de problemas detectados."""
    
    inputs = {
        "texto": {
            "type": "string",
            "description": "Texto OCR a ser avaliado"
        }
    }
    output_type = "string"
    
    def forward(self, texto: str) -> str:
        problemas = []
        score = 1.0
        
        # 1. Propor√ß√£o de caracteres especiais estranhos
        chars_estranhos = len(re.findall(r"[^\w\s.,;:!?()\-/\"'@#$%&*+=\[\]{}|\\<>]", texto))
        proporcao_estranhos = chars_estranhos / max(len(texto), 1)
        if proporcao_estranhos > 0.05:
            score -= 0.2
            problemas.append(f"Alta propor√ß√£o de caracteres estranhos ({proporcao_estranhos:.2%})")
        
        # 2. Palavras quebradas por h√≠fen no meio
        palavras_quebradas = len(re.findall(r"\w+-\s*\n\s*\w+", texto))
        if palavras_quebradas > 5:
            score -= 0.15
            problemas.append(f"Muitas palavras quebradas por h√≠fen ({palavras_quebradas})")
        
        # 3. Linhas com apenas s√≠mbolos
        linhas = texto.split("\n")
        linhas_simbolos = sum(1 for l in linhas if l.strip() and not re.search(r"[a-zA-Z0-9]", l))
        if linhas_simbolos > 3:
            score -= 0.1
            problemas.append(f"Linhas com apenas s√≠mbolos ({linhas_simbolos})")
        
        # 4. Espa√ßamento irregular
        espacos_multiplos = len(re.findall(r"  +", texto))
        if espacos_multiplos > 20:
            score -= 0.1
            problemas.append(f"Espa√ßamento irregular ({espacos_multiplos} ocorr√™ncias)")
        
        # 5. Sequ√™ncias de letras sem sentido (3+ consoantes seguidas)
        sem_sentido = len(re.findall(r"[bcdfghjklmnpqrstvwxyz]{4,}", texto.lower()))
        if sem_sentido > 10:
            score -= 0.15
            problemas.append(f"Poss√≠veis palavras corrompidas ({sem_sentido})")
        
        # Garantir score entre 0 e 1
        score = max(0.0, min(1.0, score))
        
        # Classifica√ß√£o
        if score >= 0.7:
            classificacao = "boa"
            recomendacao = "Processar normalmente"
        elif score >= 0.4:
            classificacao = "media"
            recomendacao = "Processar com aten√ß√£o extra na valida√ß√£o"
        else:
            classificacao = "ruim"
            recomendacao = "Considerar revis√£o humana antes do processamento"
        
        resultado = {
            "score": round(score, 2),
            "classificacao": classificacao,
            "problemas_detectados": problemas,
            "recomendacao": recomendacao,
            "metricas_detalhadas": {
                "total_caracteres": len(texto),
                "proporcao_caracteres_estranhos": round(proporcao_estranhos, 4),
                "palavras_quebradas": palavras_quebradas,
                "linhas_apenas_simbolos": linhas_simbolos,
                "espacos_multiplos": espacos_multiplos
            }
        }
        
        return json.dumps(resultado, ensure_ascii=False, indent=2)


print("‚úÖ OCRQualityTool definida")

## 9. Exemplo de Uso Completo

In [None]:
# Texto de exemplo para teste
TEXTO_EXEMPLO = """
Scanned by CamScanner
_______________________________________________

PODER JUDICI√ÅRIO DO ESTADO DE S√ÉO PAULO
COMARCA DE S√ÉO PAULO - FORO CENTRAL CRIMINAL
1¬™ VARA DE INQU√âRITOS POLICIAIS

Processo n¬∫ 0001234-56.2024.8.26.0050
Natureza: Inqu√©rito Policial
Assunto: Quebra de Sigilo Banc√°rio

OF√çCIO N¬∫ 1234/2024

Ao Ilustr√≠ssimo Senhor Gerente do BANCO X S/A
Departamento Jur√≠dico
Av. das Finan√ßas, 1000 - S√£o Paulo/SP

Senhor Gerente,

Nos autos do inqu√©rito policial em ep√≠grafe, que investiga crimes de lavagem de dinheiro 
e organiza√ß√£o criminosa previstos na Lei 9.613/98, DETERMINO a quebra de sigilo banc√°rio 
dos investigados abaixo qualificados:

1) JO√ÉO DA SILVA SANTOS
   CPF: 123.456.789-00
   RG: 12.345.678-9 SSP/SP

2) EMPRESA COMERCIAL ABC LTDA
   CNPJ: 12.345.678/0001-90

Considerando o disposto no art. 4¬∫, ¬ß1¬∫, da Lei Complementar n¬∫ 105/2001, que autoriza 
a quebra de sigilo banc√°rio mediante requisi√ß√£o judicial, e tendo em vista os elementos 
colhidos na investiga√ß√£o que demonstram a necessidade da medida para apura√ß√£o dos fatos.

Solicito que Vossa Senhoria providencie o envio das seguintes informa√ß√µes e documentos, 
relativos ao per√≠odo de 01/01/2022 a 31/12/2024:

1. Extratos completos de todas as contas correntes e poupan√ßas;
2. Faturas detalhadas de cart√£o de cr√©dito;
3. C√≥pias de todos os cheques emitidos e compensados;
4. Rela√ß√£o de todas as transfer√™ncias PIX, DOC e TED realizadas e recebidas;
5. Contratos de empr√©stimos e financiamentos;
6. Dados cadastrais completos;
7. Logs de acesso ao internet banking e aplicativo m√≥vel.

OFICIE-SE tamb√©m ao BANCO CENTRAL DO BRASIL para que forne√ßa informa√ß√µes do CCS 
sobre relacionamentos financeiros dos investigados.

OFICIE-SE ainda √† RECEITA FEDERAL para envio das declara√ß√µes de IR dos √∫ltimos 5 anos.

Prazo para cumprimento: 15 (quinze) dias √∫teis, sob pena de responsabiliza√ß√£o.

S√£o Paulo, 15 de novembro de 2024.

Dr. Fulano de Tal
Juiz de Direito
"""

print("‚úÖ Texto de exemplo carregado")
print(f"   Tamanho: {len(TEXTO_EXEMPLO)} caracteres")

In [None]:
# Testar tools heur√≠sticas
print("üîç TESTE 1: An√°lise Heur√≠stica")
print("="*60)

heuristic_tool = HeuristicAnalyzerTool()
resultado_heuristica = heuristic_tool.forward(TEXTO_EXEMPLO)
print(resultado_heuristica)

In [None]:
# Testar qualidade OCR
print("\nüîç TESTE 2: Qualidade do OCR")
print("="*60)

ocr_tool = OCRQualityTool()
resultado_ocr = ocr_tool.forward(TEXTO_EXEMPLO)
print(resultado_ocr)

In [None]:
# Testar segmenta√ß√£o completa (requer API key)
print("\nüîç TESTE 3: Segmenta√ß√£o Completa com LLM")
print("="*60)

# Descomente para executar (requer OPENAI_API_KEY)
# segmenter_tool = DocumentSegmenterTool(model_name="gpt-4o")
# resultado_segmentacao = segmenter_tool.forward(TEXTO_EXEMPLO)
# print(resultado_segmentacao)

## 10. Resumo da Arquitetura

### Componentes Definidos:

| Componente | Tipo | Fun√ß√£o |
|------------|------|--------|
| `SYSTEM_PROMPT_SEGMENTER` | Prompt | Instrui o LLM sobre contexto SIMBA, categorias, regras |
| `RESPONSE_FORMAT_JSON_SCHEMA` | Schema | Define estrutura exata da sa√≠da JSON |
| `DocumentSegmenterTool` | Tool (smolagents) | Executa segmenta√ß√£o via LLM |
| `HeuristicAnalyzerTool` | Tool (smolagents) | Pr√©-an√°lise com regex/keywords |
| `OCRQualityTool` | Tool (smolagents) | Avalia qualidade do OCR |

### Fluxo Recomendado:

```
1. OCRQualityTool          ‚Üí Avalia se texto est√° leg√≠vel
       ‚Üì
2. HeuristicAnalyzerTool   ‚Üí Pr√©-identifica padr√µes (CPF, CNPJ, keywords)
       ‚Üì
3. DocumentSegmenterTool   ‚Üí Classifica cada segmento via LLM
       ‚Üì
4. Valida√ß√£o cruzada       ‚Üí Compara heur√≠stica vs LLM
       ‚Üì
5. Extra√ß√£o de segmentos cr√≠ticos ‚Üí Para pr√≥ximos agentes
```

### Pr√≥ximos Passos:

- **SubsidyMatcherAgent**: Recebe segmentos `solicitacao_quebra_sigilo` e extrai subs√≠dios
- **PartyExtractorAgent**: Recebe segmentos `informacoes_investigado` e extrai pessoas
- **DateExtractorAgent**: Extrai per√≠odos dos segmentos cr√≠ticos