# Gov Hub PoC v2 - Extração Avançada com Chain of Thought e Validação

Este notebook demonstra uma prova de conceito avançada para extração automatizada de dados de textos do setor governamental, implementando técnicas sofisticadas de prompt engineering com o modelo Gemini 2.5 Flash.

## Evolução da PoC v1

Enquanto a **PoC v1** focou em prompts estruturados básicos, a **PoC v2** implementa um **pipeline robusto de extração e validação** com múltiplas camadas de verificação e correção automática.

## Técnicas Avançadas de Prompt Engineering Implementadas

### 1. **Chain of Thought (CoT) Prompting**
**Conceito:** Força o modelo a explicitar seu raciocínio passo a passo antes de chegar à resposta final.

**Implementação:** O prompt solicita que a IA primeiro descreva seu raciocínio para cada campo, citando as partes específicas do texto que justificam a extração, e só depois construa o JSON final.

**Benefícios:**
- Maior precisão na extração
- Transparência no processo de decisão
- Facilita debugging e validação
- Reduz alucinações

### 2. **Step-by-Step Reasoning (Raciocínio Estruturado)**
**Conceito:** Decomposição do problema em etapas menores e mais gerenciáveis.

**Implementação:** O processo é dividido em:
1. Análise campo por campo com justificativas
2. Construção do JSON estruturado
3. Validação independente

### 3. **Self-Consistency Decoding**
**Conceito:** Gera múltiplas respostas independentes e escolhe a mais consistente através de votação majoritária.

**Implementação:** 
- Executa o prompt CoT 3 vezes com temperatura mais alta (0.5) para gerar variabilidade
- Coleta os valores de cada campo das múltiplas execuções
- Aplica votação majoritária para cada campo
- Constrói JSON final com os valores mais votados

**Benefícios:**
- Maior robustez contra erros aleatórios
- Redução de inconsistências
- Maior confiabilidade em casos ambíguos

### 4. **Validation Prompts (Prompts de Validação)**
**Conceito:** Utiliza um segundo prompt independente para auditar e validar os resultados da extração.

**Implementação:** 
- Prompt especializado em auditoria que compara o texto original com o JSON extraído
- Verifica campo por campo se a extração está correta
- Retorna análise booleana (correto/incorreto) e lista de correções necessárias

**Benefícios:**
- Detecção automática de erros
- Controle de qualidade automatizado
- Feedback específico para melhorias

## Arquitetura do Pipeline

```
Texto de Entrada
       ↓
1. Chain of Thought Extraction
   ├─ Raciocínio explícito
   └─ JSON estruturado
       ↓
2. Self-Consistency Decoding
   ├─ 3 execuções independentes
   ├─ Votação majoritária por campo
   └─ JSON consolidado
       ↓
3. Validation & Quality Check
   ├─ Auditoria independente
   ├─ Verificação campo por campo
   └─ Relatório de qualidade
       ↓
Resultado Final Validado
```

## Instalação de Dependências

Instalamos as bibliotecas necessárias para interagir com a API do Google Gemini e processamento de dados.

In [None]:
!pip install -q -U google-generativeai

## Configuração da API

Configuramos a chave da API do Google Gemini para acessar o modelo.

In [48]:
import google.generativeai as genai
import os
import re
import json
import collections

GEMINI_API_KEY = "AIzaSyC-_uDRqY_s1RSq7b7rrEvrtpOkPKt0M48"

try:
    import google.generativeai as genai
    genai.configure(api_key=GEMINI_API_KEY)
    model = genai.GenerativeModel('gemini-2.5-flash-preview-05-20')
    print("API Gemini configurada com sucesso.")
except Exception as e:
    print(f"Erro ao configurar a API Gemini: {e}")
    model = None

API Gemini configurada com sucesso.


## Implementação dos Prompts Avançados

### 1. Chain of Thought Extraction Prompt

Este prompt implementa as técnicas de **Chain of Thought** e **Step-by-Step Reasoning**:

**Características principais:**
- **Divisão em duas etapas:** Primeiro raciocínio, depois JSON
- **Justificativas obrigatórias:** Para cada campo, o modelo deve citar a parte específica do texto
- **Exemplo detalhado:** Demonstra o comportamento esperado com raciocínio explícito
- **Estrutura rígida:** Formato de saída bem definido para facilitar parsing

**Aplicação da técnica CoT:**
- Força explicitação do raciocínio com `**RACIOCÍNIO PASSO A PASSO:**`
- Exige justificativa textual para cada decisão
- Separa claramente pensamento e resultado final

### 2. Validation Prompt

Este prompt implementa a técnica de **Validation Prompts**:

**Características principais:**
- **Papel de auditor:** Define o modelo como "auditor de qualidade de dados meticuloso"
- **Comparação sistemática:** Verifica campo por campo contra o texto original
- **Saída estruturada:** Retorna booleano + lista de correções específicas
- **Critérios claros:** Define exatamente que tipos de erros procurar

**Aplicação da técnica de Validação:**
- Processo independente de verificação
- Métrica objetiva de qualidade (`is_correct`)
- Feedback acionável para melhorias (`corrections_needed`)

In [43]:
COT_EXTRACTION_PROMPT_TEMPLATE = """
Você é um especialista em extração de dados altamente preciso, treinado para analisar textos do setor governamental.

Sua tarefa é dividida em duas etapas:
1.  **RACIOCÍNIO PASSO A PASSO:** Primeiro, descreva o raciocínio para encontrar cada um dos campos solicitados. Para cada campo, mencione a frase ou o termo exato do texto que justifica a extração. Se um campo não for encontrado, declare explicitamente que ele não está presente no texto.
2.  **JSON FINAL:** Com base no seu raciocínio, construa o objeto JSON final.

Campos para Extração:
* `num_transf`
* `contrato_num`
* `contrato_licitacao`
* `instrumento_numero`
* `nc_aux`
* `nc_prefix`
* `nc_posfix`
* `nc`

Instruções Cruciais para o Formato JSON de Saída:
1.  A saída final deve ser um objeto JSON válido, dentro de um bloco de código JSON delimitado por ```json e ```.
2.  Todos os campos listados devem estar presentes como chaves no JSON.
3.  Se um campo específico não for encontrado no texto fornecido, o valor correspondente no JSON deve ser uma string vazia (`""`). Não omita a chave do campo.
4.  Se um campo for encontrado, seu valor no JSON deve ser a string exata extraída do texto.

---
EXEMPLO DE PROCESSAMENTO:
Texto de Exemplo para Análise:
Processo de Transferência n. TRF2024/001. Contrato Administrativo CA-5678. Referente à Licitação Contratual LCT-034/2023. Instrumento Jurídico IJ-990. Nota de Crédito principal: NC12345.

SAÍDA ESPERADA PARA O EXEMPLO:

**RACIOCÍNIO PASSO A PASSO:**
* `num_transf`: Encontrado em "Processo de Transferência n. TRF2024/001". O valor é "TRF2024/001".
* `contrato_num`: Encontrado em "Contrato Administrativo CA-5678". O valor é "CA-5678".
* `contrato_licitacao`: Encontrado em "Licitação Contratual LCT-034/2023". O valor é "LCT-034/2023".
* `instrumento_numero`: Encontrado em "Instrumento Jurídico IJ-990". O valor é "IJ-990".
* `nc_aux`: Não encontrado no texto.
* `nc_prefix`: Não encontrado no texto.
* `nc_posfix`: Não encontrado no texto.
* `nc`: Encontrado em "Nota de Crédito principal: NC12345". O valor é "NC12345".

**JSON FINAL:**
```json
{{
  "num_transf": "TRF2024/001",
  "contrato_num": "CA-5678",
  "contrato_licitacao": "LCT-034/2023",
  "instrumento_numero": "IJ-990",
  "nc_aux": "",
  "nc_prefix": "",
  "nc_posfix": "",
  "nc": "NC12345"
}}

Texto para Análise:
{text_to_analyze}

Sua Resposta (Raciocínio e JSON):
"""

VALIDATION_PROMPT_TEMPLATE = """
Você é um auditor de qualidade de dados meticuloso. Sua tarefa é verificar se o objeto JSON fornecido foi extraído corretamente do texto original.

Compare o `TEXTO_ORIGINAL` com o `JSON_EXTRAÍDO` campo por campo.

Responda com um objeto JSON contendo dois campos:
1.  `is_correct`: um booleano (`true` ou `false`). Será `false` se houver UMA ou mais discrepâncias significativas ou se algum campo obrigatório estiver faltando no JSON_EXTRAÍDO quando deveria estar presente com base no texto.
2.  `corrections_needed`: uma lista de strings descrevendo cada erro encontrado ou sugestão de melhoria. Se nenhum erro for encontrado, a lista deve estar vazia.

Campos esperados e suas descrições (para sua referência ao auditar):
* `num_transf`: Número do processo de transferência.
* `contrato_num`: Número do contrato administrativo.
* `contrato_licitacao`: Número da licitação contratual.
* `instrumento_numero`: Número do instrumento jurídico.
* `nc_aux`: Nota de crédito auxiliar (se houver).
* `nc_prefix`: Prefixo da nota de crédito principal (se aplicável, parte antes do número principal).
* `nc_posfix`: Posfixo da nota de crédito principal (se aplicável, parte depois do número principal).
* `nc`: Número principal da nota de crédito.

Exemplos de erros a procurar:
* Um campo foi extraído, mas está incorreto, incompleto ou contém informação de outro campo.
* Um campo foi marcado como vazio (`""`) no JSON_EXTRAÍDO, mas a informação estava claramente presente no TEXTO_ORIGINAL.
* Um campo foi preenchido no JSON_EXTRAÍDO, mas a informação não existe no TEXTO_ORIGINAL ou não corresponde à finalidade do campo.

---
TEXTO_ORIGINAL:
{text_to_analyze}

---
JSON_EXTRAÍDO (para sua auditoria):
```json
{json_to_validate}
```

---
SUA ANÁLISE DE AUDITORIA (apenas o JSON com `is_correct` e `corrections_needed`):
"""

# Texto de exemplo para teste
amostra = """ANULACAO PARCIAL - TENDO EM VISTA SALDO INVERTIDO NA CONTA CREDITO DISPONIVEL - LANCAMENTO N..D - 000037 - FITA SOF/ESB1AFY."""

## Funções Auxiliares

### Explicação das Funções Implementadas:

1. **`get_gemini_completion()`** - Interface padronizada para chamadas da API Gemini
2. **`extract_json_from_text()`** - Parser robusto para extrair JSON de respostas de texto
3. **`extract_with_cot()`** - Implementa a extração com Chain of Thought
4. **`extract_with_self_consistency()`** - Implementa Self-Consistency Decoding
5. **`validate_extraction()`** - Executa validação independente dos resultados

In [49]:
def get_gemini_completion(prompt_text, temperature=0.2, safety_settings=None):
    """
    Chama o modelo Gemini para gerar conteúdo.
    Args:
        prompt_text (str): O prompt para o modelo.
        temperature (float): Controla a aleatoriedade da saída.
        safety_settings (dict): Configurações de segurança.
    Returns:
        str: A resposta do modelo ou uma mensagem de erro.
    """
    if not model:
        return "Erro: Modelo Gemini não configurado."
    try:
        default_safety_settings = [
            {"category": "HARM_CATEGORY_HARASSMENT", "threshold": "BLOCK_NONE"},
            {"category": "HARM_CATEGORY_HATE_SPEECH", "threshold": "BLOCK_NONE"},
            {"category": "HARM_CATEGORY_SEXUALLY_EXPLICIT", "threshold": "BLOCK_NONE"},
            {"category": "HARM_CATEGORY_DANGEROUS_CONTENT", "threshold": "BLOCK_NONE"},
        ]

        response = model.generate_content(
            prompt_text,
            generation_config=genai.types.GenerationConfig(temperature=temperature),
            safety_settings=safety_settings if safety_settings else default_safety_settings
        )
        return response.text
    except Exception as e:
        print(f"Erro durante a chamada da API Gemini: {e}")
        if hasattr(e, 'response') and e.response:
            print(f"Detalhes do erro da API: {e.response}")
        return f"Erro na API: {str(e)}"

def extract_json_from_text(text_with_json):
    """
    Extrai o primeiro bloco JSON válido de uma string de texto.
    """
    match = re.search(r'```json\s*(\{.*?\})\s*```', text_with_json, re.DOTALL)
    if match:
        json_str = match.group(1)
        try:
            return json.loads(json_str)
        except json.JSONDecodeError as e:
            print(f"Erro ao decodificar JSON (bloco ```json): {e}. JSON string: {json_str}")
            return None

    try:
        match_direct = re.search(r'(\{.*?\})(?=\s*$|\n)', text_with_json, re.DOTALL)
        if match_direct:
            json_str_direct = match_direct.group(1)
            try:
                return json.loads(json_str_direct)
            except json.JSONDecodeError as e:
                print(f"Erro ao decodificar JSON (direto): {e}. JSON string: {json_str_direct}")
                cleaned_json_str = re.sub(r'[^\x00-\x7F]+','', json_str_direct)
                try:
                    return json.loads(cleaned_json_str)
                except json.JSONDecodeError as e_cleaned:
                    print(f"Erro ao decodificar JSON (limpo): {e_cleaned}. JSON string: {cleaned_json_str}")
                    return None
        return None
    except Exception as e:
        print(f"Erro inesperado ao tentar extrair JSON: {e}")
        return None

def extract_with_cot(text_to_analyze):
    """
    Executa a extração usando o prompt Chain of Thought.
    Retorna a resposta completa do modelo (raciocínio + JSON) e o JSON extraído.
    """
    prompt = COT_EXTRACTION_PROMPT_TEMPLATE.format(text_to_analyze=text_to_analyze)
    full_response = get_gemini_completion(prompt, temperature=0.1)

    if "Erro" in full_response:
        print(f"Falha na chamada da API para CoT: {full_response}")
        return full_response, None

    extracted_json = extract_json_from_text(full_response)
    if extracted_json is None:
        print("CoT: Não foi possível extrair JSON da resposta do modelo.")
        print("Resposta completa do modelo para depuração:\n", full_response)
    return full_response, extracted_json

def extract_with_self_consistency(text_to_analyze, n_samples=3):
    """
    Executa a extração usando Self-Consistency sobre múltiplas respostas CoT.
    """
    all_extracted_jsons = []
    raw_responses = []

    print(f"\n--- Iniciando Self-Consistency com {n_samples} amostras ---")
    for i in range(n_samples):
        print(f"Amostra {i+1}/{n_samples}...")
        prompt = COT_EXTRACTION_PROMPT_TEMPLATE.format(text_to_analyze=text_to_analyze)
        full_response = get_gemini_completion(prompt, temperature=0.5)
        raw_responses.append(full_response)

        if "Erro" in full_response:
            print(f"  Falha na chamada da API para amostra {i+1}: {full_response}")
            continue

        current_json = extract_json_from_text(full_response)
        if current_json:
            all_extracted_jsons.append(current_json)
            print(f"  JSON extraído da amostra {i+1}: {current_json}")
        else:
            print(f"  Não foi possível extrair JSON da amostra {i+1}.")

    if not all_extracted_jsons:
        print("Self-Consistency: Nenhum JSON válido foi extraído de nenhuma das amostras.")
        return None, raw_responses

    fields = ["num_transf", "contrato_num", "contrato_licitacao", "instrumento_numero",
              "nc_aux", "nc_prefix", "nc_posfix", "nc"]

    final_aggregated_json = {}

    for field in fields:
        field_values = []
        for extracted_json in all_extracted_jsons:
           field_values.append(extracted_json.get(field, ""))

        if not field_values:
            final_aggregated_json[field] = ""
            continue

        value_counts = collections.Counter(field_values)
        most_common_value, count = value_counts.most_common(1)[0]
        final_aggregated_json[field] = most_common_value
        print(f"  Campo '{field}': Valores coletados: {field_values} -> Mais comum: '{most_common_value}' (contagem: {count})")

    return final_aggregated_json, raw_responses

def validate_extraction(text_to_analyze, json_to_validate_str):
    """
    Usa um prompt de validação para verificar o JSON extraído.
    """
    prompt = VALIDATION_PROMPT_TEMPLATE.format(
        text_to_analyze=text_to_analyze,
        json_to_validate=json_to_validate_str
    )
    validation_response_text = get_gemini_completion(prompt, temperature=0.1)

    if "Erro" in validation_response_text:
        print(f"Falha na chamada da API para Validação: {validation_response_text}")
        return validation_response_text, None

    validation_json = extract_json_from_text(validation_response_text)
    if validation_json is None:
        print("Validação: Não foi possível extrair JSON da resposta de validação.")
        print("Resposta completa da validação para depuração:\n", validation_response_text)

    return validation_response_text, validation_json

## Execução do Pipeline Completo

### Descrição das Etapas:

1. **Etapa 1 - Chain of Thought Extraction:**
   - Utiliza temperatura baixa (0.1) para precisão
   - Força explicitação do raciocínio
   - Gera JSON estruturado com justificativas

2. **Etapa 2 - Self-Consistency Decoding:**
   - Executa 3 amostras independentes com temperatura 0.5
   - Aplica votação majoritária por campo
   - Consolida resultado mais robusto

3. **Etapa 3 - Validation & Quality Check:**
   - Auditoria independente do resultado
   - Verificação campo por campo
   - Relatório de qualidade com correções específicas

In [50]:
if not model:
    print("Pipeline não pode ser executado pois o modelo Gemini não foi configurado.")
else:
    print("=" * 70)
    print("    GOV HUB PoC v2 - PIPELINE DE EXTRAÇÃO AVANÇADA")
    print("=" * 70)
    print(f"Texto para Análise:\n{amostra}\n")

    # ETAPA 1: Chain of Thought Extraction
    print("\n" + "=" * 50)
    print("ETAPA 1: EXTRAÇÃO COM CHAIN OF THOUGHT (CoT)")
    print("=" * 50)
    print("Aplicando técnicas: Chain of Thought + Step-by-Step Reasoning")
    print("Temperatura: 0.1 (baixa para maior precisão)")
    
    cot_full_response, cot_extracted_json = extract_with_cot(amostra)
    print("\nResposta completa do CoT:")
    print("-" * 40)
    print(cot_full_response)
    
    if cot_extracted_json:
        print("\nJSON extraído pelo CoT:")
        print(json.dumps(cot_extracted_json, indent=2, ensure_ascii=False))
    else:
        print("\n❌ CoT: Falha ao extrair JSON.")

    # ETAPA 2: Self-Consistency Decoding
    print("\n" + "=" * 50)
    print("ETAPA 2: SELF-CONSISTENCY DECODING")
    print("=" * 50)
    print("Aplicando técnica: Self-Consistency com votação majoritária")
    print("Temperatura: 0.5 (média para gerar variabilidade)")
    print("Amostras: 3 execuções independentes")
    
    sc_final_json, sc_raw_responses = extract_with_self_consistency(amostra, n_samples=3)

    if sc_final_json:
        print("\n✅ JSON final agregado pelo Self-Consistency:")
        print(json.dumps(sc_final_json, indent=2, ensure_ascii=False))
        json_to_validate = sc_final_json
    else:
        print("\n❌ Self-Consistency: Falha ao agregar JSON.")
        print("Utilizando resultado do CoT como fallback.")
        json_to_validate = cot_extracted_json

    # ETAPA 3: Validation & Quality Check
    print("\n" + "=" * 50)
    print("ETAPA 3: VALIDAÇÃO E CONTROLE DE QUALIDADE")
    print("=" * 50)
    print("Aplicando técnica: Validation Prompts com auditoria independente")
    print("Temperatura: 0.1 (baixa para análise precisa)")
    
    if json_to_validate:
        json_to_validate_str = json.dumps(json_to_validate, indent=2, ensure_ascii=False)
        validation_full_response, validation_result_json = validate_extraction(amostra, json_to_validate_str)
        
        print("\nResposta completa da Validação:")
        print("-" * 40)
        print(validation_full_response)
        
        if validation_result_json:
            print("\n📊 Resultado da Validação:")
            print(json.dumps(validation_result_json, indent=2, ensure_ascii=False))
            
            # Análise final
            is_correct = validation_result_json.get('is_correct', False)
            corrections = validation_result_json.get('corrections_needed', [])
            
            print("\n" + "=" * 50)
            print("ANÁLISE FINAL DE QUALIDADE")
            print("=" * 50)
            
            if is_correct and not corrections:
                print("✅ RESULTADO: Extração APROVADA")
                print("✅ Qualidade: Todos os campos extraídos corretamente")
                print("✅ Validação: Nenhuma correção necessária")
            else:
                print("⚠️  RESULTADO: Extração REQUER ATENÇÃO")
                print(f"📋 Status: {'Correto' if is_correct else 'Incorreto'}")
                if corrections:
                    print("📝 Correções necessárias:")
                    for i, correction in enumerate(corrections, 1):
                        print(f"   {i}. {correction}")
        else:
            print("❌ Validação: Falha ao obter resultado em JSON.")
    else:
        print("❌ Nenhum JSON para validar.")

    print("\n" + "=" * 70)
    print("               PIPELINE CONCLUÍDO COM SUCESSO")
    print("=" * 70)

    GOV HUB PoC v2 - PIPELINE DE EXTRAÇÃO AVANÇADA
Texto para Análise:
ANULACAO PARCIAL - TENDO EM VISTA SALDO INVERTIDO NA CONTA CREDITO DISPONIVEL - LANCAMENTO N..D - 000037 - FITA SOF/ESB1AFY.


ETAPA 1: EXTRAÇÃO COM CHAIN OF THOUGHT (CoT)
Aplicando técnicas: Chain of Thought + Step-by-Step Reasoning
Temperatura: 0.1 (baixa para maior precisão)

Resposta completa do CoT:
----------------------------------------
**RACIOCÍNIO PASSO A PASSO:**
*   `num_transf`: Não encontrado no texto. O texto menciona "LANCAMENTO N..D - 000037", que é um número de lançamento, mas não é explicitamente um "número de transferência" ou "processo de transferência".
*   `contrato_num`: Não encontrado no texto. Não há menção a "contrato" seguido de um número.
*   `contrato_licitacao`: Não encontrado no texto. Não há menção a "licitação" ou "licitação contratual".
*   `instrumento_numero`: Não encontrado no texto. Não há menção a "instrumento jurídico" ou similar.
*   `nc_aux`: Não encontrado no texto. Não há

## Conclusões da PoC v2

### Análise dos Resultados

O texto analisado ("ANULACAO PARCIAL - TENDO EM VISTA SALDO INVERTIDO NA CONTA CREDITO DISPONIVEL - LANCAMENTO N..D - 000037 - FITA SOF/ESB1AFY.") é um texto administrativo que não contém os campos específicos procurados.

### Eficácia das Técnicas Implementadas

1. **Chain of Thought (CoT):**
   - ✅ **Sucesso:** Forneceu raciocínio transparente para cada decisão
   - ✅ **Precisão:** Identificou corretamente que nenhum campo estava presente
   - ✅ **Justificativas:** Explicou por que "LANCAMENTO N..D - 000037" não é um número de transferência

2. **Self-Consistency Decoding:**
   - ✅ **Robustez:** Das 3 amostras, 2 concordaram que todos os campos estavam vazios
   - ✅ **Detecção de outlier:** 1 amostra incorretamente identificou "LANCAMENTO N..D - 000037" como `num_transf`
   - ✅ **Votação majoritária:** Corrigiu automaticamente o erro através do consenso

3. **Validation Prompts:**
   - ✅ **Verificação independente:** Confirmou que a extração estava correta
   - ✅ **Controle de qualidade:** Retornou `is_correct: true` e `corrections_needed: []`
   - ✅ **Confiabilidade:** Validou que campos vazios eram apropriados para este texto

### Vantagens da Abordagem v2 sobre v1

| Aspecto | PoC v1 | PoC v2 |
|---------|--------|--------|
| **Transparência** | Baixa (resultado direto) | Alta (raciocínio explícito) |
| **Robustez** | Baixa (execução única) | Alta (múltiplas execuções + consenso) |
| **Validação** | Manual | Automatizada |
| **Detecção de erros** | Não disponível | Automática com feedback específico |
| **Confiabilidade** | Moderada | Alta (múltiplas camadas de verificação) |

### Casos de Uso Recomendados

- **PoC v1:** Textos simples, prototipagem rápida, casos onde velocidade é prioridade
- **PoC v2:** Documentos críticos, necessidade de auditoria, casos onde precisão máxima é necessária