# Gov Hub PoC - Extração de Dados Governamentais com IA

Este notebook demonstra uma prova de conceito para extração automatizada de dados de textos do setor governamental utilizando técnicas avançadas de prompt engineering com o modelo Gemini 2.5 Flash.

## Técnicas de Prompt Engineering Utilizadas

### Explicação das técnicas utilizadas neste prompt:

**1. Definição Clara de Papel (Role-Playing):** Ao iniciar com "Você é um especialista em extração de dados altamente preciso...", estabelecemos um contexto para a IA, orientando seu comportamento e o tipo de processamento esperado.

**2. Instruções Explícitas e Detalhadas:** O prompt detalha exatamente quais campos extrair e, crucialmente, como lidar com campos ausentes (valor "") e a obrigatoriedade do formato JSON. A repetição de "SEMPRE" e "obrigatoriamente" reforça essa restrição.

**3. Especificação do Formato de Saída:** A solicitação explícita por um JSON válido, com a estrutura de chaves sempre presente, é fundamental.

**4. Uso de Exemplos (Few-Shot Prompting):** O exemplo com "Texto de Exemplo" e "JSON de Saída Esperado" demonstra concretamente o comportamento desejado, incluindo como tratar campos encontrados e não encontrados.

**5. Uso de Delimitadores:** As seções como **Campos para Extração:**, **Instruções Cruciais...**, **Exemplo de Processamento:**, e o uso de ```json ajudam a estruturar o prompt e a separar claramente as diferentes partes da instrução.

**6. Preparar a Saída (Prefilling):** Ao finalizar o prompt com **JSON de Saída:** \`\`\`json`, estamos "preenchendo" o início da resposta esperada, o que pode ajudar o modelo a seguir o formato corretamente.

## Instalação de Dependências

Primeiro, instalamos a biblioteca necessária para interagir com a API do Google Gemini.

In [None]:
!pip install -q -U google-generativeai

: 

## Configuração da API

Configuramos a chave da API do Google Gemini para acessar o modelo.

In [None]:
import google.generativeai as genai

GEMINI_API_KEY = "AIzaSyC-_uDRqY_s1RSq7b7rrEvrtpOkPKt0M48"
genai.configure(api_key=GEMINI_API_KEY)

model = genai.GenerativeModel('gemini-2.5-flash-preview-05-20')

## Implementação Principal

### Texto de Exemplo

Vamos usar um texto exemplo que simula uma inscrição de empenhos em restos a pagar não processados.

In [None]:
# Texto de contexto para análise
context = "INSCRICAO DE EMPENHOS EM RESTOS A PAGAR NAO PROCESSADOS A LIQUIDAR E EM LIQUI-DACAO, CONFORME INDICACAO DO ORDENADOR DE DESPESA."

### Construção do Prompt Estruturado

O prompt a seguir implementa todas as técnicas de prompt engineering mencionadas anteriormente.

In [None]:
# Construção do prompt com técnicas avançadas
query = f"""
  Você é um especialista em extração de dados altamente preciso, treinado para analisar textos do setor governamental e extrair informações específicas. Sua tarefa é processar o texto fornecido abaixo e retornar SEMPRE os dados extraídos em um formato JSON.

Campos para Extração:
Analise o texto para encontrar os seguintes campos:
*   `num_transf`
*   `contrato_num`
*   `contrato_licitacao`
*   `instrumento_numero`
*   `nc_aux`
*   `nc_prefix`
*   `nc_posfix`
*   `nc`

Instruções Cruciais para o Formato JSON de Saída:
1.  A saída deve ser obrigatoriamente um objeto JSON válido.
2.  Todos os campos listados acima (`num_transf`, `contrato_num`, etc.) devem estar presentes como chaves no objeto JSON.
3.  Se um campo específico não for encontrado no texto fornecido, o valor correspondente no JSON deve ser uma string vazia (`""`). Não omita a chave do campo.
4.  Se um campo for encontrado, seu valor no JSON deve ser a string exata extraída do texto.

Exemplo de Processamento:

Considere o seguinte texto de exemplo:
Processo de Transferência n. TRF2024/001. Contrato Administrativo CA-5678. Referente à Licitação Contratual LCT-034/2023. Instrumento Jurídico IJ-990. Nota de Crédito principal: NC12345.

O JSON de saída esperado para este exemplo seria:
```json
{{
  "num_transf": "TRF2024/001",
  "contrato_num": "CA-5678",
  "contrato_licitacao": "LCT-034/2023",
  "instrumento_numero": "IJ-990",
  "nc_aux": "",
  "nc_prefix": "",
  "nc_posfix": "",
  "nc": "NC12345"
}}

Texto para Análise:
{context}
"""

### Execução da Extração

Agora executamos o prompt e exibimos o resultado da extração de dados.

In [None]:
# Geração do conteúdo usando o modelo Gemini
response = model.generate_content(query)

# Exibição do resultado
print("Resultado da extração de dados:")
print(response.text)

## Análise dos Resultados

O texto fornecido como exemplo ("INSCRICAO DE EMPENHOS EM RESTOS A PAGAR NAO PROCESSADOS A LIQUIDAR E EM LIQUI-DACAO, CONFORME INDICACAO DO ORDENADOR DE DESPESA.") é um texto descritivo geral que não contém os campos específicos que estamos procurando.

Portanto, esperamos que o resultado seja um JSON com todos os campos vazios, demonstrando que o prompt está funcionando corretamente ao seguir as instruções de retornar strings vazias para campos não encontrados.

## Teste com Dados Mais Ricos

Para testar melhor o sistema, vamos usar um texto mais rico em informações:

In [None]:
# Texto de exemplo mais rico
context_teste = """
Processo de Transferência n. TRF2024/001. 
Contrato Administrativo CA-5678. 
Referente à Licitação Contratual LCT-034/2023. 
Instrumento Jurídico IJ-990. 
Nota de Crédito principal: NC12345.
INSCRICAO DE EMPENHOS EM RESTOS A PAGAR NAO PROCESSADOS A LIQUIDAR E EM LIQUI-DACAO, 
CONFORME INDICACAO DO ORDENADOR DE DESPESA.
"""

# Novo prompt com o texto de teste
query_teste = f"""
  Você é um especialista em extração de dados altamente preciso, treinado para analisar textos do setor governamental e extrair informações específicas. Sua tarefa é processar o texto fornecido abaixo e retornar SEMPRE os dados extraídos em um formato JSON.

Campos para Extração:
Analise o texto para encontrar os seguintes campos:
*   `num_transf`
*   `contrato_num`
*   `contrato_licitacao`
*   `instrumento_numero`
*   `nc_aux`
*   `nc_prefix`
*   `nc_posfix`
*   `nc`

Instruções Cruciais para o Formato JSON de Saída:
1.  A saída deve ser obrigatoriamente um objeto JSON válido.
2.  Todos os campos listados acima (`num_transf`, `contrato_num`, etc.) devem estar presentes como chaves no objeto JSON.
3.  Se um campo específico não for encontrado no texto fornecido, o valor correspondente no JSON deve ser uma string vazia (`""`). Não omita a chave do campo.
4.  Se um campo for encontrado, seu valor no JSON deve ser a string exata extraída do texto.

Texto para Análise:
{context_teste}
"""

# Execução do teste
response_teste = model.generate_content(query_teste)

print("Resultado da extração com dados mais ricos:")
print(response_teste.text)

## Conclusão

Esta prova de conceito demonstra como técnicas avançadas de prompt engineering podem ser aplicadas para extrair dados estruturados de textos governamentais de forma consistente e confiável. As técnicas utilizadas garantem:

1. **Consistência** no formato de saída
2. **Robustez** no tratamento de campos ausentes
3. **Precisão** na extração de informações específicas
4. **Escalabilidade** para diferentes tipos de documentos governamentais

O sistema pode ser facilmente adaptado para extrair outros tipos de campos ou trabalhar com diferentes domínios de documentos.