# Extração de Dados Estruturados do EFD ICMS/IPI

## Objetivo
Este notebook explora diferentes abordagens para extrair informações estruturadas (JSON) de documentos fiscais (EFD ICMS/IPI) usando técnicas modernas de IA, sem depender de parsers tradicionais.

## Contexto
O EFD ICMS/IPI é um arquivo digital que contém informações fiscais detalhadas. Tradicionalmente, a extração dessas informações é feita usando parsers específicos que precisam ser atualizados frequentemente devido a mudanças na legislação. Este projeto busca uma abordagem mais flexível usando IA.

## Abordagens Testadas
1. **RAG (Retrieval Augmented Generation)**
   - Combina busca semântica com geração de texto
   - Permite extrair informações específicas do contexto
   - Mais flexível que parsers tradicionais

2. **LLMs (Large Language Models)**
   - Modelos de linguagem para geração de texto
   - Capazes de entender e estruturar informações
   - Podem lidar com variações no formato dos dados

3. **Modelos de Embeddings**
   - Convertem texto em vetores para busca semântica
   - Permitem encontrar informações relevantes no documento
   - Melhoram a precisão da extração

In [1]:
import shutil

caminho_pasta = "E:/Carla Reis/Projects/Notebooks/efd-ia/efd_utils/__pycache__"

try:
    shutil.rmtree(caminho_pasta)
    print(f"Pasta e todo seu conteúdo {caminho_pasta} excluídos com sucesso!")
except FileNotFoundError:
    print("A pasta não existe!")
except PermissionError:
    print("Sem permissão para excluir!")
except Exception as e:
    print(f"Erro inesperado: {str(e)}")


Pasta e todo seu conteúdo E:/Carla Reis/Projects/Notebooks/efd-ia/efd_utils/__pycache__ excluídos com sucesso!


In [2]:
import sys
import os
sys.path.append(os.path.join(os.path.dirname(os.getcwd()), '..'))

import json
from efd_utils.pdf_rag_extractor import PDFRAGExtractor

from dotenv import load_dotenv

# Carrega as variáveis de ambiente
load_dotenv()

True

`sentence-transformers/all-MiniLM-L6-v2`

## Teste 1: Modelo Base com RAG

### Configuração
- **Modelo de Embeddings**: 
`neuralmind/bert-base-portuguese-cased`
  - Modelo leve e eficiente
  - Boa performance em textos em português
  - Baixo consumo de memória

- **Modelo de Geração**: `google/flan-t5-base`
  - Modelo base do T5
  - Bom para tarefas de extração
  - Equilibra performance e recursos

- **Hardware**: GPU CUDA
  - Aceleração por GPU
  - Processamento mais rápido

### Objetivo
Avaliar a capacidade básica de extração usando RAG com um modelo mais leve e eficiente.

### Execução

In [2]:
# Inicialize o extrator com o caminho do PDF
extractor = PDFRAGExtractor(
    pdf_path=os.getenv('PDF_COMPLETO'),
    embedding_model="neuralmind/bert-base-portuguese-cased",
    generation_model="google/flan-t5-base",
    device="cuda"  # ou "cpu"
    )

# Fazer queries
#resultado = extractor.process_pdf("Extraia de forma completa e detalhada todos os campos, descrições técnicas e observações importantes do registro 0200 conforme consta no documento.")
resultado = extractor.process_pdf("REGISTRO 0200 - CADASTRO DE ITENS DO INFORMANTE")

print(json.dumps(resultado, indent=2, ensure_ascii=False))




No sentence-transformers model found with name neuralmind/bert-base-portuguese-cased. Creating a new one with mean pooling.
Device set to use cuda:0



Carregando PDF: E:\Carla Reis\Projects\Notebooks\efd-ia\data\pdfs\tests\0200-0205.pdf
Total de páginas carregadas: 4

Conteúdo das páginas:

Página 1:
Guia Prático EFD-ICMS/IPI – Versão 3.1.7  
Atualização: 14 de agosto de 2024 
 
 Página 35 de 361 
 
 
Campo 01 (REG) - Valor Válido: [0175] 
 
Campo 02 (DT_ALT) - Validação: o valor informado no campo deve estar entre o campo DT_INI e o campo DT_FIN do 
registro 0000. 
 
Campo 03 (NR_CAMPO) - Preenchimento: informar o número do campo alterado, relativo ao registro 0150.  
Validação: Valores Válidos: [03, 04, 05, 06, 08, 09, 10, 11, 12, 13] 
 
Campo 04 (CONT_ANT) - Preenchimento: os dados inform...
--------------------------------------------------------------------------------

Página 2:
Guia Prático EFD-ICMS/IPI – Versão 3.1.7  
Atualização: 14 de agosto de 2024 
 
 Página 36 de 361 
 
d) A discriminação do item deve indicar precisamente o mesmo, sendo vedadas discriminações diferentes para o 
mesmo item ou discriminações genéricas (a

Token indices sequence length is longer than the specified maximum sequence length for this model (5242 > 1024). Running this sequence through the model will result in indexing errors


Vector store criado com sucesso!

Buscando documentos relevantes para a query: REGISTRO 0200 - CADASTRO DE ITENS DO INFORMANTE

Documentos relevantes encontrados (12):

Documento 1 (Score: 0.4997):
Conteúdo: REGISTRO 0190: IDENTIFICAÇÃO DAS UNIDADES DE MEDIDA 
 
Este registro tem por objetivo descrever as unidades de medidas utilizadas no arquivo digital. Não podem ser 
informados dois ou mais registros com o mesmo código de unidade de medida. Somente devem constar as unidades de medidas 
informadas em qualquer outro registro. 
 
Nº Campo Descrição Tipo Tam Dec Obrig 
01 REG Texto fixo contendo "0190" C 004 - O 
02 UNID Código da unidade de medida C 006 - O 
03 DESCR Descrição da unidade de medida C - - O 
Observações:   
Nível hierárquico: 2 
Ocorrência: vários por arquivo 
 
Campo 01 (REG) - Valor Válido: [0190] 
 
Campo 02 (UNID) - Validação: o valor informado neste campo deve existir em, pelo menos, um outro registro do arquivo.  
 
REGISTRO 0200: TABELA DE IDENTIFICAÇÃO DO ITEM (P




Resultado bruto do modelo:
Observacoes 5. Para cada campo, inclua: - Nome de campo - Descrizione completa - Tipo (C=Caractere, N=Numérico, D=Data) - Tamanho 6. Inclua toda as observaçes técnicas e regras de validaço.


AVISO: Nenhum JSON encontrado no resultado: Observacoes 5. Para cada campo, inclua: - Nome de campo - Descrizione completa - Tipo (C=Caractere, N=Numérico, D=Data) - Tamanho 6. Inclua toda as observaçes técnicas e regras de validaço.
{
  "erro": "Nenhum JSON encontrado no resultado",
  "texto_original": "Observacoes 5. Para cada campo, inclua: - Nome de campo - Descrizione completa - Tipo (C=Caractere, N=Numérico, D=Data) - Tamanho 6. Inclua toda as observaçes técnicas e regras de validaço."
}


### Analise de Resultados


## Teste 2

### Configuração
- **Modelo de Embeddings**: 
`neuralmind/bert-base-portuguese-cased`
  - Modelo leve e eficiente
  - Boa performance em textos em português
  - Baixo consumo de memória

- **Modelo de Geração**: `t5-base`
  - Modelo base do T5
  - Bom para tarefas de extração
  - Equilibra performance e recursos

- **Hardware**: GPU CUDA
  - Aceleração por GPU
  - Processamento mais rápido

### Objetivo
Avaliar a capacidade básica de extração usando RAG com um modelo mais leve e eficiente.

### Execução

In [3]:
# Inicialize o extrator com o caminho do PDF
extractor = PDFRAGExtractor(
    pdf_path=os.getenv('PDF_COMPLETO'),
    embedding_model="neuralmind/bert-base-portuguese-cased",
    generation_model="t5-large",
    device="cuda"  # ou "cpu"
    )

# Fazer queries
resultado = extractor.process_pdf("REGISTRO 0200 - CADASTRO DE ITENS DO INFORMANTE")
print(json.dumps(resultado, indent=2, ensure_ascii=False))




No sentence-transformers model found with name neuralmind/bert-base-portuguese-cased. Creating a new one with mean pooling.


Usando modelo seq2seq (encoder-decoder)

Carregando PDF: E:\Carla Reis\Projects\Notebooks\efd-ia\data\pdfs\tests\0200-0205.pdf
Total de páginas carregadas: 4

Conteúdo das páginas:

Página 1:
Guia Prático EFD-ICMS/IPI – Versão 3.1.7  
Atualização: 14 de agosto de 2024 
 
 Página 35 de 361 
 
 
Campo 01 (REG) - Valor Válido: [0175] 
 
Campo 02 (DT_ALT) - Validação: o valor informado no campo deve estar entre o campo DT_INI e o campo DT_FIN do 
registro 0000. 
 
Campo 03 (NR_CAMPO) - Preenchimento: informar o número do campo alterado, relativo ao registro 0150.  
Validação: Valores Válidos: [03, 04, 05, 06, 08, 09, 10, 11, 12, 13] 
 
Campo 04 (CONT_ANT) - Preenchimento: os dados inform...
--------------------------------------------------------------------------------

Página 2:
Guia Prático EFD-ICMS/IPI – Versão 3.1.7  
Atualização: 14 de agosto de 2024 
 
 Página 36 de 361 
 
d) A discriminação do item deve indicar precisamente o mesmo, sendo vedadas discriminações diferentes para o 
m

Both `max_new_tokens` (=512) and `max_length`(=1024) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)



Resultado bruto do modelo:
dos campos CNPJ ou CPF.  Regras: 1. Retorne APENAS um objeto JSON com a seguinte estrutura:  "cod_item": "string", "descr_lst": string vazia o texto apenas os valores encontrados no texto O registro 0200 tem como objet


Nenhum JSON encontrado no resultado
{}


### Analise de resultados

## Teste 3

### Configuração
- **Modelo de Embeddings**: 
`neuralmind/bert-base-portuguese-cased`
  - Modelo leve e eficiente
  - Boa performance em textos em português
  - Baixo consumo de memória

- **Modelo de Geração**: `facebook/bart-base`
  - Modelo base do T5
  - Bom para tarefas de extração
  - Equilibra performance e recursos

- **Hardware**: GPU CUDA
  - Aceleração por GPU
  - Processamento mais rápido

### Objetivo
Avaliar a capacidade básica de extração usando RAG com um modelo mais leve e eficiente.

### Execução

In [4]:
extractor = PDFRAGExtractor(
    pdf_path=os.getenv('PDF_COMPLETO'),
    embedding_model="neuralmind/bert-base-portuguese-cased",
    generation_model="facebook/bart-base",  # Usando um modelo mais leve
    device="cuda"  # Forçando uso de CPU
)

resultado = extractor.process_pdf("REGISTRO 0200 - CADASTRO DE ITENS DO INFORMANTE")
print(json.dumps(resultado, indent=4, ensure_ascii=False))


No sentence-transformers model found with name neuralmind/bert-base-portuguese-cased. Creating a new one with mean pooling.


Usando modelo seq2seq (encoder-decoder)

Carregando PDF: E:\Carla Reis\Projects\Notebooks\efd-ia\data\pdfs\tests\0200-0205.pdf
Total de páginas carregadas: 4

Conteúdo das páginas:

Página 1:
Guia Prático EFD-ICMS/IPI – Versão 3.1.7  
Atualização: 14 de agosto de 2024 
 
 Página 35 de 361 
 
 
Campo 01 (REG) - Valor Válido: [0175] 
 
Campo 02 (DT_ALT) - Validação: o valor informado no campo deve estar entre o campo DT_INI e o campo DT_FIN do 
registro 0000. 
 
Campo 03 (NR_CAMPO) - Preenchimento: informar o número do campo alterado, relativo ao registro 0150.  
Validação: Valores Válidos: [03, 04, 05, 06, 08, 09, 10, 11, 12, 13] 
 
Campo 04 (CONT_ANT) - Preenchimento: os dados inform...
--------------------------------------------------------------------------------

Página 2:
Guia Prático EFD-ICMS/IPI – Versão 3.1.7  
Atualização: 14 de agosto de 2024 
 
 Página 36 de 361 
 
d) A discriminação do item deve indicar precisamente o mesmo, sendo vedadas discriminações diferentes para o 
m

Both `max_new_tokens` (=512) and `max_length`(=1024) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Vector store criado com sucesso!

Buscando documentos relevantes para a query: REGISTRO 0200 - CADASTRO DE ITENS DO INFORMANTE

Documentos relevantes encontrados (12):

Documento 1 (Score: 0.4997):
Conteúdo: REGISTRO 0190: IDENTIFICAÇÃO DAS UNIDADES DE MEDIDA 
 
Este registro tem por objetivo descrever as unidades de medidas utilizadas no arquivo digital. Não podem ser 
informados dois ou mais registros com o mesmo código de unidade de medida. Somente devem constar as unidades de medidas 
informadas em qualquer outro registro. 
 
Nº Campo Descrição Tipo Tam Dec Obrig 
01 REG Texto fixo contendo "0190" C 004 - O 
02 UNID Código da unidade de medida C 006 - O 
03 DESCR Descrição da unidade de medida C - - O 
Observações:   
Nível hierárquico: 2 
Ocorrência: vários por arquivo 
 
Campo 01 (REG) - Valor Válido: [0190] 
 
Campo 02 (UNID) - Validação: o valor informado neste campo deve existir em, pelo menos, um outro registro do arquivo.  
 
REGISTRO 0200: TABELA DE IDENTIFICAÇÃO DO ITEM (P

In [5]:
extractor = PDFRAGExtractor(
    pdf_path=os.getenv('PDF_COMPLETO'),
    embedding_model="neuralmind/bert-base-portuguese-cased",
    generation_model="facebook/bart-base",  # Usando um modelo mais leve
    device="cuda"  # Forçando uso de CPU
)

resultado = extractor.process_pdf("REGISTRO 0200 - CADASTRO DE ITENS DO INFORMANTE")
print(json.dumps(resultado, indent=4, ensure_ascii=False))


No sentence-transformers model found with name neuralmind/bert-base-portuguese-cased. Creating a new one with mean pooling.


Usando modelo seq2seq (encoder-decoder)

Carregando PDF: E:\Carla Reis\Projects\Notebooks\efd-ia\data\pdfs\tests\0200-0205.pdf
Total de páginas carregadas: 4

Conteúdo das páginas:

Página 1:
Guia Prático EFD-ICMS/IPI – Versão 3.1.7  
Atualização: 14 de agosto de 2024 
 
 Página 35 de 361 
 
 
Campo 01 (REG) - Valor Válido: [0175] 
 
Campo 02 (DT_ALT) - Validação: o valor informado no campo deve estar entre o campo DT_INI e o campo DT_FIN do 
registro 0000. 
 
Campo 03 (NR_CAMPO) - Preenchimento: informar o número do campo alterado, relativo ao registro 0150.  
Validação: Valores Válidos: [03, 04, 05, 06, 08, 09, 10, 11, 12, 13] 
 
Campo 04 (CONT_ANT) - Preenchimento: os dados inform...
--------------------------------------------------------------------------------

Página 2:
Guia Prático EFD-ICMS/IPI – Versão 3.1.7  
Atualização: 14 de agosto de 2024 
 
 Página 36 de 361 
 
d) A discriminação do item deve indicar precisamente o mesmo, sendo vedadas discriminações diferentes para o 
m

Both `max_new_tokens` (=512) and `max_length`(=1024) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)



Resultado bruto do modelo:
Analise o texto abaixo e extraia as informações do registro 0200 do EFD ICMS/IPI. extingRetorne APENAS um objeto JSON com a seguinte estrutura: exting{@#@#@##$@##$%@#@#$@#@#%@#$%@#@#$@#@#@%@##$#$@#$#$@#@@#@#{@##$$@#$@#$%#$%$$@##$@#$#$%%@#%#$@#%$@#@@#${@#$$#$#$#$$$$%#$$%$#$%@#$$@%$%%$"    "cod_barra": "string",@#@#&@#$%%$$@@#$#@#$&@#%@$${@#@$@$@#%%#$#$@$%@%#$%,@#$!@#$",@#$"@#$%"@#$^@#@#%%$@#%%@#$ $@#@# $@#${$@#^$$^$@#&$$&$@#{$$#$$}@#$_$$ $%${%$&%$}$$"$$$$$$$$?$$!$$/$$/$%$?%$/%$/$?$/$$$$$??$%$,$$=$$.$$$$$$,$$1. RetorneAPENAS o JSON, sem texto adicional $$$2. Use os valores exatos encontrados no texto Adicional$$3. Mantenha a estruthura exata do JSON$$4. Inclua todos os campos encontrado $$5. $5. Se um campo não for enconrado, use string vazia $$ $.$ $$$$ $1.$REGISTRO 0190: IDENTIFICAÇÃO DAS UNIDADES DE MEDIDA _________________________________________$ ߡ$Este registro tem por objetivo descrever as unidades de medidas utilizadas no arquivo digital. Não podem ser

### Analise de resultados

## Teste 4

### Configuração
- **Modelo de Embeddings**: 
`neuralmind/bert-base-portuguese-cased`
  - Modelo leve e eficiente
  - Boa performance em textos em português
  - Baixo consumo de memória

- **Modelo de Geração**: `mistralai/Mistral-7B-Instruct-v0.2`
  - Modelo base do T5
  - Bom para tarefas de extração
  - Equilibra performance e recursos

- **Hardware**: GPU CUDA
  - Aceleração por GPU
  - Processamento mais rápido

### Objetivo
Avaliar a capacidade básica de extração usando RAG com um modelo mais leve e eficiente.

### Execução

In [6]:
extractor = PDFRAGExtractor(
    pdf_path=os.getenv('PDF_COMPLETO'),
    embedding_model="neuralmind/bert-base-portuguese-cased",
    generation_model="mistralai/Mistral-7B-Instruct-v0.2",  # Usando um modelo mais leve
    device="cuda"  # Forçando uso de CPU
)

resultado = extractor.process_pdf("Extraia de forma completa e detalhada todos os campos, descrições técnicas e observações importantes do registro 0200 conforme consta no documento.")

print(json.dumps(resultado, indent=4, ensure_ascii=False))


No sentence-transformers model found with name neuralmind/bert-base-portuguese-cased. Creating a new one with mean pooling.


Usando modelo causal


Loading checkpoint shards:   0%|          | 0/3 [00:00<?, ?it/s]

Some parameters are on the meta device because they were offloaded to the cpu and disk.
You shouldn't move a model that is dispatched using accelerate hooks.


RuntimeError: You can't move a model that has some modules offloaded to cpu or disk.

### Analise de Resultados