# ⚙️ PROCESSAMENTO DOCLING

Extrai texto dos documentos usando Docling.

In [1]:
from pathlib import Path
from docling.document_converter import DocumentConverter

# Extensões suportadas
SUPPORTED_EXTENSIONS = ['.pdf', '.md', '.txt']

# Diretórios
docs_dir = Path("pipeline_data/documents")
processed_dir = Path("pipeline_data/processed")
processed_dir.mkdir(parents=True, exist_ok=True)

# Limpar diretório processado recursivamente
for f in processed_dir.rglob("*"):
    if f.is_file():
        f.unlink()

# Listar documentos recursivamente (apenas com extensões suportadas)
all_files = list(docs_dir.rglob("*"))
documents = [f for f in all_files if f.is_file() and f.suffix.lower() in SUPPORTED_EXTENSIONS]

print(f"Documentos encontrados: {len(documents)}")
for doc in documents[:10]:
    # Mostrar o caminho relativo ao docs_dir
    relative_path = doc.relative_to(docs_dir)
    print(f"  {relative_path}")

if len(documents) > 10:
    print(f"  ... e mais {len(documents) - 10} documentos")

Documentos encontrados: 31
  30-Aprovados/Mapas/Visão Geral do Self Checkout.md
  30-Aprovados/Mapas/Visão Geral do NIC.md
  30-Aprovados/Mapas/Processa Sistemas.md
  30-Aprovados/Tópicos/Cancelamento de cupom.md
  30-Aprovados/Tópicos/Solicitação de ajuda.md
  30-Aprovados/Tópicos/Histórico de atualizações Self Checkout.md
  30-Aprovados/Tópicos/Funcionalidade do bloqueio.md
  30-Aprovados/Tópicos/Aplicação de desconto por item.md
  30-Aprovados/Tópicos/Propósito do NIC.md
  30-Aprovados/Tópicos/Reimpressão do último cupom.md
  ... e mais 21 documentos


In [2]:
import shutil

# Processar documentos
converter = DocumentConverter()
processed_count = 0
errors = []
copied_count = 0

for doc_path in documents:
    try:
        # Criar caminho mantendo a estrutura de pastas
        relative_path = doc_path.relative_to(docs_dir)
        output_path = processed_dir / relative_path.parent
        output_path.mkdir(parents=True, exist_ok=True)
        
        # Verificar se é arquivo Markdown
        if doc_path.suffix.lower() in ['.md', '.markdown']:
            # Copiar arquivo Markdown diretamente
            output_file = output_path / doc_path.name
            shutil.copy2(doc_path, output_file)
            
            copied_count += 1
            print(f"  ✅ Copiado: {doc_path.name} ")
        else:
            # Para outros formatos, usar Docling
            result = converter.convert(doc_path)
            
            # Extrair texto
            text_content = result.document.export_to_markdown()
            
            # Salvar texto extraído
            text_file = output_path / f"{doc_path.stem}.md"
            with open(text_file, "w", encoding="utf-8") as f:
                f.write(text_content)
            
            processed_count += 1
            print(f"  ✅ Convertido: {doc_path.name}")
        
    except Exception as e:
        error_msg = f"{doc_path.name}: {str(e)}"
        errors.append(error_msg)
        print(f"  ❌ {doc_path.name} falhou: {str(e)}")
    
print(f"\n📊 Resumo:")
print(f"  Convertidos com Docling: {processed_count}")
print(f"  Markdown copiados: {copied_count}")
print(f"  Total processados: {processed_count + copied_count}")
print(f"  Erros: {len(errors)}")

if errors:
    print(f"\n❌ Erros:")
    for error in errors:
        print(f"  {error}")

  ✅ Copiado: Visão Geral do Self Checkout.md 
  ✅ Copiado: Visão Geral do NIC.md 
  ✅ Copiado: Processa Sistemas.md 
  ✅ Copiado: Cancelamento de cupom.md 
  ✅ Copiado: Solicitação de ajuda.md 
  ✅ Copiado: Histórico de atualizações Self Checkout.md 
  ✅ Copiado: Funcionalidade do bloqueio.md 
  ✅ Copiado: Aplicação de desconto por item.md 
  ✅ Copiado: Propósito do NIC.md 
  ✅ Copiado: Reimpressão do último cupom.md 
  ✅ Copiado: Função do Chat NIC.md 
  ✅ Copiado: Acesso ao menu do fiscal.md 
  ✅ Copiado: Cronograma e marcos do projeto.md 
  ✅ Copiado: Efetuar pagamento.md 
  ✅ Copiado: Cancelamento de item.md 
  ✅ Copiado: Operação contínua e evolução do sistema.md 
  ✅ Copiado: Finalidade e visão do NIC.md 
  ✅ Copiado: Iniciar a compra.md 
  ✅ Copiado: Processo de documentação e validação.md 
  ✅ Copiado: Infraestrutura técnica e operacional.md 
  ✅ Copiado: Apresentação do sistema Self Checkout.md 
  ✅ Copiado: Retornar para registro de venda.md 
  ✅ Copiado: Componentes principa