# ‚öôÔ∏è PROCESSAMENTO DOCLING

Extrai texto dos documentos usando Docling.

In [1]:
from pathlib import Path
from docling.document_converter import DocumentConverter

# Extens√µes suportadas
SUPPORTED_EXTENSIONS = ['.pdf', '.md', '.txt']

# Diret√≥rios
docs_dir = Path("pipeline_data/documents")
processed_dir = Path("pipeline_data/processed")
processed_dir.mkdir(parents=True, exist_ok=True)

# Limpar diret√≥rio processado recursivamente
for f in processed_dir.rglob("*"):
    if f.is_file():
        f.unlink()

# Listar documentos recursivamente (apenas com extens√µes suportadas)
all_files = list(docs_dir.rglob("*"))
documents = [f for f in all_files if f.is_file() and f.suffix.lower() in SUPPORTED_EXTENSIONS]

print(f"Documentos encontrados: {len(documents)}")
for doc in documents[:10]:
    # Mostrar o caminho relativo ao docs_dir
    relative_path = doc.relative_to(docs_dir)
    print(f"  {relative_path}")

if len(documents) > 10:
    print(f"  ... e mais {len(documents) - 10} documentos")

Documentos encontrados: 31
  30-Aprovados/Mapas/Vis√£o Geral do Self Checkout.md
  30-Aprovados/Mapas/Vis√£o Geral do NIC.md
  30-Aprovados/Mapas/Processa Sistemas.md
  30-Aprovados/T√≥picos/Cancelamento de cupom.md
  30-Aprovados/T√≥picos/Solicita√ß√£o de ajuda.md
  30-Aprovados/T√≥picos/Hist√≥rico de atualiza√ß√µes Self Checkout.md
  30-Aprovados/T√≥picos/Funcionalidade do bloqueio.md
  30-Aprovados/T√≥picos/Aplica√ß√£o de desconto por item.md
  30-Aprovados/T√≥picos/Prop√≥sito do NIC.md
  30-Aprovados/T√≥picos/Reimpress√£o do √∫ltimo cupom.md
  ... e mais 21 documentos


In [2]:
import shutil

# Processar documentos
converter = DocumentConverter()
processed_count = 0
errors = []
copied_count = 0

for doc_path in documents:
    try:
        # Criar caminho mantendo a estrutura de pastas
        relative_path = doc_path.relative_to(docs_dir)
        output_path = processed_dir / relative_path.parent
        output_path.mkdir(parents=True, exist_ok=True)
        
        # Verificar se √© arquivo Markdown
        if doc_path.suffix.lower() in ['.md', '.markdown']:
            # Copiar arquivo Markdown diretamente
            output_file = output_path / doc_path.name
            shutil.copy2(doc_path, output_file)
            
            copied_count += 1
            print(f"  ‚úÖ Copiado: {doc_path.name} ")
        else:
            # Para outros formatos, usar Docling
            result = converter.convert(doc_path)
            
            # Extrair texto
            text_content = result.document.export_to_markdown()
            
            # Salvar texto extra√≠do
            text_file = output_path / f"{doc_path.stem}.md"
            with open(text_file, "w", encoding="utf-8") as f:
                f.write(text_content)
            
            processed_count += 1
            print(f"  ‚úÖ Convertido: {doc_path.name}")
        
    except Exception as e:
        error_msg = f"{doc_path.name}: {str(e)}"
        errors.append(error_msg)
        print(f"  ‚ùå {doc_path.name} falhou: {str(e)}")
    
print(f"\nüìä Resumo:")
print(f"  Convertidos com Docling: {processed_count}")
print(f"  Markdown copiados: {copied_count}")
print(f"  Total processados: {processed_count + copied_count}")
print(f"  Erros: {len(errors)}")

if errors:
    print(f"\n‚ùå Erros:")
    for error in errors:
        print(f"  {error}")

  ‚úÖ Copiado: Vis√£o Geral do Self Checkout.md 
  ‚úÖ Copiado: Vis√£o Geral do NIC.md 
  ‚úÖ Copiado: Processa Sistemas.md 
  ‚úÖ Copiado: Cancelamento de cupom.md 
  ‚úÖ Copiado: Solicita√ß√£o de ajuda.md 
  ‚úÖ Copiado: Hist√≥rico de atualiza√ß√µes Self Checkout.md 
  ‚úÖ Copiado: Funcionalidade do bloqueio.md 
  ‚úÖ Copiado: Aplica√ß√£o de desconto por item.md 
  ‚úÖ Copiado: Prop√≥sito do NIC.md 
  ‚úÖ Copiado: Reimpress√£o do √∫ltimo cupom.md 
  ‚úÖ Copiado: Fun√ß√£o do Chat NIC.md 
  ‚úÖ Copiado: Acesso ao menu do fiscal.md 
  ‚úÖ Copiado: Cronograma e marcos do projeto.md 
  ‚úÖ Copiado: Efetuar pagamento.md 
  ‚úÖ Copiado: Cancelamento de item.md 
  ‚úÖ Copiado: Opera√ß√£o cont√≠nua e evolu√ß√£o do sistema.md 
  ‚úÖ Copiado: Finalidade e vis√£o do NIC.md 
  ‚úÖ Copiado: Iniciar a compra.md 
  ‚úÖ Copiado: Processo de documenta√ß√£o e valida√ß√£o.md 
  ‚úÖ Copiado: Infraestrutura t√©cnica e operacional.md 
  ‚úÖ Copiado: Apresenta√ß√£o do sistema Self Checkout.md 
  ‚úÖ Copiado