# Processamento de PDFs na CodeMaria

Este notebook demonstra as capacidades de processamento de PDFs da CodeMaria, incluindo extração de texto, análise de conteúdo e contextualização.

## Configuração Inicial

Primeiro, vamos importar os módulos necessários e inicializar o processador de PDFs.

In [ ]:
from code_maria.pdf_processor import PDFProcessor
from code_maria.pdf_trainer import PDFTrainer
from code_maria.core import CodeMaria

# Inicializa os processadores
pdf_processor = PDFProcessor()
pdf_trainer = PDFTrainer()
code_maria = CodeMaria()

## 1. Extração de Texto

### 1.1 Processamento de Layout
A CodeMaria pode extrair texto preservando a estrutura do documento.

In [ ]:
# Exemplo de processamento de PDF
resultado = pdf_processor.process_pdf('exemplos/tutorial_python.pdf')

print("Informações Extraídas:")
print(f"Título: {resultado['metadata']['title']}")
print(f"Autor: {resultado['metadata']['author']}")
print(f"Data: {resultado['metadata']['creation_date']}")
print("\nPrimeiros parágrafos:")
for i, paragrafo in enumerate(resultado['paragraphs'][:3], 1):
    print(f"\nParágrafo {i}:")
    print(paragrafo)

### 1.2 Reconhecimento de Estrutura
O processador identifica diferentes elementos do documento.

In [ ]:
# Análise estrutural do documento
estrutura = pdf_processor.analyze_structure('exemplos/artigo_tecnico.pdf')

print("Estrutura do Documento:")
print(f"Total de seções: {len(estrutura['sections'])}")
print("\nSeções principais:")
for secao in estrutura['sections']:
    print(f"- {secao['title']}")
print(f"\nTotal de figuras: {len(estrutura['figures'])}")
print(f"Total de tabelas: {len(estrutura['tables'])}")
print(f"Total de referências: {len(estrutura['references'])}")

## 2. Análise de Conteúdo

### 2.1 Identificação de Temas

In [ ]:
# Análise temática
analise = pdf_processor.analyze_content('exemplos/material_didatico.pdf')

print("Análise de Conteúdo:")
print("\nTemas principais:")
for tema, relevancia in analise['main_topics'].items():
    print(f"- {tema}: {relevancia:.2%}")

print("\nPalavras-chave:")
for palavra in analise['keywords'][:10]:
    print(f"- {palavra}")

### 2.2 Análise de Complexidade
Avaliação do nível de complexidade do conteúdo.

In [ ]:
# Análise de complexidade
complexidade = pdf_processor.analyze_complexity('exemplos/apostila.pdf')

print("Análise de Complexidade:")
print(f"Nível geral: {complexidade['overall_level']}")
print(f"Índice de legibilidade: {complexidade['readability_score']:.2f}")
print("\nDistribuição de complexidade por seção:")
for secao, nivel in complexidade['section_levels'].items():
    print(f"- {secao}: {nivel}")

## 3. Contextualização

### 3.1 Detecção de Referências Culturais

In [ ]:
# Análise de contexto cultural
contexto = pdf_processor._analyze_cultural_context('exemplos/material_brasileiro.pdf')

print("Análise de Contexto Cultural:")
print("\nReferências culturais identificadas:")
for ref in contexto['cultural_references']:
    print(f"- {ref}")

print("\nLocalizações mencionadas:")
for local in contexto['locations']:
    print(f"- {local}")

## 4. Processamento em Lote

### 4.1 Análise de Múltiplos Documentos

In [ ]:
# Processamento em lote
resultados = pdf_processor.process_pdf_folder('exemplos/pdfs/')

print("Processamento em Lote:")
print(f"Total de documentos: {len(resultados)}")
print("\nResumo por documento:")
for doc in resultados:
    print(f"\nArquivo: {doc['file_name']}")
    print(f"Tamanho: {doc['size']} bytes")
    print(f"Páginas: {doc['pages']}")
    print(f"Status: {doc['status']}")

### 4.2 Estatísticas Agregadas
Análise estatística do conjunto de documentos.

In [ ]:
# Análise estatística
stats = pdf_processor.get_processing_summary()

print("Estatísticas de Processamento:")
print(f"Total de arquivos processados: {stats['total_files']}")
print(f"Taxa de sucesso: {stats['success_rate']:.2%}")
print(f"Tempo médio de processamento: {stats['avg_processing_time']:.2f}s")

# Visualização
import matplotlib.pyplot as plt
import seaborn as sns

plt.figure(figsize=(10, 6))
sns.barplot(
    x=list(stats['content_types'].keys()),
    y=list(stats['content_types'].values())
)
plt.title("Distribuição de Tipos de Conteúdo")
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()