In [1]:
import fitz  # PyMuPDF
import os

In [3]:
# Função para verificar se uma página é em branco
def is_blank_page(page):
    text = page.get_text("text").strip()
    return len(text) == 0


In [5]:
# Função para remover capa, folha de rosto, páginas em branco e sumário
def process_pdf(pdf_path):
    doc = fitz.open(pdf_path)
    
    # Definir um intervalo para remoção da capa e folha de rosto
    # Suponhamos que a capa e folha de rosto sejam as duas primeiras páginas
    pages_to_remove = [0, 1]
    
    # Remover páginas em branco
    pages_to_remove.extend([i for i in range(len(doc)) if is_blank_page(doc.load_page(i))])
    
    # Remover sumário (vamos supor que o sumário está entre as páginas 2 e 5)
    pages_to_remove.extend(list(range(2, 6)))
    
    # Remover páginas duplicadas da lista
    pages_to_remove = list(set(pages_to_remove))
    
    # Ordenar para remover corretamente
    pages_to_remove.sort(reverse=True)
    
    # Extrair o texto das páginas restantes
    text_content = ""
    for i in range(len(doc)):
        if i not in pages_to_remove:
            page = doc.load_page(i)
            text_content += page.get_text("text") + "\n"
    
    doc.close()
    return text_content

In [7]:
# Função para processar múltiplos arquivos PDF
def process_multiple_pdfs(pdf_folder, output_txt_file):
    with open(output_txt_file, 'w', encoding='utf-8') as output_file:
        for pdf_file in os.listdir(pdf_folder):
            if pdf_file.endswith('.pdf'):
                pdf_path = os.path.join(pdf_folder, pdf_file)
                print(f"Processando: {pdf_file}")
                
                # Processar o PDF e obter o texto
                pdf_text = process_pdf(pdf_path)
                
                # Escrever no arquivo de texto com uma separação entre os arquivos
                output_file.write(f"--- Começo do arquivo: {pdf_file} ---\n\n")
                output_file.write(pdf_text)
                output_file.write(f"\n--- Fim do arquivo: {pdf_file} ---\n\n")


In [13]:
# Caminho para a pasta contendo os PDFs
pdf_folder = '../ebooks'

# Arquivo de saída
output_txt_file = 'output_texto.txt'

# Processar os PDFs e salvar o conteúdo no arquivo de texto
process_multiple_pdfs(pdf_folder, output_txt_file)

print("Processamento concluído!")

Processando: eBook - Data Mining.pdf
Processando: eBook - Desenvolvimento Front-End 2.pdf
Processando: eBook - Banco de Dados 1.pdf
Processando: eBook - Machine Learning.pdf
Processando: eBook - Fundamentos de Data Science.pdf
Processando: eBook - Lógica de Programação.pdf
Processando: eBook - Teste de Aplicações Web.pdf
Processando: eBook - Probabilidade e Estatística.pdf
Processando: eBook - Banco de dados 2.pdf
Processando: eBook - Redes Neurais.pdf
Processando: eBook - Estatística 2.pdf
Processando: eBook - Política de Segurança.pdf
Processando: eBook - Princípios de Segurança.pdf
Processamento concluído!
