In [14]:
import os
import cv2
from PIL import Image
import pytesseract
# Caminho para o executável do Tesseract (necessário no Windows)
pytesseract.pytesseract.tesseract_cmd = r'D:/docs'

In [15]:
# Função para pré-processar a imagem usando OpenCV
def preprocessar_imagem(caminho_imagem):
    try:
        # Carrega a imagem
        img = cv2.imread(caminho_imagem)

        # Converte para escala de cinza
        gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)

        # Aplica um filtro de suavização (blur) para reduzir ruídos
        blurred = cv2.GaussianBlur(gray, (5, 5), 0)

        # Binariza a imagem (preto e branco)
        _, binary = cv2.threshold(blurred, 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)

        return binary
    except Exception as e:
        print(f"Erro ao pré-processar a imagem {caminho_imagem}: {e}")
        return None

In [16]:
def extrair_texto_da_imagem(imagem_path):
    try:
        # Pré-processa a imagem
        img_preprocessada = preprocessar_imagem(imagem_path)

        if img_preprocessada is None:
            return None

        # Converte a imagem processada para o formato PIL
        img_pil = Image.fromarray(img_preprocessada)

        # Extrai o texto usando pytesseract
        texto = pytesseract.image_to_string(img_pil, lang='por')  # Define o idioma como português
        return texto.strip()  # Remove espaços em branco desnecessários
    except Exception as e:
        print(f"Erro ao processar a imagem {imagem_path}: {e}")
        return None

In [17]:
# Pasta onde estão as imagens
pasta_imagens = r"D:/docs/docs"

# Pasta de saída
pasta_saida = r"D:/docs/docs/output"
# os.makedirs(pasta_saida, exist_ok=True)  # Garante que o diretório existe

# Arquivo de saída consolidado (corrigido: agora inclui o nome do arquivo)
arquivo_saida_consolidado = os.path.join(pasta_saida, "livro_completo.txt")

# Processa todas as imagens numeradas de 0 a 330
with open(arquivo_saida_consolidado, "w", encoding="utf-8") as arquivo_saida:
    for i in range(333):  # De 0 a 330 (inclusive)
        nome_arquivo = f"{i}.jpg"  # Nome do arquivo da imagem
        caminho_imagem = os.path.join(pasta_imagens, nome_arquivo)
        
        if os.path.exists(caminho_imagem):
            print(f"Processando: {caminho_imagem}")
            
            # Extrai o texto da imagem
            texto_extraido = extrair_texto_da_imagem(caminho_imagem)
            
            if texto_extraido:
                arquivo_saida.write(f"=== Página {i} ===\n")
                arquivo_saida.write(texto_extraido + "\n")
            else:
                arquivo_saida.write(f"=== Página {i} ===\n")
                arquivo_saida.write("[Texto não detectado]\n")
        else:
            print(f"Imagem não encontrada: {caminho_imagem}")
            arquivo_saida.write(f"=== Página {i} ===\n")
            arquivo_saida.write("[Vazia]\n")
        
        # Adiciona uma linha de separação entre as páginas
        arquivo_saida.write("-" * 50 + "\n\n")

print(f"Processamento concluído! Texto consolidado salvo em: {arquivo_saida_consolidado}")

Processando: D:/docs/docs\0.jpg
Erro ao processar a imagem D:/docs/docs\0.jpg: [WinError 5] Acesso negado
Processando: D:/docs/docs\1.jpg
Erro ao processar a imagem D:/docs/docs\1.jpg: [WinError 5] Acesso negado
Imagem não encontrada: D:/docs/docs\2.jpg
Processando: D:/docs/docs\3.jpg
Erro ao processar a imagem D:/docs/docs\3.jpg: [WinError 5] Acesso negado
Processando: D:/docs/docs\4.jpg
Erro ao processar a imagem D:/docs/docs\4.jpg: [WinError 5] Acesso negado
Processando: D:/docs/docs\5.jpg
Erro ao processar a imagem D:/docs/docs\5.jpg: [WinError 5] Acesso negado
Processando: D:/docs/docs\6.jpg
Erro ao processar a imagem D:/docs/docs\6.jpg: [WinError 5] Acesso negado
Processando: D:/docs/docs\7.jpg
Erro ao processar a imagem D:/docs/docs\7.jpg: [WinError 5] Acesso negado
Imagem não encontrada: D:/docs/docs\8.jpg
Processando: D:/docs/docs\9.jpg
Erro ao processar a imagem D:/docs/docs\9.jpg: [WinError 5] Acesso negado
Imagem não encontrada: D:/docs/docs\10.jpg
Processando: D:/docs/docs