O código a seguir realiza a conversão de imagens (no formato .jpg) de documentos digitalizados para o formato PDF pesquisável (OCR), utilizando bibliotecas como PyPDF2, pytesseract, e os. Abaixo, faço uma explicação detalhada de cada parte do código:

In [None]:
import PyPDF2  # Biblioteca para manipulação e criação de arquivos PDF.
import os  # Biblioteca para interação com o sistema de arquivos.
import numpy  # Biblioteca para trabalhar com arrays e cálculos numéricos.
import pytesseract as tesseract  # Biblioteca que realiza OCR (Reconhecimento Óptico de Caracteres) em imagens.
import io  # Biblioteca para manipulação de streams de dados em memória.


PyPDF2: É usada para criar e manipular PDFs, como adicionar páginas e combinar arquivos.
os: Permite listar diretórios, navegar entre arquivos e diretórios, e fazer operações relacionadas ao sistema de arquivos.
numpy: Aqui, é usada apenas para calcular o tamanho de arrays, mas normalmente é usada para operações matemáticas e processamento de dados.
pytesseract: É a interface Python para o Tesseract, uma ferramenta de OCR que converte imagens de texto em texto pesquisável ou PDFs pesquisáveis.
io: É usado para manipular fluxos de bytes em memória, permitindo a leitura de arquivos como streams sem salvá-los em disco. Abaixo a instalação dos requisitos
Nota importante: o Tesseract deve ser instalado no ambiente externo ao compilador. Siga os passos abaixo:


Instalação do Tesseract OCR (Windows e Linux)
1. Instalar o Tesseract no Windows:

    Baixar o Instalador:
        Acesse: https://github.com/tesseract-ocr/tesseract > Seção "Releases" e baixe o instalador para Windows (arquivo .exe).

    Executar o Instalador:
        Execute o arquivo baixado e siga as instruções de instalação. O caminho padrão é:
        C:\Program Files\Tesseract-OCR\

    Verificar Instalação:
        No Prompt de Comando, digite:

        bash

    tesseract --version

Configurar no Python: Adicione no seu código Python:

python

    import pytesseract
    pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'

2. Instalar o Tesseract no Linux:

    Instalar via Terminal:
        No Ubuntu ou Debian, execute:

        bash

    sudo apt update
    sudo apt install tesseract-ocr

Verificar Instalação:

    No terminal, digite:

    bash

        tesseract --version

3. Instalar pytesseract e Pillow (Windows e Linux):

    No terminal/Prompt de Comando, execute:

    bash

    pip install pytesseract Pillow

4. Testar no Python:

Instalação dos demais requisitos

In [None]:
pip install PyPDF2 numpy pillow

In [None]:
# Importa a biblioteca PyPDF2 para manipulação de arquivos PDF
import PyPDF2

# Importa a biblioteca os para interagir com o sistema de arquivos (navegar e listar diretórios)
import os

# Importa numpy para cálculos numéricos; neste caso, usado para calcular o tamanho de arrays
import numpy

# Importa pytesseract, que é uma interface Python para o Tesseract OCR (Optical Character Recognition)
import pytesseract as tesseract

# Define o caminho do executável do Tesseract no sistema operacional Windows
tesseract.pytesseract.tesseract_cmd = r"C:/Program Files/Tesseract-OCR/tesseract.exe"

# Importa a biblioteca io para manipulação de fluxos de dados em memória (BytesIO)
import io

# Lista os arquivos do diretório especificado, neste caso, onde os arquivos .jpg estão armazenados
# Isso será a entrada para o OCR e geração de PDFs
files0 = os.listdir("C:/Users/Alesson/OneDrive - Universidade de Coimbra/bruto/alema segunda leva organizada ocr/")

# Ordena os arquivos listados no diretório
files0.sort()

# Calcula o tamanho da lista de arquivos
a = numpy.size(files0)

# Define 'b' como o último índice da lista de arquivos
b = a - 1

# Inicializa a variável 'i' para começar a contagem do loop
i = 0

# Loop que itera sobre cada arquivo (ou pasta) na lista files0
while b >= 0:
    # Exibe a quantidade total de conversões e a conversão atual (indexada a partir de 1)
    print("quantidade de conversoes", a)
    print("conversao atual", i + 1)
    print("convertendo arquivo", files0[i])

    # Inicializa uma lista vazia para armazenar todos os arquivos de imagem .jpg que serão processados
    all_files = []

    # Percorre os subdiretórios do caminho especificado para encontrar todos os arquivos .jpg
    for (path, dirs, files) in os.walk('C:/Users/Alesson/OneDrive - Universidade de Coimbra/bruto/alema segunda leva organizada ocr/' + files0[i]):
        for file in files:
            # Filtra apenas arquivos que terminam com .jpg
            if not file.endswith(".jpg"):
                continue
            # Concatena o caminho completo do arquivo e o adiciona à lista 'all_files'
            file = os.path.join(path, file)
            all_files.append(file)
    
    # Inicializa o objeto PdfFileWriter para criar e escrever o arquivo PDF
    pdf_writer = PyPDF2.PdfFileWriter()

    # Ordena a lista de arquivos .jpg para garantir que sejam processados na ordem correta
    all_files.sort()

    # Segunda parte: Itera sobre cada arquivo de imagem (arquivo .jpg) para realizar o OCR
    for file in all_files:
        # Usa pytesseract para converter a imagem em uma página PDF, usando OCR para texto pesquisável
        page = tesseract.image_to_pdf_or_hocr(file, extension='pdf')
        
        # Lê o PDF gerado em memória (BytesIO evita salvar o PDF temporário em disco)
        pdf = PyPDF2.PdfFileReader(io.BytesIO(page))
        
        # Adiciona a página PDF lida ao PdfFileWriter
        pdf_writer.addPage(pdf.getPage(0))

    # Abre um novo arquivo PDF para escrita em modo binário e escreve todas as páginas processadas
    with open(files0[i] + ".pdf", "wb") as f:
        pdf_writer.write(f)

    # Imprime uma mensagem indicando que o arquivo atual foi convertido
    print("converteu", files0[i])

    # Atualiza os contadores para processar o próximo arquivo
    i = i + 1
    b = b - 1

# Quando o loop termina, exibe a mensagem de que o processo foi concluído
print("terminou")


Explicação Geral do Fluxo:

    Listagem e Ordenação de Arquivos: O script começa listando todos os arquivos ou subdiretórios em um diretório específico, ordenando-os para garantir a sequência correta de processamento.

    Loop Principal: O loop principal percorre cada diretório/arquivo encontrado, buscando arquivos .jpg. Esses arquivos de imagem contêm páginas de documentos que serão convertidas para PDF.

    Processamento de Imagens com OCR:
        Para cada arquivo de imagem .jpg, o Tesseract OCR (pytesseract) é usado para converter a imagem em uma página PDF pesquisável. Isso significa que o texto presente nas imagens se tornará "pesquisável" dentro do PDF final.

    Criação e Escrita de PDF:
        A biblioteca PyPDF2 é utilizada para criar um novo arquivo PDF e adicionar cada página (derivada de uma imagem) ao arquivo final. Cada PDF é salvo com o nome do arquivo original, seguido pela extensão .pdf.

    Iteração e Conclusão:
        Após processar todas as imagens de um diretório, o script passa para o próximo até que todos os arquivos tenham sido convertidos. No final, uma mensagem de conclusão é exibida.

Função Principal:

Este script é altamente útil para automatizar a conversão de lotes de imagens escaneadas em PDFs pesquisáveis, utilizando OCR para capturar e indexar texto embutido nas imagens