
Este script extrai imagens de arquivos PDF em uma pasta específica, salva as imagens
em uma pasta de saída com nomes que referenciam o nome do PDF original e gera um arquivo
CSV contendo o nome de cada imagem e uma etiqueta ("bars") para cada uma delas.

Dependências:
- PyMuPDF (fitz)
- Pillow (PIL)
- pandas

Instale as dependências com:
pip install pymupdf pillow pandas

In [1]:
pip install pymupdf pillow pandas

Note: you may need to restart the kernel to use updated packages.


In [3]:
conda install -c conda-forge pymupdf

Collecting package metadata (current_repodata.json): done
Solving environment: done


  current version: 23.3.1
  latest version: 24.11.0

Please update conda by running

    $ conda update -n base -c conda-forge conda

Or to minimize the number of packages updated during conda update use

     conda install conda=24.11.0



# All requested packages already installed.


Note: you may need to restart the kernel to use updated packages.


"conda install -c conda-forge pymupdf"
O Que o Comando Faz:
Instala o PyMuPDF (ou seja, o módulo fitz) no ambiente atual do conda.
Garante que as dependências necessárias também sejam instaladas automaticamente.

Observação: Caso esteja usando um ambiente Jupyter, é bom verificar se todor os pacotes já estão instalados 

In [4]:
import fitz  # Biblioteca PyMuPDF para manipulação de PDFs
import os    # Biblioteca para manipulação de arquivos e diretórios
import pandas as pd  # Biblioteca para manipulação de dados e criação do CSV

Função para extrair imagens de todos os PDFs em uma pasta e salvar os dados no formato CSV.

In [None]:
def extract_images_from_pdfs(input_folder, output_folder, csv_path):
   
    # Criar a pasta de saída para salvar as imagens, se ela não existir
    os.makedirs(output_folder, exist_ok=True)

    # Lista para armazenar os dados que serão inseridos no CSV
    extracted_data = []

    # Iterar sobre todos os arquivos na pasta de entrada
    for pdf_file in os.listdir(input_folder):
        # Processar apenas arquivos com extensão ".pdf"
        if pdf_file.endswith(".pdf"):
            # Obter o caminho completo do PDF e o nome base (sem extensão)
            pdf_path = os.path.join(input_folder, pdf_file)
            pdf_name = os.path.splitext(pdf_file)[0]

            print(f"Processando: {pdf_file}")

            # Abrir o PDF com PyMuPDF
            doc = fitz.open(pdf_path)

            # Iterar sobre todas as páginas do PDF
            for page_index in range(len(doc)):
                page = doc.load_page(page_index)

                # Obter todas as imagens da página
                images = page.get_images(full=True)

                # Iterar sobre as imagens extraídas
                for img_index, img in enumerate(images):
                    # Identificador único da imagem no PDF (xref)
                    xref = img[0]

                    # Extrair os dados da imagem
                    base_image = doc.extract_image(xref)
                    image_bytes = base_image["image"]

                    # Nome da imagem incluindo o nome do PDF, número da página e índice da imagem
                    image_name = f"{pdf_name}_page{page_index}_img{img_index}.png"
                    image_path = os.path.join(output_folder, image_name)

                    # Salvar a imagem no formato PNG
                    with open(image_path, "wb") as img_file:
                        img_file.write(image_bytes)

                    print(f"Imagem extraída: {image_name}")

                    # Adicionar os dados ao CSV (nome da imagem e rótulo fixo "bars")
                    extracted_data.append({
                        "image_name": image_name,
                        "label": "bars"
                    })

    # Criar um DataFrame a partir da lista de dados e salvar como CSV
    df = pd.DataFrame(extracted_data)
    df.to_csv(csv_path, index=False)

    print(f"Arquivo CSV criado com sucesso: {csv_path}")

 Definir as pastas de entrada, saída e o caminho para o CSV

In [None]:

input_folder = "/Path"  # Pasta contendo os PDFs
output_folder = "/Path"  # Pasta para salvar as imagens
csv_path = "/Path"  # Caminho para o CSV gerado


Executar o processo de extração

In [None]:

extract_images_from_pdfs(input_folder, output_folder, csv_path)

print("Processo concluído!")
