In [4]:
import fitz  # PyMuPDF
import os
from pathlib import Path
from PIL import Image

# Caminho dos PDFs
pdf_folder_path = Path("../pdf_documents")
pdf_files = [f for f in os.listdir(pdf_folder_path) if f.endswith(".pdf")]

# Caminho de saída para as imagens
output_dir = Path("../extracted_images")
output_dir.mkdir(parents=True, exist_ok=True)

print(f"Extraindo imagens para: {output_dir.resolve()}\n")

# Função para extrair imagens embutidas de um PDF
def extract_images_from_pdf(pdf_path: Path):
    pdf_name = pdf_path.stem
    with fitz.open(pdf_path) as doc:
        for page_number in range(len(doc)):
            page = doc[page_number]
            images = page.get_images(full=True)
            
            for img_index, img in enumerate(images):
                xref = img[0]
                try:
                    base_image = doc.extract_image(xref)
                    image_bytes = base_image["image"]
                    image_ext = base_image["ext"]

                    # Nome do arquivo: nomeDoArquivo_paginaX_imgY.ext
                    image_filename = f"{pdf_name}_pagina{page_number+1}_img{img_index+1}.{image_ext}"
                    image_path = output_dir / image_filename

                    with open(image_path, "wb") as f:
                        f.write(image_bytes)
                    
                    print(f"Imagem salva: {image_filename}")
                except Exception as e:
                    print(f"Erro ao extrair imagem {img_index+1} da página {page_number+1} em {pdf_name}: {e}")

# Processar todos os PDFs
for pdf_file in pdf_files:
    pdf_path = pdf_folder_path / pdf_file
    print(f"\n📄 Processando: {pdf_file}")
    extract_images_from_pdf(pdf_path)

print("\n✅ Extração de imagens concluída.")


Extraindo imagens para: /home/stoiccode/gitRepositories/Database-Chroma-RAG-Project/extracted_images


📄 Processando: EIA_example1.pdf
Imagem salva: EIA_example1_pagina1_img1.png
Imagem salva: EIA_example1_pagina1_img2.png
Imagem salva: EIA_example1_pagina2_img1.png
Imagem salva: EIA_example1_pagina2_img2.png
Imagem salva: EIA_example1_pagina3_img1.png
Imagem salva: EIA_example1_pagina3_img2.png
Imagem salva: EIA_example1_pagina4_img1.png
Imagem salva: EIA_example1_pagina4_img2.png
Imagem salva: EIA_example1_pagina5_img1.png
Imagem salva: EIA_example1_pagina5_img2.png
Imagem salva: EIA_example1_pagina6_img1.png
Imagem salva: EIA_example1_pagina6_img2.png
Imagem salva: EIA_example1_pagina7_img1.png
Imagem salva: EIA_example1_pagina7_img2.png
Imagem salva: EIA_example1_pagina8_img1.png
Imagem salva: EIA_example1_pagina8_img2.png
Imagem salva: EIA_example1_pagina9_img1.png
Imagem salva: EIA_example1_pagina9_img2.png
Imagem salva: EIA_example1_pagina10_img1.png
Imagem salva: EIA_example1_p

In [5]:
from PIL import Image
import pytesseract
import os
from pathlib import Path
import shutil

# Palavras-chave comuns em gráficos/mapas
KEYWORDS = ['gráfico', 'grafico', 'mapa', 'legenda', 'fonte', 'dados', 'eixo', 'percentual', 'escala', 'curva']

# Pastas
input_folder = Path("../extracted_images")
output_folder = Path("../filtered_images")
output_folder.mkdir(exist_ok=True)

# Função para verificar se imagem contém palavras-chave
def contains_keywords(image_path):
    try:
        text = pytesseract.image_to_string(Image.open(image_path), lang='por')
        return any(keyword in text.lower() for keyword in KEYWORDS)
    except Exception as e:
        print(f"[ERRO] {image_path.name}: {e}")
        return False

# Processamento
total = 0
movidas = 0

for image_path in input_folder.glob("*"):
    if image_path.is_dir():
        continue
    total += 1
    if contains_keywords(image_path):
        shutil.copy(image_path, output_folder / image_path.name)
        movidas += 1
        print(f"[OK] {image_path.name} => filtrada e copiada.")

print(f"\nTotal de imagens processadas: {total}")
print(f"Total de imagens copiadas: {movidas}")


[ERRO] EIA_example1_pagina1_img1.png: (1, 'Error opening data file /usr/share/tesseract/tessdata/por.traineddata Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory. Failed loading language \'por\' Tesseract couldn\'t load any languages! Could not initialize tesseract.')
[ERRO] EIA_example1_pagina1_img2.png: (1, 'Error opening data file /usr/share/tesseract/tessdata/por.traineddata Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory. Failed loading language \'por\' Tesseract couldn\'t load any languages! Could not initialize tesseract.')
[ERRO] EIA_example1_pagina2_img1.png: (1, 'Error opening data file /usr/share/tesseract/tessdata/por.traineddata Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory. Failed loading language \'por\' Tesseract couldn\'t load any languages! Could not initialize tesseract.')
[ERRO] EIA_example1_pagina2_img2.png: (1, 'Error opening d