In [7]:
import pymupdf  # PyMuPDF
from PIL import Image
import imagehash
import io

In [8]:
def optimize_for_ai_analysis(input_path, output_path, hash_threshold=2):
    # Abrimos o documento original
    doc = pymupdf.open(input_path)
    new_doc = pymupdf.open()
    seen_hashes = set()

    print(f"Analisando {len(doc)} páginas...")

    for i in range(len(doc)):
        page = doc[i]

        # 1. Deduplicação Visual (Hash Perceptual)
        # Renderiza em baixa DPI apenas para gerar a digital da página
        pix = page.get_pixmap(matrix=pymupdf.Matrix(0.5, 0.5))
        img_data = pix.tobytes("png")
        v_hash = str(imagehash.phash(Image.open(io.BytesIO(img_data))))

        if v_hash in seen_hashes:
            continue
        seen_hashes.add(v_hash)

        # 2. Transplante de Conteúdo Limpo
        # Criamos uma página nova no documento de destino
        new_page = new_doc.new_page(width=page.rect.width, height=page.rect.height)

        # O show_pdf_page importa apenas o conteúdo visual,
        # deixando para trás as anotações interativas (Screen, Widgets)
        new_page.show_pdf_page(new_page.rect, doc, i)

        # 3. Remoção total de links/anotações remanescentes via XREF
        # Isso garante que nenhum "fantasma" de anotação seja mantido
        new_doc.xref_set_key(new_page.xref, "Annots", "null")

    # 4. Salvamento Moderno (Sem Linearização)
    # garbage=4: remove fluxos não referenciados e duplicações binárias
    # deflate=True: comprime o conteúdo
    new_doc.save(output_path, garbage=4, deflate=True, clean=True)

    new_doc.close()
    doc.close()
    print(f"Otimização concluída: {output_path}")

In [9]:
optimize_for_ai_analysis(
    r"C:\Users\gabri\Documents\POLI_Docs\Sistemas e Sinais\Aulas\RESUMO 1\aula1_v2.pdf",
    r"C:\Users\gabri\Documents\POLI_Docs\Sistemas e Sinais\Aulas\RESUMO 1\aula1.pdf",
)

Analisando 33 páginas...
Otimização concluída: C:\Users\gabri\Documents\POLI_Docs\Sistemas e Sinais\Aulas\RESUMO 1\aula1.pdf


In [10]:
optimize_for_ai_analysis(
    r"C:\Users\gabri\Documents\POLI_Docs\Sistemas e Sinais\Aulas\RESUMO 1\aula2_v6.pdf",
    r"C:\Users\gabri\Documents\POLI_Docs\Sistemas e Sinais\Aulas\RESUMO 1\aula2.pdf",
)

Analisando 121 páginas...
Otimização concluída: C:\Users\gabri\Documents\POLI_Docs\Sistemas e Sinais\Aulas\RESUMO 1\aula2.pdf


In [11]:
optimize_for_ai_analysis(
    r"C:\Users\gabri\Documents\POLI_Docs\Sistemas e Sinais\Aulas\RESUMO 2\aula3_v4.pdf",
    r"C:\Users\gabri\Documents\POLI_Docs\Sistemas e Sinais\Aulas\RESUMO 2\aula3.pdf",
)

Analisando 122 páginas...
MuPDF error: unsupported error: cannot create appearance stream for Screen annotations

MuPDF error: unsupported error: cannot create appearance stream for Screen annotations

MuPDF error: unsupported error: cannot create appearance stream for Screen annotations

MuPDF error: unsupported error: cannot create appearance stream for Screen annotations

MuPDF error: unsupported error: cannot create appearance stream for Screen annotations

MuPDF error: unsupported error: cannot create appearance stream for Screen annotations

MuPDF error: unsupported error: cannot create appearance stream for Screen annotations

MuPDF error: unsupported error: cannot create appearance stream for Screen annotations

MuPDF error: unsupported error: cannot create appearance stream for Screen annotations

MuPDF error: unsupported error: cannot create appearance stream for Screen annotations

MuPDF error: unsupported error: cannot create appearance stream for Screen annotations

MuPDF 