In [28]:
import os
import fitz
import re

# ========================
# CONFIGURAÇÕES
# ========================
pdf_path = "./provas/2013/Caderno1_Azul_Sab.pdf"
arquivo_yolo = "./dataset_full/labels/2013_Caderno1_Azul_Sab_page_002.txt"

output_dir = "./output_md"
img_dir = os.path.join(output_dir, "images")

os.makedirs(img_dir, exist_ok=True)

CLASSE_IMAGEM = 2
padrao_questao = r"QUESTÃO\s*0*(\d{1,2})"

# ========================
# FUNÇÕES
# ========================
def ler_yolo_boxes(path, classe):
    boxes = []
    with open(path, "r", encoding="utf-8") as f:
        for linha in f:
            cls, xc, yc, w, h = map(float, linha.split())
            if int(cls) == classe:
                boxes.append((xc, yc, w, h))
    return boxes


def yolo_to_pdf_rect(xc, yc, w, h, pw, ph):
    x0 = (xc - w / 2) * pw
    y0 = (yc - h / 2) * ph
    x1 = (xc + w / 2) * pw
    y1 = (yc + h / 2) * ph
    return fitz.Rect(x0, y0, x1, y1)


# ========================
# ABRE PDF
# ========================
pdf = fitz.open(pdf_path)
pagina = pdf[1]

pw, ph = pagina.rect.width, pagina.rect.height

# ========================
# PROCESSA YOLO (classe 2)
# ========================
yolo_boxes = ler_yolo_boxes(arquivo_yolo, CLASSE_IMAGEM)

imagens = []
for i, (xc, yc, w, h) in enumerate(yolo_boxes):
    rect = yolo_to_pdf_rect(xc, yc, w, h, pw, ph)
    pix = pagina.get_pixmap(clip=rect, dpi=300)

    img_name = f"img_{i}.png"
    img_path = os.path.join(img_dir, img_name)
    pix.save(img_path)

    imagens.append({
        "y": rect.y0,
        "md": f"![Figura]({os.path.join('images', img_name)})"
    })

# ordena imagens de cima para baixo
imagens.sort(key=lambda x: x["y"])

# ========================
# PROCESSA TEXTO
# ========================
blocks = pagina.get_text("dict")["blocks"]

linhas = []
for bloco in blocks:
    if bloco["type"] != 0:
        continue

    y_bloco = bloco["bbox"][1]
    texto = ""

    for linha in bloco["lines"]:
        texto += "".join(span["text"] for span in linha["spans"]) + "\n"

    linhas.append({
        "y": y_bloco,
        "texto": texto.strip()
    })

linhas.sort(key=lambda x: x["y"])

# ========================
# GERA MARKDOWN
# ========================
md = []
img_idx = 0

for linha in linhas:
    # insere imagem se ela estiver acima da próxima linha
    while img_idx < len(imagens) and imagens[img_idx]["y"] < linha["y"]:
        md.append("")
        md.append(imagens[img_idx]["md"])
        md.append("")
        img_idx += 1

    md.append(linha["texto"])
    md.append("")

# imagens restantes
while img_idx < len(imagens):
    md.append("")
    md.append(imagens[img_idx]["md"])
    md.append("")
    img_idx += 1

# ========================
# SALVA MARKDOWN
# ========================
md_path = os.path.join(output_dir, "questao_page_002.md")
with open(md_path, "w", encoding="utf-8") as f:
    f.write("\n".join(md))

print(f"[OK] Markdown gerado em: {md_path}")

[OK] Markdown gerado em: ./output_md\questao_page_002.md


In [80]:
blocos_texto = pagina.get_text("blocks")
imprimir = False
encontrou_questao = False

for i, bloco in enumerate(blocos_texto):
    x0, y0, x1, y1, conteudo, *_ = bloco    
        
    if re.search(padrao_questao, conteudo, flags=re.IGNORECASE):
        match = re.search(padrao_questao, conteudo, flags=re.IGNORECASE)
        numero_questao = int(match.group(1))
        imprimir = True
        print(f"""-----------{numero_questao}""")
        print(f"""### {conteudo}""")

    if imprimir and not re.search(padrao_questao, conteudo, flags=re.IGNORECASE):
        print(conteudo)


-----------1
### QUESTÃO 01 

Mapa 1 

Distribuição espacial atual da população brasileira

THÉRY, H. As boas-novas sobre a população brasileira. Conhecimento Prático 
Geográfi co, n. 41, jan. 2012 (adaptado).

Mapa 2

Conﬂ itos em terras indígenas

PRINCIPAIS ENVOLVIDOS EM
CONFRONTOS COM ÍNDIOS
NOS ÚLTIMOS ANOS

TERRA INDÍGENA

GARIMPEIROS E MADEIREIROS

FAZENDEIROS, POSSEIROS E
PRESSÃO DE POLÍTICOS LOCAIS
(Conflito de terras)

PRINCIPAIS ENVOLVIDOS EM
CONFRONTOS COM ÍNDIOS
NOS ÚLTIMOS ANOS

TERRA INDÍGENA

 SIMIELLI, M. E. Geoatlas. São Paulo: Ática, 2009 (adaptado).

Os mapas representam distintos padrões de distribuição de processos socioespaciais. Nesse sentido, a menor 
incidência de disputas territoriais envolvendo povos indígenas se explica pela

A fertilização natural dos solos.
B expansão da fronteira agrícola.
C intensifi cação da migração de retorno.
D homologação de reservas extrativistas.
E concentração histórica da urbanização.

-----------2
### QUESTÃO 02 

Trata-se de 

In [None]:


# Caminho do PDF


# Abrir o PDF


# Ler a primeira página (index 0)


# Extrair texto da primeira página
texto_pagina_1 = pagina_1.get_text()

print("Texto da página 1:")
print(texto_pagina_1)

# Fechar o PDF
pdf_document.close()
