# 📓 06 - Conversão de PDFs para Markdown para uso em RAG

Neste notebook, vamos explorar diversas bibliotecas para:  
✅ Extrair texto de PDFs reais.  
✅ Converter o conteúdo em Markdown estruturado.  
✅ Salvar arquivos `.md` prontos para uso em pipelines RAG.

**Ferramentas que vamos comparar:**  
- pypdf  
- pdfminer.six  
- unstructured  
- docling (opcional, se instalável)

---

```python
# Instale as bibliotecas necessárias (execute apenas uma vez)
 pip install pypdf pdfminer.six unstructured[local-inference] docling
```

In [3]:
import os
from pathlib import Path

# Preparar pasta de saída para arquivos .md
output_dir = Path("../data/output_markdown")
output_dir.mkdir(exist_ok=True)

## 1️⃣ Extraindo texto com pypdf

In [2]:
from pypdf import PdfReader

def extract_text_pypdf(pdf_path):
    reader = PdfReader(pdf_path)
    text = ""
    for page in reader.pages:
        text += page.extract_text() + "\n"
    return text

pdf_path = "../data/exemplo_artigo_simples.pdf"  # ajuste para o caminho real do seu PDF
text_pypdf = extract_text_pypdf(pdf_path)
print(text_pypdf[:500])

Página 1
    Retrieval-Augmented Generation (RAG) é uma técnica que une modelos de linguagem natural
com recuperação de informações.
    Essa fusão permite respostas mais precisas e atualizadas, aproveitando dados dinâmicos para
enriquecer o contexto.
Página 2
    Uma das grandes vantagens do RAG é sua capacidade de trabalhar com dados externos, como
bases de conhecimento e bancos de dados.
    Isso o torna muito útil em setores como saúde, direito e atendimento ao cliente.
Página 3
    Apesar d


### Salvar texto extraído como Markdown

In [4]:
md_path = output_dir / "exemplo_pypdf.md"
with open(md_path, "w", encoding="utf-8") as f:
    f.write("# Conteúdo extraído com pypdf\n\n")
    f.write(text_pypdf)

print(f"🔹 Markdown salvo em: {md_path}")

🔹 Markdown salvo em: ..\data\output_markdown\exemplo_pypdf.md


## 2️⃣ Extraindo texto com pdfminer.six

In [5]:
from pdfminer.high_level import extract_text

def extract_text_pdfminer(pdf_path):
    return extract_text(pdf_path)

text_pdfminer = extract_text_pdfminer(pdf_path)
print(text_pdfminer[:500])

Página 1

        Retrieval-Augmented  Generation  (RAG)  é  uma  técnica  que  une  modelos  de  linguagem  natural

com recuperação de informações.

    Essa fusão permite respostas mais precisas e atualizadas, aproveitando dados dinâmicos para

enriquecer o contexto.

Página 2

    Uma das grandes vantagens do RAG é sua capacidade de trabalhar com dados externos, como

bases de conhecimento e bancos de dados.

    Isso o torna muito útil em setores como saúde, direito e atendimento ao client


In [6]:
md_path_pdfminer = output_dir / "exemplo_pdfminer.md"
with open(md_path_pdfminer, "w", encoding="utf-8") as f:
    f.write("# Conteúdo extraído com pdfminer.six\n\n")
    f.write(text_pdfminer)

print(f"🔹 Markdown salvo em: {md_path_pdfminer}")

🔹 Markdown salvo em: ..\data\output_markdown\exemplo_pdfminer.md


## 3️⃣ Conversão para Markdown com unstructured

In [7]:
from unstructured.partition.pdf import partition_pdf

elements = partition_pdf(filename=pdf_path)
text_unstructured = "\n".join([el.text for el in elements if el.text])

md_path_unstructured = output_dir / "exemplo_unstructured.md"
with open(md_path_unstructured, "w", encoding="utf-8") as f:
    f.write("# Conteúdo extraído com unstructured\n\n")
    f.write(text_unstructured)

print(f"🔹 Markdown salvo em: {md_path_unstructured}")

  from .autonotebook import tqdm as notebook_tqdm


🔹 Markdown salvo em: ..\data\output_markdown\exemplo_unstructured.md


## 4️⃣ Usando docling

https://github.com/docling-project/docling

In [9]:
from docling.document_converter import DocumentConverter
# Inicializa o conversor
converter = DocumentConverter()

# Converte o documento
result = converter.convert(pdf_path)

# Exporta o conteúdo para Markdown
markdown_text = result.document.export_to_markdown()

# Salva o conteúdo em um arquivo .md
with open(output_dir / "exemplo_docling.md", "w", encoding="utf-8") as f:
    f.write(markdown_text)

Downloading detection model, please wait. This may take several minutes depending upon your network connection.
Downloading recognition model, please wait. This may take several minutes depending upon your network connection.
To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development
  return _methods._mean(a, axis=axis, dtype=dtype,
  ret = ret.dtype.type(ret / rcount)
  np.nanmean(
  np.nanmean(
