# Dados Textuais — Diretriz Brasileira de Insuficiência Cardíaca

Baixa um PDF público da diretriz, extrai o texto com pdfplumber, exibe os primeiros 2000 caracteres e salva o conteúdo completo em `../docs/diretriz_brasileira_ic.txt`.

In [None]:
# Instalar dependências (Colab/Jupyter)
%pip -q install requests pdfplumber
print('Dependências OK')

Dependências OK


In [None]:
# Download do PDF para diretório temporário (com fallback offline)
import requests, tempfile, pathlib
pdf_url = 'https://docs.bvsalud.org/biblioref/2021/02/1143108/ii-diretriz-brasileira-de-insuficiencia-cardiaca-cronica_7YmQwNq.pdf'
_tmp = tempfile.TemporaryDirectory()
work = pathlib.Path(_tmp.name)
pdf_path = work / 'diretriz_ic.pdf'
fallback_text = None
try:
    r = requests.get(pdf_url, timeout=60)
    r.raise_for_status()
    pdf_path.write_bytes(r.content)
    print('PDF salvo temporariamente em:', pdf_path)
except Exception as e:
    print('Falha ao baixar PDF, seguindo com texto de exemplo. Motivo:', e)
    pdf_path = None
    fallback_text = (
        'Diretriz Brasileira de Insuficiência Cardíaca — Texto de Exemplo. '\
        'Este conteúdo simula o texto extraído do PDF para permitir testes em ambientes sem internet. '\
        'Inclui menções a medicamentos (ex.: enalapril, carvedilol), sintomas (dispneia, edema), '\
        'e condutas terapêuticas para NER e grafos de conhecimento.'
    )

HTTPError: 404 Client Error: Not Found for url: https://docs.bvsalud.org/biblioref/2021/02/1143108/ii-diretriz-brasileira-de-insuficiencia-cardiaca-cronica_7YmQwNq.pdf

In [None]:
# Extração de texto (pdfplumber se houver PDF; caso contrário, fallback)
import pdfplumber, pathlib
out_txt = work / 'diretriz_brasileira_ic.txt'

if pdf_path and pathlib.Path(pdf_path).exists():
    text_parts = []
    with pdfplumber.open(str(pdf_path)) as pdf:
        for page in pdf.pages:
            text_parts.append(page.extract_text(x_tolerance=1, y_tolerance=1) or '')
    full_text = '\n'.join(text_parts)
else:
    full_text = fallback_text or 'Conteúdo de fallback não disponível.'

print(full_text[:2000])
out_txt.write_text(full_text, encoding='utf-8')
print('Texto completo salvo temporariamente em:', out_txt)
print('Para persistir no repositório, mova para ../docs/diretriz_brasileira_ic.txt')