# Dados Textuais ‚Äî Diretriz Brasileira de Insufici√™ncia Card√≠aca

Extrai conte√∫do cient√≠fico da **Diretriz Brasileira de Insufici√™ncia Card√≠aca Cr√¥nica e Aguda** (SBC), focando nas p√°ginas com conte√∫do cl√≠nico relevante, removendo se√ß√µes administrativas e refer√™ncias.

**Estrat√©gia de extra√ß√£o:**
- P√°ginas 8-25: Conte√∫do cient√≠fico principal
- An√°lise de termos cardiol√≥gicos frequentes

In [1]:
# Instalar depend√™ncias (Colab/Jupyter)
%pip -q install requests pdfplumber
print('Depend√™ncias OK')

Note: you may need to restart the kernel to use updated packages.
Depend√™ncias OK


In [2]:
import requests
import pdfplumber
from pathlib import Path

url = 'http://publicacoes.cardiol.br/portal/abc/portugues/2018/v11103/pdf/11103021.pdf'

work = Path('.')  # Define 'work' as the current directory
pdf_response = requests.get(url)
pdf_file_path = work / 'downloaded_pdf.pdf'
pdf_file_path.write_bytes(pdf_response.content)
print(f'PDF salvo em: {pdf_file_path}')

PDF salvo em: downloaded_pdf.pdf


In [8]:
with pdfplumber.open(pdf_file_path) as pdf:
    total_pages = len(pdf.pages)
    print(f'üìÑ Diretriz Brasileira de IC: {total_pages} p√°ginas')
    print('Amostra dos dados exta√≠dos\n')
    
    start_page = 7  # P√°gina 8
    end_page = total_pages
    secoes_extraidas = []

    for i in range(start_page, end_page):
        texto = pdf.pages[i].extract_text()
        if texto and len(texto.strip()) > 100:
            texto_limpo = texto.replace('Diretriz Brasileira de Insufici√™ncia Card√≠aca Cr√¥nica e Aguda', '')
            texto_limpo = texto_limpo.replace('Diretrizes', '')
            
            secoes_extraidas.append({
                'pagina': i + 1,
                'texto': texto_limpo.strip(),
                'tamanho': len(texto_limpo.strip())
            })
    
    print(f'‚úÖ {len(secoes_extraidas)} p√°ginas com conte√∫do cient√≠fico extra√≠do\n')
    
    for idx, secao in enumerate(secoes_extraidas[2:4]):
        print(f'--- P√ÅGINA {secao["pagina"]} ({secao["tamanho"]} chars) ---\nResumo:')
        print(secao['texto'][:700])
        print('...\n' + '='*30 + '\n')
    
    texto_completo = '\n\n--- NOVA P√ÅGINA ---\n\n'.join([s['texto'] for s in secoes_extraidas])


üìÑ Diretriz Brasileira de IC: 104 p√°ginas

Amostra dos dados exta√≠dos
‚úÖ 97 p√°ginas com conte√∫do cient√≠fico extra√≠do

--- P√ÅGINA 10 (4379 chars) ---
Resumo:
Quadro 2.1 ‚Äì Sinais e sintomas de insufici√™ncia card√≠aca
Sintomas t√≠picos Sinais mais espec√≠ficos
Falta de ar/dispneia Press√£o venosa jugular elevada
Ortopneia Refluxo hepatojugular
Dispneia parox√≠stica noturna Terceira bulha card√≠aca
Fadiga/cansa√ßo Impulso apical desviado para esquerda
Intoler√¢ncia ao exerc√≠cio
Sintomas menos t√≠picos Sinais menos espec√≠ficos
Tosse noturna Crepita√ß√µes pulmonares
Ganho de peso Taquicardia
Dor abdominal Hepatomegalia e ascite
Perda de apetite e perda de peso Extremidades frias
Noct√∫ria e olig√∫ria Edema perif√©rico
2.1.1. Ecocardiograma natriur√©ticos auxilia de forma consider√°vel na defini√ß√£o do
O ecocardiograma transtor√°cico √© exame de imagem de diagn√≥stico de 
...

--- P√ÅGINA 11 (2493 chars) ---
Resumo:
Tabela 2.1 ‚Äì Pontos de corte para diagn√≥stico de insufici√

In [9]:
import re
from collections import Counter

print('üî¨ AN√ÅLISE DOS DADOS TEXTUAIS EXTRA√çDOS\n')

palavras = texto_completo.lower().split()
print(f'üìù Total de palavras: {len(palavras):,}')
print(f'üìù Palavras √∫nicas: {len(set(palavras)):,}')

termos_cardio = [
    'card√≠aca', 'card√≠aco', 'cora√ß√£o', 'insufici√™ncia', 'fra√ß√£o', 'eje√ß√£o',
    'sist√≥lica', 'diast√≥lica', 'mioc√°rdio', 'ventr√≠culo', '√°trio',
    'tratamento', 'terapia', 'medicamento', 'paciente', 'diagn√≥stico'
]

print('\nü´Ä TERMOS CARDIOL√ìGICOS MAIS FREQUENTES:')
for termo in termos_cardio:
    freq = texto_completo.lower().count(termo)
    if freq > 0:
        print(f'‚Ä¢ {termo}: {freq} ocorr√™ncias')

secoes_identificadas = []
keywords_secoes = {
    'Defini√ß√£o': ['defini√ß√£o', 'conceito', 'caracteriza'],
    'Epidemiologia': ['epidemiologia', 'preval√™ncia', 'incid√™ncia'],
    'Diagn√≥stico': ['diagn√≥stico', 'diagn√≥stica', 'exame'],
    'Tratamento': ['tratamento', 'terap√™utica', 'medica√ß√£o'],
    'Progn√≥stico': ['progn√≥stico', 'sobrevida', 'mortalidade']
}

print('\nüìã SE√á√ïES IDENTIFICADAS NO TEXTO:')
for secao, keywords in keywords_secoes.items():
    encontrado = any(kw in texto_completo.lower() for kw in keywords)
    status = '‚úÖ' if encontrado else '‚ùå'
    print(f'{status} {secao}')

arquivo_saida = 'dados_textuais_ic.txt'
with open(arquivo_saida, 'w', encoding='utf-8') as f:
    f.write('=== DIRETRIZ BRASILEIRA DE INSUFICI√äNCIA CARD√çACA ===\n')
    f.write(f'P√°ginas extra√≠das: {len(secoes_extraidas)}\n')
    f.write(f'Total caracteres: {len(texto_completo):,}\n')
    f.write(f'Data extra√ß√£o: {__import__("datetime").datetime.now()}\n\n')
    f.write(texto_completo)

print(f'\nDados salvos em: {arquivo_saida}')
print('Extra√ß√£o de dados textuais conclu√≠da!')

üî¨ AN√ÅLISE DOS DADOS TEXTUAIS EXTRA√çDOS

üìù Total de palavras: 78,854
üìù Palavras √∫nicas: 17,038

ü´Ä TERMOS CARDIOL√ìGICOS MAIS FREQUENTES:
‚Ä¢ card√≠aca: 177 ocorr√™ncias
‚Ä¢ card√≠aco: 96 ocorr√™ncias
‚Ä¢ cora√ß√£o: 5 ocorr√™ncias
‚Ä¢ insufici√™ncia: 133 ocorr√™ncias
‚Ä¢ fra√ß√£o: 56 ocorr√™ncias
‚Ä¢ eje√ß√£o: 52 ocorr√™ncias
‚Ä¢ sist√≥lica: 46 ocorr√™ncias
‚Ä¢ diast√≥lica: 18 ocorr√™ncias
‚Ä¢ mioc√°rdio: 32 ocorr√™ncias
‚Ä¢ ventr√≠culo: 40 ocorr√™ncias
‚Ä¢ √°trio: 5 ocorr√™ncias
‚Ä¢ tratamento: 221 ocorr√™ncias
‚Ä¢ terapia: 105 ocorr√™ncias
‚Ä¢ medicamento: 33 ocorr√™ncias
‚Ä¢ paciente: 758 ocorr√™ncias
‚Ä¢ diagn√≥stico: 97 ocorr√™ncias

üìã SE√á√ïES IDENTIFICADAS NO TEXTO:
‚úÖ Defini√ß√£o
‚úÖ Epidemiologia
‚úÖ Diagn√≥stico
‚úÖ Tratamento
‚úÖ Progn√≥stico

Dados salvos em: dados_textuais_ic.txt
Extra√ß√£o de dados textuais conclu√≠da!
