# Etapa 3 ‚Äì Webscraping de Fontes Complementares
Esta etapa tem como objetivo identificar e coletar conte√∫dos t√©cnicos relevantes dispon√≠veis online que n√£o estejam presentes nos documentos em PDF j√° processados no projeto. A inclus√£o dessas fontes complementares visa enriquecer a base textual do Agente de Intelig√™ncia Artificial com informa√ß√µes mais recentes, espec√≠ficas e operacionais, oriundas de institui√ß√µes confi√°veis.

**3.1 Levantamento de Fontes**
Inicialmente, foram mapeadas p√°ginas institucionais estrat√©gicas que frequentemente publicam documentos t√©cnicos e cient√≠ficos relevantes para a sa√∫de p√∫blica. As fontes priorizadas incluem:

- OPAS/OMS (Organiza√ß√£o Pan-Americana da Sa√∫de)

- Minist√©rio da Sa√∫de (Brasil)

- Anvisa

- Fiocruz

- CDC (Centers for Disease Control and Prevention ‚Äì EUA)

A partir dessas p√°ginas, foram identificadas se√ß√µes com documentos atualizados, publica√ß√µes t√©cnicas, boletins informativos, relat√≥rios de monitoramento e notas normativas. Esses materiais abrangem temas como imuniza√ß√£o, doen√ßas transmiss√≠veis e n√£o transmiss√≠veis, sa√∫de mental, vigil√¢ncia laboratorial, pr√°ticas cl√≠nicas, vetores e seguran√ßa alimentar, entre outros.

As informa√ß√µes levantadas foram organizadas em uma planilha com os seguintes campos:

- Fonte

- Link

- Tipo de conte√∫do

- Doen√ßa/Tema (resumido)

- Observa√ß√µes

**3.2 Coleta dos Conte√∫dos**
Para automatizar a coleta dos t√≠tulos e links das publica√ß√µes mais recentes, foi desenvolvido um script em Python com uso da biblioteca BeautifulSoup, capaz de varrer automaticamente os sites indicados e extrair os principais conte√∫dos dispon√≠veis. O script realiza:

- Acesso √†s p√°ginas institucionais listadas;

- Extra√ß√£o dos t√≠tulos e links de documentos t√©cnicos vis√≠veis;

- Organiza√ß√£o dos resultados em uma planilha .csv para posterior an√°lise e valida√ß√£o manual.

*Essa abordagem permite manter a base textual atualizada com agilidade, al√©m de facilitar a inclus√£o sistem√°tica de novos documentos √† medida que forem sendo publicados.*

## **3.1 Levantamento de Fontes**
Inicialmente, foram mapeadas p√°ginas institucionais estrat√©gicas que frequentemente publicam documentos t√©cnicos e cient√≠ficos relevantes para a sa√∫de p√∫blica. As fontes priorizadas incluem:

- OPAS/OMS (Organiza√ß√£o Pan-Americana da Sa√∫de)

- Minist√©rio da Sa√∫de (Brasil)

- Anvisa

- Fiocruz

- CDC (Centers for Disease Control and Prevention ‚Äì EUA)

A partir dessas p√°ginas, foram identificadas se√ß√µes com documentos atualizados, publica√ß√µes t√©cnicas, boletins informativos, relat√≥rios de monitoramento e notas normativas. Esses materiais abrangem temas como imuniza√ß√£o, doen√ßas transmiss√≠veis e n√£o transmiss√≠veis, sa√∫de mental, vigil√¢ncia laboratorial, pr√°ticas cl√≠nicas, vetores e seguran√ßa alimentar, entre outros.

As informa√ß√µes levantadas foram organizadas em uma planilha com os seguintes campos:

- Fonte

- Link

- Tipo de conte√∫do

- Doen√ßa/Tema (resumido)

- Observa√ß√µes

In [6]:
#preparando o ambiente
# Instala√ß√£o das bibliotecas necess√°rias
%pip install requests beautifulsoup4 pandas
%pip install pandas beautifulsoup4 python-slugify openpyxl
import requests
from bs4 import BeautifulSoup
import pandas as pd
import os
import re
from slugify import slugify

Note: you may need to restart the kernel to use updated packages.
Note: you may need to restart the kernel to use updated packages.


### Etapa de Webscraping ‚Äì Coleta de Fontes Complementares

Nesta etapa, foi realizada uma coleta automatizada de conte√∫dos a partir de p√°ginas institucionais selecionadas como fontes complementares de informa√ß√£o t√©cnica, cient√≠fica e normativa. Foram inclu√≠dos portais da OPAS, Minist√©rio da Sa√∫de, Anvisa, Fiocruz e CDC.

O script acessa cada site da lista definida, extrai os links dispon√≠veis com t√≠tulos leg√≠veis e monta uma tabela com os principais resultados. Apenas links com t√≠tulos minimamente descritivos (mais de 10 caracteres) e com URLs completas s√£o considerados. Para cada site, s√£o coletados at√© 10 links relevantes.

O resultado √© salvo em um arquivo CSV chamado `webscraping_fontes_complementares.csv`, contendo tr√™s colunas: `Fonte`, `T√≠tulo` e `Link`. Esse arquivo ser√° utilizado nas etapas seguintes para filtragem e classifica√ß√£o autom√°tica dos conte√∫dos coletados.

In [3]:
# Lista de fontes
sites = [
    ("OPAS - Documentos T√©cnicos", "https://www.paho.org/pt/documentos-tecnicos-e-cientificos"),
    ("OPAS - Not√≠cias T√©cnicas", "https://www.paho.org/pt/noticias/noticias-das-unidades-tecnicas"),
    ("OPAS - Publica√ß√µes", "https://www.paho.org/pt/publicacoes"),
    ("Minist√©rio da Sa√∫de - Sa√∫de A-Z", "https://www.gov.br/saude/pt-br/assuntos/saude-de-a-a-z"),
    ("Anvisa - Not√≠cias", "https://www.gov.br/anvisa/pt-br/assuntos/noticias-anvisa"),
    ("Fiocruz - Notas T√©cnicas", "https://portal.fiocruz.br/pesquisas-notas-tecnicas-e-relatorios"),
    ("CDC - A-Z Topics", "https://www.cdc.gov/health-topics.html#cdc-atozlist")
]

# Fun√ß√£o para extrair os links com t√≠tulos leg√≠veis
def extrair_links(nome_fonte, url):
    try:
        resp = requests.get(url, timeout=15)
        soup = BeautifulSoup(resp.text, 'html.parser')
        links = soup.find_all('a', href=True)
        
        resultados = []
        for tag in links:
            texto = tag.get_text(strip=True)
            href = tag['href']
            if texto and len(texto) > 10 and ('http' in href or href.startswith('/')):
                link_completo = href if 'http' in href else url.split('/pt')[0] + href
                resultados.append({'Fonte': nome_fonte, 'T√≠tulo': texto, 'Link': link_completo})
        
        return resultados[:10]  # Limita para 10 primeiros por site
    except Exception as e:
        return [{'Fonte': nome_fonte, 'T√≠tulo': f'Erro ao acessar: {e}', 'Link': url}]

# Rodar scraping
todos_resultados = []
for nome, link in sites:
    todos_resultados.extend(extrair_links(nome, link))

# Criar DataFrame
df = pd.DataFrame(todos_resultados)

# Salvar em CSV
df.to_csv("webscraping_fontes_complementares.csv", index=False, encoding='utf-8-sig')

print("‚úÖ Finalizado. Arquivo 'webscraping_fontes_complementares.csv' salvo com os resultados.")


‚úÖ Finalizado. Arquivo 'webscraping_fontes_complementares.csv' salvo com os resultados.


###  Limpeza e Classifica√ß√£o das Fontes Complementares

Ap√≥s a coleta inicial dos links, esta etapa realiza a limpeza e a classifica√ß√£o autom√°tica dos conte√∫dos extra√≠dos. As a√ß√µes realizadas incluem:

1. **Remo√ß√£o de registros irrelevantes**:
   - T√≠tulos vazios ou muito curtos (menos de 10 caracteres) s√£o eliminados.
   - Links duplicados s√£o removidos para evitar redund√¢ncias.
   - Termos gen√©ricos ou institucionais (ex: "fale conosco", "barra de governo") s√£o filtrados para manter apenas conte√∫dos t√©cnicos relevantes.

2. **Classifica√ß√£o automatizada**:
   - Cada item √© classificado por tipo de conte√∫do: *Not√≠cia T√©cnica*, *Relat√≥rio T√©cnico*, *Publica√ß√£o T√©cnica*, *Portal de Publica√ß√µes* ou *Outro*.
   - Tamb√©m √© feita uma classifica√ß√£o tem√°tica com base em palavras-chave, agrupando os conte√∫dos por √°reas como *Imuniza√ß√£o*, *Doen√ßas Cr√¥nicas*, *Agrot√≥xicos*, entre outras.

3. **Organiza√ß√£o e exporta√ß√£o**:
   - As colunas s√£o reorganizadas para melhor visualiza√ß√£o.
   - O resultado final √© salvo como `fontes_complementares_classificado.xlsx`, que servir√° de base para etapas posteriores de an√°lise ou curadoria manual.


In [4]:
# Caminho para o seu arquivo CSV gerado anteriormente
arquivo_entrada = r'C:\Users\isisi\Documents\IAVS_PROJETO\webscraping_fontes_complementares.csv'
arquivo_saida = r'C:\Users\isisi\Documents\IAVS_PROJETO\fontes_complementares_classificado.xlsx'

# Carregar o CSV
df = pd.read_csv(arquivo_entrada)

# 1. Remover t√≠tulos vazios ou muito curtos
df = df[df["T√≠tulo"].str.len() > 10]

# 2. Remover duplicatas com base no link
df = df.drop_duplicates(subset="Link")

# 3. Remover registros gen√©ricos
palavras_excluir = [
    "inicial", "barra de governo", "fale conosco", "visite", "acessibilidade",
    "linha do tempo", "galeria de", "curiosidades", "cdc.gov home", "other languages",
    "imposto de renda", "atualize"
]
df = df[~df["T√≠tulo"].str.lower().str.contains('|'.join(palavras_excluir))]

# 4. Classifica√ß√£o autom√°tica
def classificar_tipo(texto):
    texto = texto.lower()
    if "not√≠cia" in texto or "news" in texto:
        return "Not√≠cia T√©cnica"
    elif "relat√≥rio" in texto or "report" in texto:
        return "Relat√≥rio T√©cnico"
    elif "manual" in texto or "guia" in texto or "documento" in texto:
        return "Publica√ß√£o T√©cnica"
    elif "publica√ß√µes" in texto or "publications" in texto:
        return "Portal de Publica√ß√µes"
    else:
        return "Outro"

def classificar_tema(texto):
    texto = texto.lower()
    if "agrot√≥xico" in texto or "res√≠duos" in texto:
        return "Agrot√≥xicos"
    elif "vacina" in texto or "imuniza√ß√£o" in texto:
        return "Imuniza√ß√£o"
    elif "cardiovascular" in texto or "hearts" in texto:
        return "Doen√ßas Cr√¥nicas"
    elif "envelhecimento" in texto:
        return "Envelhecimento"
    elif "migra√ß√£o" in texto:
        return "Sa√∫de de Popula√ß√µes Vulner√°veis"
    elif "tr√¢nsito" in texto or "acidentes" in texto:
        return "Acidentes e Viol√™ncia"
    else:
        return "Sa√∫de P√∫blica Geral"

df["Tipo de Conte√∫do"] = df["T√≠tulo"].apply(classificar_tipo)
df["Doen√ßa/Tema"] = df["T√≠tulo"].apply(classificar_tema)
df["Observa√ß√µes"] = "Fonte complementar automatizada ‚Äì n√£o presente nos PDFs"

# Reordenar colunas
df_final = df[["Fonte", "T√≠tulo", "Link", "Tipo de Conte√∫do", "Doen√ßa/Tema", "Observa√ß√µes"]]

# Salvar em Excel
df_final.to_excel(arquivo_saida, index=False)

print("‚úÖ Planilha 'fontes_complementares_classificado.xlsx' gerada com sucesso!")


‚úÖ Planilha 'fontes_complementares_classificado.xlsx' gerada com sucesso!


### Etapa de Extra√ß√£o e Organiza√ß√£o dos Textos Complementares

**Objetivo:**  
Extrair o conte√∫do textual das p√°ginas web listadas na etapa anterior de webscraping, convertendo automaticamente os textos em arquivos `.txt`, organizados em uma estrutura padr√£o. Esta etapa tem como finalidade alimentar o pipeline do projeto IAVS com textos limpos, classificados e organizados por fonte.

**Estrutura esperada:**  
- Uma planilha `.xlsx` com as colunas: `Fonte`, `T√≠tulo`, `Link`, `Tipo de Conte√∫do`, `Doen√ßa/Tema`, `Observa√ß√µes`.

**O que foi feito:**  
- Leitura da planilha de links coletados e classificados.
- Remo√ß√£o de registros duplicados e conte√∫dos irrelevantes.
- Acesso autom√°tico a cada link para extra√ß√£o do conte√∫do textual.
- Convers√£o dos textos extra√≠dos em arquivos `.txt`.
- Limpeza dos textos (remo√ß√£o de artefatos, espa√ßos extras, etc.).
- Organiza√ß√£o dos arquivos em duas pastas:  
  - `textos_complementares_raw`: vers√£o bruta extra√≠da.  
  - `textos_complementares_limpos`: vers√£o limpa e pronta para uso.
- Cria√ß√£o autom√°tica de todas as pastas necess√°rias, caso ainda n√£o existam.



In [8]:
# === CONFIGURA√á√ÉO GERAL ===
arquivo_excel = r'C:\Users\isisi\Documents\IAVS_PROJETO\fontes_complementares_classificado.xlsx'
pasta_raw = r'C:\Users\isisi\Documents\IAVS_PROJETO\textos_complementares_raw'
pasta_limpos = r'C:\Users\isisi\Documents\IAVS_PROJETO\textos_convertidos'
pasta_complementares_limpos = r'C:\Users\isisi\Documents\IAVS_PROJETO\textos_complementares_limpos'
# === Fun√ß√µes auxiliares ===

def criar_pasta(pasta):
    if not os.path.exists(pasta):
        os.makedirs(pasta)

def classificar_tipo(texto):
    texto = texto.lower()
    if "not√≠cia" in texto or "news" in texto:
        return "Not√≠cia T√©cnica"
    elif "relat√≥rio" in texto or "report" in texto:
        return "Relat√≥rio T√©cnico"
    elif "manual" in texto or "guia" in texto or "documento" in texto:
        return "Publica√ß√£o T√©cnica"
    elif "publica√ß√µes" in texto or "publications" in texto:
        return "Portal de Publica√ß√µes"
    else:
        return "Outro"

def classificar_tema(texto):
    texto = texto.lower()
    if "agrot√≥xico" in texto or "res√≠duos" in texto:
        return "Agrot√≥xicos"
    elif "vacina" in texto or "imuniza√ß√£o" in texto:
        return "Imuniza√ß√£o"
    elif "cardiovascular" in texto or "hearts" in texto:
        return "Doen√ßas Cr√¥nicas"
    elif "envelhecimento" in texto:
        return "Envelhecimento"
    elif "migra√ß√£o" in texto:
        return "Popula√ß√µes Vulner√°veis"
    elif "tr√¢nsito" in texto or "acidentes" in texto:
        return "Acidentes e Viol√™ncia"
    else:
        return "Sa√∫de P√∫blica Geral"

def limpar_texto(texto):
    texto = re.sub(r'\n+', '\n', texto)
    texto = re.sub(r'\s+', ' ', texto)
    return texto.strip()

# === Etapa 1: Leitura e classifica√ß√£o da planilha ===
print("üìä Lendo e classificando registros...")
df = pd.read_excel(arquivo_excel)

df = df[df["T√≠tulo"].str.len() > 10]
df = df.drop_duplicates(subset="Link")

palavras_excluir = [
    "inicial", "barra de governo", "fale conosco", "visite", "acessibilidade",
    "linha do tempo", "galeria de", "curiosidades", "cdc.gov home", "other languages",
    "imposto de renda", "atualize"
]
df = df[~df["T√≠tulo"].str.lower().str.contains('|'.join(palavras_excluir))]

df["Tipo de Conte√∫do"] = df["T√≠tulo"].apply(classificar_tipo)
df["Doen√ßa/Tema"] = df["T√≠tulo"].apply(classificar_tema)
df["Observa√ß√µes"] = "Fonte complementar automatizada ‚Äì n√£o presente nos PDFs"
df = df[["Fonte", "T√≠tulo", "Link", "Tipo de Conte√∫do", "Doen√ßa/Tema", "Observa√ß√µes"]]

# === Etapa 2: Download dos textos ===
print("Iniciando download dos textos...")
criar_pasta(pasta_raw)
criar_pasta(pasta_complementares_limpos)

for _, row in df.iterrows():
    fonte = slugify(row["Fonte"])
    titulo = slugify(row["T√≠tulo"])[:60]
    url = row["Link"]
    
    pasta_fonte = os.path.join(pasta_raw, fonte)
    criar_pasta(pasta_fonte)
    
    caminho_saida = os.path.join(pasta_complementares_limpos, f"{titulo}.txt")
    caminho_saida2 = os.path.join(pasta_limpos, f"{titulo}.txt")
    
    try:
        res = requests.get(url, timeout=15)
        soup = BeautifulSoup(res.text, "html.parser")
        texto = "\n".join([tag.get_text(strip=True) for tag in soup.find_all(["p", "h1", "h2", "h3", "li"])])
        
        if len(texto) > 100:
            with open(caminho_saida, "w", encoding="utf-8") as f:
                f.write(texto)
            print(f"‚úÖ Texto salvo: {titulo}")
        else:
            print(f"‚ö†Ô∏è Conte√∫do insuficiente: {titulo}")
    except Exception as e:
        print(f"‚ùå Erro em {url}: {e}")

# === Etapa 3: Limpeza dos textos ===
print("\nLimpando textos e salvando vers√£o final...")
criar_pasta(pasta_limpos)

for fonte in os.listdir(pasta_raw):
    pasta_fonte_raw = os.path.join(pasta_raw, fonte)
    pasta_fonte_limpos = os.path.join(pasta_limpos, fonte)
    criar_pasta(pasta_fonte_limpos)

    for arquivo in os.listdir(pasta_fonte_raw):
        if not arquivo.endswith(".txt"):
            continue

        caminho_entrada = os.path.join(pasta_fonte_raw, arquivo)
        caminho_saida = os.path.join(pasta_fonte_limpos, arquivo)

        try:
            with open(caminho_entrada, 'r', encoding='utf-8') as f:
                conteudo = f.read()

            texto_limpo = limpar_texto(conteudo)

            if len(texto_limpo) > 100:
                with open(caminho_saida, 'w', encoding='utf-8') as f:
                    f.write(texto_limpo)
                print(f"‚úÖ Texto limpo: {arquivo}")
            else:
                print(f"‚ö†Ô∏è Ignorado (muito curto): {arquivo}")
        except Exception as e:
            print(f"‚ùå Erro ao limpar {arquivo}: {e}")

print("\nPipeline finalizado com sucesso!")
print(f"‚úîÔ∏è Arquivos crus: {pasta_raw}")
print(f"‚úîÔ∏è Arquivos limpos: {pasta_limpos}")


üìä Lendo e classificando registros...
Iniciando download dos textos...
‚úÖ Texto salvo: publicacoes
‚úÖ Texto salvo: biblioteca-digital-de-saude
‚ö†Ô∏è Conte√∫do insuficiente: biblioteca-virtual-em-saude
‚úÖ Texto salvo: campus-virtual-de-saude-publica
‚úÖ Texto salvo: centros-colaboradores-da-opas-oms
‚úÖ Texto salvo: fundos-rotatorio-regionais
‚úÖ Texto salvo: decada-do-envelhecimento-saudavel
‚úÖ Texto salvo: iniciativa-de-eliminacao
‚úÖ Texto salvo: migracao-e-saude-nas-americas
‚úÖ Texto salvo: hearts-nas-americas
‚úÖ Texto salvo: ministerio-da-saude
‚úÖ Texto salvo: noticias-para-os-estados
‚úÖ Texto salvo: distrito-federal
‚úÖ Texto salvo: espirito-santo
‚úÖ Texto salvo: mato-grosso
‚úÖ Texto salvo: mato-grosso-do-sul
‚úÖ Texto salvo: minas-gerais
‚úÖ Texto salvo: agencia-nacional-de-vigilancia-sanitaria-anvisa
‚úÖ Texto salvo: agrotoxicos
‚úÖ Texto salvo: disque-intoxicacao
‚úÖ Texto salvo: monografias-de-agrotoxicos
‚úÖ Texto salvo: programa-de-analise-de-residuos-de-agrotox