In [None]:
## Parte 1 scrapping de dados do catálogo virtual de experiências do CONASEMS - salva a página html contendo o catálogo de todas as experiências do site em uma variável
import requests
from bs4 import BeautifulSoup

# URL da página que você quer copiar o HTML
lista_trabalhos_url = "https://portal.conasems.org.br/brasil-aqui-tem-sus/experiencias?rows=1700&start=1"

# Realiza uma requisição GET para obter o conteúdo da página
response = requests.get(lista_trabalhos_url)

# Verifica se a requisição foi bem-sucedida
if response.status_code == 200:
    # Faz o parsing do HTML com BeautifulSoup
    soup = BeautifulSoup(response.content, 'html.parser')
    
    # Extrai todo o conteúdo dentro da tag <html> e armazena em uma variável
    html_content = str(soup)

    # Exibe ou utiliza a variável html_content conforme necessário
    print(html_content)
else:
    print(f"Erro ao acessar a URL. Status code: {response.status_code}")


In [None]:
## Parte 2 scrapping de dados do catálogo virtual de experiências do CONASEMS - extrai informações do catálogo virtual de experiências de html para json e csv
import pandas as pd
from bs4 import BeautifulSoup 

soup = BeautifulSoup(html_content, 'html.parser')
data = []

items_experiencias = soup.select("#__next > section > section > div")

# Cria um dataframe com as colunas titulo, cidade_estado, autoria, ano e link_experiencia
for item in items_experiencias:
    infos = item.select_one("a > div").find_all("p")
    cidade_estado = infos[0].text
    titulo = infos[1].text
    autoria = infos[2].text.split(": ")[1]
    ano = infos[3].text
    link_experiencia = f"https://portal.conasems.org.br{item.select_one("a")["href"]}"
    data.append({
        "titulo": titulo,
        "cidade_estado": cidade_estado,
        "autoria": autoria,
        "ano": ano,
        "link_experiencia": link_experiencia
    })

df = pd.DataFrame(data)

df.to_json("lista_itens_CONASEMS.json", index=False)
df.to_csv("lista_itens_CONASEMS.csv", index=False)

In [None]:
## Parte 3 scrapping de dados do catálogo virtual de experiências do CONASEM - extrai informações de cada experiência individual (nas páginas específicas das experiências) e integra com o catálogo extraído anteriormente

import requests
from bs4 import BeautifulSoup
import pandas as pd

# Carregar o JSON com os links usando pandas
lista_itens = pd.read_json('lista_itens_CONASEMS.json')

# Lista para armazenar os dados
data = []
sucessos = []
erros = []

# Função auxiliar para verificar e extrair o texto
def get_element_text(soup, selector):
    element = soup.select_one(selector)
    return element.get_text(strip=True) if element else ""

for index, row in lista_itens.iterrows():
    url = row["link_experiencia"]
    response = requests.get(url)

    # Verificar se a requisição foi bem-sucedida
    if response.status_code == 200:
        soup = BeautifulSoup(response.content, 'html.parser')

        # Extração dos dados usando seletores CSS com :-soup-contains
        link = url
        coautoria = get_element_text(soup, 'p:-soup-contains("Coautor")')
        introducao = get_element_text(soup, 'h3:-soup-contains("Apresentação/Introdução") + p')
        objetivos = get_element_text(soup, 'h3:-soup-contains("Objetivos") + p')
        metodologia = get_element_text(soup, 'h3:-soup-contains("Metodologia") + p')
        resultados = get_element_text(soup, 'h3:-soup-contains("Resultados") + p')
        conclusoes = get_element_text(soup, 'h3:-soup-contains("Conclusões") + p')
        palavras_chave = get_element_text(soup, 'h3:-soup-contains("Palavras-chave") + p')

        # Adicionar dados à lista
        data.append({
            "index": index,
            "link": link,
            "coautoria": coautoria, 
            "introducao": introducao, 
            "objetivos": objetivos, 
            "metodologia": metodologia,
            "resultados": resultados, 
            "conclusoes": conclusoes, 
            "palavras_chave": palavras_chave
        })
        sucessos.append({index:link})
        # Exibir progresso
        print(f"Processando {index + 1}/{len(lista_itens)}")
    else:
        erros.append({index:link})
        print(f"Erro ao acessar {index + 1}/{len(lista_itens)} : {response.status_code}")

# Converter os dados para um DataFrame e salvar em CSV
df = pd.DataFrame(data)
df.to_csv('resultados_scraping.csv', index=False)


In [None]:
## Parte 4 scrapping de dados do catálogo virtual de experiências do CONASEM - unificando os dados do catálogo com os dados das páginas de cada item
import pandas as pd

# Carregar os arquivos
itens = pd.read_json("lista_itens_CONASEMS.json")
resumos = pd.read_csv("resultados_scraping.csv")

# Renomear a coluna 'link' para 'link_experiencia' em resumos
resumos.rename(columns={"link": "link_experiencia"}, inplace=True)

# Fazer o merge mantendo todos os itens de 'itens', mesmo que não estejam em 'resumos'
novo_df = pd.merge(itens, resumos, on="link_experiencia", how="left")

# Separar 'cidade' e 'estado' da coluna 'cidade_estado'
novo_df[['cidade', 'estado']] = novo_df['cidade_estado'].str.split(' - ', expand=True)

# Criar o campo 'resumo_completo' incluindo o título e todos os demais campos de interesse
novo_df["resumo_completo"] = novo_df[["titulo", "introducao", "objetivos", "metodologia", "resultados", "conclusoes", "palavras_chave"]].fillna('').agg('\n'.join, axis=1)

# Processar a coluna 'coautoria'
novo_df['coautoria'] = novo_df['coautoria'].fillna('').apply(lambda x: x.split(':')[1] if len(x.split(':')) > 1 else None).str.upper()

# Criar a coluna 'resumo_completo_html' com cabeçalhos HTML para cada seção
novo_df['resumo_completo_html'] = (
    "<h1>Título</h1> " + novo_df['titulo'].fillna('') +
    "<h1>Introdução</h1> " + novo_df['introducao'].fillna('') +
    "<h1>Objetivos</h1> " + novo_df['objetivos'].fillna('') +
    "<h1>Metodologia</h1> " + novo_df['metodologia'].fillna('') +
    "<h1>Resultados</h1> " + novo_df['resultados'].fillna('') +
    "<h1>Conclusões</h1> " + novo_df['conclusoes'].fillna('') +
    "<h1>Palavras-chave</h1> " + novo_df['palavras_chave'].fillna('')
)

# Adicionar a coluna 'id' que começa de 1
novo_df.insert(0, 'id', range(1, len(novo_df) + 1))

# Remover a coluna 'index' e reorganizar as colunas na ordem desejada
colunas_ordenadas = [
    'id', 'titulo', 'cidade', 'estado', 'ano', 'autoria', 'coautoria', 'resumo_completo',
    'resumo_completo_html', 'introducao', 'objetivos', 'metodologia', 'resultados', 
    'conclusoes', 'palavras_chave', 'link_experiencia'
]

novo_df = novo_df[colunas_ordenadas]

# Salvar em diferentes formatos
novo_df.to_excel("experiencias_completas_CONASEMS.xlsx", index=False)
novo_df.to_csv("experiencias_completas_CONASEMS.csv", index=False)
novo_df.to_json("experiencias_completas_CONASEMS.json", index=False)
