# Raspador do SaudeLegis (Ministério da Saúde)

Este notebook demonstra o uso do raspador para buscar legislação sanitária no portal SaudeLegis do Ministério da Saúde.

**Fonte:** [saudelegis.saude.gov.br](https://saudelegis.saude.gov.br/saudelegis/secure/norma/listPublic.xhtml)

**Tipo de dados:** Portarias, resoluções, normas e legislação sanitária

**Requisitos:** Este scraper usa Selenium para automação de navegador.

```bash
pip install raspe[selenium]
```

## Importação

In [None]:
import raspe

## Uso Básico

O raspador do SaudeLegis utiliza o parâmetro `assunto` para buscas.

In [None]:
# Busca simples por um termo
scraper = raspe.saudelegis(headless=True)
dados = scraper.raspar(assunto="doença rara")

print(f"Total de normas encontradas: {len(dados)}")
dados.head()

## Parâmetros Disponíveis

| Parâmetro | Tipo | Descrição |
|-----------|------|------------|
| `assunto` | str | Termo de busca no campo assunto |
| `headless` | bool | Se True, executa em modo headless (sem janela) |
| `debug` | bool | Se True, mantém arquivos baixados |

## Colunas Retornadas

| Coluna | Descrição |
|--------|------------|
| `tipo_norma` | Tipo da norma (PRT, RES, etc.) |
| `numero` | Número da norma |
| `data_pub` | Data de publicação |
| `origem` | Órgão de origem |
| `ementa` | Descrição/ementa da norma |
| `link_url` | Link para o texto completo |

## Uso Avançado

In [None]:
# Buscar múltiplos termos
termos = ["doença rara", "doenças raras"]

todos_dados = []
for termo in termos:
    scraper = raspe.saudelegis(headless=True)
    df = scraper.raspar(assunto=termo)
    df['termo_busca'] = termo
    todos_dados.append(df)

import pandas as pd
dados_consolidados = pd.concat(todos_dados, ignore_index=True)

# Remover duplicatas
dados_unicos = dados_consolidados.drop_duplicates(
    subset=['tipo_norma', 'numero', 'data_pub', 'origem', 'ementa']
)

print(f"Total de normas únicas: {len(dados_unicos)}")
dados_unicos.head()

In [None]:
# Analisar distribuição por tipo de norma
if 'tipo_norma' in dados.columns and len(dados) > 0:
    print("Distribuição por tipo:")
    print(dados['tipo_norma'].value_counts())

## Exportação dos Dados

In [None]:
# Exportar para Excel
# dados.to_excel("saudelegis_resultados.xlsx", index=False)

# Exportar para CSV
# dados.to_csv("saudelegis_resultados.csv", index=False)

## Notas

- Este scraper usa Selenium para automação de navegador, então é mais lento que scrapers HTTP.
- O Chrome deve estar instalado no sistema.
- O modo headless (sem janela) é recomendado para execução em servidores.