# **ML - Introdução à Leitura e Estruturação de Dados**
**Autor:** [Anderson França](https://www.linkedin.com/in/anderson-m-franca/) | **Contato:** [github.com/andfranca](https://github.com/andfranca/estatistica-e-aprendizado-de-maquinas-ptbr)

<a href="https://creativecommons.org/licenses/by/4.0/deed.en"><img align="left" width="80" src="https://mirrors.creativecommons.org/presskit/buttons/88x31/png/by-nc.png"/></a>


___

### **HTML (HyperText Markup Language)**

É o que está por trás das páginas da internet, portais e sistemas online. Os textos são divididos por blocos e marcadores, o que ajuda na navegação, mas pode virar um desafio quando o conteúdo está espalhado ou misturado com elementos visuais.

#### **Características:**
- Estrutura marcada por tags (div, p, table)
- Conteúdo pode vir fragmentado por blocos
- Pode conter scripts e elementos interativos
- Facilidade em navegar com BeautifulSoup, mas requer filtragem

#### **Pontos de Atenção:**
- Pode conter ruído: menus, botões, scripts
- Texto pode vir fragmentado em várias tags
- Requer filtros para isolar o conteúdo principal
- Conteúdo pode estar em múltiplas páginas

___

## **Leitura de HTML (Simples)**

Muitos documentos públicos, como pareceres técnicos, relatórios ou atas, são publicados diretamente em portais governamentais ou sistemas internos via HTML. Isso nos permite acessar o conteúdo de forma mais leve, mas exige filtragem.

Por que começamos com HTML?
- É acessível: basta uma URL ou o código da página
- Tem estrutura marcada: com tags como `<p>`, `<div>`, `<table>`, etc.
- Requer limpeza: menus, scripts e rodapés poluem o conteúdo
- É ótimo para treinar leitura semântica de blocos

### **Estrutura Básica de uma página**

Toda página web começa com a estrutura ao lado. Os elementos principais são:
- `<head>`: informações sobre a página (título, configurações, css, javascript)
- `<body>`: onde fica o conteúdo visível e que geralmente estão os dados que queremos (títulos, parágrafos, links, imagens)
Essa estrutura organiza a página em blocos que podem ser acessados pelas nossas ferramentas de scraping. 

```html 

<!DOCTYPE html>
<html>
  <head>
    <title>Minha Página</title>
  </head>
  <body>
    <h1>Título</h1>
    <p>Um parágrafo.</p>
    <a href="https://site.com">Link</a>
  </body>
</html>

```


### **Principais elementos usados em scraping**

As páginas web são construídas com HTML, uma linguagem que organiza o conteúdo por meio de `tags`.

As `tags` funcionam como “etiquetas” que indicam o tipo de informação que está sendo exibida, como texto, imagem, link ou tabela.  Elas sempre aparecem entre sinais de menor e maior, como <p> ou <div>, e quase sempre têm uma abertura e um fechamento:
Por exemplo: 
```html
<p>Este é um parágrafo</p>
```

As tags mais comuns em tarefas de web scraping são:

| Tag            | Função              | Descrição                                                                 |
|----------------|---------------------|---------------------------------------------------------------------------|
| `<p>`          | Parágrafo           | Define um bloco de texto corrido, como em textos e descrições.           |
| `<a>`          | Link                | Cria um link clicável. O endereço está no atributo `href`.               |
| `<div>`        | Bloco de conteúdo   | Agrupa elementos em blocos. Muito usado para organizar o layout.         |
| `<h1>, <h2>…`  | Título e subtítulo  | Representam títulos hierárquicos. `<h1>` é o mais importante.            |
| `<img>`        | Imagem              | Insere uma imagem na página. A fonte do arquivo está no atributo `src`.  |
| `<table>`      | Tabela              | Organiza dados em linhas e colunas. Ideal para informações tabulares.    |

### **Tags Estruturais**

Nem todo elemento HTML representa texto ou imagem. Algumas tags servem para organizar e agrupar conteúdo. Portanto, quando buscamos uma tag como `<p>`, `<span>` e demais tags, elas vão estar dentro de outros blocos. Essas estruturas ajudam a organizar o layout da página e são muito importantes para tarefas de scraping. As principais são:



| Tag         | Função              | Descrição                                                                                               |
|-------------|---------------------|----------------------------------------------------------------------------------------------------------|
| `<div>`     | Bloco de Conteúdo   | Agrupa elementos em seções. Muito usada para estruturar o layout de páginas.                           |
| `<span>`    | Destaque em Linha   | Agrupa trechos curtos de texto, sem quebrar a linha. Útil para aplicar estilo ou identificar partes.   |
| `<section>` | Seção temática      | Agrupa conteúdo relacionado. Tem significado semântico (ex: uma sessão de artigos).                     |
| `<article>` | Conteúdo Independente | Representa um conteúdo completo e autônomo, como uma notícia ou post.                                 |
| `<header>`  | Cabeçalho           | Define a parte superior de uma seção ou página (título, menu, logo...). Geralmente igual em todo o site.|
| `<footer>`  | Rodapé              | Define a parte inferior de uma seção ou página (dados de contato, links úteis).                         |


### **Atributos HTML**

As tags HTML podem conter atributos, que trazem informações adicionais sobre o conteúdo.

Um atributo aparece dentro da tag de abertura.
Ele sempre segue o formato: nome="valor"
Os atributos ajudam a identificar, descrever ou configurar os elementos da página.

**Exemplo:** 

```html
<a href="https://site.com" class="botao">Clique aqui</a>
```

Neste caso:
- `href`: define o destino do link
- `class`: agrupa o elemento em uma categoria para aplicar estilo ou localizar no scraping


| Atributo | Descrição                                                                 |
|----------|---------------------------------------------------------------------------|
| `href`   | Caminho de um link (usado na tag `<a>`)                                   |
| `src`    | Caminho de uma imagem (usado na tag `<img>`)                              |
| `alt`    | Texto alternativo da imagem                                               |
| `class`  | Agrupamento de elementos com a mesma função visual/estrutural             |
| `id`     | Identificador único na página                                             |
| `name`   | Usado em formulários ou campos de entrada                                 |


### Exemplo: HTML com Atributos
```html
<!DOCTYPE html>
<html>
  <head>
    <title>Exemplo de Página</title>
  </head>
  <body>
    <!-- Título principal da página -->
    <h1 id="titulo-principal">Bem-vindo ao site da Anvisa</h1>

    <!-- Parágrafo com uma classe -->
    <p class="descricao">Aqui você encontra informações atualizadas sobre saúde pública.</p>

    <!-- Link com atributos -->
    <a href="https://www.gov.br/anvisa" class="botao-link">Acesse o site oficial</a>

    <!-- Imagem com caminho e texto alternativo -->
    <img src="logo-anvisa.png" alt="Logotipo da Anvisa" width="200">

    <!-- Tabela com dados fictícios -->
    <table class="dados">
      <tr>
        <th>Data</th>
        <th>Assunto</th>
      </tr>
      <tr>
        <td>2025-05-06</td>
        <td>Nova regulamentação de medicamentos</td>
      </tr>
    </table>
  </body>
</html>
```


- `id="titulo-principal"` - identifica de forma única o título na página
- `class="descricao"` e `class="botao-link"` - agrupam elementos para estilização ou seleção via scraping
- `href="..."` - define o destino do link
- `src="..."` e `alt="..."` - definem a imagem e o texto alternativo


### **Hierarquia HTML**

Essa é uma estrutura simples de um código com atributos e hierarquia.

```html
<body>
    <header>
      <h1>Logotipo da Anvisa</h1>
      <nav>
        <a href="/noticias">Notícias</a>
        <a href="/contato">Contato</a>
      </nav>
    </header>
 
    <main>
      <section class="lista-noticias">
        <article class="noticia">
          <h2 class="titulo-noticia">Anvisa publica nova regulamentação</h2>
          <p class="data">Publicado em: 06/05/2025</p>
          <div class="conteudo">
            <p>A nova norma trata da venda de canetas emagrecedoras...</p>
            <a href="/noticia-completa">Leia mais</a>
          </div>
        </article>
      </section>
    </main>
 
    <footer>
      <p>Agência Nacional de Vigilância Sanitária</p>
    </footer>
  </body>
```


#### **Explicação da hierarquia:**
- `<body>` contém todo o conteúdo visível.
  - Dentro dele, temos três grandes blocos:
    - `<header>` com o menu e logotipo
    - `<main>` com a seção principal de notícias
    - `<footer>` com informações finais
- As notícias estão dentro de `<article>` (bloco semântico), agrupadas por uma `<section>`.
  - Dentro do artigo:
    - Título (`<h2>`)
    - Data (`<p>`)
    - Texto da notícia em uma `<div>`
    - Link para mais conteúdo (`<a>`)


### **Beautifulsoup**

O BeautifulSoup é uma biblioteca Python usada para extrair e navegar em dados de páginas HTML e XML. Ele é leve, simples e extremamente útil para acessar e organizar informações que estão estruturadas na web.


<img src="https://app.matatika.com/assets/images/datasource/tap-beautifulsoup.png" width="200">



É uma biblioteca muito útil, pois: 
- Permite ler o conteúdo de qualquer página HTML estática
- Acessa facilmente tags como `<p>`, `<div>`, `<table>`, etc.
- Filtra elementos por classe, id, nome ou estrutura
- Ideal para coletar dados públicos, organizar textos e automatizar consultas



In [None]:
#Instalar bibliotecas
#!pip install beautifulsoup4
#!pip install requests

In [1]:
#Importar BeautifulSoup e requests
from bs4 import BeautifulSoup
import requests

Vamos usar a biblioteca BeautifulSoup para acessar e extrair o conteúdo textual de uma notícia publicada no site da Anvisa.

Nosso código realiza três etapas:
- **Faz uma requisição HTTP** para obter o conteúdo HTML da página usando requests.
- **Interpreta o HTML** com o BeautifulSoup, permitindo navegar pela estrutura do documento.
- **Extrai todos os parágrafos** (`<p>`) da página, limpa os espaços e imprime somente os trechos com texto real.

In [7]:
# Url da página que vamos fazer a leitura
url = "https://www.gov.br/anvisa/pt-br/assuntos/noticias-anvisa/2025/confira-os-destaques-da-6a-reuniao-publica-da-dicol-de-2025"

In [9]:
# Acessar a página e obter o conteúdo HTML
resposta = requests.get(url)

In [10]:
# Estruturar o HTML com BeautifulSoup
soup = BeautifulSoup(resposta.text, "html.parser")

# Aqui, estamos buscando todos os parágrafos <p> na página
conteudo = soup.find_all("p")

In [None]:
#visualizar o conteúdo
for paragrafo in conteudo:
    texto = paragrafo.get_text(strip=True)
    if texto:
        print(texto)

Notícias
DIRETORIA COLEGIADA
Nesta quarta-feira (16/4), os diretores da Anvisa se reuniram para a 6ª Reunião Pública da Diretoria Colegiada (Dicol) de 2025, sob a condução do diretor-presidente substituto, Rômison Mota. Foram retirados de pauta, por ele, os itens 3.10 e 3.2.10.4 a 3.2.10.9. Além disso, foi solicitada a inclusão em pauta da proposta de abertura do processo administrativo de regulação referente à decisão que aprovou, em caráterad referendum(isto é, adotada provisoriamente), a Resolução da Diretoria Colegiada (RDC) 971/2025, que, por sua vez, alterou a RDC 947/2024 — a qual dispõe sobre os procedimentos de protocolo de documentos no âmbito da Agência.
Colgate e a redução de riscos
O diretor Daniel Pereira, por sua vez, pediu a retirada dos itens 3.3.3.1 e 3.3.12.1, e, no que se refere à retirada de pauta do item 4.3.4.1, que diz respeito àinterdição do creme dental Colgate Total Clean Mint por reações indesejáveis, fez algumas considerações. Em busca de prestigiar iniciat

___

## **Ambiente Local**

Para fazer scraping de páginas com conteúdo dinâmico (carregado via JavaScript), precisamos simular um navegador automático, que simula um navegador real. Para essa tarefa, o Colab não vai funcionar de forma apropriada por alguns motivos

- O Colab roda em um servidor remoto, sem acesso direto à interface gráfica de um navegador.
- Precisamos de um navegador real ou em modo headless, o que não funciona de forma estável no Colab.
- Recomendação: rodar localmente, no computador.

Para isso, vamos precisar usar um **webdriver**. 

O WebDriver manipula um navegador nativamente, como um usuário faria, seja localmente ou em uma máquina remota usando o servidor Selenium, marca um salto em termos de automação do navegador. [webdriver]("https://www.selenium.dev/pt-br/documentation/webdriver/")


## **Selenium**
O Selenium é uma ferramenta que permite automatizar a navegação em sites, como se fosse um usuário humano interagindo com o navegador.

No nosso contexto:
- Carregar páginas que usam JavaScript para exibir o conteúdo.
- Clicar em botões, rolar a página, preencher formulários e aguardar carregamentos.
- Capturar textos, links, dados e tabelas que não aparecem no HTML estático.


## **Preparando o ambiente**

Antes de começar a automatizar a navegação em sites, precisamos preparar nosso ambiente com duas ferramentas essenciais:
- `Selenium`: biblioteca principal para automação de navegador em Python.
- `webdriver-manager`: ferramenta auxiliar que faz o download automático do ChromeDriver na versão correta, evitando conflitos com o navegador.

**Instalação:**


In [None]:
#!pip install selenium
#!pip install webdriver-manager

Isso garante que teremos tudo pronto para:
- Controlar o navegador Chrome via Python
- Evitar problemas de compatibilidade com versões do ChromeDriver
- Começar a abrir páginas, clicar em botões e extrair conteúdo renderizado


### **Testando o Selenium**

Vamos realizar um teste simples para garantir que tudo está funcionando. 

O objetivo é abrir automaticamente o navegador, acessar uma página da web, capturar o título da página e, em seguida, fechar o navegador. Esse teste serve como validação do ambiente e demonstra como o Python pode controlar o navegador de forma programada. Se tudo estiver certo, o navegador será aberto e fechado automaticamente, confirmando que você está pronto para seguir com automações mais avançadas.

O que vai acontecer:
- O WebDriver abre o Chrome.
- Navega até a página especificada (`get()`).
- O Selenium lê o título da aba.
- Fecha tudo no final.

In [None]:
# Carregar o ChromeDriver e bibliotecas do Selenium
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager


# Baixar e configurar automaticamente o ChromeDriver compatível
service = Service(ChromeDriverManager().install())
driver = webdriver.Chrome(service=service)

# Acessa um site qualquer
driver.get("https://www.gov.br/saude/pt-br/composicao/seidigi/rnds")

# Imprime o título da página
print(driver.title)

# Fecha o navegador
driver.quit()

Rede Nacional de Dados em Saúde — Ministério da Saúde


#### **Observação**

`service = Service(ChromeDriverManager().install())`

Essa função:
- Verifica se a versão correta do ChromeDriver já está instalada no cache local (*~/.wdm* no Linux/Mac ou *C:\Users\SeuUsuario\.wdm* no Windows).
- Se já estiver instalada, não baixa de novo, apenas retorna o caminho do executável.
- Se não estiver, faz o download automático da versão compatível com o navegador atual.


Em alguns ambientes, o webdriver-manager pode falhar ao tentar baixar o ChromeDriver automaticamente, seja por falta de internet, bloqueio de proxy ou restrições da rede. Nesses casos, podemos resolver o problema baixando o ChromeDriver manualmente.

Acesse o site oficial:

https://googlechromelabs.github.io/chrome-for-testing/

Baixe a versão do ChromeDriver compatível com o seu navegador e salve o executável na mesma pasta do seu script Python.

In [None]:
driver = 'c:\\Users\caminho\chromedriver.exe'

service = Service(driver)
driver = webdriver.Chrome(service=service)

# Acessa um site qualquer
driver.get("https://www.gov.br/saude/pt-br/composicao/seidigi/rnds")

# Imprime o título da página
print(driver.title)

# Fecha o navegador
driver.quit()

### **Capturando dados DOU**

Agora utilizando o Selenium vamos automatizar a extração de publicações recentes do Diário Oficial da União (DOU). O objetivo é incorporar essas informações em sistemas internos de análise e acompanhamento de normativas governamentais.

A partir da seguinte URL:

https://www.in.gov.br/web/dou/-/portaria-gm/ms-n-6.882-de-22-de-abril-de-2025-627636172 

Desenvolva um código em Python que:
- Acesse o conteúdo da página de leitura do DOU usando requests
- Identifique e extraia os títulos das publicações exibidas no dia atual
- Extraia, se possível, os resumos ou trechos principais associados a cada título
- Armazene essas informações de forma estruturada, como uma lista de dicionários contendo:
    - `"titulo"`
    - `"resumo"`

In [3]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

# Executar o webdriver
service = Service(ChromeDriverManager().install())
driver = webdriver.Chrome(service=service)

# Acessa a página do DOU
driver.get("https://www.in.gov.br/web/dou/-/portaria-gm/ms-n-6.882-de-22-de-abril-de-2025-627636172")

# Aguarda o carregamento do conteúdo
WebDriverWait(driver, 10).until(
    EC.presence_of_element_located((By.CLASS_NAME, "identifica"))
)

# Captura o HTML completo renderizado
html_renderizado = driver.page_source

# Fecha o navegador
driver.quit()

print(html_renderizado)

<html class="ltr yui3-js-enabled webkit js chrome chrome136 chrome136-0 win secure" dir="ltr" lang="pt-BR"><div id="yui3-css-stamp" style="position: absolute !important; visibility: hidden !important" class=""></div><head>
		<title>Portaria GM/ms Nº 6.882, DE 22 DE abril DE 2025 - Portaria GM/ms Nº 6.882, DE 22 DE abril DE 2025 - DOU - Imprensa Nacional</title>

		<meta content="initial-scale=1.0, width=device-width" name="viewport">
		<meta property="creator.productor" content="http://estruturaorganizacional.dados.gov.br/id/unidade-organizacional/332">

		<!-- FAVICON -->
		<link rel="apple-touch-icon" sizes="57x57" href="https://www.in.gov.br/o/imprensa-nacional-lf7_1-ce-theme/images/favicon/apple-icon-57x57.png">
		<link rel="apple-touch-icon" sizes="60x60" href="https://www.in.gov.br/o/imprensa-nacional-lf7_1-ce-theme/images/favicon//apple-icon-60x60.png">
		<link rel="apple-touch-icon" sizes="72x72" href="https://www.in.gov.br/o/imprensa-nacional-lf7_1-ce-theme/images/favicon//app

## **Referências**
- BeautifulSoup – Documentation. https://www.crummy.com/software/BeautifulSoup/bs4/doc.ptbr/ 
- pdfplumber – API Reference. https://github.com/jsvine/pdfplumber
- PyMuPDF – Documentation. https://pymupdf.readthedocs.io/
- Docling – GitHub Repository. https://github.com/docling-project/docling
- REGEX101 – Regex Testing, Explanation and Reference. https://regex101.com/
- Python – re — Regular expression operations. https://docs.python.org/3/library/re.html
- Requests – HTTP for Humans. https://docs.python-requests.org/ 
- Lutz, M. (2013). Learning Python (5th Edition). O'Reilly Media. https://www.oreilly.com/library/view/learning-python-5th/9781449355722/ 
- Selenium – Python Documentation. https://www.selenium.dev/documentation/webdriver/getting_started/ 
- WebDriver Manager – Automatize o download do ChromeDriver. https://pypi.org/project/webdriver-manager/
- WebDriver for Chrome (ChromeDriver) – Downloads e compatibilidade. https://googlechromelabs.github.io/chrome-for-testing/ 
