# BeautifulSoup – Comandos Básicos

Este notebook traz um **guia prático de comandos básicos do BeautifulSoup (bs4)**,
focado no *pós-requisição* (ou seja, depois que você já tem o HTML em mãos).

Conteúdos principais:

- Criar o objeto `soup`
- `prettify()` para visualizar o HTML
- `find()` e `find_all()`
- Filtrar por `class_`, `id`, `href`, etc.
- Pegar texto (`get_text`) e atributos (`href`, `src`, ...)
- Usar seletores CSS com `select()` e `select_one()`
- Navegação na árvore (pai, filhos, irmãos)

Vamos usar um HTML de exemplo para manter tudo auto-contido.

In [1]:
from bs4 import BeautifulSoup

html = '''
<html>
  <head><title>Exemplo de Página</title></head>
  <body>
    <h1 class="titulo-principal">Olá, mundo!</h1>

    <a href="https://site.com/um" class="link-legal">Primeiro link</a>
    <a href="/dois" class="link-legal destaque">Segundo link</a>
    <a href="/tres">Terceiro link</a>

    <div id="conteudo">
        <p class="texto">Parágrafo 1</p>
        <p class="texto destaque">Parágrafo 2</p>
    </div>
  </body>
</html>
'''

soup = BeautifulSoup(html, "html.parser")
soup


<html>
<head><title>Exemplo de Página</title></head>
<body>
<h1 class="titulo-principal">Olá, mundo!</h1>
<a class="link-legal" href="https://site.com/um">Primeiro link</a>
<a class="link-legal destaque" href="/dois">Segundo link</a>
<a href="/tres">Terceiro link</a>
<div id="conteudo">
<p class="texto">Parágrafo 1</p>
<p class="texto destaque">Parágrafo 2</p>
</div>
</body>
</html>

## 1. `prettify()` – deixar o HTML bonito

O método `prettify()` re-identa o HTML e o mostra de forma mais legível.
É ótimo para você inspecionar a estrutura da página rapidamente.

In [2]:
print(soup.prettify())

<html>
 <head>
  <title>
   Exemplo de Página
  </title>
 </head>
 <body>
  <h1 class="titulo-principal">
   Olá, mundo!
  </h1>
  <a class="link-legal" href="https://site.com/um">
   Primeiro link
  </a>
  <a class="link-legal destaque" href="/dois">
   Segundo link
  </a>
  <a href="/tres">
   Terceiro link
  </a>
  <div id="conteudo">
   <p class="texto">
    Parágrafo 1
   </p>
   <p class="texto destaque">
    Parágrafo 2
   </p>
  </div>
 </body>
</html>



## 2. Acessos simples: `title`, `.string`, `.get_text()`

Alguns acessos básicos que você usa o tempo todo:

- `soup.title` → pega a tag `<title>`
- `soup.title.string` → pega o texto dentro de `<title>`
- `soup.get_text()` → todo o texto da página
- `element.get_text(strip=True)` → texto de um elemento, sem espaços extras

In [3]:
print("Tag title:", soup.title)
print("Texto do title:", soup.title.string)

h1 = soup.find("h1")
print("<h1>:", h1)
print("Texto do h1:", h1.get_text(strip=True))

print("\nTodo o texto da página:")
print(soup.get_text(strip=True))

Tag title: <title>Exemplo de Página</title>
Texto do title: Exemplo de Página
<h1>: <h1 class="titulo-principal">Olá, mundo!</h1>
Texto do h1: Olá, mundo!

Todo o texto da página:
Exemplo de PáginaOlá, mundo!Primeiro linkSegundo linkTerceiro linkParágrafo 1Parágrafo 2


## 3. `find()` – pegar **um** elemento

O `find()` retorna **o primeiro elemento** que bate com os critérios.

Formas comuns de usar:

- `soup.find("h1")`
- `soup.find("p", class_="texto")`
- `soup.find(id="conteudo")`
- `soup.find("a", href="https://site.com/um")`

In [4]:
print("Primeiro <h1>:", soup.find("h1"))
print("Primeiro <p> com class 'texto':", soup.find("p", class_="texto"))
print("Elemento com id 'conteudo':", soup.find(id="conteudo"))
print("Link com href específico:", soup.find("a", href="https://site.com/um"))

Primeiro <h1>: <h1 class="titulo-principal">Olá, mundo!</h1>
Primeiro <p> com class 'texto': <p class="texto">Parágrafo 1</p>
Elemento com id 'conteudo': <div id="conteudo">
<p class="texto">Parágrafo 1</p>
<p class="texto destaque">Parágrafo 2</p>
</div>
Link com href específico: <a class="link-legal" href="https://site.com/um">Primeiro link</a>


## 4. `find_all()` – pegar **vários** elementos

O `find_all()` retorna uma **lista** de elementos.

Exemplos:

- Todos os parágrafos: `soup.find_all("p")`
- Todos os links: `soup.find_all("a")`
- Todos os `<p>` com classe `texto`: `soup.find_all("p", class_="texto")`

In [5]:
paragrafos = soup.find_all("p")
print("Parágrafos:")
for p in paragrafos:
    print("-", p, "->", p.get_text(strip=True))

links_legais = soup.find_all("a", class_="link-legal")
print("\nLinks com class 'link-legal':")
for a in links_legais:
    print("-", a, "->", a.get_text(strip=True))

Parágrafos:
- <p class="texto">Parágrafo 1</p> -> Parágrafo 1
- <p class="texto destaque">Parágrafo 2</p> -> Parágrafo 2

Links com class 'link-legal':
- <a class="link-legal" href="https://site.com/um">Primeiro link</a> -> Primeiro link
- <a class="link-legal destaque" href="/dois">Segundo link</a> -> Segundo link


## 5. `class_`, `id`, `href` e outros atributos

- Em HTML, o atributo `class` é reservado em Python, então no BeautifulSoup usamos `class_`.
- `id` pode ser passado como argumento nomeado (`id="conteudo"`).
- Outros atributos (como `href`, `src`, `data-*`) podem ser passados:
  - como argumentos nomeados (`href="/tres"`)
  - ou via `attrs={...}`.

Exemplos:

In [6]:
print("Primeiro <p> com class 'texto':", soup.find("p", class_="texto"))
print("Div com id 'conteudo':", soup.find("div", id="conteudo"))

print("Link com href '/tres':", soup.find("a", href="/tres"))

# Usando attrs para atributos personalizados (exemplo hipotético)
# soup.find_all("div", attrs={"data-tipo": "principal"})

Primeiro <p> com class 'texto': <p class="texto">Parágrafo 1</p>
Div com id 'conteudo': <div id="conteudo">
<p class="texto">Parágrafo 1</p>
<p class="texto destaque">Parágrafo 2</p>
</div>
Link com href '/tres': <a href="/tres">Terceiro link</a>


## 6. Pegando atributos (`href`, `src`, etc.)

Depois que você tem um elemento, pode acessar seus atributos de duas formas:

- `element["href"]` → acesso direto (se não existir, dá erro)
- `element.get("href")` → forma segura (se não existir, retorna `None`)

Exemplo com todos os links:

In [None]:
for a in soup.find_all("a"):
    texto = a.get_text(strip=True)
    url = a.get("href")
    print(f"Texto: {texto:15} | href: {url}")

## 7. Seletores CSS: `select()` e `select_one()`

Às vezes é mais natural usar **seletores CSS**, como você usaria no front-end:

- `tag.classe`
- `#id`
- `.classe`
- `div p.texto`

O BeautifulSoup oferece:

- `soup.select_one("css-seletor")` → primeiro elemento que combina
- `soup.select("css-seletor")` → lista com todos os elementos que combinam

In [None]:
print("Primeiro h1.titulo-principal:")
print(soup.select_one("h1.titulo-principal"))

print("\nTodos os <a> com classe 'link-legal':")
for a in soup.select("a.link-legal"):
    print("-", a.get_text(strip=True), "->", a.get("href"))

print("\nTodos os <p>.texto dentro de #conteudo:")
for p in soup.select("#conteudo p.texto"):
    print("-", p.get_text(strip=True))

## Ainda no `select`

In [None]:
# todas as <div> com classe "produto"
soup.select("div.produto")

# qualquer tag com classe "produto"
soup.select(".produto")

# tag com id "menu-principal"
soup.select("#menu-principal")

# <a> com classe "btn" dentro de <div class="card">
soup.select("div.card a.btn")

# <span> com DUAS classes: preco e promocao
soup.select("span.preco.promocao")

## 8. Navegação na árvore: pai, filhos, irmãos

Quando as classes/ids não ajudam, você pode navegar pela **estrutura** do HTML.

- `element.parent` → pai do elemento
- `element.find_all(...)` → busca dentro daquele elemento
- `element.find_next_sibling(...)` → próximo irmão
- `element.find_previous_sibling(...)` → irmão anterior

Vamos ver alguns exemplos:

In [None]:
div_conteudo = soup.find("div", id="conteudo")
print("Div conteudo:", div_conteudo)

print("\nParágrafos dentro de #conteudo:")
for p in div_conteudo.find_all("p"):
    print("-", p.get_text(strip=True))

p1 = soup.find("p", class_="texto")
print("\nPrimeiro <p>.texto:", p1)
print("Pai do <p>:", p1.parent.name)

p2 = p1.find_next_sibling("p")
print("Próximo irmão <p>:", p2, "->", p2.get_text(strip=True))

## 9. Checklist mental do que procurar no HTML

Quando você abre o **DevTools** do navegador (F12 → aba Elements / Inspecionar):

1. **Tags** (`a`, `div`, `span`, `p`, `h1`, `table`, `tr`, `td`, ...)
2. **Classes** (`class="..."`) – geralmente o jeito mais comum de selecionar.
3. **IDs** (`id="..."`) – em teoria únicos na página.
4. **Atributos úteis**:
   - `href` (links)
   - `src` (imagens, scripts)
   - `data-*` (atributos customizados, ex.: `data-id="123"`)
5. **Estrutura** (quem está dentro de quem):
   - ex.: `#conteudo > ul > li > a`

Com isso, você decide se é melhor usar:

- `find`/`find_all` com `class_`, `id`, `href`, etc.
- ou `select`/`select_one` com seletores CSS.

## 10. Resumão dos comandos principais do BeautifulSoup

- **Visualização**
  - `soup.prettify()`

- **Encontrar elementos (versão "simples")**
  - `soup.find("tag")`
  - `soup.find("tag", class_="...")`
  - `soup.find(id="...")`
  - `soup.find("a", href="...")`
  - `soup.find_all("tag")`
  - `soup.find_all("tag", class_="...")`

- **Texto e atributos**
  - `element.get_text(strip=True)`
  - `element["href"]` ou `element.get("href")`

- **Seletores CSS**
  - `soup.select_one("css-seletor")`
  - `soup.select("css-seletor")`

- **Navegação**
  - `element.parent`
  - `element.find_all(...)` (busca dentro daquele elemento)
  - `element.find_next_sibling(...)`
  - `element.find_previous_sibling(...)`

Com esse kit básico, você já consegue fazer **grande parte dos scraps simples**:
pegar textos, links, listas, tabelas simples, etc.

O próximo passo natural é:

- combinar isso com o `requests` (ou outra forma de obter o HTML), e
- adaptar os seletores (`find`, `find_all`, `select`) para a estrutura real das páginas que você quer raspar.