# **Web Scraping com BeautifulSoup: Teoria e Prática**

### **Índice**:
1. [O que é Web Scraping?](#secao1)
2. [Entendendo a Estrutura HTML](#secao2)
3. [Instalação e Importação de Bibliotecas](#secao3)
4. [Primeiros Passos com Requests e BeautifulSoup](#secao4)
5. [Explorando Estruturas HTML com BeautifulSoup](#secao5)
    - 5.1. Extraindo o Título da Página  
    - 5.2. Encontrando Tags de Cabeçalho (h1, h2, h3, ... h6)  
    - 5.3. Extraindo Todos os Links de uma Página  
    - 5.4. Buscando por Classes Específicas  
6. [Exemplo Prático 1: Olhar Digital](#secao6)
7. [Exemplo Prático 2: Extraindo Tabelas (Vinicultura)](#secao7)
8. [Exemplo Prático 3: Extraindo Preço de Livros (Books to Scrape)](#secao8)
9. [Conclusão e Dicas Finais](#secao9)

---

<a id="secao1"></a>
## **1. O que é Web Scraping?**

**Web Scraping** é o processo de extrair dados de sites da web de forma automatizada. Em vez de copiar e colar manualmente informações de uma página, nós utilizamos bibliotecas e scripts para obter esses dados e manipulá-los de acordo com nossa necessidade.

### **Quando usar?**
- Extração de dados para análises (preços de produtos, cotações, informações de notícias, etc.).
- Montagem de datasets para projetos de Machine Learning ou Data Science.
- Coleta de informações de múltiplas páginas de forma automática.

---

<a id="secao2"></a>
## **2. Entendendo a Estrutura HTML**

Para fazer *web scraping*, precisamos primeiro compreender a base da web: **HTML** (**HyperText Markup Language**).

Um documento HTML geralmente é organizado com as seguintes partes principais:
```html
<!DOCTYPE html>
<html>
<head>
  <title>Meu Site</title>
</head>
<body>
  <h1>Título Principal</h1>
  <p>Algum parágrafo.</p>
  <a href="https://google.com">Link para Google</a>
  <!-- E assim por diante -->
</body>
</html>
```
- **Tag `<head>`**: contêm meta-informações sobre o documento (título, descrição, CSS, scripts etc.).
- **Tag `<body>`**: onde fica o conteúdo que de fato é exibido ao usuário: textos, imagens, links, tabelas, etc.

Dentro do corpo do HTML, podemos ter diversas tags, como `<div>`, `<span>`, `<a>`, `<h1>` a `<h6>` (cabeçalhos), `<p>` (parágrafos), `<img>` (imagens) e assim por diante.

---

<a id="secao3"></a>
## **3. Instalação e Importação de Bibliotecas**

Para fazer *web scraping*, as bibliotecas que utilizaremos são:
1. **requests** - para fazer requisições HTTP (GET, POST, etc.).
2. **BeautifulSoup** - para fazer o parse (análise e navegação) do conteúdo HTML.
3. (Opcional) **pandas** - para estruturarmos os dados em um formato de tabela (DataFrame), o que facilita a manipulação e análise.

**Instalando no seu ambiente local (caso não esteja no Google Colab)**:
```bash
pip install requests beautifulsoup4 pandas
```

No Google Colab, não é necessário instalar, pois as bibliotecas já vêm pré-instaladas na maior parte das vezes. Mas caso seja necessário, você pode usar:
```bash
!pip install requests beautifulsoup4 pandas
```

---

<a id="secao4"></a>
## **4. Primeiros Passos com Requests e BeautifulSoup**

Vamos importar as bibliotecas:

```python
import requests
from bs4 import BeautifulSoup
import pandas as pd
```

### **Requisições HTTP com `requests`**

Com a biblioteca `requests`, podemos fazer requisições GET, POST, PUT, DELETE etc. Para obter o HTML de uma página, geralmente utilizamos **GET**:

```python
url = 'https://exemplo.com'
response = requests.get(url)

if response.status_code == 200:
    html_content = response.text  # Pegamos o conteúdo HTML.
    print("Página obtida com sucesso!")
else:
    print(f"Erro ao acessar a página. Código de status: {response.status_code}")
```

### **Parse do HTML com `BeautifulSoup`**

Depois de obter o HTML, vamos criar um objeto `BeautifulSoup`:

```python
soup = BeautifulSoup(html_content, 'html.parser')
```
- O segundo parâmetro `'html.parser'` indica qual parser será usado (por padrão, `html.parser` já funciona bem na maior parte dos casos).

Com o objeto `soup`, podemos **navegar** pelos elementos HTML usando métodos como `.find()`, `.find_all()` ou acessar atributos como `.text`, `.attrs`, `.get('href')` etc.

---

<a id="secao5"></a>
## **5. Explorando Estruturas HTML com BeautifulSoup**

Para ilustrar, vamos considerar um código genérico. Suponha que já fizemos:

```python
url = "https://exemplo.com"
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
```

<a id="tituloPagina"></a>
### **5.1. Extraindo o Título da Página**

O título da página é, geralmente, o que aparece na tag `<title>` dentro de `<head>`.

```python
print(soup.title)
print(soup.title.string)
```
- `soup.title` retorna a tag completa (`<title> ... </title>`).
- `soup.title.string` retorna apenas o conteúdo de texto interno da tag `<title> ... </title>`.

---

<a id="tagsCabecalho"></a>
### **5.2. Encontrando Tags de Cabeçalho (h1 a h6)**

As tags de cabeçalho (`<h1>` até `<h6>`) geralmente indicam títulos e subtítulos em uma página.

```python
for i in range(1, 7):  # h1 a h6
    headers = soup.find_all(f'h{i}')
    for header in headers:
        print(f'h{i}: {header.get_text(strip=True)}')
```
- `soup.find_all('h1')` retornaria todas as tags `<h1>` do HTML.
- `header.get_text(strip=True)` retorna o texto sem espaços em branco extras.

---

<a id="linksPagina"></a>
### **5.3. Extraindo Todos os Links de uma Página**

Links são representados pela tag `<a>`. Vamos buscar todas as tags `<a>` e extrair o atributo `href`.

```python
links = soup.find_all('a')
print(f"Total de links encontrados: {len(links)}\n")

for link in links[:10]:  # Exibindo apenas os primeiros 10 links
    href = link.get('href')             # Atributo href
    text = link.get_text(strip=True)    # Texto do link
    print(f"Texto: {text} | URL: {href}")
```

---

<a id="classesEspecificas"></a>
### **5.4. Buscando por Classes Específicas**

Muitas páginas têm classes e IDs para estilização ou estruturação dos elementos. Por exemplo, se quisermos encontrar uma `<div>` com a classe `container`:

```python
div_container = soup.find('div', class_='container')
# ou
div_container = soup.find('div', {'class': 'container'})
```

Para buscar todas as instâncias:

```python
div_containers = soup.find_all('div', class_='container')
```

Podemos então inspecionar o conteúdo dessas tags e extrair os textos ou atributos desejados.

---



<a id="secao6"></a>
## **6. Exemplo Prático 1: Olhar Digital**

Neste exemplo, vamos acessar uma notícia do site **Olhar Digital** e extrair informações como:
- Título da página
- Tags de cabeçalho
- Links


In [None]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

url = 'https://olhardigital.com.br/2024/09/12/pro/ia-teria-encontrado-forma-de-nao-ser-controlada-por-humanos-entenda/'
response = requests.get(url)


In [None]:
response

<Response [200]>

In [None]:
# Verificando se a requisição foi bem-sucedida
if response.status_code == 200:
    html_content = response.text  # Armazenando o conteúdo HTML
    print("Página acessada com sucesso!")
else:
    print(f'Erro ao acessar a página: {response.status_code}')


Página acessada com sucesso!


In [None]:
html_content

'<!DOCTYPE html>\n<html lang="pt-BR" data-post-id="967241">\n<head>\n\t<meta charset="UTF-8">\n\t<meta name="viewport" content="width=device-width, initial-scale=1, maximum-scale=6">\n\t\n\t<!-- App -->\n\t<script>\n\t\twindow.OD = {\n\t\t\tpostID: 967241,\n\t\t\tonLoadStack: [],\n\t\t\t//////////////////////////////////////////////////////////////////////\n\t\t\t// Inicialização de scritps \n\t\t\t//////////////////////////////////////////////////////////////////////\n\t\t\t// Executa o próximo item da inicialização\n\t\t\tcallNextOnLoadCallback: () => {\n\t\t\t\tlet callback = OD.onLoadStack.shift();\n\t\t\t\tif (callback) {\n\t\t\t\t\ttry {callback();}\n\t\t\t\t\tcatch(e){console.log(e);}\n\t\t\t\t\twindow.requestAnimationFrame(OD.callNextOnLoadCallback);\n\t\t\t\t}\n\t\t\t},\n\t\t\t// Executa a carga da library\n\t\t\tonBodyLoaded: () => {\n\t\t\t\tif (!!OD.loaded) {\n\t\t\t\t\treturn;\n\t\t\t\t}\n\t\t\t\tOD.loaded = true;\n\t\t\t\twindow.requestAnimationFrame(OD.callNextOnLoadCall

In [None]:
# Criando objeto BeautifulSoup
soup = BeautifulSoup(html_content, 'html.parser')

In [None]:
#soup #objeto soup

In [None]:
# 1. Pegando o título da página
title = soup.title.string
print(f"**Título da página:** {title}")

print("-------")

**Título da página:** IA teria encontrado forma de não ser controlada por humanos
-------


In [None]:
# 2. Encontrando Todas as Tags de Cabeçalho
for i in range(1, 7):
    headers = soup.find_all(f'h{i}')
    for header in headers:
        print(f"h{i}: {header.get_text(strip=True)}")

print("-------")

h1: Vontade própria? IA desobedece cientistas para ‘aumentar chance de sucesso’
h2: Compartilhe esta matéria
h2: Sistema foi capaz de modificar seu próprio código
h2: Compartilhar
h3: IA pode criar malwares ou realizar ciberataques por conta própria
-------


In [None]:
# 3. Extraindo Todos os Links
links = soup.find_all('a')
print(f"Total de links encontrados: {len(links)}\n")

for link in links[:10]:  # Exibindo apenas os primeiros 10 links
    href = link.get('href')
    text = link.get_text(strip=True)
    print(f"Texto: {text} | URL: {href}")

Total de links encontrados: 70

Texto:  | URL: https://olhardigital.com.br/
Texto:  | URL: https://www.youtube.com/channel/UCGV72aVJuWP0QPNGH4YgIww
Texto:  | URL: https://x.com/olhardigital
Texto:  | URL: https://www.facebook.com/olhardigital
Texto:  | URL: https://www.instagram.com/olhardigital
Texto:  | URL: https://www.linkedin.com/company/olhar-digital/
Texto:  | URL: https://t.me/OlharDigitalNoticias
Texto: Notícias | URL: https://olhardigital.com.br/editorias/noticias/
Texto: Vídeos | URL: https://olhardigital.com.br/editorias/videos/
Texto: Fichas Técnicas | URL: https://olhardigital.com.br/fichas-tecnicas/


Observação: Dependendo do layout do site no momento do scraping, os resultados podem variar.

---

<a id="secao7"></a>
## **7. Exemplo Prático 2: Extraindo Tabelas (Vinicultura)**

Agora, vamos para um exemplo em que extraímos dados de **tabela**. Vamos acessar uma página que contém uma tabela sobre vinicultura:

In [None]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

url = 'http://vitibrasil.cnpuv.embrapa.br/index.php?opcao=opt_02'
response = requests.get(url)

In [None]:
# Verifica se a requisição foi bem-sucedida
response.raise_for_status()

# Parseia o HTML da página usando BeautifulSoup
soup = BeautifulSoup(response.text, 'html.parser')

# Encontra a tabela específica pela classe
table = soup.find('table', {'class': 'tb_base tb_dados'})

# Extrai as linhas da tabela
rows = table.find_all('tr')

# Lista para armazenar os dados
data = []

# Itera sobre as linhas e extrai o texto das células
for row in rows:
    cells = row.find_all(['th', 'td'])  # Inclui cabeçalhos (th) e dados (td)
    cells_text = [cell.get_text(strip=True) for cell in cells]
    data.append(cells_text)

# Converte os dados em um DataFrame do pandas
df = pd.DataFrame(data[1:], columns=data[0])  # A linha 0 é cabeçalho
df.head()

Unnamed: 0,Produto,Quantidade (L.)
0,VINHO DE MESA,169.762.429
1,Tinto,139.320.884
2,Branco,27.910.299
3,Rosado,2.531.246
4,VINHO FINO DE MESA (VINIFERA),46.268.556


**Explicação**:
1. Buscamos uma `<table>` com classe `tb_base tb_dados`.
2. Para cada `<tr>` (linha), pegamos `<th>` ou `<td>` (células).
3. Montamos uma lista com as células e depois criamos um DataFrame do `pandas`.

---

<a id="secao8"></a>
## **8. Exemplo Prático 3: Extraindo Preço de Livros (Books to Scrape)**

Este é um site de teste criado para práticas de *web scraping*: [Books to Scrape](https://books.toscrape.com/).  
Vamos extrair:
- Título do livro
- Preço do livro

In [None]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

# URL do site
myurl = 'http://books.toscrape.com/index.html'


In [None]:
# Faz a requisição HTTP para o site
response = requests.get(myurl)

# Lê o conteúdo da página
page_html = response.content

# Faz o parsing do HTML
page_soup = BeautifulSoup(page_html, "html.parser")

# Encontra todos os produtos na página
bookshelf = page_soup.findAll("li", {"class": "col-xs-6 col-sm-4 col-md-3 col-lg-3"})

In [None]:
# Listas para armazenar os títulos e preços
titles = []
prices = []

In [None]:
for books in bookshelf:
    # Coleta o título do livro
    book_title = books.h3.a["title"]
    # Coleta o preço do livro
    book_price = books.find("p", {"class": "price_color"}).text.strip()

    print("Título do livro: " + book_title)
    print("Preço do livro: " + book_price)
    print("-------")

    titles.append(book_title)
    prices.append(book_price)

Título do livro: A Light in the Attic
Preço do livro: £51.77
-------
Título do livro: Tipping the Velvet
Preço do livro: £53.74
-------
Título do livro: Soumission
Preço do livro: £50.10
-------
Título do livro: Sharp Objects
Preço do livro: £47.82
-------
Título do livro: Sapiens: A Brief History of Humankind
Preço do livro: £54.23
-------
Título do livro: The Requiem Red
Preço do livro: £22.65
-------
Título do livro: The Dirty Little Secrets of Getting Your Dream Job
Preço do livro: £33.34
-------
Título do livro: The Coming Woman: A Novel Based on the Life of the Infamous Feminist, Victoria Woodhull
Preço do livro: £17.93
-------
Título do livro: The Boys in the Boat: Nine Americans and Their Epic Quest for Gold at the 1936 Berlin Olympics
Preço do livro: £22.60
-------
Título do livro: The Black Maria
Preço do livro: £52.15
-------
Título do livro: Starving Hearts (Triangular Trade Trilogy, #1)
Preço do livro: £13.99
-------
Título do livro: Shakespeare's Sonnets
Preço do livro: £

In [None]:
# Cria o dataframe do pandas
df_books = pd.DataFrame({'Título do Livro': titles, 'Preço': prices})

# Exibe o dataframe
df_books.head()

Unnamed: 0,Título do Livro,Preço
0,A Light in the Attic,£51.77
1,Tipping the Velvet,£53.74
2,Soumission,£50.10
3,Sharp Objects,£47.82
4,Sapiens: A Brief History of Humankind,£54.23


**Observação**: Este site é estático, portanto é ideal para praticar a extração de dados. Para sites dinâmicos (que usam JavaScript para carregar conteúdo), técnicas adicionais podem ser necessárias, como o uso de **Selenium** ou ferramentas que renderizam JavaScript.

---

<a id="secao9"></a>
## **9. Conclusão e Dicas Finais**

- O BeautifulSoup facilita a extração de dados de HTML, mas é importante conhecer a estrutura do site que você está raspando.
- Sempre verifique os **Termos de Uso** dos sites e respeite as diretrizes de **robôs** (arquivo `robots.txt`) para saber se o scraping é permitido.
- Aprenda a inspecionar elementos no navegador (tecla F12, por exemplo) para identificar classes, IDs e hierarquia das tags que deseja extrair.
- Para sites dinâmicos (que usam JavaScript para carregar conteúdo após o carregamento inicial da página), pode ser necessário usar bibliotecas como **Selenium**, **Playwright** ou **requests-html**.
- Caso encontre conteúdo em JSON (via chamadas AJAX), você pode consumir diretamente a **API** do site, em vez de fazer scraping do HTML.

### **Referências**:
- [Documentação oficial Beautiful Soup](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)
- [Requests: HTTP for Humans](https://requests.readthedocs.io/en/latest/)
- [Pandas: Python Data Analysis Library](https://pandas.pydata.org/)


----
----
----