# Web Scraping e Fundamentos de HTML

O **web scraping** é uma técnica de extração de informações de páginas da web. Ele permite que você colete e processe dados automaticamente, utilizando Python e bibliotecas como **BeautifulSoup** e **Requests**.

Neste notebook, vamos explorar:

1. Fundamentos de HTML e estrutura de páginas.
2. Uso do BeautifulSoup para extração de dados.
3. Extração de tabelas usando Pandas.

---

## O que é Web Scraping?

O web scraping é amplamente utilizado para:
- **Coleta de dados:** como preços de produtos, análises de mercado, etc.
- **Monitoramento de informações:** como atualizações de notícias ou estatísticas em tempo real.
- **Agregação de conteúdo:** consolidando informações de várias fontes em um único lugar.

Para realizar scraping, precisamos:
1. Fazer uma **requisição HTTP** para acessar a página.
2. **Analisar o conteúdo HTML** retornado.
3. **Identificar e extrair** os dados desejados.

---

## Fundamentos de HTML

O HTML é a base de todas as páginas da web. Ele é estruturado em uma árvore de documentos, com elementos hierárquicos como tags, atributos e conteúdo.

### Estrutura Básica do HTML
```html
<html>
  <head>
    <title>Título da Página</title>
  </head>
  <body>
    <h1>Bem-vindo ao Web Scraping</h1>
    <p>Este é um parágrafo com <a href="https://example.com">um link</a>.</p>
    <table>
      <tr>
        <th>Coluna 1</th>
        <th>Coluna 2</th>
      </tr>
      <tr>
        <td>Dado 1</td>
        <td>Dado 2</td>
      </tr>
    </table>
  </body>
</html>
```

### Elementos Importantes
1. **Tags:** Delimitam o início e o fim de elementos (`<h1>`, `<p>`, `<table>`).
2. **Atributos:** Adicionam informações extras às tags (`href`, `id`, `class`).
3. **Conteúdo:** O texto ou elementos contidos dentro das tags.

---

## Ferramentas Necessárias

Para realizar web scraping, utilizaremos:
- **Requests:** Para fazer requisições HTTP.
- **BeautifulSoup:** Para analisar e manipular o HTML.
- **Pandas:** Para extrair tabelas de páginas diretamente.

Certifique-se de instalar as bibliotecas necessárias:
```bash
pip install requests beautifulsoup4 pandas
```

---

## Exemplo 1: Coletando Dados de uma Página

Vamos começar com um exemplo simples: extrair links de uma página da web.

```python
import requests
from bs4 import BeautifulSoup

# URL da página para scraping
url = 'https://en.wikipedia.org/wiki/IBM'

# Fazendo a requisição HTTP
response = requests.get(url)
html_content = response.text

# Criando o objeto BeautifulSoup
soup = BeautifulSoup(html_content, 'html.parser')

# Extraindo todos os links (<a> tags)
links = soup.find_all('a')

print("Links encontrados:")
for link in links[:10]:  # Mostrando apenas os 10 primeiros
    print(link.get('href'))
```

## Exemplo 2: Extraindo Dados Estruturados

Vamos agora extrair dados de tabelas em uma página da web e transformá-los em um DataFrame usando Pandas.

```python
import pandas as pd

# URL com tabelas
url = 'https://en.wikipedia.org/wiki/List_of_countries_by_GDP_(nominal)'

# Fazendo a requisição
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

# Extraindo todas as tabelas da página
tables = pd.read_html(response.text)

# Exibindo a primeira tabela
print("Primeira tabela encontrada:")
df = tables[0]
print(df.head())
```

## Boas Práticas de Web Scraping

1. **Respeite os Termos de Uso:** Sempre verifique se o site permite scraping em seus termos de uso.
2. **Use um `User-Agent`:** Adicione um cabeçalho `User-Agent` à sua requisição para se identificar como um cliente legítimo.
3. **Evite Sobrecarga no Servidor:** Não envie muitas requisições em curtos períodos de tempo.
4. **Valide os Dados Extraídos:** Sempre confira se os dados extraídos estão corretos.

---

## Conclusão

Neste notebook, exploramos os fundamentos de HTML e como usar Python para realizar web scraping com **BeautifulSoup** e **Pandas**. Agora você pode coletar e estruturar dados de páginas da web para análise! 🚀

### Próximos Passos

- Experimente extrair dados de diferentes sites.
- Combine os dados extraídos com análises avançadas usando bibliotecas como Matplotlib ou Scikit-learn.

---