# Web Scraping e Fundamentos de HTML

O **web scraping** √© uma t√©cnica de extra√ß√£o de informa√ß√µes de p√°ginas da web. Ele permite que voc√™ colete e processe dados automaticamente, utilizando Python e bibliotecas como **BeautifulSoup** e **Requests**.

Neste notebook, vamos explorar:

1. Fundamentos de HTML e estrutura de p√°ginas.
2. Uso do BeautifulSoup para extra√ß√£o de dados.
3. Extra√ß√£o de tabelas usando Pandas.

---

## O que √© Web Scraping?

O web scraping √© amplamente utilizado para:
- **Coleta de dados:** como pre√ßos de produtos, an√°lises de mercado, etc.
- **Monitoramento de informa√ß√µes:** como atualiza√ß√µes de not√≠cias ou estat√≠sticas em tempo real.
- **Agrega√ß√£o de conte√∫do:** consolidando informa√ß√µes de v√°rias fontes em um √∫nico lugar.

Para realizar scraping, precisamos:
1. Fazer uma **requisi√ß√£o HTTP** para acessar a p√°gina.
2. **Analisar o conte√∫do HTML** retornado.
3. **Identificar e extrair** os dados desejados.

---

## Fundamentos de HTML

O HTML √© a base de todas as p√°ginas da web. Ele √© estruturado em uma √°rvore de documentos, com elementos hier√°rquicos como tags, atributos e conte√∫do.

### Estrutura B√°sica do HTML
```html
<html>
  <head>
    <title>T√≠tulo da P√°gina</title>
  </head>
  <body>
    <h1>Bem-vindo ao Web Scraping</h1>
    <p>Este √© um par√°grafo com <a href="https://example.com">um link</a>.</p>
    <table>
      <tr>
        <th>Coluna 1</th>
        <th>Coluna 2</th>
      </tr>
      <tr>
        <td>Dado 1</td>
        <td>Dado 2</td>
      </tr>
    </table>
  </body>
</html>
```

### Elementos Importantes
1. **Tags:** Delimitam o in√≠cio e o fim de elementos (`<h1>`, `<p>`, `<table>`).
2. **Atributos:** Adicionam informa√ß√µes extras √†s tags (`href`, `id`, `class`).
3. **Conte√∫do:** O texto ou elementos contidos dentro das tags.

---

## Ferramentas Necess√°rias

Para realizar web scraping, utilizaremos:
- **Requests:** Para fazer requisi√ß√µes HTTP.
- **BeautifulSoup:** Para analisar e manipular o HTML.
- **Pandas:** Para extrair tabelas de p√°ginas diretamente.

Certifique-se de instalar as bibliotecas necess√°rias:
```bash
pip install requests beautifulsoup4 pandas
```

---

## Exemplo 1: Coletando Dados de uma P√°gina

Vamos come√ßar com um exemplo simples: extrair links de uma p√°gina da web.

```python
import requests
from bs4 import BeautifulSoup

# URL da p√°gina para scraping
url = 'https://en.wikipedia.org/wiki/IBM'

# Fazendo a requisi√ß√£o HTTP
response = requests.get(url)
html_content = response.text

# Criando o objeto BeautifulSoup
soup = BeautifulSoup(html_content, 'html.parser')

# Extraindo todos os links (<a> tags)
links = soup.find_all('a')

print("Links encontrados:")
for link in links[:10]:  # Mostrando apenas os 10 primeiros
    print(link.get('href'))
```

## Exemplo 2: Extraindo Dados Estruturados

Vamos agora extrair dados de tabelas em uma p√°gina da web e transform√°-los em um DataFrame usando Pandas.

```python
import pandas as pd

# URL com tabelas
url = 'https://en.wikipedia.org/wiki/List_of_countries_by_GDP_(nominal)'

# Fazendo a requisi√ß√£o
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

# Extraindo todas as tabelas da p√°gina
tables = pd.read_html(response.text)

# Exibindo a primeira tabela
print("Primeira tabela encontrada:")
df = tables[0]
print(df.head())
```

## Boas Pr√°ticas de Web Scraping

1. **Respeite os Termos de Uso:** Sempre verifique se o site permite scraping em seus termos de uso.
2. **Use um `User-Agent`:** Adicione um cabe√ßalho `User-Agent` √† sua requisi√ß√£o para se identificar como um cliente leg√≠timo.
3. **Evite Sobrecarga no Servidor:** N√£o envie muitas requisi√ß√µes em curtos per√≠odos de tempo.
4. **Valide os Dados Extra√≠dos:** Sempre confira se os dados extra√≠dos est√£o corretos.

---

## Conclus√£o

Neste notebook, exploramos os fundamentos de HTML e como usar Python para realizar web scraping com **BeautifulSoup** e **Pandas**. Agora voc√™ pode coletar e estruturar dados de p√°ginas da web para an√°lise! üöÄ

### Pr√≥ximos Passos

- Experimente extrair dados de diferentes sites.
- Combine os dados extra√≠dos com an√°lises avan√ßadas usando bibliotecas como Matplotlib ou Scikit-learn.

---