# Web Scraping com Requests, BeautifulSoup e Pandas

### Este notebook faz parte do portfólio acadêmico do curso de Análise de Dados - EBAC

#### O objetivo étrair informações de uma página da web, interpretar o HTML e organizar os dados em tabelas para análise.

 ### 1. Importando bibliotecas

- `requests` - Permite fazer requisições HTTP para acessar o conteúdo de páginas da web, como se fosse o navegador pedindo para ver uma página — só que feito por código.
> - `requests.get(url)` - acessa a página
> - `response.text` - extrai o conteúdo HTML da resposta

- `from bs4 import BeautifulSoup` - Serve para interpretar e navegar pelo HTML de uma página, facilita encontrar elementos específicos como tabelas, títulos, links.
> - `BeautifulSoup(html, 'html.parser')` - cria o objeto de análise
> - `soup.find()`, `soup.select()` - localiza elementos no HTML
> - `soup.prettify()` - exibe o HTML de forma organizada

- `Pandas` - É uma biblioteca *muito utilizada* para análise e manipulação de dados.
No contexto de web scraping, ela consegue extrair tabelas HTML diretamente.
> - `pandas.read_html(url)` - extrai todas as tabelas da página
> - `DataFrame.head()` - mostra as primeiras linhas
> - `DataFrame.to_csv()` - salva os dados em arquivo CSV


In [None]:
import requests
from bs4 import BeautifulSoup
import pandas

### 2. Criando cabeçalho para simular navegador

- `headers` é um dicionário que simula o comportamento de um navegador real.

In [None]:
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64/ x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.85 Safari/537.36'
}

### 3. Fazendo requisição HTTP

- `requests.get()` - Usado para acessar o conteúdo da página.
- `headers=headers` - O cabeçalho evita bloqueios por parte do servidor.
- `response.text[:600]` - Exibe os primeiros 600 caracteres do HTML

In [None]:
print('Request: ')
response = requests.get('https://webscraper.io/test-sites/tables/tables-semantically-correct', headers=headers)
print(response.text[:600])

### 4. Interpretando o HTML com BeautifulSoup

- `BeautifulSoup` - organiza o HTML, facilitando a visualização da estrutura da página.
- `soup.prettify()[:1000]` - Exibe os primeiros 1000 caracteres do HTML formatado

In [None]:
print('BeautifulSoup: ')
soup = BeautifulSoup(response.text, 'html.parser')
print(soup.prettify()[:1000])

### 5. Extraindo tabelas com Pandas

- `pandas.read_html()` - identifica e extrai automaticamente todas as tabelas da página. O resultado é uma lista de DataFrames.
- `url_dados[0].head(10)` - Exibe as 10 primeiras linhas da primeira tabela

In [None]:
url_dados = pandas.read_html('https://webscraper.io/test-sites/tables/tables-semantically-correct')
print(url_dados[0].head(10))