# Web Scraping com Python

Neste notebook, vamos aprender **Web Scraping** em Python, explorando técnicas para **baixar e analisar páginas HTML**.  
Usaremos bibliotecas como **`urllib` e `BeautifulSoup`** para extrair informações da web.

---

## **O que é Web Scraping?**

O **Web Scraping** é o processo de **extrair informações** de páginas web automaticamente.  
Isso é útil para:

✔ **Coletar dados de sites para análise** (preços de produtos, notícias, etc.).  
✔ **Automatizar tarefas repetitivas**, como baixar tabelas e atualizar bancos de dados.  
✔ **Monitorar sites dinamicamente**, acompanhando mudanças em tempo real.

O processo de Web Scraping geralmente é dividido em **duas etapas principais**:

1. **Crawler (Coletor de Dados)**: Responsável por buscar o conteúdo da página, obtendo o HTML bruto.
2. **Parser (Analisador de Conteúdo)**: Responsável por processar o HTML e extrair as informações desejadas.

---

## **Como funciona o Web Scraping?**

### **Crawler (Robô de Navegação)**
- Um **crawler** acessa sites, **lê** o HTML e **baixa** a página.  
- Ele funciona como um **navegador automatizado**, seguindo links e coletando conteúdo.  

### **Parser (Analisador de Conteúdo)**
- O **parser** lê o HTML baixado e extrai informações específicas (títulos, links, imagens, etc.).  
- Em Python, usamos **`BeautifulSoup`** para processar e encontrar dados no HTML.

---

## **O que há por trás? (HTML, CSS e HTTP)**

Para entender Web Scraping, precisamos conhecer um pouco sobre **HTML e CSS**:

- **HTML (HyperText Markup Language)** → Estrutura da página web.
- **CSS (Cascading Style Sheets)** → Define o estilo da página.
- **HTTP Requests** → Comunicação entre o navegador e os sites.

A estrutura básica de uma página HTML é assim:

```html
<!DOCTYPE html>
<html>
<head>
    <title>Minha Página</title>
</head>
<body>
    <h1>Bem-vindo!</h1>
    <p>Esta é uma página de exemplo.</p>
</body>
</html>



## Biblioteca `urllib`
A biblioteca `urllib` faz parte da **standard library** do Python e permite baixar dados da web.

### Funções principais:
- `urllib.request.urlopen(url)`: Abre uma URL e retorna uma resposta.
- `urllib.request.Request(url, headers)`: Permite personalizar requisições.
- `urllib.parse.urljoin(base, url)`: Junta URLs relativas e absolutas.
    

In [15]:
import urllib.request

url = "https://example.com"
response = urllib.request.urlopen(url)
html = response.read()

print(html[:500])  # Mostra os primeiros 500 caracteres do HTML

b'<!doctype html>\n<html>\n<head>\n    <title>Example Domain</title>\n\n    <meta charset="utf-8" />\n    <meta http-equiv="Content-type" content="text/html; charset=utf-8" />\n    <meta name="viewport" content="width=device-width, initial-scale=1" />\n    <style type="text/css">\n    body {\n        background-color: #f0f0f2;\n        margin: 0;\n        padding: 0;\n        font-family: -apple-system, system-ui, BlinkMacSystemFont, "Segoe UI", "Open Sans", "Helvetica Neue", Helvetica, Arial, sans-serif;\n    '



## Biblioteca `BeautifulSoup`
`BeautifulSoup` é uma biblioteca poderosa para analisar HTML e XML.

### Funções principais:
- `BeautifulSoup(html, "html.parser")`: Cria um objeto BeautifulSoup.
- `.find(tag)`: Retorna a primeira ocorrência de uma tag específica.
- `.find_all(tag)`: Retorna todas as ocorrências de uma tag.
- `.get_text()`: Obtém apenas o texto dentro da tag.

#### Exemplos:

In [20]:
from bs4 import BeautifulSoup

html = "<html><body><h1>Olá, Mundo!</h1></body></html>"
soup = BeautifulSoup(html, "html.parser")

print(soup.h1.text)

Olá, Mundo!


In [21]:
html = "<html><body><p>Primeiro parágrafo.</p><p>Segundo parágrafo.</p></body></html>"
soup = BeautifulSoup(html, "html.parser")

# Extraindo todos os parágrafos
paragrafos = soup.find_all("p")
for p in paragrafos:
    print(p.text)

Primeiro parágrafo.
Segundo parágrafo.


In [26]:
html = '<html><body><a href="https://example.com">Clique aqui</a></body></html>'
soup = BeautifulSoup(html, "html.parser")

# Extraindo o link
link = soup.a.text
url = soup.a['href']

print(f"Texto do link: {link}")
print(f"URL: {url}")

Texto do link: Clique aqui
URL: https://example.com


In [31]:
html = "<html><body><ul><li>Item 1</li><li>Item 2</li><li>Item 3</li></ul></body></html>"
soup = BeautifulSoup(html, "html.parser")

# Pegando todos os itens da lista
itens = [li.text for li in soup.find_all("li")]
print(itens)

['Item 1', 'Item 2', 'Item 3']


In [32]:
html = '<html><body><div class="destaque">Conteúdo importante</div></body></html>'
soup = BeautifulSoup(html, "html.parser")

# Pegando o conteúdo dentro da classe 'destaque'
conteudo = soup.find("div", class_="destaque").text
print(conteudo)

Conteúdo importante


In [33]:
html = '''
<html>
    <body>
        <div class="noticia">Notícia 1</div>
        <div class="noticia">Notícia 2</div>
        <div class="noticia">Notícia 3</div>
    </body>
</html>
'''
soup = BeautifulSoup(html, "html.parser")

# Pegando todas as notícias
noticias = [div.text for div in soup.find_all("div", class_="noticia")]
print(noticias)

['Notícia 1', 'Notícia 2', 'Notícia 3']


In [34]:
html = """
<table>
    <tr><th>Nome</th><th>Idade</th></tr>
    <tr><td>Ana</td><td>25</td></tr>
    <tr><td>Bruno</td><td>30</td></tr>
</table>
"""
soup = BeautifulSoup(html, "html.parser")

# Pegando todas as linhas da tabela
linhas = soup.find_all("tr")

for linha in linhas:
    colunas = linha.find_all(["th", "td"])
    dados = [col.text for col in colunas]
    print(dados)

['Nome', 'Idade']
['Ana', '25']
['Bruno', '30']


# Web Scraping no Site quotes.toscrape.com

## Objetivo: Extrair citações, autores e tags

In [35]:
import urllib.request

# Pegando o HTML da página
url = "http://quotes.toscrape.com"
html = urllib.request.urlopen(url).read()

# Criando o objeto BeautifulSoup
soup = BeautifulSoup(html, "html.parser")

In [37]:
# Extraindo as citações
for quote in soup.find_all("span", class_="text"):
    print(quote.text)

“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”
“It is our choices, Harry, that show what we truly are, far more than our abilities.”
“There are only two ways to live your life. One is as though nothing is a miracle. The other is as though everything is a miracle.”
“The person, be it gentleman or lady, who has not pleasure in a good novel, must be intolerably stupid.”
“Imperfection is beauty, madness is genius and it's better to be absolutely ridiculous than absolutely boring.”
“Try not to become a man of success. Rather become a man of value.”
“It is better to be hated for what you are than to be loved for what you are not.”
“I have not failed. I've just found 10,000 ways that won't work.”
“A woman is like a tea bag; you never know how strong it is until it's in hot water.”
“A day without sunshine is like, you know, night.”


In [39]:
# Extraindo os autores
for author in soup.find_all("small", class_="author"):
    print(author.text)

Albert Einstein
J.K. Rowling
Albert Einstein
Jane Austen
Marilyn Monroe
Albert Einstein
André Gide
Thomas A. Edison
Eleanor Roosevelt
Steve Martin


In [40]:
# Extraindo todas as tags usadas nas citações
for tag in soup.find_all("a", class_="tag"):
    print(tag.text)

change
deep-thoughts
thinking
world
abilities
choices
inspirational
life
live
miracle
miracles
aliteracy
books
classic
humor
be-yourself
inspirational
adulthood
success
value
life
love
edison
failure
inspirational
paraphrased
misattributed-eleanor-roosevelt
humor
obvious
simile
love
inspirational
life
humor
books
reading
friendship
friends
truth
simile


In [42]:
# Extraindo citações e autores juntos
for quote_block in soup.find_all("div", class_="quote"):
    quote = quote_block.find("span", class_="text").text
    author = quote_block.find("small", class_="author").text
    tags = quote_block.find("a", class_="tag").text
    print(f'"{quote}" - {author} ({tags})')

"“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”" - Albert Einstein (change)
"“It is our choices, Harry, that show what we truly are, far more than our abilities.”" - J.K. Rowling (abilities)
"“There are only two ways to live your life. One is as though nothing is a miracle. The other is as though everything is a miracle.”" - Albert Einstein (inspirational)
"“The person, be it gentleman or lady, who has not pleasure in a good novel, must be intolerably stupid.”" - Jane Austen (aliteracy)
"“Imperfection is beauty, madness is genius and it's better to be absolutely ridiculous than absolutely boring.”" - Marilyn Monroe (be-yourself)
"“Try not to become a man of success. Rather become a man of value.”" - Albert Einstein (adulthood)
"“It is better to be hated for what you are than to be loved for what you are not.”" - André Gide (life)
"“I have not failed. I've just found 10,000 ways that won't work.”" - Thomas A. Edison (e

In [54]:
soup_top_tags = soup.find_all("span", class_="tag-item")
top_tags = [i.text.strip() for i in soup_top_tags]
top_tags

['love',
 'inspirational',
 'life',
 'humor',
 'books',
 'reading',
 'friendship',
 'friends',
 'truth',
 'simile']

In [67]:
import pandas as pd 

# Extraindo as citações
quotes = [quote.text for quote in soup.find_all("span", class_="text")]
authors = [quote.text for quote in soup.find_all("small", class_="author")]
# tags = [quote.text for quote in soup.find_all("a", class_="tag")]

In [69]:
# Criando DataFrame e salvando CSV
df = pd.DataFrame({"Citação": quotes, "Autor": authors})
df.to_csv("citacoes.csv", index=False)

print("Arquivo 'citacoes.csv' salvo com sucesso!")

Arquivo 'citacoes.csv' salvo com sucesso!


In [70]:
df.head()

Unnamed: 0,Citação,Autor
0,“The world as we have created it is a process ...,Albert Einstein
1,"“It is our choices, Harry, that show what we t...",J.K. Rowling
2,“There are only two ways to live your life. On...,Albert Einstein
3,"“The person, be it gentleman or lady, who has ...",Jane Austen
4,"“Imperfection is beauty, madness is genius and...",Marilyn Monroe
