# Introdução ao Web Scraping com Python

Esta sequência mostra como extrair dados de sites utilizando ferramentas nativas do Python e bibliotecas populares.

---


## 1. Usando urllib para baixar o HTML

Utilizamos a biblioteca `urllib`, que já vem com o Python, para fazer uma requisição HTTP simples e obter o conteúdo HTML de uma página.

---

In [75]:
import urllib.request

In [76]:
url = 'http://quotes.toscrape.com'
html = urllib.request.urlopen(url).read()
#html

## 2. Usando `requests` para baixar o HTML

Agora, vamos usar a biblioteca `requests` para fazer uma requisição HTTP simples e obter o conteúdo HTML da página. É uma forma moderna, legível e eficiente de começar qualquer processo de web scraping.

---

In [83]:
!pip install -q requests
"instação feita com sucesso!"

'instação feita com sucesso!'

In [5]:
import requests

In [6]:
url = 'https://pt.wikipedia.org/wiki/Protocolo_de_Transfer%C3%AAncia_de_Arquivos'
response = requests.get(url)
html2 = response.text
#html2

## 3. Praticando o Requests

✅ O que requests faz:
Baixa o HTML (texto bruto da página)

❌ O que requests não faz sozinho:
Não entende a estrutura do HTML (não "sabe" o que é um <title>, <p>, etc.)

Não permite buscar facilmente tags ou atributos
---

In [8]:
import requests

In [9]:
url = "https://guilhermeonrails.github.io/ferramentas-por-navegador/"
response = requests.get(url)

In [10]:
# Você pode buscar o <title> com string methods, mas é trabalhoso e frágil
html = response.text

In [11]:
start = html.find("<title>")
end = html.find("</title>")
title = html[start:end]

In [12]:
title

'<title>Atalhos e Menus - Ferramentas do Desenvolvedor'

In [13]:
title = html[start+7:end]
print(title)

Atalhos e Menus - Ferramentas do Desenvolvedor


## 4. BeautifulSoup

Agora vamos usar o BeautifulSoup junto com requests para extrair o `<title>` da página.

---

In [14]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

In [15]:
url = "https://guilhermeonrails.github.io/ferramentas-por-navegador/"
response = requests.get(url)

In [16]:
text = BeautifulSoup(response.text, "html.parser")


In [17]:
print(text.title)

<title>Atalhos e Menus - Ferramentas do Desenvolvedor</title>


## 5. Painel do clima

[Acessando o painel site do painel do clima.](https://guilhermeonrails.github.io/clima-tempo/)

---

In [18]:
html = "<html><body><h1>Olá, mundo!</h1></body></html>"

In [19]:

soup = BeautifulSoup(html, 'html.parser')

In [20]:
print(soup.h1.text)

Olá, mundo!


In [21]:
url = "https://guilhermeonrails.github.io/clima-tempo/"

In [22]:

response = requests.get(url)

In [23]:
pagina = BeautifulSoup(response.text, "html.parser")

In [24]:

print(pagina.title)

<title>Painel de Clima</title>


In [25]:
print(pagina.title.string)

Painel de Clima


In [26]:
url = "https://guilhermeonrails.github.io/clima-tempo/"

In [27]:
response = requests.get(url)

In [28]:
# chamar de soup
soup = BeautifulSoup(response.text, "html.parser")

In [29]:
soup

<!DOCTYPE html>

<html lang="pt-BR">
<head>
<meta charset="utf-8"/>
<meta content="width=device-width, initial-scale=1.0" name="viewport"/>
<title>Painel de Clima</title>
<script src="https://cdn.tailwindcss.com"></script>
</head>
<body class="bg-gradient-to-br from-blue-200 to-white min-h-screen p-6 font-sans">
<h1 class="text-4xl font-bold text-center text-blue-800 mb-10">🌎 Painel de Clima - Capitais do Mundo</h1>
<div class="grid grid-cols-1 sm:grid-cols-2 md:grid-cols-3 gap-6 max-w-6xl mx-auto">
<div class="bg-white p-6 rounded-2xl shadow-xl border border-blue-100">
<h2 class="text-2xl font-semibold text-blue-700 mb-2">São Paulo</h2>
<p class="text-gray-600">Temperatura: <span class="font-bold" id="temperatura">26°C</span></p>
<p class="text-gray-600">Clima: <span class="font-bold" id="clima">Parcialmente Nublado</span></p>
<p class="text-gray-600">Umidade: <span class="font-bold" id="umidade">55%</span></p>
</div>
<div class="bg-white p-6 rounded-2xl shadow-xl border border-blue-1

In [30]:
# Exibindo apenas o texto, sem as tags
print(pagina.get_text())






Painel de Clima



🌎 Painel de Clima - Capitais do Mundo


São Paulo
Temperatura: 26°C
Clima: Parcialmente Nublado
Umidade: 55%


Brasília
Temperatura: 29°C
Clima: Ensolarado
Umidade: 40%


Rio de Janeiro
Temperatura: 31°C
Clima: Muito Quente
Umidade: 60%


Buenos Aires
Temperatura: 22°C
Clima: Chuva Leve
Umidade: 70%


Londres
Temperatura: 15°C
Clima: Nublado
Umidade: 80%


Paris
Temperatura: 17°C
Clima: Chuvisco
Umidade: 75%


Tóquio
Temperatura: 24°C
Clima: Ensolarado
Umidade: 65%


Nova York
Temperatura: 20°C
Clima: Trovoadas
Umidade: 67%


Cairo
Temperatura: 35°C
Clima: Seco
Umidade: 20%







In [31]:
# Encontrando todos os elementos <h2> na página
h2_list = soup.find_all('h2')
h2_list

[<h2 class="text-2xl font-semibold text-blue-700 mb-2">São Paulo</h2>,
 <h2 class="text-2xl font-semibold text-blue-700 mb-2">Brasília</h2>,
 <h2 class="text-2xl font-semibold text-blue-700 mb-2">Rio de Janeiro</h2>,
 <h2 class="text-2xl font-semibold text-blue-700 mb-2">Buenos Aires</h2>,
 <h2 class="text-2xl font-semibold text-blue-700 mb-2">Londres</h2>,
 <h2 class="text-2xl font-semibold text-blue-700 mb-2">Paris</h2>,
 <h2 class="text-2xl font-semibold text-blue-700 mb-2">Tóquio</h2>,
 <h2 class="text-2xl font-semibold text-blue-700 mb-2">Nova York</h2>,
 <h2 class="text-2xl font-semibold text-blue-700 mb-2">Cairo</h2>]

In [32]:
for h2 in h2_list:
  print(h2.get_text())

São Paulo
Brasília
Rio de Janeiro
Buenos Aires
Londres
Paris
Tóquio
Nova York
Cairo


In [33]:
# Exibindo todos os p
soup.find_all('p')

[<p class="text-gray-600">Temperatura: <span class="font-bold" id="temperatura">26°C</span></p>,
 <p class="text-gray-600">Clima: <span class="font-bold" id="clima">Parcialmente Nublado</span></p>,
 <p class="text-gray-600">Umidade: <span class="font-bold" id="umidade">55%</span></p>,
 <p class="text-gray-600">Temperatura: <span class="font-bold" id="temperatura">29°C</span></p>,
 <p class="text-gray-600">Clima: <span class="font-bold" id="clima">Ensolarado</span></p>,
 <p class="text-gray-600">Umidade: <span class="font-bold" id="umidade">40%</span></p>,
 <p class="text-gray-600">Temperatura: <span class="font-bold" id="temperatura">31°C</span></p>,
 <p class="text-gray-600">Clima: <span class="font-bold" id="clima">Muito Quente</span></p>,
 <p class="text-gray-600">Umidade: <span class="font-bold" id="umidade">60%</span></p>,
 <p class="text-gray-600">Temperatura: <span class="font-bold" id="temperatura">22°C</span></p>,
 <p class="text-gray-600">Clima: <span class="font-bold" id="cl

In [34]:
temperaturas = soup.find_all(id="temperatura")
for t in temperaturas:
    print(t)

<span class="font-bold" id="temperatura">26°C</span>
<span class="font-bold" id="temperatura">29°C</span>
<span class="font-bold" id="temperatura">31°C</span>
<span class="font-bold" id="temperatura">22°C</span>
<span class="font-bold" id="temperatura">15°C</span>
<span class="font-bold" id="temperatura">17°C</span>
<span class="font-bold" id="temperatura">24°C</span>
<span class="font-bold" id="temperatura">20°C</span>
<span class="font-bold" id="temperatura">35°C</span>


In [35]:
temperaturas = soup.find_all(id="temperatura")
for t in temperaturas:
    print(t.text)

26°C
29°C
31°C
22°C
15°C
17°C
24°C
20°C
35°C


In [36]:
temperaturas = soup.find_all(id="clima")
for t in temperaturas:
    print(t.text)

Parcialmente Nublado
Ensolarado
Muito Quente
Chuva Leve
Nublado
Chuvisco
Ensolarado
Trovoadas
Seco


In [37]:
temperaturas = soup.find_all(id="umidade")
for t in temperaturas:
    print(t.text)

55%
40%
60%
70%
80%
75%
65%
67%
20%


## 6. Extraindo e organizando os dados

Criando um dataframe com os dados extraidos

---


In [38]:
url = "https://guilhermeonrails.github.io/clima-tempo/"
response = requests.get(url)

In [39]:
soup = BeautifulSoup(response.text, "html.parser")

In [40]:
# Lista para armazenar os dados
dados = []

In [41]:
# Seleciona todos os cards de cidade
cards = soup.find_all("div", class_="bg-white")

In [42]:
for card in cards:
    cidade = card.find("h2").text.strip()
    temperatura = card.find(id="temperatura").text.strip()
    clima = card.find(id="clima").text.strip()
    umidade = card.find(id="umidade").text.strip()

    dados.append({
        "cidade": cidade,
        "temperatura": temperatura,
        "clima": clima,
        "umidade": umidade
    })

# Cria o DataFrame
df = pd.DataFrame(dados)

In [43]:
df

Unnamed: 0,cidade,temperatura,clima,umidade
0,São Paulo,26°C,Parcialmente Nublado,55%
1,Brasília,29°C,Ensolarado,40%
2,Rio de Janeiro,31°C,Muito Quente,60%
3,Buenos Aires,22°C,Chuva Leve,70%
4,Londres,15°C,Nublado,80%
5,Paris,17°C,Chuvisco,75%
6,Tóquio,24°C,Ensolarado,65%
7,Nova York,20°C,Trovoadas,67%
8,Cairo,35°C,Seco,20%


In [44]:
# Salvar o DataFrame em um arquivo CSV
df.to_csv("dados_clima.csv", index=False, encoding="utf-8")
print("Arquivo CSV criado com sucesso!")

Arquivo CSV criado com sucesso!


In [45]:
df.sort_values(by='temperatura')

Unnamed: 0,cidade,temperatura,clima,umidade
4,Londres,15°C,Nublado,80%
5,Paris,17°C,Chuvisco,75%
7,Nova York,20°C,Trovoadas,67%
3,Buenos Aires,22°C,Chuva Leve,70%
6,Tóquio,24°C,Ensolarado,65%
0,São Paulo,26°C,Parcialmente Nublado,55%
1,Brasília,29°C,Ensolarado,40%
2,Rio de Janeiro,31°C,Muito Quente,60%
8,Cairo,35°C,Seco,20%


In [46]:
# Convertendo a coluna 'temperatura' para valores numéricos (removendo '°C')
df['temperatura'] = df['temperatura'].str.replace('°C', '').astype(float)
df

Unnamed: 0,cidade,temperatura,clima,umidade
0,São Paulo,26.0,Parcialmente Nublado,55%
1,Brasília,29.0,Ensolarado,40%
2,Rio de Janeiro,31.0,Muito Quente,60%
3,Buenos Aires,22.0,Chuva Leve,70%
4,Londres,15.0,Nublado,80%
5,Paris,17.0,Chuvisco,75%
6,Tóquio,24.0,Ensolarado,65%
7,Nova York,20.0,Trovoadas,67%
8,Cairo,35.0,Seco,20%


In [47]:
import plotly.express as px

# Gráfico de barras: Temperatura por cidade
fig1 = px.bar(df, x='cidade', y='temperatura',
              title='Temperatura por Cidade',
              labels={'cidade': 'Cidade', 'temperatura': 'Temperatura (°C)'},
              color='temperatura',
              color_continuous_scale='Bluered')
fig1.show()

# Geonames e IDH

Geonames é uma base de dados que contém informações sobre paises e cidades do mundo.

[geonames](https://www.geonames.org/countries/)

---

In [79]:
from bs4 import BeautifulSoup
import pandas as pd

url = "https://www.geonames.org/countries/"
response = requests.get(url)

soup = BeautifulSoup(response.text, "html.parser")
#soup

In [80]:
# Encontrar a tabela que contém os países
table = soup.find("table", {"class": "restable"})
#table

In [82]:
# Encontra a tabela principal
table = soup.find("table", id="countries")
#table 

In [51]:
# Busca todos os links na 5ª coluna, onde estão os países
country_links = table.select("tr td:nth-of-type(5) a")

# Extrai apenas o texto (nome dos países)
paises = [link.text.strip() for link in country_links]

# Cria o DataFrame
df = pd.DataFrame(paises, columns=["pais"])
df

Unnamed: 0,pais
0,Andorra
1,United Arab Emirates
2,Afghanistan
3,Antigua and Barbuda
4,Anguilla
...,...
245,Yemen
246,Mayotte
247,South Africa
248,Zambia


In [52]:
rows = table.find_all("tr")[1:]
#rows

In [53]:
capitais = []  # Cria uma lista vazia chamada 'capitais' para armazenar os nomes das capitais

for row in rows:  # Itera sobre cada linha da tabela (exceto o cabeçalho, que foi excluído antes)
    cols = row.find_all("td")  # Busca todas as células <td> da linha atual e armazena na lista 'cols'

    if len(cols) >= 6:  # Garante que a linha tenha ao menos 6 colunas para evitar erro de índice
        capital = cols[5].text.strip()  # Pega o conteúdo de texto da 6ª coluna (índice 5) e remove espaços em branco
        capitais.append(capital)  # Adiciona o nome da capital à lista 'capitais'

#capitais  # Exibe a lista de capitais

['Andorra la Vella',
 'Abu Dhabi',
 'Kabul',
 "St. John's",
 'The Valley',
 'Tirana',
 'Yerevan',
 'Luanda',
 '',
 'Buenos Aires',
 'Pago Pago',
 'Vienna',
 'Canberra',
 'Oranjestad',
 'Mariehamn',
 'Baku',
 'Sarajevo',
 'Bridgetown',
 'Dhaka',
 'Brussels',
 'Ouagadougou',
 'Sofia',
 'Manama',
 'Gitega',
 'Porto-Novo',
 'Gustavia',
 'Hamilton',
 'Bandar Seri Begawan',
 'Sucre',
 '',
 'Brasilia',
 'Nassau',
 'Thimphu',
 '',
 'Gaborone',
 'Minsk',
 'Belmopan',
 'Ottawa',
 'West Island',
 'Kinshasa',
 'Bangui',
 'Brazzaville',
 'Bern',
 'Yamoussoukro',
 'Avarua',
 'Santiago',
 'Yaounde',
 'Beijing',
 'Bogota',
 'San Jose',
 'Havana',
 'Praia',
 'Willemstad',
 'Flying Fish Cove',
 'Nicosia',
 'Prague',
 'Berlin',
 'Djibouti',
 'Copenhagen',
 'Roseau',
 'Santo Domingo',
 'Algiers',
 'Quito',
 'Tallinn',
 'Cairo',
 'El-Aaiun',
 'Asmara',
 'Madrid',
 'Addis Ababa',
 'Helsinki',
 'Suva',
 'Stanley',
 'Palikir',
 'Torshavn',
 'Paris',
 'Libreville',
 'London',
 "St. George's",
 'Tbilisi',
 'Cay

In [54]:
df

Unnamed: 0,pais
0,Andorra
1,United Arab Emirates
2,Afghanistan
3,Antigua and Barbuda
4,Anguilla
...,...
245,Yemen
246,Mayotte
247,South Africa
248,Zambia


In [55]:
df['capital'] = capitais
df

Unnamed: 0,pais,capital
0,Andorra,Andorra la Vella
1,United Arab Emirates,Abu Dhabi
2,Afghanistan,Kabul
3,Antigua and Barbuda,St. John's
4,Anguilla,The Valley
...,...,...
245,Yemen,Sanaa
246,Mayotte,Mamoudzou
247,South Africa,Pretoria
248,Zambia,Lusaka


In [56]:
df.loc[df['pais'] == 'Brazil']

Unnamed: 0,pais,capital
30,Brazil,Brasilia


# Scraping de páginas diferentes

Vamos criar um CSV com citações, autor e a categoria correspondente, limitando-se somente à primeira página de cada tema.

[Citações](https://quotes.toscrape.com/tag/inspirational/)

---

In [57]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

# URL base
url = "http://quotes.toscrape.com/"

# Faz requisição para a página
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")
#soup

In [58]:
# Lista para guardar os dados
dados = []

# Encontra todas as citações na página
quotes = soup.find_all("div", class_="quote")
#quotes

In [59]:
for quote in quotes:
    texto = quote.find("span", class_="text").text
    autor = quote.find("small", class_="author").text

    # Adiciona os dados como dicionário
    dados.append({
        "citacao": texto,
        "autor": autor
    })
dados

[{'citacao': '“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”',
  'autor': 'Albert Einstein'},
 {'citacao': '“It is our choices, Harry, that show what we truly are, far more than our abilities.”',
  'autor': 'J.K. Rowling'},
 {'citacao': '“There are only two ways to live your life. One is as though nothing is a miracle. The other is as though everything is a miracle.”',
  'autor': 'Albert Einstein'},
 {'citacao': '“The person, be it gentleman or lady, who has not pleasure in a good novel, must be intolerably stupid.”',
  'autor': 'Jane Austen'},
 {'citacao': "“Imperfection is beauty, madness is genius and it's better to be absolutely ridiculous than absolutely boring.”",
  'autor': 'Marilyn Monroe'},
 {'citacao': '“Try not to become a man of success. Rather become a man of value.”',
  'autor': 'Albert Einstein'},
 {'citacao': '“It is better to be hated for what you are than to be loved for what you are not.”',
  'autor

In [60]:
# Cria um DataFrame com os dados
df = pd.DataFrame(dados)

# Salva em um arquivo CSV
#df.to_csv("citacoes.csv", index=False, encoding='utf-8')

print("CSV criado com sucesso: citacoes.csv\n")
df

CSV criado com sucesso: citacoes.csv



Unnamed: 0,citacao,autor
0,“The world as we have created it is a process ...,Albert Einstein
1,"“It is our choices, Harry, that show what we t...",J.K. Rowling
2,“There are only two ways to live your life. On...,Albert Einstein
3,"“The person, be it gentleman or lady, who has ...",Jane Austen
4,"“Imperfection is beauty, madness is genius and...",Marilyn Monroe
5,“Try not to become a man of success. Rather be...,Albert Einstein
6,“It is better to be hated for what you are tha...,André Gide
7,"“I have not failed. I've just found 10,000 way...",Thomas A. Edison
8,“A woman is like a tea bag; you never know how...,Eleanor Roosevelt
9,"“A day without sunshine is like, you know, nig...",Steve Martin


In [61]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

# Categorias desejadas
categorias = ["love", "inspirational", "life", "humor"]

# Lista para armazenar os dados raspados
dados = []

#

In [62]:
# Loop pelas categorias
for categoria in categorias:
    url = f"https://quotes.toscrape.com/tag/{categoria}/"
    response = requests.get(url)
    soup = BeautifulSoup(response.text, "html.parser")

    # Encontrar todas as citações da primeira página
    quotes = soup.find_all("div", class_="quote")

    for quote in quotes:
        texto = quote.find("span", class_="text").text.strip()
        autor = quote.find("small", class_="author").text.strip()

        dados.append({
            "citacao": texto,
            "autor": autor,
            "categoria": categoria
        })
#dados

In [63]:
# Criar o DataFrame
df_categorias = pd.DataFrame(dados)
df_categorias

Unnamed: 0,citacao,autor,categoria
0,“It is better to be hated for what you are tha...,André Gide,love
1,“This life is what you make it. No matter what...,Marilyn Monroe,love
2,"“You may not be her first, her last, or her on...",Bob Marley,love
3,"“The opposite of love is not hate, it's indiff...",Elie Wiesel,love
4,"“It is not a lack of love, but a lack of frien...",Friedrich Nietzsche,love
5,"“I love you without knowing how, or when, or f...",Pablo Neruda,love
6,"“If you can make a woman laugh, you can make h...",Marilyn Monroe,love
7,“The real lover is the man who can thrill you ...,Marilyn Monroe,love
8,“Love does not begin and end the way we seem t...,James Baldwin,love
9,“There is nothing I would not do for those who...,Jane Austen,love


# Tratamento de exceções

O tratamento de erros e exceções é essencial no scraping porque garante que o programa continue funcionando mesmo diante de imprevistos, como mudanças na estrutura da página, conexões instáveis, bloqueios por parte do servidor ou ausência de elementos esperados no HTML.

Sem esse cuidado, qualquer pequeno erro pode interromper toda a extração de dados, tornando o processo frágil e ineficiente.

Além disso, capturar e tratar exceções permite registrar falhas, debugar com mais facilidade e até aplicar estratégias alternativas, como reintentar a requisição ou pular o item problemático, aumentando a robustez e confiabilidade do código de scraping.

---

In [64]:
import requests
from bs4 import BeautifulSoup

url = "https://br.investing.com/currencies/"
response = requests.get(url)
response

<Response [200]>

In [65]:
# aplicando validações

url = "https://br.investing.com/currencies/"

try:
    response = requests.get(url)
    response.raise_for_status()  # Garante que o status da resposta é 200
except requests.exceptions.RequestException as e:
    print(f"Erro ao fazer a requisição \n{e}")
else:
    soup = BeautifulSoup(response.text, 'html.parser')
    print("Requisição bem-sucedida!\n")
    print(soup.title.text)
    print(response)

Requisição bem-sucedida!

Taxas de Câmbio e Cotação de Moedas hoje - Investing.com
<Response [200]>


In [67]:
# Encontrar a tabela de taxas de câmbio
try:
    table = soup.find("table", {"class": "crossRatesTbl"})
    table
except AttributeError as e:
    print(f"Erro ao encontrar a tabela de taxas de câmbio \n{e}")
#table

## find() e find_all() com BeautifulSoup

O método `find()` retorna o primeiro elemento que corresponde aos critérios de busca, enquanto `find_all()` retorna todos os elementos correspondentes em uma lista.

---

In [68]:
try:
  # Extrair os cabeçalhos da tabela
  headers = [th.get_text(strip=True) for th in table.find("thead").find_all("th")]

  # Extrair as linhas da tabela
  rows = []
  for tr in table.find("tbody").find_all("tr"):
      cells = [td.get_text(strip=True) for td in tr.find_all("td")]
      rows.append(cells)
except AttributeError as e:
    print(f"Erro ao extrair as linhas da tabela: {e}")

print(headers)
for row in rows:
    print(row)

['', 'Código', 'Último', 'Abertura', 'Máxima', 'Mínima', 'Var.', 'Var.%', 'Hora']
['', 'EUR/USD', '1,1580', '1,1573', '1,1588', '1,1528', '+0,0007', '+0,06%', '14:35:33']
['', 'GBP/USD', '1,3308', '1,3291', '1,3317', '1,3260', '+0,0017', '+0,13%', '14:35:29']
['', 'USD/JPY', '147,56', '147,15', '147,84', '146,62', '+0,41', '+0,28%', '14:35:34']
['', 'USD/CHF', '0,8075', '0,8077', '0,8118', '0,8066', '-0,0002', '-0,02%', '14:35:30']
['', 'AUD/USD', '0,6476', '0,6463', '0,6480', '0,6450', '+0,0013', '+0,20%', '14:35:28']
['', 'EUR/GBP', '0,8701', '0,8711', '0,8713', '0,8680', '-0,0010', '-0,11%', '14:35:33']
['', 'EUR/CHF', '0,9350', '0,9350', '0,9361', '0,9331', '0,0000', '0,00%', '14:35:29']
['', 'GBP/JPY', '196,37', '195,39', '196,46', '195,04', '+0,98', '+0,50%', '14:35:35']
['', 'USD/BRL', '5,5020', '5,4978', '5,5439', '5,4952', '+0,0040', '+0,07%', '14:35:03']
['', 'EUR/BRL', '6,3735', '6,3613', '6,3816', '6,3371', '+0,0122', '+0,19%', '14:35:20']


In [69]:
df_moedas = pd.DataFrame(rows, columns=headers)
df_moedas

Unnamed: 0,Unnamed: 1,Código,Último,Abertura,Máxima,Mínima,Var.,Var.%,Hora
0,,EUR/USD,11580,11573,11588,11528,7,"+0,06%",14:35:33
1,,GBP/USD,13308,13291,13317,13260,17,"+0,13%",14:35:29
2,,USD/JPY,14756,14715,14784,14662,41,"+0,28%",14:35:34
3,,USD/CHF,8075,8077,8118,8066,-2,"-0,02%",14:35:30
4,,AUD/USD,6476,6463,6480,6450,13,"+0,20%",14:35:28
5,,EUR/GBP,8701,8711,8713,8680,-10,"-0,11%",14:35:33
6,,EUR/CHF,9350,9350,9361,9331,0,"0,00%",14:35:29
7,,GBP/JPY,19637,19539,19646,19504,98,"+0,50%",14:35:35
8,,USD/BRL,55020,54978,55439,54952,40,"+0,07%",14:35:03
9,,EUR/BRL,63735,63613,63816,63371,122,"+0,19%",14:35:20


## **Permissões e Ações legais**

Antes de iniciar a construção de um scraper, é fundamental verificar as permissões e considerar as implicações legais dessa prática. Muitos sites possuem termos de uso que proíbem explicitamente a coleta automatizada de dados, e ignorar essas restrições pode resultar em consequências legais, como notificações de cessação, bloqueio de IPs ou ações judiciais.

Além disso, o scraping de dados pessoais ou sensíveis sem consentimento pode violar leis de privacidade, como a Lei Geral de Proteção de Dados (LGPD) no Brasil. Portanto, revisar os termos de uso e garantir conformidade com as regulamentações é essencial para uma prática ética e legal de web scraping.

Vejamos esse exemplo:

---

In [70]:
import requests
from bs4 import BeautifulSoup

url = "https://www.imdb.com/pt/chart/top/"

try:
    response = requests.get(url)
except requests.exceptions.RequestException as e:
    print(f"Erro ao fazer a requisição \n{e}")
else:
    soup = BeautifulSoup(response.text, 'html.parser')
    print("Requisição bem-sucedida!\n")
    print(response)

Requisição bem-sucedida!

<Response [403]>


O `403` indica que o servidor recusou a sua requisição, mesmo que ela tenha sido compreendida corretamente.

> Isso geralmente acontece porque:

- O site bloqueou seu acesso por não reconhecer seu navegador (user-agent).

- Você está tentando acessar um recurso protegido ou restrito.

- O servidor detectou que você está usando um bot ou script (como o requests), e não permite esse tipo de acesso.