Web Scraping é a técnica usada para automatizar a extração de dados da internet.

Com essa técnica é possível acessar páginas, coletar as informações desejadas, armazená-las para uso posterior para análise e/ou visualização.

É importante destacar que a extração desses dados é considerada legal desde que os dados sejam obtidos de fontes públicas e éticas.

O funcionamente da internet e da web é feita através de várias organizações, que estabelecem padrões e boas práticas, e são responsáveis por administrar diferentes aspectos de rede. Entre elas, podemos citar a IETF (Internet Engineering Task Force), que propõe e mantém protocolos da internet; a ICANN (Internet Corporation for Assigned Names and Numbers), responsável pelos nomes de domínio; o W3C (World Wide Web Consortium), que define padrões da web como o HTML e o CSS; a ISOC (Internet Society), que promove o uso aberto e seguro da internet; e a ARIN (American Registry for Internet Numbers), que gerencia blocos de endereços IP na América do Norte.

O conjunto de regras e padrões que definem como os computadores devem se comunicar entre sim, se chama protocolo. Os protocolos  garantem que, independentemente do sistema ou da linguagem utilizados, as mensagens sejam transmitidas e compreendidas corretamente entre os dispositivos.

Dentre essses procolocos existem o HTTP (Hypertext Transfer Protocol). O HTTP estabelece regras para a troca de informações entre cliente e servidor. Quando você acessa uma página web, o seu navegador envia uma solicitação HTTP ao servidor, que então responde com os dados da página solicitada.

Através de um script em Python, é possível acessar o código HTML de páginas da internet e filtrar as informações desejadas. Essa técnica é conhecida como web scraping e permite automatizar a coleta de dados em sites. Após a filtragem, os dados são extraídos e organizados de acordo com o objetivo do usuário — por exemplo, coletar preços de produtos em lojas online ou capturar notícias de portais de informação.

É importante destacar que a extração de dados é considerada legal e ética desde que as informações sejam públicas e não infrinjam os termos de uso do site. Além disso, o uso responsável dessas técnicas evita sobrecarregar os servidores ou violar a privacidade dos usuários.

O funcionamento da web e da internet como um todo depende de diversas organizações que estabelecem padrões e boas práticas. Entre elas, podemos citar a IETF (Internet Engineering Task Force), que propõe e mantém protocolos da internet; a ICANN (Internet Corporation for Assigned Names and Numbers), responsável pelos nomes de domínio; o W3C (World Wide Web Consortium), que define padrões da web como o HTML e o CSS; a ISOC (Internet Society), que promove o uso aberto e seguro da internet; e a ARIN (American Registry for Internet Numbers), que gerencia blocos de endereços IP na América do Norte.

No centro de toda comunicação entre máquinas na internet estão os protocolos, que são conjuntos de regras e padrões que definem como os computadores devem se comunicar entre si. Eles garantem que, independentemente do sistema ou da linguagem utilizados, as mensagens possam ser transmitidas e compreendidas corretamente entre os dispositivos.

Um exemplo bastante conhecido é o HTTP (Hypertext Transfer Protocol), que estabelece as regras para a troca de informações entre cliente e servidor — ou seja, entre o navegador (cliente) e o site acessado (servidor). Quando você acessa uma página web, o seu navegador envia uma solicitação HTTP ao servidor, que então responde com os dados da página solicitada.

# Introdução ao Web Scraping com Python

Esta sequência mostra como extrair dados de sites utilizando ferramentas nativas do Python e bibliotecas populares.

---

## 1. Usando urllib para baixar o HTML

Utilizamos a biblioteca `urllib`, que já vem com o Python, para fazer uma requisição HTTP simples e obter o conteúdo HTML de uma página.

---

In [60]:
import urllib.request

url = 'http://quotes.toscrape.com'

#abrir e ler as informações contidas na url definida acima
html = urllib.request.urlopen(url).read()

html

b'<!DOCTYPE html>\n<html lang="en">\n<head>\n\t<meta charset="UTF-8">\n\t<title>Quotes to Scrape</title>\n    <link rel="stylesheet" href="/static/bootstrap.min.css">\n    <link rel="stylesheet" href="/static/main.css">\n    \n    \n</head>\n<body>\n    <div class="container">\n        <div class="row header-box">\n            <div class="col-md-8">\n                <h1>\n                    <a href="/" style="text-decoration: none">Quotes to Scrape</a>\n                </h1>\n            </div>\n            <div class="col-md-4">\n                <p>\n                \n                    <a href="/login">Login</a>\n                \n                </p>\n            </div>\n        </div>\n    \n\n<div class="row">\n    <div class="col-md-8">\n\n    <div class="quote" itemscope itemtype="http://schema.org/CreativeWork">\n        <span class="text" itemprop="text">\xe2\x80\x9cThe world as we have created it is a process of our thinking. It cannot be changed without changing our thinki

## 2. Usando `requests` para baixar o HTML

Agora, vamos usar a biblioteca `requests` para fazer uma requisição HTTP simples e obter o conteúdo HTML da página. É uma forma moderna, legível e eficiente de começar qualquer processo de web scraping.

---

In [61]:
!pip install -q requests
"instação feita com sucesso!"

'instação feita com sucesso!'

In [62]:
import requests

url = 'https://pt.wikipedia.org/wiki/Protocolo_de_Transfer%C3%AAncia_de_Arquivos'
response = requests.get(url)
html = response.text

html



## 3. Praticando o Requests

requests baixa o HTML (texto bruto da página), mas não entende a estrutura do HTML, não permite buscar facilmente tags ou atributos.
---

A seguir vamos buscar o <title> com string methods, mas é trabalhoso e frágil

In [63]:
import requests

url = "https://guilhermeonrails.github.io/ferramentas-por-navegador/"
response = requests.get(url)

html = response.text

start = html.find("<title>") #Encontra a posição da primeira vez que aparece <title> (output:76)
end = html.find("</title>") ##Encontra a posição da primeira vez que aparece </title> (output:126)
title = html[start:end] #Seleciona as strings entre start e end

print(title)

<title>Atalhos e Menus - Ferramentas do Desenvolvedor


In [64]:
title = html[start+7:end] # Para não aparecer <title>, adicionamos 7 ao start, pois len(<title>)=7
print(title)

Atalhos e Menus - Ferramentas do Desenvolvedor


A seguir, veremos outra maneira de extrair essa informação.

## 4. BeautifulSoup

Agora vamos usar o BeautifulSoup junto com requests para extrair o `<title>` da página.

In [65]:
import requests
from bs4 import BeautifulSoup

url = "https://guilhermeonrails.github.io/ferramentas-por-navegador/"
response = requests.get(url)

#pega o texto e faz um parser
# .parser separa os itens da estrutura do arquivo html
text = BeautifulSoup(response.text, "html.parser")
print(text.title)

<title>Atalhos e Menus - Ferramentas do Desenvolvedor</title>


## 5. Painel do clima

[Acessando o painel site do painel do clima.](https://guilhermeonrails.github.io/clima-tempo/)

---

In [66]:
from bs4 import BeautifulSoup

# Observe que
html = "<html><body><h1>Olá, mundo!</h1></body></html>"
soup = BeautifulSoup(html, 'html.parser')

# Mostra o que está entre <h1> e <\h1>
print(soup.h1)

# Mostra apenas o texto que está entre <h1> e <\h1>
print(soup.h1.text)

<h1>Olá, mundo!</h1>
Olá, mundo!


In [67]:
import requests
from bs4 import BeautifulSoup

url = "https://guilhermeonrails.github.io/clima-tempo/"
response = requests.get(url)
pagina = BeautifulSoup(response.text, "html.parser")

# Mostra toda a linha que contém <title>
print(pagina.title)

# Mostra apenas o texto que está na linha que contém <title>
print(pagina.title.string)

<title>Painel de Clima</title>
Painel de Clima


In [68]:
import requests
from bs4 import BeautifulSoup

url = "https://guilhermeonrails.github.io/clima-tempo/"
response = requests.get(url)

# chamar de soup
soup = BeautifulSoup(response.text, "html.parser")
soup

<!DOCTYPE html>

<html lang="pt-BR">
<head>
<meta charset="utf-8"/>
<meta content="width=device-width, initial-scale=1.0" name="viewport"/>
<title>Painel de Clima</title>
<script src="https://cdn.tailwindcss.com"></script>
</head>
<body class="bg-gradient-to-br from-blue-200 to-white min-h-screen p-6 font-sans">
<h1 class="text-4xl font-bold text-center text-blue-800 mb-10">🌎 Painel de Clima - Capitais do Mundo</h1>
<div class="grid grid-cols-1 sm:grid-cols-2 md:grid-cols-3 gap-6 max-w-6xl mx-auto">
<div class="bg-white p-6 rounded-2xl shadow-xl border border-blue-100">
<h2 class="text-2xl font-semibold text-blue-700 mb-2">São Paulo</h2>
<p class="text-gray-600">Temperatura: <span class="font-bold" id="temperatura">26°C</span></p>
<p class="text-gray-600">Clima: <span class="font-bold" id="clima">Parcialmente Nublado</span></p>
<p class="text-gray-600">Umidade: <span class="font-bold" id="umidade">55%</span></p>
</div>
<div class="bg-white p-6 rounded-2xl shadow-xl border border-blue-1

In [69]:
# Exibindo apenas o texto, sem as tags
# .get_text() remove todas as tags do documento e retorna apenas o texto
print(pagina.get_text())






Painel de Clima



🌎 Painel de Clima - Capitais do Mundo


São Paulo
Temperatura: 26°C
Clima: Parcialmente Nublado
Umidade: 55%


Brasília
Temperatura: 29°C
Clima: Ensolarado
Umidade: 40%


Rio de Janeiro
Temperatura: 31°C
Clima: Muito Quente
Umidade: 60%


Buenos Aires
Temperatura: 22°C
Clima: Chuva Leve
Umidade: 70%


Londres
Temperatura: 15°C
Clima: Nublado
Umidade: 80%


Paris
Temperatura: 17°C
Clima: Chuvisco
Umidade: 75%


Tóquio
Temperatura: 24°C
Clima: Ensolarado
Umidade: 65%


Nova York
Temperatura: 20°C
Clima: Trovoadas
Umidade: 67%


Cairo
Temperatura: 35°C
Clima: Seco
Umidade: 20%







In [70]:
# Encontrando todos os elementos <h2> na página
h2_list = soup.find_all('h2')
for h2 in h2_list:
  print(h2.get_text())

São Paulo
Brasília
Rio de Janeiro
Buenos Aires
Londres
Paris
Tóquio
Nova York
Cairo


In [71]:
# Exibindo todos os elementos que estão entre <p>
soup.find_all('p')

[<p class="text-gray-600">Temperatura: <span class="font-bold" id="temperatura">26°C</span></p>,
 <p class="text-gray-600">Clima: <span class="font-bold" id="clima">Parcialmente Nublado</span></p>,
 <p class="text-gray-600">Umidade: <span class="font-bold" id="umidade">55%</span></p>,
 <p class="text-gray-600">Temperatura: <span class="font-bold" id="temperatura">29°C</span></p>,
 <p class="text-gray-600">Clima: <span class="font-bold" id="clima">Ensolarado</span></p>,
 <p class="text-gray-600">Umidade: <span class="font-bold" id="umidade">40%</span></p>,
 <p class="text-gray-600">Temperatura: <span class="font-bold" id="temperatura">31°C</span></p>,
 <p class="text-gray-600">Clima: <span class="font-bold" id="clima">Muito Quente</span></p>,
 <p class="text-gray-600">Umidade: <span class="font-bold" id="umidade">60%</span></p>,
 <p class="text-gray-600">Temperatura: <span class="font-bold" id="temperatura">22°C</span></p>,
 <p class="text-gray-600">Clima: <span class="font-bold" id="cl

In [72]:
# Exibindo todos os elementos que estão entre temperatura
temperaturas = soup.find_all(id="temperatura")
for t in temperaturas:
    print(t)

<span class="font-bold" id="temperatura">26°C</span>
<span class="font-bold" id="temperatura">29°C</span>
<span class="font-bold" id="temperatura">31°C</span>
<span class="font-bold" id="temperatura">22°C</span>
<span class="font-bold" id="temperatura">15°C</span>
<span class="font-bold" id="temperatura">17°C</span>
<span class="font-bold" id="temperatura">24°C</span>
<span class="font-bold" id="temperatura">20°C</span>
<span class="font-bold" id="temperatura">35°C</span>


In [73]:
temperaturas = soup.find_all(id="temperatura")

# Exibindo o texto que de todos os elementos que estão entre temperatura
for t in temperaturas:
    print(t.text)

26°C
29°C
31°C
22°C
15°C
17°C
24°C
20°C
35°C


In [74]:
temperaturas = soup.find_all(id="clima")

# Exibindo o texto que de todos os elementos que estão entre clima
for t in temperaturas:
    print(t.text)

Parcialmente Nublado
Ensolarado
Muito Quente
Chuva Leve
Nublado
Chuvisco
Ensolarado
Trovoadas
Seco


In [75]:
temperaturas = soup.find_all(id="umidade")

# Exibindo o texto que de todos os elementos que estão entre umidade
for t in temperaturas:
    print(t.text)

55%
40%
60%
70%
80%
75%
65%
67%
20%


## 6. Extraindo e organizando os dados

Criando um dataframe com os dados extraidos

---

In [76]:
from bs4 import BeautifulSoup
import pandas as pd

url = "https://guilhermeonrails.github.io/clima-tempo/"
response = requests.get(url)

soup = BeautifulSoup(response.text, "html.parser")

# Lista para armazenar os dados
dados = []

# Seleciona todos os cards de cidade, que estão entre <p e </p>, e são da classe "bg-white"
cards = soup.find_all("div", class_="bg-white")

# Cria um dict, com cidade, temperatura, clima e umidade, para cada cidade, e armazena esses dicts na lista "dados"
for card in cards:
    cidade = card.find("h2").text.strip()
    temperatura = card.find(id="temperatura").text.strip()
    clima = card.find(id="clima").text.strip()
    umidade = card.find(id="umidade").text.strip()

    dados.append({
        "cidade": cidade,
        "temperatura": temperatura,
        "clima": clima,
        "umidade": umidade
    })

# Cria o DataFrame
df = pd.DataFrame(dados)
df

Unnamed: 0,cidade,temperatura,clima,umidade
0,São Paulo,26°C,Parcialmente Nublado,55%
1,Brasília,29°C,Ensolarado,40%
2,Rio de Janeiro,31°C,Muito Quente,60%
3,Buenos Aires,22°C,Chuva Leve,70%
4,Londres,15°C,Nublado,80%
5,Paris,17°C,Chuvisco,75%
6,Tóquio,24°C,Ensolarado,65%
7,Nova York,20°C,Trovoadas,67%
8,Cairo,35°C,Seco,20%


In [77]:
# Salvar o DataFrame em um arquivo CSV
df.to_csv("dados_clima.csv", index=False, encoding="utf-8")
print("Arquivo CSV criado com sucesso!")

Arquivo CSV criado com sucesso!


In [78]:
# Ordenar o arquivo por temperatura
df = df.sort_values(by='temperatura')
df

Unnamed: 0,cidade,temperatura,clima,umidade
4,Londres,15°C,Nublado,80%
5,Paris,17°C,Chuvisco,75%
7,Nova York,20°C,Trovoadas,67%
3,Buenos Aires,22°C,Chuva Leve,70%
6,Tóquio,24°C,Ensolarado,65%
0,São Paulo,26°C,Parcialmente Nublado,55%
1,Brasília,29°C,Ensolarado,40%
2,Rio de Janeiro,31°C,Muito Quente,60%
8,Cairo,35°C,Seco,20%


In [79]:
# Convertendo a coluna 'temperatura' para valores numéricos (removendo '°C')
df['temperatura'] = df['temperatura'].str.replace('°C', '').astype(float)
df

Unnamed: 0,cidade,temperatura,clima,umidade
4,Londres,15.0,Nublado,80%
5,Paris,17.0,Chuvisco,75%
7,Nova York,20.0,Trovoadas,67%
3,Buenos Aires,22.0,Chuva Leve,70%
6,Tóquio,24.0,Ensolarado,65%
0,São Paulo,26.0,Parcialmente Nublado,55%
1,Brasília,29.0,Ensolarado,40%
2,Rio de Janeiro,31.0,Muito Quente,60%
8,Cairo,35.0,Seco,20%


In [80]:
import plotly.express as px

# Gráfico de barras: Temperatura por cidade
fig1 = px.bar(df, x='cidade', y='temperatura',
              title='Temperatura por Cidade',
              labels={'cidade': 'Cidade', 'temperatura': 'Temperatura (°C)'},
              color='temperatura',
              color_continuous_scale='Bluered')
fig1.show()

# Geonames e IDH

Geonames é uma base de dados que contém informações sobre paises e cidades do mundo.

[geonames](https://www.geonames.org/countries/)

---

In [81]:
from bs4 import BeautifulSoup
import pandas as pd

url = "https://www.geonames.org/countries/"
response = requests.get(url)

soup = BeautifulSoup(response.text, "html.parser")
soup

<!DOCTYPE html>

<html>
<head>
<meta charset="utf-8"/>
<title>GeoNames</title>
<link href="https://www.geonames.org/opensearch-description.xml" rel="search" title="geonames" type="application/opensearchdescription+xml"/>
<link href="/geonames.ico" rel="shortcut icon"/>
<link href="/geonames.css" rel="StyleSheet" type="text/css"/>
</head>
<body>
<table cellpadding="0" cellspacing="0" id="topmenutable"><tr>
<td class="topmenu"> <a href="/" title="GeoName Home"> GeoNames Home</a> | <a href="/postal-codes/" title="Postal Codes">Postal Codes</a> | <a href="/export/" title="Database Dump and Webservice API">Download / Webservice</a> | <a href="/about.html" title="About GeoNames">About</a> </td>
<td class="topsearch">
<form action="/servlet/geonames" class="topsearch" method="get" name="searchForm">

      search <input class="topmenu" name="q" size="20" type="text" value=""/>
<input name="srv" type="hidden" value="1"/>
</form>
<span id="topmenulogin">
<a href="https://www.geonames.org/login"

In [82]:
# Encontrar a tabela que contém os países
table = soup.find("table", {"class": "restable"})
table

<table class="restable sortable" id="countries">
<tr><th>ISO-3166<br/>alpha2</th><th>ISO-3166<br/>alpha3</th><th>ISO-3166<br/>numeric</th><th>fips</th><th>Country</th><th>Capital</th><th>Area in km²</th><th>Population</th><th>Continent</th></tr>
<tr><td><a name="AD"></a>AD</td><td>AND</td><td>020</td><td>AN</td><td><a href="/countries/AD/andorra.html">Andorra</a></td><td>Andorra la Vella</td><td class="rightalign">468.0</td><td class="rightalign">77,006</td><td>EU</td></tr>
<tr class="odd"><td><a name="AE"></a>AE</td><td>ARE</td><td>784</td><td>AE</td><td><a href="/countries/AE/united-arab-emirates.html">United Arab Emirates</a></td><td>Abu Dhabi</td><td class="rightalign">82,880.0</td><td class="rightalign">9,630,959</td><td>AS</td></tr>
<tr><td><a name="AF"></a>AF</td><td>AFG</td><td>004</td><td>AF</td><td><a href="/countries/AF/afghanistan.html">Afghanistan</a></td><td>Kabul</td><td class="rightalign">647,500.0</td><td class="rightalign">37,172,386</td><td>AS</td></tr>
<tr class="od

In [83]:
# Encontra a tabela principal
table = soup.find("table", id="countries")
table

<table class="restable sortable" id="countries">
<tr><th>ISO-3166<br/>alpha2</th><th>ISO-3166<br/>alpha3</th><th>ISO-3166<br/>numeric</th><th>fips</th><th>Country</th><th>Capital</th><th>Area in km²</th><th>Population</th><th>Continent</th></tr>
<tr><td><a name="AD"></a>AD</td><td>AND</td><td>020</td><td>AN</td><td><a href="/countries/AD/andorra.html">Andorra</a></td><td>Andorra la Vella</td><td class="rightalign">468.0</td><td class="rightalign">77,006</td><td>EU</td></tr>
<tr class="odd"><td><a name="AE"></a>AE</td><td>ARE</td><td>784</td><td>AE</td><td><a href="/countries/AE/united-arab-emirates.html">United Arab Emirates</a></td><td>Abu Dhabi</td><td class="rightalign">82,880.0</td><td class="rightalign">9,630,959</td><td>AS</td></tr>
<tr><td><a name="AF"></a>AF</td><td>AFG</td><td>004</td><td>AF</td><td><a href="/countries/AF/afghanistan.html">Afghanistan</a></td><td>Kabul</td><td class="rightalign">647,500.0</td><td class="rightalign">37,172,386</td><td>AS</td></tr>
<tr class="od

In [84]:
# tr: uma linha de tabela (<tr>).
# td:nth-of-type(5): o 5º <td> (célula) entre os filhos do tipo <td> dessa linha.
# a: um elemento <a> (link) que está dentro desse 5º <td>.
# Esses elementos são encontrados inspecionando a tabela, e copiando JSPath do elemento desejado
# Nesse caso, o resuldo do JSPath foi: document.querySelector("#countries > tbody > tr:nth-child(4) > td:nth-child(5) > a")

country_links = table.select("tr td:nth-child(5) a")

# Extrai apenas o texto (nome dos países)
paises = [link.text.strip() for link in country_links]

# Cria o DataFrame
df = pd.DataFrame(paises, columns=["pais"])
df

Unnamed: 0,pais
0,Andorra
1,United Arab Emirates
2,Afghanistan
3,Antigua and Barbuda
4,Anguilla
...,...
245,Yemen
246,Mayotte
247,South Africa
248,Zambia


In [85]:
# Retorna todas as tr a partir da primeira linha
rows = table.find_all("tr")[1:]
rows

[<tr><td><a name="AD"></a>AD</td><td>AND</td><td>020</td><td>AN</td><td><a href="/countries/AD/andorra.html">Andorra</a></td><td>Andorra la Vella</td><td class="rightalign">468.0</td><td class="rightalign">77,006</td><td>EU</td></tr>,
 <tr class="odd"><td><a name="AE"></a>AE</td><td>ARE</td><td>784</td><td>AE</td><td><a href="/countries/AE/united-arab-emirates.html">United Arab Emirates</a></td><td>Abu Dhabi</td><td class="rightalign">82,880.0</td><td class="rightalign">9,630,959</td><td>AS</td></tr>,
 <tr><td><a name="AF"></a>AF</td><td>AFG</td><td>004</td><td>AF</td><td><a href="/countries/AF/afghanistan.html">Afghanistan</a></td><td>Kabul</td><td class="rightalign">647,500.0</td><td class="rightalign">37,172,386</td><td>AS</td></tr>,
 <tr class="odd"><td><a name="AG"></a>AG</td><td>ATG</td><td>028</td><td>AC</td><td><a href="/countries/AG/antigua-and-barbuda.html">Antigua and Barbuda</a></td><td>St. John's</td><td class="rightalign">443.0</td><td class="rightalign">96,286</td><td>NA

In [86]:
capitais = []  # Cria uma lista vazia chamada 'capitais' para armazenar os nomes das capitais

for row in rows:  # Itera sobre cada linha da tabela (exceto o cabeçalho, que foi excluído antes)
    cols = row.find_all("td")  # Busca todas as células <td> da linha atual e armazena na lista 'cols'

    if len(cols) >= 6:  # Garante que a linha tenha ao menos 6 colunas para evitar erro de índice
        capital = cols[5].text.strip()  # Pega o conteúdo de texto da 6ª coluna (índice 5) e remove espaços em branco
        capitais.append(capital)  # Adiciona o nome da capital à lista 'capitais'

capitais  # Exibe a lista de capitais

['Andorra la Vella',
 'Abu Dhabi',
 'Kabul',
 "St. John's",
 'The Valley',
 'Tirana',
 'Yerevan',
 'Luanda',
 '',
 'Buenos Aires',
 'Pago Pago',
 'Vienna',
 'Canberra',
 'Oranjestad',
 'Mariehamn',
 'Baku',
 'Sarajevo',
 'Bridgetown',
 'Dhaka',
 'Brussels',
 'Ouagadougou',
 'Sofia',
 'Manama',
 'Gitega',
 'Porto-Novo',
 'Gustavia',
 'Hamilton',
 'Bandar Seri Begawan',
 'Sucre',
 '',
 'Brasilia',
 'Nassau',
 'Thimphu',
 '',
 'Gaborone',
 'Minsk',
 'Belmopan',
 'Ottawa',
 'West Island',
 'Kinshasa',
 'Bangui',
 'Brazzaville',
 'Bern',
 'Yamoussoukro',
 'Avarua',
 'Santiago',
 'Yaounde',
 'Beijing',
 'Bogota',
 'San Jose',
 'Havana',
 'Praia',
 'Willemstad',
 'Flying Fish Cove',
 'Nicosia',
 'Prague',
 'Berlin',
 'Djibouti',
 'Copenhagen',
 'Roseau',
 'Santo Domingo',
 'Algiers',
 'Quito',
 'Tallinn',
 'Cairo',
 'El-Aaiun',
 'Asmara',
 'Madrid',
 'Addis Ababa',
 'Helsinki',
 'Suva',
 'Stanley',
 'Palikir',
 'Torshavn',
 'Paris',
 'Libreville',
 'London',
 "St. George's",
 'Tbilisi',
 'Cay

In [87]:
df['capital'] = capitais
df

Unnamed: 0,pais,capital
0,Andorra,Andorra la Vella
1,United Arab Emirates,Abu Dhabi
2,Afghanistan,Kabul
3,Antigua and Barbuda,St. John's
4,Anguilla,The Valley
...,...,...
245,Yemen,Sanaa
246,Mayotte,Mamoudzou
247,South Africa,Pretoria
248,Zambia,Lusaka


In [88]:
df.loc[df['pais'] == 'Brazil']

Unnamed: 0,pais,capital
30,Brazil,Brasilia


# Scraping de páginas diferentes

Vamos criar um CSV com citações, autor e a categoria correspondente, limitando-se somente à primeira página de cada tema.

[Citações](https://quotes.toscrape.com/tag/inspirational/)

---

In [89]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

# URL base
url = "http://quotes.toscrape.com/"

# Faz requisição para a página
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")
soup

<!DOCTYPE html>

<html lang="en">
<head>
<meta charset="utf-8"/>
<title>Quotes to Scrape</title>
<link href="/static/bootstrap.min.css" rel="stylesheet"/>
<link href="/static/main.css" rel="stylesheet"/>
</head>
<body>
<div class="container">
<div class="row header-box">
<div class="col-md-8">
<h1>
<a href="/" style="text-decoration: none">Quotes to Scrape</a>
</h1>
</div>
<div class="col-md-4">
<p>
<a href="/login">Login</a>
</p>
</div>
</div>
<div class="row">
<div class="col-md-8">
<div class="quote" itemscope="" itemtype="http://schema.org/CreativeWork">
<span class="text" itemprop="text">“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”</span>
<span>by <small class="author" itemprop="author">Albert Einstein</small>
<a href="/author/Albert-Einstein">(about)</a>
</span>
<div class="tags">
            Tags:
            <meta class="keywords" content="change,deep-thoughts,thinking,world" itemprop="keywords"/>
<a class="

In [90]:
# Lista para guardar os dados
dados = []

# Encontra todas as citações na página
quotes = soup.find_all("div", class_="quote")
quotes

[<div class="quote" itemscope="" itemtype="http://schema.org/CreativeWork">
 <span class="text" itemprop="text">“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”</span>
 <span>by <small class="author" itemprop="author">Albert Einstein</small>
 <a href="/author/Albert-Einstein">(about)</a>
 </span>
 <div class="tags">
             Tags:
             <meta class="keywords" content="change,deep-thoughts,thinking,world" itemprop="keywords"/>
 <a class="tag" href="/tag/change/page/1/">change</a>
 <a class="tag" href="/tag/deep-thoughts/page/1/">deep-thoughts</a>
 <a class="tag" href="/tag/thinking/page/1/">thinking</a>
 <a class="tag" href="/tag/world/page/1/">world</a>
 </div>
 </div>,
 <div class="quote" itemscope="" itemtype="http://schema.org/CreativeWork">
 <span class="text" itemprop="text">“It is our choices, Harry, that show what we truly are, far more than our abilities.”</span>
 <span>by <small class="author" itempr

In [91]:
for quote in quotes:
    texto = quote.find("span", class_="text").text
    autor = quote.find("small", class_="author").text

    # Adiciona os dados como dicionário
    dados.append({
        "citacao": texto,
        "autor": autor
    })
dados

[{'citacao': '“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”',
  'autor': 'Albert Einstein'},
 {'citacao': '“It is our choices, Harry, that show what we truly are, far more than our abilities.”',
  'autor': 'J.K. Rowling'},
 {'citacao': '“There are only two ways to live your life. One is as though nothing is a miracle. The other is as though everything is a miracle.”',
  'autor': 'Albert Einstein'},
 {'citacao': '“The person, be it gentleman or lady, who has not pleasure in a good novel, must be intolerably stupid.”',
  'autor': 'Jane Austen'},
 {'citacao': "“Imperfection is beauty, madness is genius and it's better to be absolutely ridiculous than absolutely boring.”",
  'autor': 'Marilyn Monroe'},
 {'citacao': '“Try not to become a man of success. Rather become a man of value.”',
  'autor': 'Albert Einstein'},
 {'citacao': '“It is better to be hated for what you are than to be loved for what you are not.”',
  'autor

In [92]:
# Cria um DataFrame com os dados
df = pd.DataFrame(dados)

# Salva em um arquivo CSV
df.to_csv("citacoes.csv", index=False, encoding='utf-8')

print("CSV criado com sucesso: citacoes.csv\n")
df

CSV criado com sucesso: citacoes.csv



Unnamed: 0,citacao,autor
0,“The world as we have created it is a process ...,Albert Einstein
1,"“It is our choices, Harry, that show what we t...",J.K. Rowling
2,“There are only two ways to live your life. On...,Albert Einstein
3,"“The person, be it gentleman or lady, who has ...",Jane Austen
4,"“Imperfection is beauty, madness is genius and...",Marilyn Monroe
5,“Try not to become a man of success. Rather be...,Albert Einstein
6,“It is better to be hated for what you are tha...,André Gide
7,"“I have not failed. I've just found 10,000 way...",Thomas A. Edison
8,“A woman is like a tea bag; you never know how...,Eleanor Roosevelt
9,"“A day without sunshine is like, you know, nig...",Steve Martin


In [93]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

# Categorias desejadas
categorias = ["love", "inspirational", "life", "humor"]

# Lista para armazenar os dados raspados
dados = []

In [94]:
# Loop pelas categorias
for categoria in categorias:
    url = f"https://quotes.toscrape.com/tag/{categoria}/"
    response = requests.get(url)
    soup = BeautifulSoup(response.text, "html.parser")

    # Encontrar todas as citações da primeira página
    quotes = soup.find_all("div", class_="quote")

    for quote in quotes:
        texto = quote.find("span", class_="text").text.strip()
        autor = quote.find("small", class_="author").text.strip()

        dados.append({
            "citacao": texto,
            "autor": autor,
            "categoria": categoria
        })
dados

[{'citacao': '“It is better to be hated for what you are than to be loved for what you are not.”',
  'autor': 'André Gide',
  'categoria': 'love'},
 {'citacao': "“This life is what you make it. No matter what, you're going to mess up sometimes, it's a universal truth. But the good part is you get to decide how you're going to mess it up. Girls will be your friends - they'll act like it anyway. But just remember, some come, some go. The ones that stay with you through everything - they're your true best friends. Don't let go of them. Also remember, sisters make the best friends in the world. As for lovers, well, they'll come and go too. And baby, I hate to say it, most of them - actually pretty much all of them are going to break your heart, but you can't give up because if you give up, you'll never find your soulmate. You'll never find that half who makes you whole and that goes for everything. Just because you fail once, doesn't mean you're gonna fail at everything. Keep trying, hold 

In [95]:
df_categorias = pd.DataFrame(dados)
df_categorias

Unnamed: 0,citacao,autor,categoria
0,“It is better to be hated for what you are tha...,André Gide,love
1,“This life is what you make it. No matter what...,Marilyn Monroe,love
2,"“You may not be her first, her last, or her on...",Bob Marley,love
3,"“The opposite of love is not hate, it's indiff...",Elie Wiesel,love
4,"“It is not a lack of love, but a lack of frien...",Friedrich Nietzsche,love
5,"“I love you without knowing how, or when, or f...",Pablo Neruda,love
6,"“If you can make a woman laugh, you can make h...",Marilyn Monroe,love
7,“The real lover is the man who can thrill you ...,Marilyn Monroe,love
8,“Love does not begin and end the way we seem t...,James Baldwin,love
9,“There is nothing I would not do for those who...,Jane Austen,love


# Tratamento de exceções

O tratamento de erros e exceções é essencial no scraping porque garante que o programa continue funcionando mesmo diante de imprevistos, como mudanças na estrutura da página, conexões instáveis, bloqueios por parte do servidor ou ausência de elementos esperados no HTML.

Sem esse cuidado, qualquer pequeno erro pode interromper toda a extração de dados, tornando o processo frágil e ineficiente.

Além disso, capturar e tratar exceções permite registrar falhas, debugar com mais facilidade e até aplicar estratégias alternativas, como reintentar a requisição ou pular o item problemático, aumentando a robustez e confiabilidade do código de scraping.

---

In [96]:
import requests
from bs4 import BeautifulSoup

url = "https://br.investing.com/currencies/"
response = requests.get(url)
response

<Response [200]>

In [97]:
# aplicando validações
import requests
from bs4 import BeautifulSoup

url = "https://br.investing.com/currencies/"

try:
    response = requests.get(url)
    response.raise_for_status()  # Garante que o status da resposta é 200
except requests.exceptions.RequestException as e:
    print(f"Erro ao fazer a requisição \n{e}")
else:
    soup = BeautifulSoup(response.text, 'html.parser')
    print("Requisição bem-sucedida!\n")
    print(soup.title.text)
    print(response)

Requisição bem-sucedida!

Taxas de Câmbio e Cotação de Moedas hoje - Investing.com
<Response [200]>


In [98]:
# Encontrar a tabela de taxas de câmbio, se não encontrar retorna a mensagem
# "Erro ao encontrar a tabela de taxas de câmbio"
try:
    table = soup.find("table", {"class": "crossRatesTbl"})
    table
except AttributeError as e:
    print(f"Erro ao encontrar a tabela de taxas de câmbio \n{e}")
table

<table class="genTbl closedTbl crossRatesTbl" id="cr1" tablesorter=""><thead><tr><th class="icon"> </th><th class="left noWrap elp">Código<span class="headerSortDefault" sort_default=""></span></th><th>Último</th><th>Abertura</th><th>Máxima</th><th>Mínima</th><th data-col-caption="Change">Var.<span class="headerSortDefault" sort_default="" sortablecache=""></span></th><th data-col-caption="Change %">Var.%<span class="headerSortDefault" sort_default="" sortablecache=""></span></th><th data-col-caption="Time">Hora<span class="headerSortDefault" sort_default="" sortablecache=""></span></th></tr></thead><tbody><tr id="pair_1"><td class="icon"><span class="redArrowIcon pid-1-arrowSmall"></span></td><td class="bold left noWrap elp plusIconTd"><a href="/currencies/eur-usd" title="EUR/USD - Euro Dólar Americano">EUR/USD</a><span class="alertBellGrayPlus js-plus-icon genToolTip oneliner" data-id="1" data-name="EUR/USD" data-tooltip="Criar alerta"></span></td><td class="pid-1-last">1,1361</td><t

## find() e find_all() com BeautifulSoup

O método `find()` retorna o primeiro elemento que corresponde aos critérios de busca, enquanto `find_all()` retorna todos os elementos correspondentes em uma lista.

---

In [99]:
try:
  # Extrair os cabeçalhos da tabela
  headers = [th.get_text(strip=True) for th in table.find("thead").find_all("th")]

  # Extrair as linhas da tabela
  rows = []
  for tr in table.find("tbody").find_all("tr"):
      cells = [td.get_text(strip=True) for td in tr.find_all("td")]
      rows.append(cells)
except AttributeError as e:
    print(f"Erro ao extrair as linhas da tabela: {e}")

print(headers)
for row in rows:
    print(row)

['', 'Código', 'Último', 'Abertura', 'Máxima', 'Mínima', 'Var.', 'Var.%', 'Hora']
['', 'EUR/USD', '1,1361', '1,1367', '1,1390', '1,1313', '-0,0006', '-0,05%', '14:27:36']
['', 'GBP/USD', '1,3472', '1,3491', '1,3511', '1,3448', '-0,0019', '-0,14%', '14:27:26']
['', 'USD/JPY', '143,88', '144,23', '144,43', '143,44', '-0,35', '-0,24%', '14:27:33']
['', 'USD/CHF', '0,8218', '0,8228', '0,8250', '0,8199', '-0,0010', '-0,12%', '14:27:39']
['', 'AUD/USD', '0,6434', '0,6448', '0,6453', '0,6408', '-0,0014', '-0,22%', '14:27:31']
['', 'EUR/GBP', '0,8433', '0,8432', '0,8435', '0,8403', '+0,0001', '+0,01%', '14:27:40']
['', 'EUR/CHF', '0,9337', '0,9355', '0,9364', '0,9321', '-0,0018', '-0,19%', '14:27:39']
['', 'GBP/JPY', '193,82', '194,58', '194,66', '193,42', '-0,76', '-0,39%', '14:27:32']
['', 'USD/BRL', '5,7105', '5,6661', '5,7385', '5,6421', '+0,0443', '+0,78%', '14:27:28']
['', 'EUR/BRL', '6,4893', '6,4254', '6,5147', '6,3782', '+0,0460', '+0,71%', '14:26:56']


In [100]:
df_moedas = pd.DataFrame(rows, columns=headers)
df_moedas

Unnamed: 0,Unnamed: 1,Código,Último,Abertura,Máxima,Mínima,Var.,Var.%,Hora
0,,EUR/USD,11361,11367,11390,11313,-6,"-0,05%",14:27:36
1,,GBP/USD,13472,13491,13511,13448,-19,"-0,14%",14:27:26
2,,USD/JPY,14388,14423,14443,14344,-35,"-0,24%",14:27:33
3,,USD/CHF,8218,8228,8250,8199,-10,"-0,12%",14:27:39
4,,AUD/USD,6434,6448,6453,6408,-14,"-0,22%",14:27:31
5,,EUR/GBP,8433,8432,8435,8403,1,"+0,01%",14:27:40
6,,EUR/CHF,9337,9355,9364,9321,-18,"-0,19%",14:27:39
7,,GBP/JPY,19382,19458,19466,19342,-76,"-0,39%",14:27:32
8,,USD/BRL,57105,56661,57385,56421,443,"+0,78%",14:27:28
9,,EUR/BRL,64893,64254,65147,63782,460,"+0,71%",14:26:56


## **Permissões e Ações legais**

Antes de iniciar a construção de um scraper, é fundamental verificar as permissões e considerar as implicações legais dessa prática. Muitos sites possuem termos de uso que proíbem explicitamente a coleta automatizada de dados, e ignorar essas restrições pode resultar em consequências legais, como notificações de cessação, bloqueio de IPs ou ações judiciais.

Além disso, o scraping de dados pessoais ou sensíveis sem consentimento pode violar leis de privacidade, como a Lei Geral de Proteção de Dados (LGPD) no Brasil. Portanto, revisar os termos de uso e garantir conformidade com as regulamentações é essencial para uma prática ética e legal de web scraping.

Vejamos esse exemplo:

---

In [101]:
import requests
from bs4 import BeautifulSoup

url = "https://www.imdb.com/pt/chart/top/"

try:
    response = requests.get(url)
except requests.exceptions.RequestException as e:
    print(f"Erro ao fazer a requisição \n{e}")
else:
    soup = BeautifulSoup(response.text, 'html.parser')
    print("Requisição bem-sucedida!\n")
    print(response)

Requisição bem-sucedida!

<Response [403]>


O `403` indica que o servidor recusou a sua requisição, mesmo que ela tenha sido compreendida corretamente.

> Isso geralmente acontece porque:

- O site bloqueou seu acesso por não reconhecer seu navegador (user-agent).

- Você está tentando acessar um recurso protegido ou restrito.

- O servidor detectou que você está usando um bot ou script (como o requests), e não permite esse tipo de acesso.