[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/tesouro/curso_basico_python/blob/main/Aula%207%20-%20Coletando%20dados.ipynb)

# Aula 7 - Coletando dados

Nessa aula temos dois objetivos: aprender a coletar dados da internet atrav√©s de duas abordagens principais: consumindo APIs (a forma estruturada e oficial) e fazendo Web Scraping (quando uma API n√£o est√° dispon√≠vel).

<div class="alert alert-block alert-info" style="border-left: 5px solid #0056b3;">
    <h4>üéØ Objetivos de Aprendizagem da Aula</h4>
    <ul style="margin-left: 20px;">
    <li>Entender o que √© uma API (Interface de Programa√ß√£o de Aplica√ß√µes) e por que ela √© importante.</li>
    <li>Usar a biblioteca requests para fazer chamadas (requisi√ß√µes) a APIs.</li>    
    <li>Compreender e processar o formato de dados JSON.</li>
    <li>Conhecer a √©tica envolvida no Web Scraping e a import√¢ncia do arquivo robots.txt.</li>
    <li>Utilizar a biblioteca BeautifulSoup para "entender" e navegar pelo HTML.</li>
    <li>Encontrar elementos espec√≠ficos em uma p√°gina HTML por tags, classes e IDs.</li>
    </ul>
</div>

## 1. O que √© uma API? 
Imagine que voc√™ precisa de informa√ß√µes de um sistema, por exemplo, os dados da cota√ß√£o do d√≥lar do Banco Central. Como voc√™ os obteria?

Voc√™ tem, em teoria, duas op√ß√µes principais:

- Invadir a "cozinha" (o banco de dados do sistema): Seria como entrar no site do Banco Central e baixar a informa√ß√£o (manualmente ou programaticamente);

- Chamar o "gar√ßom" (a API): Esta √© a forma correta e segura. Voc√™ faz um pedido estruturado para o "gar√ßom" do sistema, e ele traz exatamente o que voc√™ pediu em um "prato limpo" e padronizado.

Uma API (Interface de Programa√ß√£o de Aplica√ß√µes) √© exatamente esse "gar√ßom" no mundo da programa√ß√£o. Pense nela como um conjunto de regras e "endpoints" (URLs espec√≠ficas) que um provedor de dados (como o Banco Central, a BrasilAPI, etc.) cria. Essas regras permitem que outros programas (como o seu script Python) possam solicitar e receber informa√ß√µes de forma padronizada, organizada e, o mais importante, segura e oficial.

Essa √© uma distin√ß√£o muito importante para a coleta de dados. Sempre que dispon√≠vel, prefira usar uma API!

- Por que? Porque a API √© a "porta da frente" oficial. Os dados v√™m formatados, organizados, e o provedor espera que voc√™ os utilize dessa forma. √â a maneira mais confi√°vel, eficiente e √©tica.

O Web Scraping √© o "Plano B", porque √© mais fr√°gil (sempre que o site tiver alguma altera√ß√£o estruturante, voc√™ provavelmente precisar√° alterar o seu script).

### 1.1. Como consumir uma API
Consumir uma API geralmente segue um fluxo de tr√™s passos muito l√≥gicos, quase como fazer um pedido em um restaurante:

    Fazer a Requisi√ß√£o (O Pedido):

- Voc√™ usa uma ferramenta (no nosso caso, a biblioteca requests do Python) para "chamar" a URL espec√≠fica da API (o endpoint). √â como dizer ao gar√ßom: "Quero o prato de feriados nacionais de 2025, por favor!".

    Receber a Resposta em JSON (O Prato Pronto):

- A maioria das APIs modernas entrega os dados em um formato chamado JSON (JavaScript Object Notation). N√£o se assuste com o nome! √â simplesmente um formato de texto leve e leg√≠vel por humanos e m√°quinas, muito, mas muito parecido com os dicion√°rios e listas que voc√™ j√° conhece em Python. Ele √© perfeito para representar dados estruturados.

    Processar os Dados (Aproveitar a Refei√ß√£o):

- Uma vez que voc√™ recebe a resposta em JSON, o Python tem ferramentas para converter esse texto JSON em objetos Python normais (listas de dicion√°rios, por exemplo). A partir da√≠, voc√™ pode manipular esses dados como qualquer outra estrutura de dados Python que voc√™ j√° aprendeu: filtr√°-los, acess√°-los, transform√°-los e, claro, coloc√°-los em um DataFrame do Pandas para an√°lises mais complexas.

Vamos colocar a m√£o na massa! Usaremos a BrasilAPI, que √© uma API p√∫blica e gratuita com diversos dados brasileiros, para consultar os feriados nacionais de 2025.

Primeiro, precisamos garantir que as bibliotecas necess√°rias est√£o instaladas. Usamos !pip install para instalar diretamente no ambiente do notebook. O -q √© para "quiet", ou seja, instalar sem mostrar muitas mensagens na tela.

In [None]:
# Instalando as bibliotecas necess√°rias
#!pip install requests beautifulsoup4 pandas -q

Agora, vamos fazer nosso "pedido" √† API:

In [None]:
import urllib3

# Desabilita o aviso InsecureRequestWarning
urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)
 

In [None]:
import requests

# Esta √© a 'URL' ou 'endpoint' para onde faremos nosso pedido.
url_feriados = "https://brasilapi.com.br/api/feriados/v1/2025"

print(f"Fazendo a requisi√ß√£o GET para: {url_feriados}")
# A fun√ß√£o requests.get() envia o pedido e espera pela resposta.
response = requests.get(url_feriados, verify=False)

# O objeto 'response' cont√©m a resposta completa do servidor.
print(f"Tipo do objeto resposta: {type(response)}")

A maioria das APIs modernas entrega os dados em um formato chamado JSON (JavaScript Object Notation). N√£o se assuste com o nome! √â simplesmente um formato de texto leve e leg√≠vel por humanos e m√°quinas.

A melhor parte: ele √© muito, mas muito parecido com os dicion√°rios e listas que voc√™ j√° conhece em Python! Ele √© perfeito para representar dados estruturados.

In [None]:
# Continuar do exemplo anterior com 'response'
# √â uma boa pr√°tica verificar o status da resposta antes de tentar process√°-la.
# Um c√≥digo 200 significa "OK", a requisi√ß√£o foi bem-sucedida.
if response.status_code == 200:
    print(f"\nRequisi√ß√£o bem-sucedida! Status Code: {response.status_code}")

    # O m√©todo .json() do objeto response converte automaticamente o texto JSON
    # para um objeto Python (geralmente uma lista de dicion√°rios ou um dicion√°rio).
    dados_feriados = response.json()

    print(f"Tipo de dado retornado (ap√≥s .json()): {type(dados_feriados)}")
    print(f"Exemplo do conte√∫do JSON (primeiros 200 caracteres):\n{str(dados_feriados)[:200]}...")
else:
    print(f"\nErro na requisi√ß√£o! Status Code: {response.status_code}")
    print(f"Mensagem do servidor:\n{response.text}")

Uma vez que voc√™ recebe a resposta em JSON e a converte para um objeto Python (usando .json()), voc√™ pode manipular esses dados como qualquer outra estrutura de dados Python: filtr√°-los, acess√°-los, transform√°-los.

E o melhor: voc√™ pode facilmente coloc√°-los em um DataFrame do Pandas para an√°lises mais complexas e organiza√ß√£o tabular.

In [None]:
import pandas as pd # Importamos pandas para trabalhar com DataFrames

# Continuar do exemplo anterior, assumindo que 'dados_feriados' √© uma lista de dicion√°rios
if 'dados_feriados' in locals() and isinstance(dados_feriados, list): # Verifica se dados_feriados existe e √© uma lista
    print(f"\nTotal de feriados em 2025: {len(dados_feriados)}")

    # Vamos ver a estrutura do primeiro feriado para entender como acessar os dados
    if dados_feriados: # Verifica se a lista n√£o est√° vazia
        primeiro_feriado = dados_feriados[0]
        print(f"\nEstrutura do Primeiro Feriado:\n{primeiro_feriado}")
        print(f"Nome do primeiro feriado: **{primeiro_feriado['name']}**")
        print(f"Data do primeiro feriado: **{primeiro_feriado['date']}**")

        # Transformando a lista de dicion√°rios em um DataFrame do Pandas
        df_feriados = pd.DataFrame(dados_feriados)
        print("\nFeriados de 2025 em uma Tabela do Pandas:")
        display(df_feriados.head()) # Usamos .head() para mostrar apenas as primeiras linhas
        print(f"Colunas do DataFrame: {df_feriados.columns.tolist()}")
        print(f"Dimens√µes do DataFrame: {df_feriados.shape}")
    else:
        print("A lista de feriados est√° vazia.")
else:
    print("Dados de feriados n√£o foram obtidos ou n√£o est√£o no formato esperado.")

An√°lise dos Resultados:

- Observe que a API nos devolveu uma lista (<class 'list'>). Cada item dessa lista √© um dicion√°rio, representando um feriado espec√≠fico.

- Dentro de cada dicion√°rio de feriado, temos chaves como date, name e type. Isso mostra a estrutura organizada que as APIs fornecem!

- Ao transformar em um DataFrame do Pandas, cada dicion√°rio vira uma linha, e as chaves viram as colunas. Isso √© o poder da API e do Pandas juntos para organizar dados!

## 1.2. Exerc√≠cio de fixa√ß√£o

Consulta de Endere√ßo por CEP
Fa√ßa um programa que pede um CEP ao usu√°rio, consulta a BrasilAPI e imprime o endere√ßo formatado: "Rua..., Bairro..., Cidade... - UF...".

Endpoint da API: https://brasilapi.com.br/api/cep/v1/{cep} (substitua {cep} pelo CEP digitado).

In [None]:
import requests
 
# Esta √© a 'URL' ou 'endpoint' para onde faremos nosso pedido.

cep = str(input("digite o CEP"))

url_cep = "https://brasilapi.com.br/api/cep/v1/"+cep
 
print(f"Fazendo a requisi√ß√£o GET para: {url_cep}")

# A fun√ß√£o requests.get() envia o pedido e espera pela resposta.

response = requests.get(url_cep, verify=False)

# O objeto 'response' cont√©m a resposta completa do servidor.

print(f"Tipo do objeto resposta: {type(response)}")
 
 
dados_cep = response.json()

print(dados_cep)
 
df_cep = pd.DataFrame([dados_cep])

df_cep.head()
 

O Banco Central do Brasil (BCB) oferece uma API para consultar a cota√ß√£o do d√≥lar. Fa√ßa uma fun√ß√£o que recebe uma data no formato "MM-DD-YYYY" e retorna a cota√ß√£o de compra e venda do d√≥lar para aquele dia.

Endpoint da API do BCB: https://olinda.bcb.gov.br/olinda/servico/PTAX/versao/v1/odata/CotacaoDolarDia(dataCotacao=@dataCotacao)?@dataCotacao='{data}'&$format=json

## 1.3. Como fazer webscraping?

Quando uma API n√£o est√° dispon√≠vel, a alternativa √© o Web Scraping. Mas lembre-se: essa √© a "porta dos fundos" e exige cuidado e responsabilidade.

Antes de sequer pensar em coletar dados de um site via Web Scraping, voc√™ deve sempre se perguntar:

- √â permitido?

- √â √©tico?

A primeira coisa a fazer √© verificar o arquivo robots.txt do site.

- O que √© o robots.txt? Imagine que √© um cartaz na "porta dos fundos" do site, indicando para os "rob√¥s" (como o seu script de scraping) quais √°reas do site eles podem ou n√£o podem acessar. √â uma conven√ß√£o para os webmasters informarem suas prefer√™ncias de acesso.

- Como verificar? Basta adicionar /robots.txt ao final da URL base do site. Por exemplo, para o Yahoo Finance, seria https://finance.yahoo.com/robots.txt.

- Por que √© importante? Ignorar o robots.txt ou os termos de servi√ßo de um site pode ter consequ√™ncias s√©rias, desde o bloqueio do seu IP at√© a√ß√µes legais. Sempre respeite as regras! O uso excessivo ou indevido pode sobrecarregar os servidores do site.

Para realizarmos o webscraping, utilizamos duas ferramentas principais:

- requests: Usamos esta biblioteca para agir como um navegador e "baixar" o conte√∫do HTML de uma URL. O resultado √© um grande bloco de texto.

- BeautifulSoup: Esta biblioteca pega o HTML "cru" do requests e o transforma em um objeto organizado, uma "sopa" de tags que podemos navegar e pesquisar facilmente.

Vamos pegar um peda√ßo simples de HTML e ver como o BeautifulSoup o "entende":

In [None]:
from bs4 import BeautifulSoup

# Imagine que isso √© o HTML que voc√™ obteve com requests.get().text
html_doc = """
<html>
<head>
    <title>Minha P√°gina Simples</title>
</head>
<body>
    <h1>Bem-vindo!</h1>
    <p class="introducao">Este √© um par√°grafo de introdu√ß√£o.</p>
    <a href="https://example.com" id="link_principal">Clique aqui</a>
    <p>Outro par√°grafo.</p>
</body>
</html>
"""

# Criando o objeto BeautifulSoup
soup = BeautifulSoup(html_doc, 'html.parser')

print(f"Tipo do objeto soup: {type(soup)}")
# Podemos ver uma vers√£o formatada do HTML que o BeautifulSoup "enxerga":
print("\n--- HTML formatado pelo BeautifulSoup ---")
print(soup.prettify())
print("------------------------------------------")

# Acessando o t√≠tulo da p√°gina
titulo = soup.title
print(f"T√≠tulo da p√°gina (tag): {titulo}")
print(f"Texto do t√≠tulo da p√°gina: {titulo.text}")

# Acessando o primeiro h1
h1 = soup.h1
print(f"Primeiro H1: {h1.text}")

### 1.4. Encontrando Elementos por Tag (find() e find_all())

Voc√™ pode querer encontrar todos os par√°grafos, todos os links, ou todos os t√≠tulos.

Exemplo: Encontrando todas as tags <span> na p√°gina:

In [None]:
import requests
from bs4 import BeautifulSoup

url = "http://quotes.toscrape.com/"
response = requests.get(url)
response.raise_for_status() # Verifica se a requisi√ß√£o foi bem-sucedida
soup = BeautifulSoup(response.text, 'html.parser')

# Encontrando o primeiro <span>
primeiro_span = soup.find('span')
print(f"Primeiro <span> encontrado: {primeiro_span.text}")

# Encontrando todos os <span>
todos_spans = soup.find_all('span')
print(f"\nTotal de <span>s encontrados: {len(todos_spans)}")

# Vamos imprimir os 5 primeiros para ter uma ideia
print("Os 5 primeiros <span>s:")
for i, span in enumerate(todos_spans[:5]):
    print(f"  {i+1}. {span.text}")

# Voc√™ pode usar 'limit' em find_all para pegar apenas os N primeiros
primeiros_3_spans = soup.find_all('span', limit=3)
print(f"\nOs 3 primeiros <span>s usando limit:")
for span in primeiros_3_spans:
    print(f"  - {span.text}")

### 1.5. Encontrando Elementos por Classe (class_)

Muitos elementos HTML possuem um atributo class para agrupar elementos que compartilham estilo ou funcionalidade. No BeautifulSoup, usamos class_ (com underline) para n√£o confundir com a palavra reservada class do Python.

Exemplo: Encontrando todas as cita√ß√µes (que t√™m class="text")

In [None]:
import requests
from bs4 import BeautifulSoup

url = "http://quotes.toscrape.com/"
response = requests.get(url)
response.raise_for_status()
soup = BeautifulSoup(response.text, 'html.parser')

# Encontrando todos os elementos <span> que t√™m a classe "text"
citacoes = soup.find_all('span', class_='text')

print(f"Total de cita√ß√µes (textos) encontradas: {len(citacoes)}")

print("\n--- Primeiras 3 Cita√ß√µes ---")
for i, citacao in enumerate(citacoes[:3]):
    print(f"  {i+1}. \"{citacao.text}\"")

# Encontrando todos os autores (que t√™m a classe "author")
autores = soup.find_all('small', class_='author')

print(f"\nTotal de autores encontrados: {len(autores)}")

print("\n--- Primeiros 3 Autores ---")
for i, autor in enumerate(autores[:3]):
    print(f"  {i+1}. {autor.text}")

### 1.6. Encontrando Elementos por ID (id)

O atributo id √© usado para identificar um elemento √∫nico na p√°gina. No BeautifulSoup, voc√™ o usa diretamente como um argumento nomeado.

In [None]:
import requests
from bs4 import BeautifulSoup

url = "https://www.scrapethissite.com/pages/simple/"

response = requests.get(url)
response.raise_for_status() # Garante que a requisi√ß√£o foi bem-sucedida (status 200)
soup = BeautifulSoup(response.text, 'html.parser')

elemento_por_id = soup.find(id='nav-homepage') # Procura qualquer tag com id="header"
print(elemento_por_id)

### 1.7. Exerc√≠cios de fixa√ß√£o

Colete as tags da primeira cita√ß√£o (no caso, "change", "deep thoughts", "thinking", "world")

Dica: veja o que os elementos possuem em comum entre si.
![image.png](attachment:a8804c5e-4060-47ac-bf1d-d95cae3770cc.png)

Pegue as tags de todas as cita√ß√µes da p√°gina.

Fa√ßa um gr√°fico de barras com a distribui√ß√£o de frequ√™ncia das cita√ß√µes.

## 2. Exerc√≠cios

1. Acesse a p√°gina http://books.toscrape.com/. Colete todos os pre√ßos de todos os livros e veja qual √© o livro mais caro e o livro mais barato.


2. Na mesma p√°gina http://books.toscrape.com/, veja qual √© a m√©dia de avalia√ß√µes de todos os livros.


3. Na p√°gina http://quotes.toscrape.com/, verifique qual √© a tag mais comum de todas as cita√ß√µes.


4. No mesmo site http://quotes.toscrape.com/, veja quais s√£o as palavras mais frequentemente usadas entre todas as cita√ß√µes presentes.


5. No site https://finance.yahoo.com/trending-tickers, transforme os dados em uma tabela offline no formato .csv.


## 3. Bug Hunt
Os c√≥digos abaixo possuem algum tipo de problema. Leia o c√≥digo e a mensagem de erro atentamente e tente solucionar o bug!
Descreva o erro e a solu√ß√£o com suas pr√≥prias palavras.

1. Eu gostaria de pegar o t√≠tulo dessa p√°gina
![image.png](attachment:1fabc079-51b1-44bf-b023-976ffed5d797.png)

In [None]:
from bs4 import BeautifulSoup
import requests

# URL de um site de exemplo com uma estrutura simples
url = "https://www.scrapethissite.com/pages/simple/" # Site de exemplo para scraping

response = requests.get(url, verify=False)
response.raise_for_status()
soup = BeautifulSoup(response.text, 'html.parser')

element = soup.find('h1', class_='page-header')

print(element)

Eu gostaria de coletar esses dados tabulares.
![image.png](attachment:f6d81d5a-904f-423a-8e50-782529b76d08.png)

In [None]:
from bs4 import BeautifulSoup
import pandas as pd
import requests

url = "https://www.scrapethissite.com/pages/simple/" # Site com tabela de exemplo

response = requests.get(url, verify=False)
response.raise_for_status()
soup = BeautifulSoup(response.text, 'html.parser')

table = soup.find('table', class_='table') 
print(table)

## 4. Projetos para voc√™ fazer

Pensem em um portal governamental, di√°rio oficial ou site de not√≠cias que voc√™s consultam para obter dados, mas que n√£o oferece uma op√ß√£o de "Exportar para Excel/CSV". Descrevam o passo a passo que voc√™s seguiriam (usando requests, BeautifulSoup e o Inspetor do Navegador) para extrair uma tabela de dados dessa p√°gina e transform√°-la em algo que o pandas possa ler.

## 5. Perguntas para discuss√£o em grupo

Considerando a manuten√ß√£o do c√≥digo, qual das duas abordagens (APIs vs webscraping) tende a ser mais robusta a longo prazo e por qu√™? 

Como voc√™s lidariam com um cen√°rio em que precisam de dados cruciais para o trabalho, mas o robots.txt pro√≠be o scraping? Quais seriam as alternativas √©ticas e profissionais para obter esses dados?

## 6. Sugest√µes de pesquisa

1) Explore como lidar com autentica√ß√£o b√°sica (Basic Auth) e autentica√ß√£o baseada em tokens (Bearer Token) ao consumir APIs usando a biblioteca requests. Procure por exemplos de APIs que exigem autentica√ß√£o e tente fazer uma requisi√ß√£o.

2) Aprofunde-se no tratamento de exce√ß√µes (try-except) para requests. Pesquise sobre as diferentes exce√ß√µes que requests pode levantar (ConnectionError, Timeout, HTTPError, TooManyRedirects) e como trat√°-las de forma espec√≠fica para tornar seu scraper mais robusto.

3. Pesquise sobre a biblioteca Selenium e quais s√£o suas vantagens de uso em compara√ß√£o ao BeautifulSoup