## Extração Automatizada de Dados - Agentes Inteligentes INF/UFG
### Prof. Otávio Calaça Xavier
----

## Protocolo HTTP

### Exemplo 1: Requisição GET e Inspeção de Cabeçalhos

**Objetivo:**  
Mostrar como enviar uma requisição HTTP utilizando a biblioteca `requests`, inspecionar o código de status e visualizar cabeçalhos relevantes da resposta.

**Descrição:**  
1. Importar a biblioteca `requests`.  
2. Definir uma URL pública (por exemplo: `https://httpbin.org/get`).  
3. Enviar a requisição GET.  
4. Exibir o código de status e os cabeçalhos `Content-Type` e `Server`.  
5. Exibir o corpo da resposta para demonstrar como inspecionar conteúdo bruto.


In [None]:
import requests

# 1. Definição da URL de destino
url = "https://httpbin.org/get"

# 2. Envio da requisição GET
response = requests.get(url)

# 3. Inspeção do código de status
print("Código de Status:", response.status_code)

# 4. Exibição de cabeçalhos específicos
print("Content-Type:", response.headers.get("Content-Type"))
print("Server:", response.headers.get("Server"))

# 5. Exibição de parte do corpo da resposta
print("-- Início do corpo da resposta --")
print(response.text)
print("-- Fim da pré-visualização --")

Código de Status: 200
Content-Type: application/json
Server: gunicorn/19.9.0
-- Início do corpo da resposta --
{
  "args": {}, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.32.3", 
    "X-Amzn-Trace-Id": "Root=1-68437ff6-2e7b52532539c1f72615050d"
  }, 
  "origin": "38.50.159.222", 
  "url": "https://httpbin.org/get"
}

-- Fim da pré-visualização --


### Exemplo 2: Download e Leitura de Arquivo CSV via HTTP

**Objetivo:**  
Realizar download de um arquivo CSV disponível na web, ler seu conteúdo com `pandas` e exibir uma amostra dos dados.

**Descrição:**  
1. Importe as bibliotecas `requests` e `pandas`.  
2. Defina a URL de um CSV público (por exemplo: https://people.sc.fsu.edu/~jburkardt/data/csv/airtravel.csv)

3. Envie uma requisição GET para obter o conteúdo bruto do CSV.  
4. Crie um `DataFrame` do pandas usando `pd.read_csv()` diretamente a partir de `io.StringIO(response.text)` para converter o texto em formato tabelar.  
5. Exiba no console:  
- As primeiras cinco linhas do `DataFrame` (`df.head()`).  
- Informações gerais do `DataFrame` (número de linhas, colunas e tipos de dados) usando `df.info()`.  
6. Opcional: salve o conteúdo em um arquivo local chamado `airtravel.csv`

In [None]:
import requests
import pandas as pd
import io

# 1. Definição da URL do CSV
csv_url = "https://raw.githubusercontent.com/Ujeverson/educacao_economia/refs/heads/main/rendimento_muni_2010_2020.csv"

# 2. Download do conteúdo CSV
response = requests.get(csv_url)
if response.status_code == 200:
 print("Download bem-sucedido do CSV.\n")
else:
 raise Exception(f"Falha ao baixar CSV. Código: {response.status_code}")

# 3. Leitura do CSV com pandas
# Convertemos o texto em StringIO para simular um arquivo em memória
csv_buffer = io.StringIO(response.text)
df = pd.read_csv(csv_buffer)

# 4. Exibição das primeiras 5 linhas
print("Amostra dos dados (primeiras 5 linhas):")
print(df.head())

# 5. Informações gerais do DataFrame
print("\nInformações do DataFrame:")
print(df.info())

# 6. Salvando localmente (opcional)
with open("rendimento_muni_2010_2020.csv", "w", encoding="utf-8") as f:
 f.write(response.text)
print("\nArquivo 'rendimento_muni_2010_2020.csv' salvo no ambiente do Colab.")

Download bem-sucedido do CSV.

Amostra dos dados (primeiras 5 linhas):
               NMU   ANO   REM   RAP   RAE   RCO   RCC  RME   RMI   RSE  RSI
0  Abadia de Goiás  2010   937   820   825   853  1065    0   957  1100    0
1  Abadia de Goiás  2011   999   980   964   761  1119    0  1058  1117    0
2  Abadia de Goiás  2012  1166   951  1165  1181  1378    0  1358  1033    0
3  Abadia de Goiás  2013  1457  1548  1306  1398  1468    0  1388  1557    0
4  Abadia de Goiás  2014  1738  1725  1299  2264  1511  800  1453  1608    0

Informações do DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2706 entries, 0 to 2705
Data columns (total 11 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   NMU     2706 non-null   object
 1   ANO     2706 non-null   int64 
 2   REM     2706 non-null   int64 
 3   RAP     2706 non-null   int64 
 4   RAE     2706 non-null   int64 
 5   RCO     2706 non-null   int64 
 6   RCC     2706 non-null   int64 
 7   RME 

In [None]:
df

Unnamed: 0,NMU,ANO,REM,RAP,RAE,RCO,RCC,RME,RMI,RSE,RSI
0,Abadia de Goiás,2010,937,820,825,853,1065,0,957,1100,0
1,Abadia de Goiás,2011,999,980,964,761,1119,0,1058,1117,0
2,Abadia de Goiás,2012,1166,951,1165,1181,1378,0,1358,1033,0
3,Abadia de Goiás,2013,1457,1548,1306,1398,1468,0,1388,1557,0
4,Abadia de Goiás,2014,1738,1725,1299,2264,1511,800,1453,1608,0
...,...,...,...,...,...,...,...,...,...,...,...
2701,Águas Lindas de Goiás,2016,1413,1452,1172,1255,1264,0,1473,1513,983
2702,Águas Lindas de Goiás,2017,1592,1714,1257,1383,1794,0,1576,1541,7499
2703,Águas Lindas de Goiás,2018,1799,2598,1184,1405,1145,0,1442,1540,11687
2704,Águas Lindas de Goiás,2019,1861,2833,1280,1429,1331,0,1361,1596,5552


### Exemplo 3: Requisição POST com Parâmetros

**Objetivo:**  
Enviar uma requisição HTTP POST com parâmetros (form‐data), configurar cabeçalhos personalizados e processar a resposta em JSON.

**Descrição:**  
1. Importe a biblioteca `requests`.  
2. Defina a URL de teste para POST: https://httpbin.org/post

3. Prepare um dicionário `data` contendo parâmetros de formulário, por exemplo:  
```python
data = {
    "usuario": "<seu nome>",
    "disciplina": "Extração Automatizada de Dados"
}
```
4. Crie um dicionário headers com um User-Agent e indicando que enviará form‐data:
```python
headers = {
    "User-Agent": "Notebook-Colab/1.0",
    "Content-Type": "application/x-www-form-urlencoded"
}
```
5. Envie a requisição POST usando requests.post(url, data=data, headers=headers).

6. Verifique se o código de status é 200. Em seguida, chame response.json() para converter a resposta em dicionário Python.

7. Exiba no console, de forma organizada:

  - O código de status (response.status_code).

  - O campo "form" retornado (com os dados enviados).

  - O campo "headers" retornado (para confirmar envio correto).

  - O campo "url" (confirmando que é o endpoint de POST).

In [None]:
import requests
import json

# 1. Definição da URL para requisição POST
url = "https://httpbin.org/post"  # Corrigido para endpoint de teste

# 2. Parâmetros de formulário (form-data)
data = {
    "usuario": "Ujeverson",
    "email": "ujeverson@gmail.com",
    "disciplina": "Extração Automatizada de Dados"
}

# 3. Cabeçalhos personalizados
headers = {
    "User-Agent": "Notebook-Colab/1.0",
    "Content-Type": "application/x-www-form-urlencoded"
}

# 4. Envio da requisição POST
response = requests.post(url, data=data, headers=headers)

# 5. Verificação do código de status
print("Código de Status:", response.status_code)

# 6. Conversão para JSON (com tratamento de erro)
try:
    resposta_json = response.json()
except Exception as e:
    print("Erro ao converter resposta para JSON:", e)
    print("Conteúdo retornado:", response.text)
else:
    # 7. Exibição dos campos relevantes
    print("\nDados recebidos no campo 'form':")
    print(json.dumps(resposta_json.get("form"), indent=2, ensure_ascii=False))

    print("\nCabeçalhos retornados pelo servidor:")
    print(json.dumps(resposta_json.get("headers"), indent=2, ensure_ascii=False))

    print("\nURL de destino usada:")
    print(resposta_json.get("url"))

Código de Status: 200

Dados recebidos no campo 'form':
{
  "disciplina": "Extração Automatizada de Dados",
  "email": "ujeverson@gmail.com",
  "usuario": "Ujeverson"
}

Cabeçalhos retornados pelo servidor:
{
  "Accept": "*/*",
  "Accept-Encoding": "gzip, deflate",
  "Content-Length": "97",
  "Content-Type": "application/x-www-form-urlencoded",
  "Host": "httpbin.org",
  "User-Agent": "Notebook-Colab/1.0",
  "X-Amzn-Trace-Id": "Root=1-6843834c-262f1c6f7088244f420b22d2"
}

URL de destino usada:
https://httpbin.org/post


### Exercício 1: Consumir API REST com Parâmetros e Autenticação Básica  
1. Utilize a biblioteca `requests` para enviar uma requisição GET a uma API pública que exija autenticação básica (por exemplo, `https://httpbin.org/basic-auth/usuario/senha`).  
2. Configure os parâmetros de autenticação (`auth=(“usuario”, “senha”)`) e verifique se o retorno é código 200.  
3. Extrai e exibe no console o campo `"authenticated"` do JSON retornado para confirmar o sucesso da autenticação.


In [None]:
import requests

#enviando requisição GET a uma API
url = "https://httpbin.org/basic-auth/ujeverson/admin123"
response = requests.get(url, auth=("ujeverson", "admin123"))

# 5. Verificação do código de status
print("Código de Status:", response.status_code)

if response.status_code == 200:
    try:
        resposta_json = response.json()
        print("Autenticado:", resposta_json.get("authenticated"))
    except Exception as e:
        print("Erro ao converter resposta para JSON:", e)
        print("Conteúdo retornado:", response.text)
else:
    print("Autenticação falhou.")

Código de Status: 200
Autenticado: True


### Exercício 2: Paginação em API e Agregação de Resultados  
1. Identifique uma API que retorne resultados paginados (por exemplo, `https://jsonplaceholder.typicode.com/comments?_page=1&_limit=20`).  
2. Usando `requests`, faça requisições sucessivas para obter as N (a ser informado) primeiras páginas de comentários.
3. Concatene todos os itens retornados das páginas em uma única lista Python e exiba a quantidade total de itens agregados.


In [None]:
import requests


url = 'https://jsonplaceholder.typicode.com/comments?_page=1&_limit=20'

all_comments = []

num_pages = 3
itensPagina = 20

response = requests.get(url)

print(f"Buscando {num_pages} páginas de comentários...")

for page_num in range(1, num_pages + 1):
    params = {
        '_page': page_num,
        '_limit': itensPagina
    }
    print(f"Buscando página {page_num}...")
    response = requests.get(url, params=params)

    if response.status_code == 200:
        try:
            comments_on_page = response.json()
            all_comments.extend(comments_on_page)
            print(f"Página {page_num} baixada com sucesso. Total de comentários agregados até agora: {len(all_comments)}")
        except requests.exceptions.JSONDecodeError:
            print(f"Erro ao decodificar JSON na página {page_num}. Conteúdo recebido:")
            print(response.text)
            break # Pare se houver um erro de decodificação JSON
    else:
        print(f"Erro ao buscar página {page_num}. Código de status: {response.status_code}")
        break


# Exibindo a quantidade total de itens agregados.
print(f"\nQuantidade total de comentários agregados das {num_pages} páginas: {len(all_comments)}")


Buscando 3 páginas de comentários...
Buscando página 1...
Página 1 baixada com sucesso. Total de comentários agregados até agora: 20
Buscando página 2...
Página 2 baixada com sucesso. Total de comentários agregados até agora: 40
Buscando página 3...
Página 3 baixada com sucesso. Total de comentários agregados até agora: 60

Quantidade total de comentários agregados das 3 páginas: 60


### Exercício 3: Download de Mídia e Salvamento Local  
1. Utilize `requests` para baixar uma imagem ou arquivo PDF disponível na web (por exemplo, `https://httpbin.org/image/png`).  
2. Implemente tratamento de erros para verificar se o código de status é 200 antes de gravar o conteúdo.  
3. Salve o conteúdo binário em um arquivo local (por exemplo, `imagem_exemplo.png` ou `documento_exemplo.pdf`).  
4. Verifique e imprima o tamanho (em bytes) do arquivo salvo.


In [None]:
import requests
import os


url_imagem = "https://cdn4.iconfinder.com/data/icons/logos-and-brands/512/11_Illustrator_Adobe_Ai_logo_logos-512.png"

# Nome para salvar no pc
nome_imagem = "imagem_AI.png"

print(f"Tentando baixar a imagem de: {url_imagem}")

try:
    # Envia a requisição GET para baixar o conteúdo da imagem
    response = requests.get(url_imagem, stream=True) # Usando stream=True para lidar com arquivos grandes

    # 2. Implementa tratamento de erros para verificar se o código de status é 200
    if response.status_code == 200:
        print("Download bem-sucedido. Salvando o arquivo...")
        # 3. Salva o conteúdo binário em um arquivo local
        with open(nome_imagem, 'wb') as f: # Abre o arquivo em modo de escrita binária ('wb')
            for chunk in response.iter_content(chunk_size=8192): # Itera sobre o conteúdo em pedaços
                f.write(chunk) # Escreve cada pedaço no arquivo
        print(f"Imagem salva como '{nome_imagem}' no ambiente do Colab.")

        # 4. Verifica e imprime o tamanho (em bytes) do arquivo salvo.
        tamanho_arquivo = os.path.getsize(nome_imagem)
        print(f"Tamanho do arquivo salvo: {tamanho_arquivo} bytes.")

    else:
        print(f"Falha ao baixar a imagem. Código de status: {response.status_code}")

except requests.exceptions.RequestException as e:
    print(f"Ocorreu um erro durante a requisição: {e}")
except IOError as e:
    print(f"Ocorreu um erro ao salvar o arquivo: {e}")

print(url_imagem)

Tentando baixar a imagem de: https://cdn4.iconfinder.com/data/icons/logos-and-brands/512/11_Illustrator_Adobe_Ai_logo_logos-512.png
Download bem-sucedido. Salvando o arquivo...
Imagem salva como 'imagem_AI.png' no ambiente do Colab.
Tamanho do arquivo salvo: 4581 bytes.
https://cdn4.iconfinder.com/data/icons/logos-and-brands/512/11_Illustrator_Adobe_Ai_logo_logos-512.png


### Exercício 4: Uso de Sessões e Cookies para Manter Estado  
1. Crie um objeto `Session` de `requests` para simular um fluxo de login simples.  
2. Primeiro, faça uma requisição GET a `https://httpbin.org/cookies/set?visita=1` para definir um cookie chamado `visita`.  
3. Em seguida, faça nova requisição GET a `https://httpbin.org/cookies` usando a mesma sessão e extraia do JSON o cookie `visita`.  
4. Exiba no console o valor desse cookie para comprovar que a sessão manteve o estado.


In [None]:
import requests

#Seção do requests

s = requests.Session()

url_cookies = "https://httpbin.org/cookies/set?visita=1"
print(f"Tentando acessar: {url_cookies}")
response = s.get(url_cookies)

#status
print("Código de Status:", response.status_code)

print("Cookies na sessão após a requisição de setar:")
print(s.cookies.get_dict())

#

Tentando acessar: https://httpbin.org/cookies/set?visita=1
Código de Status: 200
Cookies na sessão após a requisição de setar:
{'visita': '1'}


### Exercício 5: Respeitando o arquivo robots.txt  
1. Dado um site de exemplo (por ex.: `https://httpbin.org/robots.txt`), use `requests` para baixar o conteúdo do `robots.txt`.  
2. Analise manualmente (ou com auxílio de string parsing) se o user‐agent `"*"` está autorizado a acessar uma determinada rota (por ex.: `/delay/3`).  
3. Implemente uma função que, antes de fazer qualquer requisição à URL de teste (por ex.: `https://httpbin.org/delay/3`), verifique se ela está permitida.  
4. Caso o acesso seja negado pelo `robots.txt`, imprima “Acesso bloqueado por robots.txt” e evite a requisição; caso seja permitido, prossiga normalmente e exiba o código de status.


In [None]:
import requests

url_base = "https://www.uol.com.br"
rota = "/delay/3"



def obter_robots_txt(url_base):
    url_robots = url_base + "/robots.txt"
    try:
        resposta = requests.get(url_robots)

        if resposta.status_code == 200:
            return resposta.text
            print(resposta.text)
        else:
            print(f"Não foi possível acessar robots.txt. Código de status: {resposta.status_code}")
            return ""

    except Exception as e:
        print(f"Erro ao acessar robots.txt: {e}")
        return ""



robots_content = obter_robots_txt(url_base)
if robots_content:
    print("\nConteúdo do robots.txt:")
    print(robots_content)



Conteúdo do robots.txt:
# robots.txt
#
User-agent: *
Sitemap: https://www.uol.com.br/carros/sitemap/v2/news-01.xml
Sitemap: https://www.uol.com.br/ecoa/sitemap/news-01.xml
Sitemap: https://www.uol.com.br/esporte/sitemap/v2/news-01.xml
Sitemap: https://www.uol.com.br/nossa/sitemap/news-01.xml
Sitemap: https://www.uol.com.br/splash/sitemap/news-01.xml
Sitemap: https://www.uol.com.br/tilt/sitemap/news-01.xml
Sitemap: https://www.uol.com.br/universa/sitemap/v2/news-01.xml
Sitemap: https://www.uol.com.br/vivabem/sitemap/v2/news-01.xml
Sitemap: https://www.uol.com.br/apostas/api/?resource-id=sitemap&source=apostas/v1/articles.xml
Sitemap: https://www.uol.com.br/apostas/api/?resource-id=sitemap&source=apostas/v1/authors.xml
Sitemap: https://www.uol.com.br/apostas/api/?resource-id=sitemap&source=apostas/v1/content.xml
Sitemap: https://www.uol.com.br/apostas/api/?resource-id=sitemap&source=apostas/v1/news.xml
Sitemap: https://c.jsuol.com.br/assets/jupiter-news/?resource-id=sitemap&source=toca/

In [None]:
def verificar_permissao(robots_txt, rota , user_agent = "*"):
    permitido = True
    analisar = False

    for linhas in robots_txt.splitlines():
        linha = linhas.strip()

        if linha.lower().startswith('user-agent:'):
            agente = linha.split(':', 1)[1].strip()
            analisar_regras = (agente == user_agent) or (agente == "*")

        elif analisar and linha.lower().startswith("disallow: "):
            if linha.lower().startswith("disallow: "):
                caminho_bloqueado = linha.split(':', 1)[1].strip()

                if rota.startswith(caminho_bloqueado):
                    permitido = False


        elif linha.lower().startswith('user-agent:'):
             analisar_regras = False


    return permitido

robots_content = obter_robots_txt(url_base)
if robots_content:
    if verificar_permissao(robots_content, rota):
        print(f"\nUser-agent '*' tem permissão para acessar '{rota}'.")
    else:
        print(f"\nUser-agent '*' NÃO tem permissão para acessar '{rota}'.")


User-agent '*' tem permissão para acessar '/delay/3'.


In [None]:
def acessar_url_se_permitido(url_base, rota, user_agent="*"):
    robots_txt = obter_robots_txt(url_base)

    if not robots_txt:
        url_completa = url_base + rota
        print(f"Tentando acessar: {url_completa}")

        try:
            resposta = requests.get(url_completa)
            print("Código de Status:", resposta.status_code)
        except requests.exceptions.RequestException as e:
            print(f"Erro ao acessar URL: {e}")
        return


    if verificar_permissao(robots_txt, rota, user_agent):
       url_completa = url_base + rota
       resposta = requests.get(url_completa)
       print(f"\nUser-agent '{user_agent}' tem permissão para acessar '{rota}'. Tentando acessar: {url_completa}")

    else:
        print("Acesso bloqueado por robots.txt")

acessar_url_se_permitido(url_base, rota)



User-agent '*' tem permissão para acessar '/delay/3'. Tentando acessar: https://www.uol.com.br/delay/3


### Exercício 6: Inserindo Atrasos (Throttle) entre Requisições  
**Enunciado:**  
1. Crie uma lista com três URLs distintas de um mesmo domínio (por ex.: `https://httpbin.org/get?a=1`, `...?a=2`, `...?a=3`).  
2. Utilize `time.sleep()` para aguardar **2 segundos** entre cada requisição.  
3. Em cada requisição, registre o horário de início e de término (com `time.time()`) e, ao final, exiba a latência (diferença de tempo) de cada chamada.  
4. Garanta que, mesmo se uma requisição falhar, o script aguarde o intervalo antes de tentar a próxima.


In [None]:
#1 listas de URLs
urls = [
    "https://httpbin.org/get?a=1",
    "https://httpbin.org/get?a=2",
    "https://httpbin.org/get?a=3"
]

print("URLs a serem acessadas:")
for url in urls:
    print(url)

URLs a serem acessadas:
https://httpbin.org/get?a=1
https://httpbin.org/get?a=2
https://httpbin.org/get?a=3


In [None]:
# 2. Requisições
import requests
import time
aguardar = 2
print(f"\nFazendo requisições com atraso de {aguardar} segundos entre elas:")

latencias = []

# 3. Iterar sobre as URLs, fazer requisições e inserir atrasos
for i, url in enumerate(urls):
    print(f"\nTentando acessar: {url}")
    inicio = time.time()

    try:
        response = requests.get(url)
        response.raise_for_status()
        print(f"Requisição {i + 1} bem-sucedida. Código de status: {response.status_code}")

    except requests.exceptions.RequestException as e:
        print(f"Erro ao acessar {url}: {e}")

    finally:
        fim = time.time()
        latencia = fim - inicio
        latencias.append(latencia)
        print(f"Latência da requisição {i + 1}: {latencia:.4f} segundos")




Fazendo requisições com atraso de 2 segundos entre elas:

Tentando acessar: https://httpbin.org/get?a=1
Requisição 1 bem-sucedida. Código de status: 200
Latência da requisição 1: 0.7446 segundos

Tentando acessar: https://httpbin.org/get?a=2
Requisição 2 bem-sucedida. Código de status: 200
Latência da requisição 2: 0.7368 segundos

Tentando acessar: https://httpbin.org/get?a=3
Requisição 3 bem-sucedida. Código de status: 200
Latência da requisição 3: 0.9393 segundos


In [None]:
#4 mesmo se uma requisição falhar, o script aguarde o intervalo antes de tentar a próxima.
print("\nLatências de todas as requisições:")
for i, latencia in enumerate(latencias):
    print(f"URL {i+1} ({urls[i]}): {latencia:.2f} segundos")


Latências de todas as requisições:
URL 1 (https://httpbin.org/get?a=1): 0.74 segundos
URL 2 (https://httpbin.org/get?a=2): 0.74 segundos
URL 3 (https://httpbin.org/get?a=3): 0.94 segundos


### Exercício 7: Implementando Logs Detalhados de Requisições  
1. Configure o módulo `logging` do Python para registrar mensagens em um arquivo chamado `scraper.log`.  
2. Em cada requisição a um conjunto de URLs (por ex.: três endpoints diferentes de `httpbin.org/get`), registre as seguintes informações:  
   - Timestamp de início da requisição  
   - URL solicitada  
   - Código de status da resposta  
   - Tempo total de resposta (em segundos)  
3. Caso ocorra algum erro (timeout, conexão recusada, HTTP ≥ 400), capture a exceção e grave no log:  
   - Timestamp do erro  
   - Tipo de exceção e mensagem de erro  
   - URL que originou a falha  
4. Ao final, abra e mostre as últimas cinco linhas de `scraper.log` para comprovar que os eventos foram registrados.


In [None]:
#1 Configurando o módulo logging
import logging

logging.basicConfig(
    filename="scraper.log",
    level=logging.INFO,
    format="%(asctime)s - %(levelname)s - %(message)s"
)

logging.info("Configuração do logging concluída.")
print("O log está configurado para escrever em 'scraper.log'.")
print("Verifique o painel de arquivos do Colab para ver o arquivo após a execução.")

O log está configurado para escrever em 'scraper.log'.
Verifique o painel de arquivos do Colab para ver o arquivo após a execução.


In [None]:
#2  registro das informações
import requests
import time
import logging

urls_para_log = [
    "https://httpbin.org/get?param1=valor1",
    "https://httpbin.org/status/404", # URL que retornará um erro 404
    "https://httpbin.org/delay/1",    # URL com um pequeno atraso
    "https://httpbin.org/get?param2=valor2",
    "https://invalid-url-for-test.com" # URL inválida para simular erro de conexão
]
print("\nProcessando URLs com logging detalhado:")

for url in urls_para_log:
    inicio_req = time.time()
    logging.info(f"Iniciando requisição para: {url}") # Registrar timestamp de início e URL

    try:
        response = requests.get(url, timeout=5)
        fim_req = time.time()
        tempo_resposta = fim_req - inicio_req


        if response.status_code >= 400:
            logging.warning(f"Requisição para {url} falhou com código de status: {response.status_code}")
        else:
            logging.info(f"Requisição para {url} bem-sucedida.")

        logging.info(f"URL solicitada: {url}")
        logging.info(f"Código de status: {response.status_code}")
        logging.info(f"Tempo total de resposta: {tempo_resposta:.4f} segundos") # Registrar tempo total de resposta

    except requests.exceptions.Timeout:
        fim_req = time.time()
        tempo_gasto = fim_req - inicio_req
        logging.error(f"Erro de Timeout ao acessar {url}. Tempo gasto até o timeout: {tempo_gasto:.4f} segundos.")
        logging.error(f"URL que originou a falha: {url}")

    except requests.exceptions.ConnectionError as e:
        fim_req = time.time()
        tempo_gasto = fim_req - inicio_req
        logging.error(f"Erro de Conexão ao acessar {url}: {e}. Tempo gasto até o erro: {tempo_gasto:.4f} segundos.")
        logging.error(f"URL que originou a falha: {url}")

    except requests.exceptions.RequestException as e:
        fim_req = time.time()
        tempo_gasto = fim_req - inicio_req
        logging.error(f"Ocorreu um erro na requisição para {url}: {e}. Tempo gasto até o erro: {tempo_gasto:.4f} segundos.")
        logging.error(f"Tipo de exceção: {type(e).__name__}")
        logging.error(f"URL que originou a falha: {url}")

    except Exception as e:
        fim_req = time.time()
        tempo_gasto = fim_req - inicio_req
        logging.error(f"Ocorreu um erro inesperado ao processar {url}: {e}. Tempo gasto até o erro: {tempo_gasto:.4f} segundos.")
        logging.error(f"Tipo de exceção: {type(e).__name__}")
        logging.error(f"URL que originou a falha: {url}")


print("\nRequisições concluídas. As informações foram registradas em 'scraper.log'.")


Processando URLs com logging detalhado:


ERROR:root:Erro de Conexão ao acessar https://invalid-url-for-test.com: HTTPSConnectionPool(host='invalid-url-for-test.com', port=443): Max retries exceeded with url: / (Caused by NameResolutionError("<urllib3.connection.HTTPSConnection object at 0x7b10640e68d0>: Failed to resolve 'invalid-url-for-test.com' ([Errno -2] Name or service not known)")). Tempo gasto até o erro: 0.0550 segundos.
ERROR:root:URL que originou a falha: https://invalid-url-for-test.com



Requisições concluídas. As informações foram registradas em 'scraper.log'.
