<a href="https://colab.research.google.com/github/BrunaMoraisMenezesDSM/web_scraping/blob/master/Web_Scraping_Bruna_Morais_Menezes.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Exercício - Web Scraping

**Nome:** Bruna Morais Menezes **| RA:** 1131392213017

## **Exercício**
Utilize o site http://books.toscrape.com/ , realize um web scraping neste site a fim de responder as
seguintes questões:
1. **Preço médio dos livros:** Mostra o preço médio de todos os livros listados.
2. **Contagem de livros disponíveis:** Informa quantos livros estão disponíveis no estoque.
3. **Livros mais caros:** Exibe os 3 livros com os preços mais altos na lista.

Importando as bibliotecas `requests` e `BeutifulSoup`, usada para fazer requisições HTTP e para o auxiliar na análise do conteúdo HTML, respectivamente.

In [46]:
import requests
from bs4 import BeautifulSoup

Definindo a URL do site e especificando o headers

In [47]:
url = 'http://books.toscrape.com/catalogue/category/books/childrens_11/index.html'
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/130.0.0.0 Safari/537.36"}

Realizando uma requisição GET para a URL mencionada no passo anterior, juntamente com os headers definidos.

In [48]:
response = requests.get(url, headers=headers)

Se o retorno da requisição der 200, significa que deu sucesso, portanto, vamos utilizar o conteúdo da resposta para analisar o HTML da página usando o `BeautifulSoup`.

In [49]:
if response.status_code == 200:
  beautiful = BeautifulSoup(response.text, 'html.parser')

Agora precisamos localizar todos os elementos HTML `article` com a classe `product_pod`, representando cada produto listado na página, esses elementos serão armazenados na variável `livros`.

In [50]:
livros = beautiful.find_all('article', class_='product_pod')

Importando o módulo `re` para utilizar o regex e poder quebrar uma string em partes.

In [51]:
import re

A seguir está inicializando a lista de preços vazia, após está fazendo um `for`, percorrendo cada item da lista livros e extraindo o texto contido no elemento `p` da classe `price_color`, este é o preço do livro que vai ser armazenado na variável `item_preco`. Depois, usando regex, vamos buscar todas os dados que tem o padrão de números decimais e atribuímos a variável `preco`. Em seguida, é necessário converte-la para `float`, para realizarmos os cálculos posteriormente, e o adicionamos na lista de precos, usando o `append`.

In [52]:
precos = []

for item in livros:
    item_preco = item.find('p', class_='price_color').text
    preco = re.findall(r'\d+\.\d+', item_preco)[0]

    precos.append(float(preco))

Calculando a quantidade de itens dentro da lista `precos`, usando o `len()` e armazenando na variável `quantidade_disponivel`, para sabermos quantos livros estão disponíveis.

In [53]:
quantidade_disponivel = len(precos)

## Respostas

### 1. Preço médio dos livros

Para saber o preço médio dos livros, precisamos somar o total de preços da lista `preco`, usando o `sum()` e dividir pela quantidade de livros armazenada na variável `quantidade_disponivel`.

In [54]:
preco_medio = sum(precos) / quantidade_disponivel

print(f"Preço médio dos livros: {preco_medio:.2f}")

Preço médio dos livros: 36.40


### 2. Contagem de livros disponíveis

Anteriormente já armazenamos essa informação na variável `quantidade_disponivel`, então, abaixo só será exibida.

In [55]:
print(f"Contagem de livros disponíveis: {quantidade_disponivel}")

Contagem de livros disponíveis: 20


### 3. Livros mais caros

Criando uma lista de tuplas, onde cada tupla contém o título do livro
e seu preço, utilizando `zip` para combinar as listas `livros` e `precos`.
Em seguida, colocamos essa lista em ordem decrescente com base no preço
e selecionamos os 3 livros mais caros.


In [56]:
livros_com_preco = [(produto.h3.a['title'], preco) for produto, preco in zip(livros, precos)]

livros_mais_caros = sorted(livros_com_preco, key=lambda x: x[1], reverse=True)[:3]

print("Livros mais caros:")
for livro, preco in livros_mais_caros:
    print(f"{livro}: {preco:.2f}")

Livros mais caros:
The White Cat and the Monk: A Retelling of the Poem âPangur BÃ¡nâ: 58.08
The Secret of Dreadwillow Carse: 56.13
The Wild Robot: 56.07
