<a href="https://colab.research.google.com/github/caroline-dainezi-fatec/Fatec-Mineracao-de-Dados-2SEM-2024/blob/main/CarolineDainezi_WebScraping.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Atividade de Raspagem de Dados**

**Nome:** Caroline de Souza Dainezi

**Enunciado:** Utilize o site http://books.toscrape.com/, realize um web scraping neste site a fim de responder as seguintes questões:

1. Preço médio dos livros: Mostra o preço médio de todos os livros listados.

2. Contagem de livros disponíveis: Informa quantos livros estão disponíveis no estoque.

3. Livros mais caros: Exibe os 3 livros com os preços mais altos na lista.


# **Bibliotecas Utilizadas**

Instalação e importação das bibliotecas utilizadas na atividade.

In [60]:
!pip install requests
!pip install beautifulsoup4



In [61]:
import requests
import pandas as pd
from bs4 import BeautifulSoup

# **Realizando a conexão com o site e objeto do BeautifulSoup e extraindo os dados**

In [62]:
url = 'http://books.toscrape.com/'

response = requests.get(url)

if response.status_code == 200:
  print("Conexão bem-sucedida!")

  soup = BeautifulSoup(response.text, 'html.parser')
  livros = soup.find_all('article', class_='product_pod')

  titulos = []
  precos = []
  disponibilidades = []

  for livro in livros:
    titulo = livro.find('h3').text
    titulos.append(titulo)

    div_preco = livro.find('div', class_='product_price')
    preco = float(div_preco.find('p', class_='price_color').text.replace('Â£', ''))
    precos.append(preco)

    disponibilidade = div_preco.find('p', class_='instock availability').text.strip()
    disponibilidades.append(disponibilidade)

    print("Título:", titulo)
    print("Preço:", preco)
    print("Disponibilidade:", disponibilidade)
    print("-" * 30)
else:
  print("Erro ao acessar o site.")



Conexão bem-sucedida!
Título: A Light in the ...
Preço: 51.77
Disponibilidade: In stock
------------------------------
Título: Tipping the Velvet
Preço: 53.74
Disponibilidade: In stock
------------------------------
Título: Soumission
Preço: 50.1
Disponibilidade: In stock
------------------------------
Título: Sharp Objects
Preço: 47.82
Disponibilidade: In stock
------------------------------
Título: Sapiens: A Brief History ...
Preço: 54.23
Disponibilidade: In stock
------------------------------
Título: The Requiem Red
Preço: 22.65
Disponibilidade: In stock
------------------------------
Título: The Dirty Little Secrets ...
Preço: 33.34
Disponibilidade: In stock
------------------------------
Título: The Coming Woman: A ...
Preço: 17.93
Disponibilidade: In stock
------------------------------
Título: The Boys in the ...
Preço: 22.6
Disponibilidade: In stock
------------------------------
Título: The Black Maria
Preço: 52.15
Disponibilidade: In stock
------------------------------
Tít

# **Passando os dados para um DataFrame para análise**

In [63]:
dicionario = {"Título": titulos, "Preço": precos, "Disponibilidade": disponibilidades}

df = pd.DataFrame(dicionario)
df.head()

Unnamed: 0,Título,Preço,Disponibilidade
0,A Light in the ...,51.77,In stock
1,Tipping the Velvet,53.74,In stock
2,Soumission,50.1,In stock
3,Sharp Objects,47.82,In stock
4,Sapiens: A Brief History ...,54.23,In stock


# **Respondendo às questões**

1. Preço médio dos livros: Mostra o preço médio de todos os livros listados.

In [64]:
media_preco = df['Preço'].mean()
print("Preço médio dos livros: {:.2f}".format(media_preco))

Preço médio dos livros: 38.05


2. Contagem de livros disponíveis: Informa quantos livros estão disponíveis no estoque.

In [65]:
livros_disponiveis = df["Disponibilidade"].value_counts()
livros_disponiveis

Unnamed: 0_level_0,count
Disponibilidade,Unnamed: 1_level_1
In stock,20


3. Livros mais caros: Exibe os 3 livros com os preços mais altos na lista.

In [66]:
mais_caros = df.nlargest(3, 'Preço')
mais_caros

Unnamed: 0,Título,Preço,Disponibilidade
15,Our Band Could Be ...,57.25,In stock
4,Sapiens: A Brief History ...,54.23,In stock
1,Tipping the Velvet,53.74,In stock
