<a href="https://colab.research.google.com/github/GiovanaRFatec/FATEC_MINERACAO_DADOS_2SEM2024/blob/master/Untitled3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# WEB SCRAPING - RASPAGEM DE DADOS

A aula sobre "Introdução à Raspagem de Dados em Sites da Internet" apresenta
um conjunto de técnicas para extrair e processar dados de páginas web de maneira
automatizada. Aqui, introduzimos o conceito de web scraping, discutimos as
ferramentas principais que serão usadas, como requests, BeautifulSoup e pandas, e
definimos o objetivo do encontro: capacitar os alunos a extrair dados estruturados da
web e manipulá-los para análise.

**Aluna: Giovana Maria Tereza Ramos**
Elaboração dos exercícios proposto da aula

# Instalação das bibliotecas

In [3]:
!pip install requests
!pip install beautifulsoup4

import requests
from bs4 import BeautifulSoup
import pandas as pd



Adicionar a URL que iremos realizar a raspagem de dados

In [4]:
# URL base para o site de livros com paginação
base_url = 'https://books.toscrape.com/catalogue/page-{}.html'


Código para realizar a raspagem do site escolhido

In [5]:
# Lista para armazenar todos os livros
livros = []

# Loop para iterar sobre todas as páginas de livros
for page in range(1, 51):  # Supondo que existam 50 páginas no máximo
    url = base_url.format(page)
    response = requests.get(url)

    if response.status_code != 200:
        print(f"Falha ao acessar {url}")
        break  # Parar se a página não estiver disponível

    soup = BeautifulSoup(response.text, 'html.parser')

    # Extrair dados de cada livro na página atual
    artigos = soup.find_all('article', class_='product_pod')

    # Verificar se ainda há livros na página
    if not artigos:
        break  # Parar o loop se não houver mais artigos/livros na página

    for artigo in artigos:
        titulo = artigo.h3.a['title']

        # Limpar e converter o preço
        preco = artigo.find('p', class_='price_color').text.strip()
        preco_limpo = preco.replace('£', '').replace(',', '').replace('Â', '').strip()

        try:
            preco_float = float(preco_limpo)  # Converter para float
        except ValueError:
            print(f"Erro ao converter o preço: {preco_limpo}")
            continue  # Ignorar livro atual se a conversão falhar

        disponibilidade = artigo.find('p', class_='instock availability').text.strip()

        # Adicionar livro à lista
        livros.append({
            'Titulo': titulo,
            'Preco': preco_float,
            'Disponibilidade': disponibilidade
        })


Criação do DataFrame da raspagem

In [6]:
df = pd.DataFrame(livros)

print("\nLista completa dos livros extraídos:")
print(df[['Titulo', 'Preco', 'Disponibilidade']])


Lista completa dos livros extraídos:
                                                Titulo  Preco Disponibilidade
0                                 A Light in the Attic  51.77        In stock
1                                   Tipping the Velvet  53.74        In stock
2                                           Soumission  50.10        In stock
3                                        Sharp Objects  47.82        In stock
4                Sapiens: A Brief History of Humankind  54.23        In stock
..                                                 ...    ...             ...
995  Alice in Wonderland (Alice's Adventures in Won...  55.53        In stock
996   Ajin: Demi-Human, Volume 1 (Ajin: Demi-Human #1)  57.06        In stock
997  A Spy's Devotion (The Regency Spies of London #1)  16.97        In stock
998                1st to Die (Women's Murder Club #1)  53.98        In stock
999                 1,000 Places to See Before You Die  26.08        In stock

[1000 rows x 3 columns]


**1. Preço médio dos livros**

In [7]:
preco_medio = df['Preco'].mean()
print(f"\nPreço médio dos livros: £{preco_medio:.2f}")



Preço médio dos livros: £35.07


**2. Contagem de livros disponíveis**

In [8]:
contagem_disponiveis = df[df['Disponibilidade'].str.contains('In stock')].shape[0]
print(f"Contagem de livros disponíveis: {contagem_disponiveis}")

Contagem de livros disponíveis: 1000


**3. Livros mais caros**

In [9]:
livros_mais_caros = df.nlargest(3, 'Preco')
print("\nTrês livros mais caros:")
print(livros_mais_caros[['Titulo', 'Preco']])


Três livros mais caros:
                                 Titulo  Preco
648  The Perfect Play (Play by Play #1)  59.99
617   Last One Home (New Beginnings #1)  59.98
860    Civilization and Its Discontents  59.95
