# Web Scraping

In [24]:
# Importando bibliotecas
import requests
from bs4 import BeautifulSoup
import pandas as pd
import time
import os

In [25]:
# URL da pagina web a ser raspada (Arquivo HTML local)
URL_PAGINA_LIVROS = 'html_exemplo/pagina_livros_exemplo.html'

In [26]:
# Cria função para raspar dados do site
def raspar_dados_livros(url):
  """
    Raspa dados de livros de uma página web estática.

    Args:
      url (str): URL da página web

    Returns:
      list: Lista de dicionários, onde cada dicionário representa um livro
      com chaves 'titulo', 'autor', 'preco'
      Retorna um lista vazia em caso de erro
  """
  
  try: 
    # Faz a requisição HTTP GET
    #response = requests.get(url)
    # Lança uma exceção para status de erro (4xx ou 5xx)
    #response.raise_for_status()

    # Leitura arquivo HTML local
    with open(URL_PAGINA_LIVROS, 'r', encoding='utf-8') as arquivo_html:
      response = arquivo_html.read()
  except requests.exceptions.RequestException as e:
    print(f"Erro ao acessar página: {e}")
    # Retorna lista vazia em caso de erro de requisição
    return []
  
  # Parseia o HTML HTTP
  #soup = BeautifulSoup(response.content, 'html.parser')
  # Parseia o HTML Local
  soup = BeautifulSoup(response, 'html.parser')

  # Lista para armazenar os dados dos livros
  livros_data = []

  # Encontrar todos os elementos 'div' que representam um item de livro
  itens_livro = soup.find_all('div', class_='livro-item')

  # Cria o dicionário com os livros
  for item_livro in itens_livro:
    try:
      titulo_elemento = item_livro.find('h2', class_='titulo-livro')
      autor_elemento = item_livro.find('p', class_='autor-livro')
      preco_elemento = item_livro.find('p', class_='preco-livro')

      # Extrair o texto dos elementos
      titulo = titulo_elemento.text.strip() if titulo_elemento else 'N/A'
      autor = autor_elemento.text.strip() if autor_elemento else 'N/A'
      preco = preco_elemento.text.strip() if preco_elemento else 'N/A'

      # Criar um dicionário com os dados do livro
      livro_info = {
        'titulo': titulo,
        'autor': autor,
        'preco': preco
      }

      # Adicionar o dicionário à lista
      livros_data.append(livro_info)
    
    # Capturar erros se algum elemento não for encontrado
    except AttributeError as e:
      print(f'Erro ao extrair dados de um item de livro: {e}')
      # Ir para o próximo item de livro em caso de erro
      continue
  return livros_data

In [27]:
# Salva os dados em CSV
def salvar_dados_csv(dados_livros, nome_arquivo_csv='dados_coletados/livros_csv'):
  """"
  Salva uma lista de dicionários de dados de livros em um arquivo CSV

  Args:
    dados_livros (list): Lista de dicionários, onde cada dicionário representa um livro.
    nome_arquivo_csv (str): nome do arquivo CSV para salvar
  """
  # Verifica se há dados para salvar
  if not dados_livros:
    print("Nenhum dado de livro para salvar")
    return
  
  # Cria DataFrame a partir da lista de dicionários
  df_livros = pd.DataFrame(dados_livros)

  try:
    # Salvar DataFrame para CSV
    df_livros.to_csv(nome_arquivo_csv, index=False, encoding='utf-8')
    print(f'Dados dos livros salvos com sucesso em "{nome_arquivo_csv}"')
  except Exception as e:
    print(f"Erro ao salvar dados em CSV: {e}")

In [28]:
dados_livros_raspados = raspar_dados_livros(URL_PAGINA_LIVROS)
# Verifica se dados foram raspados com sucesso
if dados_livros_raspados:
  # Chama função para salvar em CSV
  salvar_dados_csv(dados_livros_raspados)
  print("Processo de web scraping concluído.")
else:
  print("Raspagem de dados falhou")



Dados dos livros salvos com sucesso em "dados_coletados/livros_csv"
Processo de web scraping concluído.
