<a href="https://colab.research.google.com/github/cam2149/Extraction_Storage/blob/main/WebScrapingEntregable_Practica_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Web Scraping Entregable Práctica 1
**Página Books**

A continuación realizaremos la primer práctica de Web Scraping: Extracción de Datos en la Web, sobre un sitio de prueba de Web Scraping.
Extraer los datos solicitados de un sitio web utilizando Python y BeautifulSoup.


**1. Preparar  Colab**


In [1]:
# Collab trae estas librerías por defecto
!pip install requests
!pip install beautifulsoup4



**2. Importar la librerias**
* **Requests**: Esta librería permite realizar peticiones usando cualquiera de los métodos (get, post, put, delete, patch), envío de parámetros y modificaciones de las cabeceras.

* **BeautifulSoup o bs4**: es una librería que se utiliza para extraer datos de htmls y xml, esta librería nos facilitará el trabajo a la hora de extraer la información.

In [2]:
# Importar las librerías necesarias
import requests
from bs4 import BeautifulSoup

**3. Página Web objetivo**

Para nuestra práctica usaremos a la URL de un sitio web de demostración que está diseñado para practicar web scraping. No es un sitio comercial real, sino que es una plataforma creada para que desarrolladores y personas interesadas en aprender a realizar web scraping puedan hacerlo sin infringir políticas de uso de sitios web comerciales.
```
https://books.toscrape.com
```



**Actividad:**

Para cada producto se debe obtener y mostrar lo siguiente:



1.   Título
2.   Precio
3.   Disponibilidad
4.   Rating



In [3]:
# Nuestra página objetivo
url_objetivo = "https://books.toscrape.com/"

In [4]:
# Obtener un requests de la URL objetivo
site = requests.get(url_objetivo)

# Si el Status Code es OK!
if site.status_code == 200:
  # Hacer al Site un soup
  soup = BeautifulSoup(site.text)


In [5]:
soup = BeautifulSoup(site.text)


In [21]:
def remove_first_chars(text):
  if len(text) >= 2:
    return text[1:]
  else:
    return text

#Funcion para obtener el titulo del producto
def get_book_title(book):
  return book.find('h3').find('a')['title']

#Funcion para obtener el precio del producto
def get_book_price(book):
  #precio = book.find('p', {'class': 'price_color'}).text.strip()
  return remove_first_chars(book.find(class_="price_color").text.strip())

#Funcion para obtener si el producto tiene stock
def get_book_availability(book):
  return book.find('p', {'class': 'instock availability'}).text.strip()

#Funcion para obtener el el producto tiene stock
def get_book_star_rating(book):
  rating_class = book.find('p', {'class': 'star-rating'}).get('class')
  rating_class_value = rating_class[1]
  rating_map = {'One': 1, 'Two': 2, 'Three': 3, 'Four': 4, 'Five': 5}
  return rating_map[rating_class_value]



def scrape_books(books):
    for book in books:
        title = get_book_title(book)
        price = get_book_price(book)
        availability = get_book_availability(book)
        star_rating = get_book_star_rating(book)

        print(f"Titulo: {title}")
        print(f"Precio: {price}")
        print(f"Disponibilidad: {availability}")
        print(f"Rating: {star_rating} estrellas")
        print("-" * 50)

def scrape_books_five_stars(books):
    print("-" * 50)
    print("-" * 50)
    for book in books:
      if get_book_star_rating(book) == 5:
        title = get_book_title(book)
        price = get_book_price(book)
        availability = get_book_availability(book)
        star_rating = get_book_star_rating(book)

        print(f"Titulo: {title}")
        print(f"Precio: {price}")
        print(f"Disponibilidad: {availability}")
        print(f"Rating: {star_rating} estrellas")
        print("-" * 50)

def sort_books(books, sort_by):
    """Sort the books based on the specified criteria."""
    if sort_by == 'title':
        scrape_books(sorted(books, key=get_book_title))
    elif sort_by == 'price':
        scrape_books(sorted(books, key=get_book_price))
    elif sort_by == 'availability':
        scrape_books(sorted(books, key=get_book_availability))
    elif sort_by == 'star_rating':
        scrape_books(sorted(books, key=get_book_star_rating))
    else:
        raise ValueError("Invalid sort_by parameter. Use 'title', 'price', 'availability', or 'star_rating'.")

In [26]:
"""Scrape books from the given URL."""
response = requests.get(url_objetivo)
soup = BeautifulSoup(response.text, 'html.parser')


In [28]:
# @title Listado de todos los libros
books = soup.find_all('article', {'class': 'product_pod'})
scrape_books(books)

Titulo: A Light in the Attic
Precio: £51.77
Disponibilidad: In stock
Rating: 3 estrellas
--------------------------------------------------
Titulo: Tipping the Velvet
Precio: £53.74
Disponibilidad: In stock
Rating: 1 estrellas
--------------------------------------------------
Titulo: Soumission
Precio: £50.10
Disponibilidad: In stock
Rating: 1 estrellas
--------------------------------------------------
Titulo: Sharp Objects
Precio: £47.82
Disponibilidad: In stock
Rating: 4 estrellas
--------------------------------------------------
Titulo: Sapiens: A Brief History of Humankind
Precio: £54.23
Disponibilidad: In stock
Rating: 5 estrellas
--------------------------------------------------
Titulo: The Requiem Red
Precio: £22.65
Disponibilidad: In stock
Rating: 1 estrellas
--------------------------------------------------
Titulo: The Dirty Little Secrets of Getting Your Dream Job
Precio: £33.34
Disponibilidad: In stock
Rating: 4 estrellas
------------------------------------------------

In [24]:
# @title Listado de libros calificados con 5 estrellas
scrape_books_five_stars(books)

--------------------------------------------------
--------------------------------------------------
Titulo: Sapiens: A Brief History of Humankind
Precio: £54.23
Disponibilidad: In stock
Rating: 5 estrellas
--------------------------------------------------
Titulo: Set Me Free
Precio: £17.46
Disponibilidad: In stock
Rating: 5 estrellas
--------------------------------------------------
Titulo: Scott Pilgrim's Precious Little Life (Scott Pilgrim #1)
Precio: £52.29
Disponibilidad: In stock
Rating: 5 estrellas
--------------------------------------------------
Titulo: Rip it Up and Start Again
Precio: £35.02
Disponibilidad: In stock
Rating: 5 estrellas
--------------------------------------------------


In [23]:
# @title Listado de libros ordenados por precio
sorted_books = sort_books(books, 'price')

Titulo: Starving Hearts (Triangular Trade Trilogy, #1)
Precio: £13.99
Disponibilidad: In stock
Rating: 2 estrellas
--------------------------------------------------
Titulo: Set Me Free
Precio: £17.46
Disponibilidad: In stock
Rating: 5 estrellas
--------------------------------------------------
Titulo: The Coming Woman: A Novel Based on the Life of the Infamous Feminist, Victoria Woodhull
Precio: £17.93
Disponibilidad: In stock
Rating: 3 estrellas
--------------------------------------------------
Titulo: Shakespeare's Sonnets
Precio: £20.66
Disponibilidad: In stock
Rating: 4 estrellas
--------------------------------------------------
Titulo: The Boys in the Boat: Nine Americans and Their Epic Quest for Gold at the 1936 Berlin Olympics
Precio: £22.60
Disponibilidad: In stock
Rating: 4 estrellas
--------------------------------------------------
Titulo: The Requiem Red
Precio: £22.65
Disponibilidad: In stock
Rating: 1 estrellas
--------------------------------------------------
Titulo

In [30]:
import requests
from bs4 import BeautifulSoup

def remove_first_two_chars(text):
  if len(text) >= 2:
    return text[1:]
  else:
    return text

def sum_value_books(url):
  # Hacer una nueva solicitud a la página de "Childrens"
  site = requests.get(url)
  if site.status_code == 200:
    soup = BeautifulSoup(site.text, 'html.parser')
    # Encontrar todos los elementos que tengan la clase "price_color"
    price_elements = soup.find_all(class_="price_color")
    total_price = 0
    for price_element in price_elements:
      try:
        # Eliminar el símbolo £ y convertir a float
        price_str = price_element.text.replace("Â£", "0")
        price_str = remove_first_two_chars(price_element.text.replace("Â£", "0"))
        #print(price_str)
        price = float(price_str)
        total_price += price
      except ValueError:
        print(f"Error al convertir el precio: {price_element.text}")

    print(f"La suma total de los precios de los libros de la categoría es: £{total_price}")
  else:
    print(f"Error al obtener la página:{site} {site.status_code}")


site = requests.get(url_objetivo)

if site.status_code == 200:
  soup = BeautifulSoup(site.text, 'html.parser')

  # Obtener todas las etiquetas de enlace que hay en la web
  tags = soup('a')
  # Recorrer con un ciclo para imprimir el contenido
  total_price = 0
  for tag in tags:
    if 'childrens' in tag.get('href'):
      print(f"Enlace encontrado con 'children': {tag.get('href')}")
      childrens_link = tag.get('href')
      # Construir la URL completa del enlace de "Childrens"
      childrens_url = url_objetivo + childrens_link
      print(childrens_url)
      sum_value_books(childrens_url)


  print(f"Suma total de los precios de los libros: {total_price}")
else:
    print("No se pudo acceder a la URL.")


Enlace encontrado con 'children': catalogue/category/books/childrens_11/index.html
https://books.toscrape.com/catalogue/category/books/childrens_11/index.html
La suma total de los precios de los libros de la categoría es: £728.0500000000001
Suma total de los precios de los libros: 0
