# Ejercicio Complementario Capítulo 6

## Objetivo

Extraer los nombres y precios de todos los libros de la página web [https://books.toscrape.com](https://books.toscrape.com) utilizando Web Scraping.

## Importando Librerías

In [1]:
from bs4 import BeautifulSoup
import requests

## Desarrollo

In [2]:
URL_BASE = "https://books.toscrape.com/"

In [3]:
request = requests.get(URL_BASE)

En primer lugar, se hace una solicitud a la página web y se obtiene el contenido de la misma. Para esto se utiliza la librería `requests`.

Inspeccionamos que es lo que nos retorna la solicitud a la página web.

In [4]:
print(request)

<Response [200]>


La solicitud a la página web nos retorna un objeto de tipo `Response` que contiene la información de la página web. Tiene elementos como los siguientes:

- `text`: Contenido de la respuesta en texto. Como es una página web, este texto contiene el código HTML de la página.
- `content`: Contenido de la respuesta en bytes.
- `status_code`: Código de estado de la respuesta HTTP.

In [5]:
#print(request.text)

<!DOCTYPE html>
<!--[if lt IE 7]>      <html lang="en-us" class="no-js lt-ie9 lt-ie8 lt-ie7"> <![endif]-->
<!--[if IE 7]>         <html lang="en-us" class="no-js lt-ie9 lt-ie8"> <![endif]-->
<!--[if IE 8]>         <html lang="en-us" class="no-js lt-ie9"> <![endif]-->
<!--[if gt IE 8]><!--> <html lang="en-us" class="no-js"> <!--<![endif]-->
    <head>
        <title>
    All products | Books to Scrape - Sandbox
</title>

        <meta http-equiv="content-type" content="text/html; charset=UTF-8" />
        <meta name="created" content="24th Jun 2016 09:29" />
        <meta name="description" content="" />
        <meta name="viewport" content="width=device-width" />
        <meta name="robots" content="NOARCHIVE,NOCACHE" />

        <!-- Le HTML5 shim, for IE6-8 support of HTML elements -->
        <!--[if lt IE 9]>
        <script src="//html5shim.googlecode.com/svn/trunk/html5.js"></script>
        <![endif]-->

        
            <link rel="shortcut icon" href="static/oscar/favicon.

In [6]:
#print(request.content)



In [7]:
#print(request.status_code)

200


Utilizando  `BeautifulSoup` se puede parsear el contenido, es decir, analizarlo y extraer la información que se necesita. 

In [8]:
soup = BeautifulSoup(request.text, "html.parser")

Una vez que se tiene el contenido parseado, se puede extraer la información que se necesita. En este caso, se necesita extraer la información de los libros de la página web. Para ello se puede hacer uso de los siguientes métodos:

- `find()`: Encuentra la primera ocurrencia de un elemento en el contenido parseado.
- `find_all()`: Encuentra todas las ocurrencias de un elemento en el contenido parseado. Retorna una lista con los elementos encontrados.

In [9]:
first_h1 = soup.find("h1")

In [10]:
print(first_h1)

<h1>All products</h1>


In [11]:
print(first_h1.text)

All products


In [12]:
all_articles = soup.find_all("article")

Se puede obtener un resultado, o texto más limpio, utilizando el método `get_text()`. Al igual que `text` permite obtener el contenido de un elemento, pero `get_text()` permite obtener el texto limpio, sin etiquetas HTML, además se pueden especificar otras opciones como eliminar los espacios en blanco al inicio y al final del texto, esto mediante el parámetro `strip=True`.

In [13]:
for article in all_articles:
    print(f"Nombre del libro: {article.h3.get_text(strip=True)}")

Nombre del libro: A Light in the ...
Nombre del libro: Tipping the Velvet
Nombre del libro: Soumission
Nombre del libro: Sharp Objects
Nombre del libro: Sapiens: A Brief History ...
Nombre del libro: The Requiem Red
Nombre del libro: The Dirty Little Secrets ...
Nombre del libro: The Coming Woman: A ...
Nombre del libro: The Boys in the ...
Nombre del libro: The Black Maria
Nombre del libro: Starving Hearts (Triangular Trade ...
Nombre del libro: Shakespeare's Sonnets
Nombre del libro: Set Me Free
Nombre del libro: Scott Pilgrim's Precious Little ...
Nombre del libro: Rip it Up and ...
Nombre del libro: Our Band Could Be ...
Nombre del libro: Olio
Nombre del libro: Mesaerion: The Best Science ...
Nombre del libro: Libertarianism for Beginners
Nombre del libro: It's Only the Himalayas


También se puede buscar a través de los atributos de la etiqueta, por ejemplo, si se quiere buscar un elemento que tenga un atributo `class` con un valor específico, se puede hacer de la siguiente manera:

In [14]:
all_articles_v2 = soup.find_all(class_="product_pod")

In [15]:
for article in all_articles_v2:
    print(f"Nombre del libro: {article.h3.get_text(strip=True)}")

Nombre del libro: A Light in the ...
Nombre del libro: Tipping the Velvet
Nombre del libro: Soumission
Nombre del libro: Sharp Objects
Nombre del libro: Sapiens: A Brief History ...
Nombre del libro: The Requiem Red
Nombre del libro: The Dirty Little Secrets ...
Nombre del libro: The Coming Woman: A ...
Nombre del libro: The Boys in the ...
Nombre del libro: The Black Maria
Nombre del libro: Starving Hearts (Triangular Trade ...
Nombre del libro: Shakespeare's Sonnets
Nombre del libro: Set Me Free
Nombre del libro: Scott Pilgrim's Precious Little ...
Nombre del libro: Rip it Up and ...
Nombre del libro: Our Band Could Be ...
Nombre del libro: Olio
Nombre del libro: Mesaerion: The Best Science ...
Nombre del libro: Libertarianism for Beginners
Nombre del libro: It's Only the Himalayas


Se puede realizar una busqueda a más detalle utilizando tanto el nombre de la etiqueta como el atributo de la etiqueta

In [16]:
all_articles_v3 = soup.find_all("article", class_="product_pod")

In [17]:
for article in all_articles_v3:
    print(f"Nombre del libro: {article.h3.get_text(strip=True)}")

Nombre del libro: A Light in the ...
Nombre del libro: Tipping the Velvet
Nombre del libro: Soumission
Nombre del libro: Sharp Objects
Nombre del libro: Sapiens: A Brief History ...
Nombre del libro: The Requiem Red
Nombre del libro: The Dirty Little Secrets ...
Nombre del libro: The Coming Woman: A ...
Nombre del libro: The Boys in the ...
Nombre del libro: The Black Maria
Nombre del libro: Starving Hearts (Triangular Trade ...
Nombre del libro: Shakespeare's Sonnets
Nombre del libro: Set Me Free
Nombre del libro: Scott Pilgrim's Precious Little ...
Nombre del libro: Rip it Up and ...
Nombre del libro: Our Band Could Be ...
Nombre del libro: Olio
Nombre del libro: Mesaerion: The Best Science ...
Nombre del libro: Libertarianism for Beginners
Nombre del libro: It's Only the Himalayas


Ahora que sabemos que se puede filtrar de esta manera, se puede buscar más detalle acerca del libro, por ejemplo el precio

In [18]:
for article in all_articles:
    print(f"Nombre del libro: {article.h3.get_text(strip=True)}")
    print(
        f"Precio: {article.find('p', class_='price_color').get_text(strip=True).replace('Â', '')}"
    )
    print("-" * 80)

Nombre del libro: A Light in the ...
Precio: £51.77
--------------------------------------------------------------------------------
Nombre del libro: Tipping the Velvet
Precio: £53.74
--------------------------------------------------------------------------------
Nombre del libro: Soumission
Precio: £50.10
--------------------------------------------------------------------------------
Nombre del libro: Sharp Objects
Precio: £47.82
--------------------------------------------------------------------------------
Nombre del libro: Sapiens: A Brief History ...
Precio: £54.23
--------------------------------------------------------------------------------
Nombre del libro: The Requiem Red
Precio: £22.65
--------------------------------------------------------------------------------
Nombre del libro: The Dirty Little Secrets ...
Precio: £33.34
--------------------------------------------------------------------------------
Nombre del libro: The Coming Woman: A ...
Precio: £17.93
--------

Con lo mostrado anteriormente se puede obtener la información de los libros de la página web. Pero solo de la primera página, si nos fijamos al final de esta nos dice que hay otras páginas, de hecho nos indica que en total hay 50 páginas, por ende se debe buscar la manera de también obtener la información de las demás páginas.

Antes de iniciar con el código revisemos el url de las páginas para ver si hay alguna similitud que nos permita acceder a las demás páginas. Los resultados de la página web son los siguientes:

- La primera página tiene el url base: `https://books.toscrape.com`, aunque de hecho el url completo es `https://books.toscrape.com/catalogue/page-1.html`.
- La segunda página tiene el url: `https://books.toscrape.com/catalogue/page-2.html`.
- La tercera página tiene el url: `https://books.toscrape.com/catalogue/page-3.html`.
- Y así sucesivamente.

Como se puede observar, el url base es el mismo para todas las páginas, solo cambia el número de la página. Por lo que se puede acceder a las demás páginas cambiando el número de la página en el url.

Además, al revisar las otras páginas se pudo corroborar que estas tienen la misma estructura que la primera página, por lo que se puede utilizar el mismo código para obtener la información de las demás páginas. Se creará una función para que extraiga sus datos.

In [19]:
def FetchBooks(url, books):
    request = requests.get(url)
    soup = BeautifulSoup(request.text, "html.parser")
    all_articles = soup.find_all("article")
    for article in all_articles:
        book = {
            "name": article.h3.get_text(strip=True),
            "precio": article.find('p', class_='price_color').get_text(strip=True).replace('Â', '')
        }
        books.append(book)

La función `FetchBooks` recibe como parámetros la url y una lista de libros, la url es la url de la página de la cual se quiere extraer la información de los libros, y la lista de libros es una lista en la que se almacenarán los libros extraídos de la página.

Ahora se procede a extraer los datos de todas las páginas.

In [20]:
books = []
for i in range(1, 51):
    FetchBooks(f"{URL_BASE}/catalogue/page-{i}.html", books)

In [21]:
print(f"Hay un total de {len(books)} libros")

Hay un total de 1000 libros


In [22]:
for book in books:
    print(f"Nombre del libro: {book['name']}")
    print(f"Precio: {book['precio']}")
    print("-" * 80)

Nombre del libro: A Light in the ...
Precio: £51.77
--------------------------------------------------------------------------------
Nombre del libro: Tipping the Velvet
Precio: £53.74
--------------------------------------------------------------------------------
Nombre del libro: Soumission
Precio: £50.10
--------------------------------------------------------------------------------
Nombre del libro: Sharp Objects
Precio: £47.82
--------------------------------------------------------------------------------
Nombre del libro: Sapiens: A Brief History ...
Precio: £54.23
--------------------------------------------------------------------------------
Nombre del libro: The Requiem Red
Precio: £22.65
--------------------------------------------------------------------------------
Nombre del libro: The Dirty Little Secrets ...
Precio: £33.34
--------------------------------------------------------------------------------
Nombre del libro: The Coming Woman: A ...
Precio: £17.93
--------