# Beautiful Soup Tutorial

## En este notebook...

En este Jupyter, aprenderás los conceptos básicos sobre cómo extraer datos de HTML. 

Extraeremos datos de la página de libros más vendidos de Book Depository, y para lograr esto, también tendrá que hacer uso de un poco de pandas principalmente.

### Conoce a tus nuevos mejores amigos: 

- Beautiful Soup
- Requests

In [1]:
# !pip install beautifulsoup4

Para obtener la experiencia completa de Beautiful Soup, también deberás instalar un parser, dentro de ellos tenemos..

- html.parser
- lxml
- html5lib


Vamos a utilizar el lxml ya que es el mas rápido 

In [None]:
# !pip install lxml

Se necesita una cosa más para que podamos comenzar a hacer web scraping, y es la biblioteca de ```requests```. Con ```requests``` podemos solicitar páginas web de sitios web.

In [2]:
# !pip install requests

Ahora asi manos a la obra..

## Mi primer scraping

Como siempre lo primero es importar las librerías 

In [4]:
from bs4 import BeautifulSoup as bs
import requests
import pandas as pd
# from splinter import Browser
import numpy as np

Ahora, estamos listos para solicitar nuestra primera página web. No es nada complicado: guardamos la URL que queremos raspar en la variable URL, luego solicitamos la URL (requests.get (url)) y guardamos la respuesta en la variable de respuesta:

In [5]:
url = "https://www.bookdepository.com/es/bestsellers"
response = requests.get(url)

Cómo saber si se guardo correctamente el sitio web?

In [6]:
print(response)

<Response [200]>


Posibles respuestas:

- [Respuestas informativas](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status#information_responses) (100–199)
- [Respuestas exitosas](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status#successful_responses) (200–299)
- [Mensajes de redirección](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status#redirection_messages) (300–399)
- [Respuestas de error del cliente](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status#client_error_responses) (400–499)
- [Respuestas de error del servidor](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status#server_error_responses) (500–599)

Pero necesitamos el contenido HTML de la página web solicitada, así que como siguiente paso guardamos el contenido de la respuesta a html:

In [7]:
html = response.content

Lo podemos imprimir para ver su estructura

In [8]:
print(html)

b'<!DOCTYPE html>\n<html lang="en">\n<head>\n\n    <link rel="preconnect" href="https://d3ogvdx946i4sr.cloudfront.net"/>\n<link rel="dns-prefetch" href="https://d3ogvdx946i4sr.cloudfront.net"/>\n<script type="text/javascript">\n        function csmWidgetStart(widgetName) {\n            if (typeof uet == \'function\') {\n                uet(\'bb\', widgetName, {wb: 1});\n            }\n        }\n        function csmWidgetEnd(widgetName) {\n            if (typeof uet == \'function\') {\n                uex(\'ld\', widgetName, {wb: 1});\n            }\n        }\n    </script>\n    <noscript>\n        <style>\n            .hide-when-no-js {\n                display: none !important;\n            }\n\n            .show-when-no-js {\n                display: block !important;\n            }\n        </style>\n    </noscript>\n\n    <meta http-equiv="content-type" content="text/html; charset=UTF-8" />\n<meta name="copyright" content="&copy;2020 Book Depository Ltd." />\n<meta name="author" 

Este es el resultado obtenido en HTML de la página de los libros más vendidos, pero es realmente difícil de leer...

Pero para eso usamos BeautifulSoup y lxml

Creamos un objeto BeautifulSoup llamado soup con la siguiente línea de código:

In [10]:
soup = bs(html, "lxml")

Ahora vamos a ver el cambio

In [11]:
print(soup)

<!DOCTYPE html>
<html lang="en">
<head>
<link href="https://d3ogvdx946i4sr.cloudfront.net" rel="preconnect"/>
<link href="https://d3ogvdx946i4sr.cloudfront.net" rel="dns-prefetch"/>
<script type="text/javascript">
        function csmWidgetStart(widgetName) {
            if (typeof uet == 'function') {
                uet('bb', widgetName, {wb: 1});
            }
        }
        function csmWidgetEnd(widgetName) {
            if (typeof uet == 'function') {
                uex('ld', widgetName, {wb: 1});
            }
        }
    </script>
<noscript>
<style>
            .hide-when-no-js {
                display: none !important;
            }

            .show-when-no-js {
                display: block !important;
            }
        </style>
</noscript>
<meta content="text/html; charset=utf-8" http-equiv="content-type"/>
<meta content="©2020 Book Depository Ltd." name="copyright"/>
<meta content="Book Depository" name="author"/>
<meta content="width=device-width, initial-scal

## Cómo navegar por un objeto de Beautiful Soup

![image](img\html-content-web-scraping.png)

![image](img\attribute-example-for-web-scraping-1536x386.png)

Ahora que hemos aprendido algo de HTML básico, finalmente podemos comenzar a extraer datos de soup. Simplemente escriba un nombre de etiqueta después de soup y un punto (como soup.title), y observe cómo se desarrolla la magia:

In [13]:
soup.title

<title>
	Bestselling books online with free delivery at Book Depository</title>

In [15]:
soup.h1

<h1>Los más vendidos — nuestros artículos más populares, actualizados diariamente.</h1>

Eliminamos las etiquetas

In [16]:
soup.h1.get_text()

'Los más vendidos — nuestros artículos más populares, actualizados diariamente.'

¿Qué sucede si solo necesita el atributo de un elemento? Tampoco hay problema:

In [17]:
soup.a['href']

'/help/topic/HelpId/53/How-we-use-cookies#helpContent'

También podemos..
> soup.a.get("href")

También puedes usar el método .find() y obtendrás exactamente el mismo resultado:

In [18]:
print("Sin utilizar método .find()")
print(soup.h1)
print("")
print("Utilizando método .find()")
print(soup.find("h1"))

Sin utilizar método .find()
<h1>Los más vendidos — nuestros artículos más populares, actualizados diariamente.</h1>

Utilizando método .find()
<h1>Los más vendidos — nuestros artículos más populares, actualizados diariamente.</h1>


A menudo, no solo necesitas uno, sino todos los elementos (por ejemplo, cada enlace en una página). Para eso es bueno el método .find_all():

In [19]:
soup.find_all('a')

[<a href="/help/topic/HelpId/53/How-we-use-cookies#helpContent" target='"_blank"'>Ayuda sobre Cookies</a>,
 <a href="/help/topic/HelpId/53/How-we-use-cookies#helpContent" target='"_blank"'>Aviso de cookies</a>,
 <a class="showLess" role="button">Mostrar menos</a>,
 <a class="showMore" role="button">Mostrar más</a>,
 <a class="showLess" role="button">Mostrar menos</a>,
 <a class="showMore" role="button">Mostrar más</a>,
 <a href="/help/topic/HelpId/53/How-we-use-cookies#helpContent" target='"_blank"'>Aviso de Cookies</a>,
 <a href="/help/topic/HelpId/72/Interest-based-ads#helpContent" target='"_blank"'>Anuncios basados en intereses</a>,
 <a class="showLess" role="button">Mostrar menos</a>,
 <a class="showMore" role="button">Mostrar más</a>,
 <a class="home-icon-link" href="/es/"><i class="icon-home"></i><span class="show-non-desktop">Inicio</span></a>,
 <a href="/es/contactus"><i class="icon-em"></i>Contáctanos</a>,
 <a href="/es/help" rel="nofollow"><i class="icon-info"></i>Ayuda</a>,


Si nos fijamos podemos ver que lo que nos devuelve es una lista..

In [20]:
all_a = soup.find_all('a')
for a in all_a[:5]:
    print(a)

<a href="/help/topic/HelpId/53/How-we-use-cookies#helpContent" target='"_blank"'>Ayuda sobre Cookies</a>
<a href="/help/topic/HelpId/53/How-we-use-cookies#helpContent" target='"_blank"'>Aviso de cookies</a>
<a class="showLess" role="button">Mostrar menos</a>
<a class="showMore" role="button">Mostrar más</a>
<a class="showLess" role="button">Mostrar menos</a>


La página contiene 30 libros con información relacionada con ellos. De los datos disponibles extraeremos los siguientes:

- book titles
- formats (paperback or hardback)
- publication dates
- prices

## Suficiente información...

Manos a la obra

## Obtener los titulos de los libros (find_all + get_text)

Para ello vamos a inspeccionar en el navegador (click derecho sobre un titulo de un libro y elegimos inspeccionar)

In [64]:
boton_1 = soup.find("h3", class_="title")

In [65]:
print(boton_1)

<h3 class="title">
<a href="/es/Heaven-Officials-Blessing-Tian-Guan-Ci-Fu-Novel-Vol-5-Mo-Xiang-Tong-Xiu/9781638585503">
                    Heaven Official's Blessing: Tian Guan Ci Fu (Novel) Vol. 5<br/>
</a>
</h3>


In [38]:
all_h3 = soup.find_all("h3", class_="title")
for h3 in all_h3:
    print(h3.get_text(strip=True))

Heaven Official's Blessing: Tian Guan Ci Fu (Novel) Vol. 5
Grandmaster of Demonic Cultivation: Mo Dao Zu Shi (Novel) Vol. 4
It Ends With Us: The most heartbreaking novel you'll ever read
Atomic Habits
The Tools
Daisy Haites: The Great Undoing
How to Meet Your Self
The Boy, The Mole, The Fox and The Horse
Before the Coffee Gets Cold
Never Finished
Grandmaster of Demonic Cultivation: Mo Dao Zu Shi (Novel) Vol. 5 (Special Edition)
Four Thousand Weeks
Me vs Brain
The Thursday Murder Club
Seven Husbands of Evelyn Hugo
The Little Book of Common Sense Investing
The Climate Book
Verity
The Body Keeps the Score
Small Things Like These
The Psychology of Money
The Shattered Lands
The Midnight Library
The Husky and His White Cat Shizun: Erha He Ta De Bai Mao Shizun (Novel) Vol. 2
Chainsaw Man, Vol. 1
The Secret History
The Husky and His White Cat Shizun: Erha He Ta De Bai Mao Shizun (Novel) Vol. 1
The Sun, the Sea and the Stars
Brain Games For Clever Kids (R)
Moonology (TM) Diary 2023


In [54]:
all_h3 = soup.find_all("h3", class_="title")
for h3 in all_h3:
    print(h3.find('a').get('href'))

/es/Heaven-Officials-Blessing-Tian-Guan-Ci-Fu-Novel-Vol-5-Mo-Xiang-Tong-Xiu/9781638585503
/es/Grandmaster-Demonic-Cultivation-Mo-Dao-Zu-Shi-Novel-Vol-4-Mo-Xiang-Tong-Xiu/9781638583011
/es/It-Ends-With-Us-most-heartbreaking-novel-youll-ever-read-Colleen-Hoover/9781471156267
/es/Atomic-Habits-James-Clear/9781847941831
/es/Tools-Phil-Stutz/9780812983043
/es/Daisy-Haites-Great-Undoing-Jessa-Hastings/9781398717237
/es/How-Meet-Your-Self-Nicole-Lepera/9781398710733
/es/Boy-Mole-Fox-Horse-Charlie-Mackesy/9781529105100
/es/Before-Coffee-Gets-Cold-Toshikazu-Kawaguchi/9781529029581
/es/Never-Finished-David-Goggins/9781544534077
/es/Grandmaster-Demonic-Cultivation-Mo-Dao-Zu-Shi-Novel-Vol-5-Special-Edition-Mo-Xiang-Tong-Xiu/9781685798406
/es/Four-Thousand-Weeks-Oliver-Burkeman/9781784704001
/es/Me-vs-Brain-Hayley-Morris/9781529196047
/es/Thursday-Murder-Club-Richard-Osman/9780241988268
/es/Seven-Husbands-Evelyn-Hugo-Taylor-Jenkins-Reid/9781398515697
/es/Little-Book-Common-Sense-Investing-John-C-Bo

In [40]:
all_author = soup.find_all("p", class_="author")
for author in all_author:
    print(author.get_text(strip=True))

Mo Xiang Tong Xiu
Mo Xiang Tong Xiu
Colleen Hoover
James Clear
Phil Stutz
Jessa Hastings
Nicole Lepera
Charlie Mackesy
Toshikazu Kawaguchi
David Goggins
Mo Xiang Tong Xiu;
Oliver Burkeman
Hayley Morris
Richard Osman
Taylor Jenkins Reid
John C. Bogle
Greta Thunberg
Colleen Hoover
Bessel van der Kolk
Claire Keegan
Morgan Housel
Brenna Nation
Matt Haig
Rou Bao Bu Chi Rou
Tatsuki Fujimoto
Donna Tartt
Rou Bao Bu Chi Rou
Iulia Bochis
Gareth Moore
Yasmin Boland


## Obtener los formatos de los libros

Del paso anterior tenemos todos los títulos de libros de la página de los más vendidos. Pero, ¿qué sabemos acerca de sus formatos? ¿Hay más libros de tapa dura o tapa blanda?

Averigüémoslo inspeccionando el elemento de formato de libro:

Como siempre inspeccionamos y buscamos el formato..

Y como queremos saber la cantidad de cada formato lo metemos en dataframe

div.item-info p.format

In [66]:
all_formats = soup.find_all("p", class_='format')
for format in all_formats:
    print(format.get_text(strip=True))

Paperback
Paperback
Paperback
Paperback
Paperback
Paperback
Paperback
Hardback
Paperback
Paperback
Paperback
Paperback
Hardback
Paperback
Paperback
Hardback
Hardback
Paperback
Paperback
Paperback
Paperback
Paperback
Paperback
Paperback
Paperback
Paperback
Paperback
Hardback
Paperback
Paperback


In [26]:
formats = soup.select("div.item-info p.format")
format_series = pd.Series(formats)
format_series.value_counts()

[Paperback]    29
[Hardback]      1
dtype: int64

## Obtener las fechas de publicación (find_all + get_text)

Al igual que antes inspeccionamos....

published

In [67]:
all_dates = soup.find_all("p", class_='published')
for date in all_dates:
    print(date.get_text(strip=True))

20 Dec 2022
13 Dec 2022
02 Aug 2016
27 Nov 2018
09 Oct 2014
15 Dec 2022
08 Dec 2022
04 Nov 2019
19 Sep 2019
06 Dec 2022
02 May 2023
07 Apr 2022
16 Feb 2023
13 May 2021
14 Oct 2021
08 Dec 2017
27 Oct 2022
20 Jan 2022
24 Sep 2015
03 Nov 2022
08 Sep 2020
16 Mar 2023
18 Feb 2021
24 Jan 2023
29 Oct 2020
01 Jul 1995
15 Nov 2022
01 Sep 2022
01 Oct 2014
30 Aug 2022


In [70]:
dates = pd.Series([date.get_text()[-4:] for date in all_dates])
dates.value_counts()

2022    12
2023     4
2021     3
2014     2
2019     2
2020     2
2016     1
2018     1
2017     1
2015     1
1995     1
dtype: int64

## Obtener los precios (find_all + get_text)

Inspeccionamos..

price

In [77]:
all_prices = soup.find_all("span", class_='sale-price')
for price in all_prices:
    print(price.get_text(strip=True))

24,53 €
21,31 €
12,55 €
20,41 €
19,76 €
18,13 €
24,29 €
21,23 €
13,83 €
30,21 €
28,00 €
20,34 €
24,00 €
13,90 €
12,60 €
21,94 €
31,66 €
11,67 €
17,17 €
13,00 €
18,28 €
15,42 €
12,47 €
23,28 €
13,72 €
15,02 €
18,15 €
19,17 €
8,93 €
14,22 €


In [85]:
float(price.get_text(strip=True)[:-2].replace(",",".")) * 0.3

4.266

In [86]:
pd.Series([float(price.get_text(strip=True)[:-2].replace(",",".")) * 0.3 for price in all_prices])

0     7.359
1     6.393
2     3.765
3     6.123
4     5.928
5     5.439
6     7.287
7     6.369
8     4.149
9     9.063
10    8.400
11    6.102
12    7.200
13    4.170
14    3.780
15    6.582
16    9.498
17    3.501
18    5.151
19    3.900
20    5.484
21    4.626
22    3.741
23    6.984
24    4.116
25    4.506
26    5.445
27    5.751
28    2.679
29    4.266
dtype: float64

## Recolectar información de un libro

Primero creamos un soup en la pagína 'principal'

In [87]:
libros = soup.find_all(class_ = 'item-img')

In [88]:
libros

[<div class="item-img">
 <a href="/es/Heaven-Officials-Blessing-Tian-Guan-Ci-Fu-Novel-Vol-5-Mo-Xiang-Tong-Xiu/9781638585503" itemprop="url">
 <img alt="Heaven Official's Blessing: Tian Guan Ci Fu (Novel) Vol. 5" src="https://d1w7fb2mkkr3kw.cloudfront.net/assets/images/book/mid/9781/6385/9781638585503.jpg"/>
 </a>
 </div>,
 <div class="item-img">
 <a href="/es/Grandmaster-Demonic-Cultivation-Mo-Dao-Zu-Shi-Novel-Vol-4-Mo-Xiang-Tong-Xiu/9781638583011" itemprop="url">
 <img alt="Grandmaster of Demonic Cultivation: Mo Dao Zu Shi (Novel) Vol. 4" src="https://d1w7fb2mkkr3kw.cloudfront.net/assets/images/book/mid/9781/6385/9781638583011.jpg"/>
 </a>
 </div>,
 <div class="item-img">
 <a href="/es/It-Ends-With-Us-most-heartbreaking-novel-youll-ever-read-Colleen-Hoover/9781471156267" itemprop="url">
 <img alt="It Ends With Us: The most heartbreaking novel you'll ever read" src="https://d1w7fb2mkkr3kw.cloudfront.net/assets/images/book/mid/9781/4711/9781471156267.jpg"/>
 </a>
 </div>,
 <div class="i

Guardamos en una variable la url principal

In [89]:
url_principal = 'https://www.bookdepository.com'

Creamos una lista con los urls de los libros

In [90]:
lista_url = []
for libro in libros:
    url_libro = libro.find('a')['href']
    lista_url.append(url_principal+url_libro)

lista_url
    

['https://www.bookdepository.com/es/Heaven-Officials-Blessing-Tian-Guan-Ci-Fu-Novel-Vol-5-Mo-Xiang-Tong-Xiu/9781638585503',
 'https://www.bookdepository.com/es/Grandmaster-Demonic-Cultivation-Mo-Dao-Zu-Shi-Novel-Vol-4-Mo-Xiang-Tong-Xiu/9781638583011',
 'https://www.bookdepository.com/es/It-Ends-With-Us-most-heartbreaking-novel-youll-ever-read-Colleen-Hoover/9781471156267',
 'https://www.bookdepository.com/es/Atomic-Habits-James-Clear/9781847941831',
 'https://www.bookdepository.com/es/Tools-Phil-Stutz/9780812983043',
 'https://www.bookdepository.com/es/Daisy-Haites-Great-Undoing-Jessa-Hastings/9781398717237',
 'https://www.bookdepository.com/es/How-Meet-Your-Self-Nicole-Lepera/9781398710733',
 'https://www.bookdepository.com/es/Boy-Mole-Fox-Horse-Charlie-Mackesy/9781529105100',
 'https://www.bookdepository.com/es/Before-Coffee-Gets-Cold-Toshikazu-Kawaguchi/9781529029581',
 'https://www.bookdepository.com/es/Never-Finished-David-Goggins/9781544534077',
 'https://www.bookdepository.com/e

Vamos a analizar el url de un libro primero

In [93]:
# Hacemos un nuevo request para el primer libro: 
r = requests.get(lista_url[1])

Creamos un soup del primer libro

In [94]:
soup_libro = bs(r.text, "lxml")

In [95]:
soup

<!DOCTYPE html>
<html lang="en">
<head>
<link href="https://d3ogvdx946i4sr.cloudfront.net" rel="preconnect"/>
<link href="https://d3ogvdx946i4sr.cloudfront.net" rel="dns-prefetch"/>
<script type="text/javascript">
        function csmWidgetStart(widgetName) {
            if (typeof uet == 'function') {
                uet('bb', widgetName, {wb: 1});
            }
        }
        function csmWidgetEnd(widgetName) {
            if (typeof uet == 'function') {
                uex('ld', widgetName, {wb: 1});
            }
        }
    </script>
<noscript>
<style>
            .hide-when-no-js {
                display: none !important;
            }

            .show-when-no-js {
                display: block !important;
            }
        </style>
</noscript>
<meta content="text/html; charset=utf-8" http-equiv="content-type"/>
<meta content="©2020 Book Depository Ltd." name="copyright"/>
<meta content="Book Depository" name="author"/>
<meta content="width=device-width, initial-scal

Obtenemos el titulo del libro

In [104]:
name = soup_libro.find('h1', itemprop = "name").get_text()

In [105]:
name

'Grandmaster of Demonic Cultivation: Mo Dao Zu Shi (Novel) Vol. 4'

El rating

In [106]:
rating = float(soup_libro.find('span', itemprop = "ratingValue").get_text(strip=True))
rating

4.76

Cantidad de votaciones para el rating

In [112]:
n_ratings = int(soup_libro.find('span', class_ = "rating-count").get_text(strip=True).split(' ')[0][1:])
n_ratings

876

Tipo de formato

In [120]:
format = soup_libro.find(class_ = "meta-info hidden-md").find('li').get_text(strip=True)
format

'Paperback'

Autor

In [121]:
author = soup_libro.find('span', itemprop='name').get_text(strip=True)
author

'Mo Xiang Tong Xiu'

Precio

In [123]:
price = float(soup_libro.find('span', class_='sale-price').get_text(strip=True)[:-2].replace(',','.'))
price

21.31

Url de la portada

In [129]:
image_url = soup_libro.find('div', class_='item-img-content').find('img').get('src')
image_url

'https://d1w7fb2mkkr3kw.cloudfront.net/assets/images/book/lrg/9781/6385/9781638583011.jpg'

Automatizamos para hacer un web scraping

In [77]:
pages = np.arange(1, 2)
count = 1
lista_libros = []

for page in pages:
    
    URL = 'https://www.bookdepository.com/es/bestsellers?page=' + str(page)
    r = requests.get(URL)
    soup = bs(r.text, 'lxml')
    libros_grid = soup.find_all(class_='item-img')
    
    count_libro = 1 # para el print de seguimiento de descarga
    
    for libro in libros_grid:
        # Print de seguimiento de descarga:
        print('Libro {} de {}, pag {}/{}'.format(
            count_libro, len(libros_grid), page, len(pages)))

        URL_libro = libro.find('a')['href']
        r = requests.get('https://www.bookdepository.com/' + URL_libro)
        soup_libro = bs(r.text, 'lxml')

        id_libro = 'lb_' + str(count)
        
        name = soup_libro.find('h1').text   
        try:
            price = float(soup_libro.find(class_ = 'sale-price').text.split(' ')[0].replace(',','.'))

        except:
            price = None

        try :
            author = soup_libro.find(class_ = 'item-annotation-wrap')('h2')[2].text[6:]

        except:
            author = soup_libro.find(class_ = 'item-info')('span')[-1].text.split('\n                                    ')[-1]

        formats = soup_libro.find(class_ = 'meta-info hidden-md')('li')[0].text

        try:
            rating = soup_libro.find(class_ = 'rating-wrap hidden-md')('span')[5].text.split(' ')[-1].replace(',','.')
            rating = float(rating)
        
        except:
            rating = None
        
        try:    
            rating_count = soup_libro.find(class_ = 'rating-wrap hidden-md')('span')[-1].text.split(' ')[-6].replace('(','').replace('.','')
            rating_count = int(rating_count)
        
        except:
            rating_count = None

        imagen = soup_libro.find(class_ = 'book-img')['src']

        data = {"id_libro": id_libro,
                "name": name,
                "price": price,
                "author": author,
                "format": formats,
                "rating": rating,
                "rating_count": rating_count,
                "imagen": imagen}

        lista_libros.append(data)
        
        # Pasamos al siguiente id
        count += 1
        count_libro += 1

Libro 1 de 30, pag 1/1
Libro 2 de 30, pag 1/1
Libro 3 de 30, pag 1/1
Libro 4 de 30, pag 1/1
Libro 5 de 30, pag 1/1
Libro 6 de 30, pag 1/1
Libro 7 de 30, pag 1/1
Libro 8 de 30, pag 1/1
Libro 9 de 30, pag 1/1
Libro 10 de 30, pag 1/1
Libro 11 de 30, pag 1/1
Libro 12 de 30, pag 1/1
Libro 13 de 30, pag 1/1
Libro 14 de 30, pag 1/1
Libro 15 de 30, pag 1/1
Libro 16 de 30, pag 1/1
Libro 17 de 30, pag 1/1
Libro 18 de 30, pag 1/1
Libro 19 de 30, pag 1/1
Libro 20 de 30, pag 1/1
Libro 21 de 30, pag 1/1
Libro 22 de 30, pag 1/1
Libro 23 de 30, pag 1/1
Libro 24 de 30, pag 1/1
Libro 25 de 30, pag 1/1
Libro 26 de 30, pag 1/1
Libro 27 de 30, pag 1/1
Libro 28 de 30, pag 1/1
Libro 29 de 30, pag 1/1
Libro 30 de 30, pag 1/1


In [78]:
lista_libros

[{'id_libro': 'lb_1',
  'name': 'The Girl Who Fell From The Sky : An extraordinary true story of resilience, courage, hope and finding lightness after the heaviest of landings',
  'price': 22.85,
  'author': 'Emma Carey',
  'format': 'Paperback',
  'rating': None,
  'rating_count': None,
  'imagen': 'https://d1w7fb2mkkr3kw.cloudfront.net/assets/images/book/lrg/9781/7610/9781761065781.jpg'},
 {'id_libro': 'lb_2',
  'name': "Heaven Official's Blessing: Tian Guan Ci Fu (Novel) Vol. 3",
  'price': 19.85,
  'author': 'ZeldaCW',
  'format': 'Paperback',
  'rating': 4.79,
  'rating_count': 628,
  'imagen': 'https://d1w7fb2mkkr3kw.cloudfront.net/assets/images/book/lrg/9781/6385/9781638582106.jpg'},
 {'id_libro': 'lb_3',
  'name': "It Ends With Us: The most heartbreaking novel you'll ever read : The most heartbreaking novel you'll ever read",
  'price': 13.25,
  'author': 'Colleen Hoover',
  'format': 'Paperback',
  'rating': 4.42,
  'rating_count': 1178344,
  'imagen': 'https://d1w7fb2mkkr3kw.

In [79]:
df = pd.DataFrame(lista_libros)
df

Unnamed: 0,id_libro,name,price,author,format,rating,rating_count,imagen
0,lb_1,The Girl Who Fell From The Sky : An extraordin...,22.85,Emma Carey,Paperback,,,https://d1w7fb2mkkr3kw.cloudfront.net/assets/i...
1,lb_2,Heaven Official's Blessing: Tian Guan Ci Fu (N...,19.85,ZeldaCW,Paperback,4.79,628.0,https://d1w7fb2mkkr3kw.cloudfront.net/assets/i...
2,lb_3,It Ends With Us: The most heartbreaking novel ...,13.25,Colleen Hoover,Paperback,4.42,1178344.0,https://d1w7fb2mkkr3kw.cloudfront.net/assets/i...
3,lb_4,The Summer I Turned Pretty,17.68,Jenny Han,Paperback,3.89,245161.0,https://d1w7fb2mkkr3kw.cloudfront.net/assets/i...
4,lb_5,Where the Crawdads Sing,13.0,Delia Owens,Paperback,4.45,1780708.0,https://d1w7fb2mkkr3kw.cloudfront.net/assets/i...
5,lb_6,Verity : The thriller that will capture your h...,14.1,Colleen Hoover,Paperback,4.43,823944.0,https://d1w7fb2mkkr3kw.cloudfront.net/assets/i...
6,lb_7,Heartstopper Volume 3 : The million-copy bests...,14.59,Alice Oseman,Paperback,4.64,216345.0,https://d1w7fb2mkkr3kw.cloudfront.net/assets/i...
7,lb_8,Heartstopper Volume 2 : The million-copy bests...,14.2,Alice Oseman,Paperback,4.62,253424.0,https://d1w7fb2mkkr3kw.cloudfront.net/assets/i...
8,lb_9,Seven Husbands of Evelyn Hugo : The Sunday Tim...,13.07,Taylor Jenkins Reid,Paperback,4.48,1179179.0,https://d1w7fb2mkkr3kw.cloudfront.net/assets/i...
9,lb_10,Heartstopper Volume 4 : The million-copy bests...,15.25,Alice Oseman,Paperback,4.68,171841.0,https://d1w7fb2mkkr3kw.cloudfront.net/assets/i...
