# Beautiful Soup Tutorial

Como científico de datos, tarde o temprano llegarás a un punto en el que tendrás que recopilar grandes cantidades de datos. Ya sea un proyecto o por pasatiempo y no siempre podremos contar con las API, pero tranquilo tenemos el web scraping... ¡Y una de las mejores herramientas de web scraping es Beautiful Soup!

## ¿Pero.... qué es el web scraping?

En pocas palabras, el web scraping es la recopilación automatizada de datos de sitios web (para ser más precisos, del contenido HTML de los sitios web).

En este Jupyter, aprenderás los conceptos básicos sobre cómo extraer datos de HTML. 

Lo harás extrayendo datos de la página de libros más vendidos de Book Depository, y para lograr esto, también tendrá que hacer uso de un poco de pandas principalmente..

### Conoce a tus nuevos mejores amigos: 

- Beautiful Soup
- Requests

In [1]:
!pip install beautifulsoup4

Collecting beautifulsoup4
  Downloading beautifulsoup4-4.11.1-py3-none-any.whl (128 kB)
[K     |████████████████████████████████| 128 kB 3.5 MB/s eta 0:00:01
[?25hCollecting soupsieve>1.2
  Downloading soupsieve-2.3.2.post1-py3-none-any.whl (37 kB)
Installing collected packages: soupsieve, beautifulsoup4
Successfully installed beautifulsoup4-4.11.1 soupsieve-2.3.2.post1


Para obtener la experiencia completa de Beautiful Soup, también deberás instalar un parswer, dentro de ellos tenemos..

- html.parser
- lxml
- html5lib


Vamos a utilizar el lxml ya que es el mas rápido 

In [2]:
!pip install lxml

Collecting lxml
  Downloading lxml-4.9.1-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.manylinux_2_24_x86_64.whl (6.9 MB)
[K     |████████████████████████████████| 6.9 MB 6.3 MB/s eta 0:00:01
[?25hInstalling collected packages: lxml
Successfully installed lxml-4.9.1


Se necesita una cosa más para que podamos comenzar a hacer web scraping, y es la biblioteca de ```requests```. Con ```requests``` podemos solicitar páginas web de sitios web.

In [3]:
!pip install requests



Ahora asi manos a la obra..

In [5]:
!pip install splinter

Collecting splinter
  Downloading splinter-0.18.1-py3-none-any.whl (37 kB)
Installing collected packages: splinter
Successfully installed splinter-0.18.1


## Mi primer scraping

Como siempre lo primero es importar las librerías 

In [6]:
from bs4 import BeautifulSoup as bs
import requests
import pandas as pd
from splinter import Browser
import numpy as np

Ahora, estamos listos para solicitar nuestra primera página web. No es nada complicado: guardamos la URL que queremos raspar en la variable URL, luego solicitamos la URL (requests.get (url)) y guardamos la respuesta en la variable de respuesta:

In [17]:
url = "https://www.bookdepository.com/bestsellers"
response = requests.get(url)


Cómo saber si se guardo correctamente el sitio web?

In [18]:
print(response)

<Response [200]>


In [19]:
type(response)

requests.models.Response

Posibles respuestas:

- [Respuestas informativas](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status#information_responses) (100–199)
- [Respuestas exitosas](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status#successful_responses) (200–299)
- [Mensajes de redirección](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status#redirection_messages) (300–399)
- [Respuestas de error del cliente](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status#client_error_responses) (400–499)
- [Respuestas de error del servidor](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status#server_error_responses) (500–599)

Pero necesitamos el contenido HTML de la página web solicitada, así que como siguiente paso guardamos el contenido de la respuesta a html:

In [20]:
html = response.content

In [21]:
# html

Lo podemos imprimir para ver su estructura

In [22]:
# print(html)

Este es el resultado obtenido en HTML de la página de los libros más vendidos, pero es realmente difícil de leer...

Pero para eso usamos BeautifulSoup y lxml

Cómo lo hacemos?..

Creamos un objeto BeautifulSoup llamado soup con la siguiente línea de código:

In [23]:
soup = bs(html, "lxml")

bs?

> from bs4 import BeautifulSoup as bs

El primer parámetro del método bs() es html (que fue la variable en la que guardamos ese contenido HTML difícil de leer de la URL de los libros más vendidos)

El segundo parámetro ('lxml'), es el parser que se usa en html 

Ahora vamos a ver el cambio

In [24]:
print(soup)

<!DOCTYPE html>
<html lang="en">
<head>
<link href="https://d3ogvdx946i4sr.cloudfront.net" rel="preconnect"/>
<link href="https://d3ogvdx946i4sr.cloudfront.net" rel="dns-prefetch"/>
<script type="text/javascript">
        function csmWidgetStart(widgetName) {
            if (typeof uet == 'function') {
                uet('bb', widgetName, {wb: 1});
            }
        }
        function csmWidgetEnd(widgetName) {
            if (typeof uet == 'function') {
                uex('ld', widgetName, {wb: 1});
            }
        }
    </script>
<noscript>
<style>
            .hide-when-no-js {
                display: none !important;
            }

            .show-when-no-js {
                display: block !important;
            }
        </style>
</noscript>
<meta content="text/html; charset=utf-8" http-equiv="content-type"/>
<meta content="©2020 Book Depository Ltd." name="copyright"/>
<meta content="Book Depository" name="author"/>
<meta content="width=device-width, initial-scal

## Cómo navegar por un objeto de Beautiful Soup

HTML consta de elementos como enlaces, párrafos, encabezados, bloques, etc. Estos elementos están envueltos entre etiquetas; dentro de la etiqueta de apertura y cierre se puede encontrar el contenido del elemento.

![image](img\html-content-web-scraping.png)

Los elementos HTML también pueden tener atributos que contienen información adicional sobre el elemento. Los atributos se definen en las etiquetas de apertura con la siguiente sintaxis: nombre del atributo = "valor del atributo".

![image](img\attribute-example-for-web-scraping-1536x386.png)

Ahora que hemos aprendido algo de HTML básico, finalmente podemos comenzar a extraer datos de soup. Simplemente escriba un nombre de etiqueta después de soup y un punto (como soup.title), y observe cómo se desarrolla la magia:

In [25]:
soup.title

<title>
	Bestselling books online with free delivery at Book Depository</title>

In [26]:
soup.h1

<h1>Bestsellers – our most popular items, updated daily.</h1>

In [27]:
type(soup.h1)

bs4.element.Tag

Y sí queremos solo el texto?..

In [28]:
soup.h1.get_text()

'Bestsellers – our most popular items, updated daily.'

¿Qué sucede si solo necesita el atributo de un elemento? Tampoco hay problema:

In [29]:
soup.a

<a href="/help/topic/HelpId/53/How-we-use-cookies#helpContent" target='"_blank"'>Cookies Help section</a>

In [32]:
soup.a['href']

'/help/topic/HelpId/53/How-we-use-cookies#helpContent'

In [34]:
soup.a.get_text()

'Cookies Help section'

In [37]:
soup.a['target']

'"_blank"'

También podemos..
> soup.a.get("href")

La sintaxis de soup.```cualquier_etiqueta``` devuelve solo el primer elemento con ese nombre de etiqueta. En lugar de soup.```cualquier_etiqueta```, también puedes usar el método .find() y obtendrás exactamente el mismo resultado:

In [None]:
print("Sin utilizar .find()")
print(soup.h1)
print("Utilizando .find()")
print(soup.find("h1"))

A menudo, no solo necesitas uno, sino todos los elementos (por ejemplo, cada enlace en una página). Para eso es bueno el método .find_all():

In [39]:
len(soup.find_all('a'))

314

In [48]:
soup.find_all('h2')

[<h2>We use cookies to improve this site</h2>,
 <h2>Are you happy to accept cookies?</h2>,
 <h2>Cookie Preferences</h2>,
 <h2>Essential</h2>,
 <h2>Performance and Analytics</h2>,
 <h2>Advertising</h2>,
 <h2>Top Authors</h2>,
 <h2>Bestselling Series</h2>,
 <h2>Books By Language</h2>,
 <h2>Filter your search</h2>]

In [38]:
soup.find_all('a')

[<a href="/help/topic/HelpId/53/How-we-use-cookies#helpContent" target='"_blank"'>Cookies Help section</a>,
 <a href="/help/topic/HelpId/53/How-we-use-cookies#helpContent" target='"_blank"'>Cookies notice</a>,
 <a class="showLess" role="button">Show less</a>,
 <a class="showMore" role="button">Show more</a>,
 <a class="showLess" role="button">Show less</a>,
 <a class="showMore" role="button">Show more</a>,
 <a href="/help/topic/HelpId/53/How-we-use-cookies#helpContent" target='"_blank"'>Cookie Notice</a>,
 <a href="/help/topic/HelpId/72/Interest-based-ads#helpContent" target='"_blank"'>Interest-Based Ads</a>,
 <a class="showLess" role="button">Show less</a>,
 <a class="showMore" role="button">Show more</a>,
 <a class="btn btn-sm btn-secondary btn-cancel" href="#" rel="nofollow">
                 Cancel</a>,
 <a class="btn btn-sm btn-save-settings" href="#" rel="nofollow">
                 Save settings</a>,
 <a class="home-icon-link" href="/"><i class="icon-home"></i><span class="show-

Si nos fijamos podemos ver que lo que nos devuelve es una lista..

Qué podemos hacer con una lista?..

In [49]:
all_a = soup.find_all('a')
for a in all_a[:5]:
    print(a)

<a href="/help/topic/HelpId/53/How-we-use-cookies#helpContent" target='"_blank"'>Cookies Help section</a>
<a href="/help/topic/HelpId/53/How-we-use-cookies#helpContent" target='"_blank"'>Cookies notice</a>
<a class="showLess" role="button">Show less</a>
<a class="showMore" role="button">Show more</a>
<a class="showLess" role="button">Show less</a>


Ok.. Pero como extraigo la data con BeautifilSoup?..

La página contiene 30 libros con información relacionada con ellos. De los datos disponibles extraeremos los siguientes:

- book titles
- formats (paperback or hardback)
- publication dates
- prices

Mientras trabajamos con BeautifulSoup, el flujo general de extracción de datos será un enfoque de dos pasos:

* Inspeccionar en el navegador los elementos HTML que queremos extraer 
* Luego encontrar los elementos HTML con BeautifulSoup.

## Suficiente información...

Manos a la obra

## Obtener los titulos de los libros (find_all + get_text)

Para ello vamos a inspeccionar en el navegador (click derecho sobre un titulo de un libro y elegimos inspeccionar)

title

In [50]:
all_h3 = soup.find_all("h3", class_="title")
for h3 in all_h3:
       print(h3.get_text(strip=True))

It Ends With Us: The most heartbreaking novel you'll ever read
Verity
Before the Coffee Gets Cold
Atomic Habits
The Tools
Seven Husbands of Evelyn Hugo
Roald Dahl's Marvellous Joke Book
Letters from M/M (Paris)
The Midnight Library
Undaunted: Stalingrad
Where the Crawdads Sing
Brain Games For Clever Kids (R)
The Secret History
The Body Keeps the Score
Grandmaster of Demonic Cultivation: Mo Dao Zu Shi (Novel) Vol. 5 (Special Edition)
The Thursday Murder Club
Surrender
Grandmaster of Demonic Cultivation: Mo Dao Zu Shi (Novel) Vol. 4
I'm Glad My Mom Died
Small Things Like These
The Seven Moons of Maali Almeida
The Light We Carry
Taste
A Good Girl's Guide to Murder
The World
Twisted Love
Diary of a Wimpy Kid: Diper OEverloede (Book 17)
Just One Thing
Ugly Love
They Know Not What They Do


## Tips importantes

soup.find_all(“h3”) encuentra cada elemento h3 en la página web; con class_=”title” especificamos que buscamos específicamente etiquetas h3 que contengan el atributo class_=”title” (nota importante: el “_” en class**__**=”title” no es un error tipográfico, se requiere en Beautiful Soup cuando seleccionando atributos de clase).

Guardamos los elementos h3 en all_h3, que se comporta como una lista, por lo que podemos recorrerlos con un bucle for. En cada iteración extraemos solo el texto del elemento h3 con .get_text(), y con el parámetro strip=True nos aseguramos de eliminar cualquier espacio en blanco innecesario.

## Obtener los formatos de los libros

Del paso anterior tenemos todos los títulos de libros de la página de los más vendidos. Pero, ¿qué sabemos acerca de sus formatos? ¿Hay más libros de tapa dura o tapa blanda?

Averigüémoslo inspeccionando el elemento de formato de libro:

Como siempre inspeccionamos y buscamos el formato..

Y como queremos saber la cantidad de cada formato lo metemos en dataframe

div.item-info p.format

In [57]:
formats = soup.find_all("p",class_="format") # div y p son etiquetas donde se encuentran
formats_series = pd.Series(formats)
formats_series.value_counts()

[Paperback]    21
[Hardback]      8
[Game]          1
dtype: int64

## Obtener las fechas de publicación (find_all + get_text)

Al igual que antes inspeccionamos....

published

In [69]:
fechas = soup.find_all("p",class_="published")
anios = []
for fecha in fechas:
    fecha_completa = fecha.get_text()
    #anio = fecha_completa[-4:]
    anio = fecha_completa.split(" ")[-1]
    anios.append(anio)
dates_series = pd.Series(anios)
dates_series.value_counts()

2022    12
2019     3
2021     3
2023     3
2016     2
2018     2
2014     2
2012     1
1995     1
2015     1
dtype: int64

In [68]:
dates = soup.find_all("p", class_="published")
dates = [date.get_text()[-4:] for date in dates] #con esta list comprehension obtenemos solo el año
dates_series = pd.Series(dates)
dates_series.value_counts()

2022    12
2019     3
2021     3
2023     3
2016     2
2018     2
2014     2
2012     1
1995     1
2015     1
dtype: int64

## Obtener los precios (find_all + get_text)

Inspeccionamos..

price

In [71]:
prices = soup.find_all("span", class_="sale-price")

In [72]:
print(prices)

[<span class="sale-price">12,84 €</span>, <span class="sale-price">11,94 €</span>, <span class="sale-price">14,15 €</span>, <span class="sale-price">20,68 €</span>, <span class="sale-price">20,11 €</span>, <span class="sale-price">12,89 €</span>, <span class="sale-price">20,78 €</span>, <span class="sale-price">53,78 €</span>, <span class="sale-price">13,18 €</span>, <span class="sale-price">105,67 €</span>, <span class="sale-price">12,82 €</span>, <span class="sale-price">9,14 €</span>, <span class="sale-price">15,36 €</span>, <span class="sale-price">17,57 €</span>, <span class="sale-price">28,50 €</span>, <span class="sale-price">14,08 €</span>, <span class="sale-price">29,50 €</span>, <span class="sale-price">21,93 €</span>, <span class="sale-price">24,89 €</span>, <span class="sale-price">13,30 €</span>, <span class="sale-price">22,13 €</span>, <span class="sale-price">27,96 €</span>, <span class="sale-price">15,79 €</span>, <span class="sale-price">13,57 €</span>, <span class="sa

In [73]:
prices[0]

<span class="sale-price">12,84 €</span>

In [80]:
precio = prices[0].get_text().split(' ')[0].replace(',','.')
precio

'12.84'

In [103]:
# Ejercicio en clase: Calcular la media de precio

precios_float = []
prices = soup.find_all("span", class_="sale-price")
for precio in prices:
    precio_f = float(precio.get_text().split(' ')[0].replace(',','.'))
    precios_float.append(precio_f)

# Numpy
import numpy as np
print(np.mean(precios_float))

# Pandas
print(pd.Series(precios_float).mean())

22.37066666666666
22.37066666666666


In [108]:
prices = soup.find_all("span", class_="sale-price")
todoprecios = pd.DataFrame(prices)
todoprecios = todoprecios.rename({0:'precio'},axis=1)
todoprecios['precio'] = todoprecios['precio'].str.replace("€","").str.replace(",", ".").astype(float)

#todoprecios.info()

todoprecios.precio.mean()
#todoprecios.mean()

22.37066666666666

In [81]:
float(precio)


12.84

In [None]:
prices[5].get_text(strip=True).split(' ')

In [109]:
# final_prices = []
# for price in prices:
#       original_price = price.find("span", class_="rrp")
#       if original_price:
#              current_price = str(original_price.previousSibling).strip() # nos quedamos solo con el numero sin etiquetas
#              current_price = float(current_price.split("€")[0].replace(",", ".")) # quitamos el signo de euro y reemplazamos la coma por el punto para que python lo reconozca con float
#              final_prices.append(current_price)
#       else:
#              current_price = float(price.get_text(strip=True).split("€")[0].replace(",", "."))
#              final_prices.append(current_price)
# print(final_prices)

## Recolectar información de un libro

Primero creamos un soup en la pagína 'principal'

In [110]:
libros = soup.find_all(class_='item-img')

Guardamos en una variable la url principal

In [114]:
url_principal = 'https://www.bookdepository.com'

In [113]:
libros[0]

<div class="item-img">
<a href="/It-Ends-With-Us-most-heartbreaking-novel-youll-ever-read-Colleen-Hoover/9781471156267" itemprop="url">
<img alt="It Ends With Us: The most heartbreaking novel you'll ever read" src="https://d1w7fb2mkkr3kw.cloudfront.net/assets/images/book/mid/9781/4711/9781471156267.jpg"/>
</a>
</div>

Creamos una lista con los urls de los libros

In [119]:
lista_URLs = []
for libro in libros:
    etiqueta_a = libro.find('a')
    URL_libro = etiqueta_a['href']
    lista_URLs.append(url_principal+URL_libro)

lista_URLs

['https://www.bookdepository.com/It-Ends-With-Us-most-heartbreaking-novel-youll-ever-read-Colleen-Hoover/9781471156267',
 'https://www.bookdepository.com/Verity-Colleen-Hoover/9781408726600',
 'https://www.bookdepository.com/Before-Coffee-Gets-Cold-Toshikazu-Kawaguchi/9781529029581',
 'https://www.bookdepository.com/Atomic-Habits-James-Clear/9781847941831',
 'https://www.bookdepository.com/Tools-Phil-Stutz/9780812983043',
 'https://www.bookdepository.com/Seven-Husbands-Evelyn-Hugo-Taylor-Jenkins-Reid/9781398515697',
 'https://www.bookdepository.com/Roald-Dahls-Marvellous-Joke-Book-Roald-Dahl/9780141340555',
 'https://www.bookdepository.com/Letters-from-M-M-Paris-Paul-McNeil/9780500025277',
 'https://www.bookdepository.com/Midnight-Library-Matt-Haig/9781786892737',
 'https://www.bookdepository.com/Undaunted-Stalingrad-Trevor-Benjamin/9781472852670',
 'https://www.bookdepository.com/Where-Crawdads-Sing-Delia-Owens/9781472154668',
 'https://www.bookdepository.com/Brain-Games-For-Clever-Ki

Vamos a analizar el url de un libro primero

In [123]:
lista_URLs[11]

'https://www.bookdepository.com/Brain-Games-For-Clever-Kids-R-Gareth-Moore/9781780552491'

In [120]:
# Hacemos un nuevo request para el primer libro: 
r = requests.get(lista_URLs[11])

# Creamos una sopa específica con la info de cada libro
soup_libro = bs(r.text, "lxml")

creamos un soup del primer libro

In [121]:
soup_libro

<!DOCTYPE html>
<html lang="en">
<head>
<link href="https://d3ogvdx946i4sr.cloudfront.net" rel="preconnect"/>
<link href="https://d3ogvdx946i4sr.cloudfront.net" rel="dns-prefetch"/>
<script type="text/javascript">
        function csmWidgetStart(widgetName) {
            if (typeof uet == 'function') {
                uet('bb', widgetName, {wb: 1});
            }
        }
        function csmWidgetEnd(widgetName) {
            if (typeof uet == 'function') {
                uex('ld', widgetName, {wb: 1});
            }
        }
    </script>
<noscript>
<style>
            .hide-when-no-js {
                display: none !important;
            }

            .show-when-no-js {
                display: block !important;
            }
        </style>
</noscript>
<meta content="text/html; charset=utf-8" http-equiv="content-type"/>
<meta content="©2020 Book Depository Ltd." name="copyright"/>
<meta content="Book Depository" name="author"/>
<meta content="width=device-width, initial-scal

Obtenemos el titulo del libro

In [122]:
name = soup_libro.find('h1').text
print(name)

Brain Games For Clever Kids (R)


El rating

In [139]:
# soup_libro.find(itemprop="ratingValue").get_text().split(" ")[-1]
# soup_libro.find(itemprop="ratingValue").get_text().replace(" ","").replace("\n","")
rating = soup_libro.find(itemprop="ratingValue").get_text().strip()
rating  = float(rating)
rating


4.26

Cantidad de votaciones para el rating

In [149]:
rating_count = soup_libro.find('span',class_ = 'rating-count').get_text().strip().split(" ")[0].replace("(","")
rating_count = int(rating_count)
print(rating_count)


163


Tipo de formato

In [156]:
soup_libro.find(class_ = 'meta-info hidden-md')

<ul class="meta-info hidden-md">
<li>Paperback</li>
<li>
<a href="/search/advanced?seriesId=801050">Buster Brain Games</a></li>
<li>
<span itemprop="inLanguage" itemtype="http://schema.org/Language">
<a href="/search/advanced?searchLang=123">English</a></span>
</li>
</ul>

In [157]:
formats = soup_libro.find(class_ = 'meta-info hidden-md')('li')[0].text
formats

'Paperback'

Autor

In [166]:
author = soup_libro.find(itemprop= "author").text
author = author.strip()
print(author)

Gareth Moore


Precio

In [169]:
price = float(soup_libro.find(class_ = 'sale-price').text.replace("€",'').replace(",",".").strip())
price

9.14

Url de la portada

In [171]:
imagen = soup_libro.find(class_ = 'book-img')['src']
imagen

'https://d1w7fb2mkkr3kw.cloudfront.net/assets/images/book/lrg/9781/7805/9781780552491.jpg'

In [175]:
data = []

for url in lista_URLs:
    print(url)
    # Hacemos un nuevo request para el primer libro: 
    r = requests.get(url)

    # Creamos una sopa específica con la info de cada libro
    soup_libro = bs(r.text, "lxml")

    # DATA
    name = soup_libro.find('h1').text
    
    try:
        rating = soup_libro.find(itemprop="ratingValue").get_text().strip()
        rating  = float(rating)

        rating_count = soup_libro.find('span',class_ = 'rating-count').get_text().strip().split(" ")[0].replace("(","").replace(",",'')
        rating_count = int(rating_count)
    except:
        rating = None
        rating_count=None

    formats = soup_libro.find(class_ = 'meta-info hidden-md')('li')[0].text

    author = soup_libro.find(itemprop= "author").text
    author = author.strip()

    price = float(soup_libro.find(class_ = 'sale-price').text.replace("€",'').replace(",",".").strip())

    imagen = soup_libro.find(class_ = 'book-img')['src']

    data_libro = {'nombre':name,
                  'rating':rating,
                  'rating_count':rating_count,
                  'formato':formats,
                  'autor':author,
                  'precio':price,
                  'imagen':imagen,
                  'url':url
    }
    data.append(data_libro)

df = pd.DataFrame(data)
df.head()


https://www.bookdepository.com/It-Ends-With-Us-most-heartbreaking-novel-youll-ever-read-Colleen-Hoover/9781471156267
https://www.bookdepository.com/Verity-Colleen-Hoover/9781408726600
https://www.bookdepository.com/Before-Coffee-Gets-Cold-Toshikazu-Kawaguchi/9781529029581
https://www.bookdepository.com/Atomic-Habits-James-Clear/9781847941831
https://www.bookdepository.com/Tools-Phil-Stutz/9780812983043
https://www.bookdepository.com/Seven-Husbands-Evelyn-Hugo-Taylor-Jenkins-Reid/9781398515697
https://www.bookdepository.com/Roald-Dahls-Marvellous-Joke-Book-Roald-Dahl/9780141340555
https://www.bookdepository.com/Letters-from-M-M-Paris-Paul-McNeil/9780500025277
https://www.bookdepository.com/Midnight-Library-Matt-Haig/9781786892737
https://www.bookdepository.com/Undaunted-Stalingrad-Trevor-Benjamin/9781472852670
https://www.bookdepository.com/Where-Crawdads-Sing-Delia-Owens/9781472154668
https://www.bookdepository.com/Brain-Games-For-Clever-Kids-R-Gareth-Moore/9781780552491
https://www.bo

Unnamed: 0,nombre,rating,rating_count,formato,autor,precio,imagen,url
0,It Ends With Us: The most heartbreaking novel ...,4.36,1803902.0,Paperback,Colleen Hoover,12.84,https://d1w7fb2mkkr3kw.cloudfront.net/assets/i...,https://www.bookdepository.com/It-Ends-With-Us...
1,Verity : The thriller that will capture your h...,4.4,1351569.0,Paperback,Colleen Hoover,11.94,https://d1w7fb2mkkr3kw.cloudfront.net/assets/i...,https://www.bookdepository.com/Verity-Colleen-...
2,Before the Coffee Gets Cold,3.75,158777.0,Paperback,Toshikazu Kawaguchi,14.15,https://d1w7fb2mkkr3kw.cloudfront.net/assets/i...,https://www.bookdepository.com/Before-Coffee-G...
3,Atomic Habits : the life-changing million-copy...,4.38,489376.0,Paperback,James Clear,20.68,https://d1w7fb2mkkr3kw.cloudfront.net/assets/i...,https://www.bookdepository.com/Atomic-Habits-J...
4,"The Tools : 5 Tools to Help You Find Courage, ...",3.71,3362.0,Paperback,Phil Stutz,20.11,https://d1w7fb2mkkr3kw.cloudfront.net/assets/i...,https://www.bookdepository.com/Tools-Phil-Stut...


In [176]:
df.shape

(30, 8)

Ahora lo automatizamos para hacer un web scraping

---------------

In [177]:
df.to_csv('libros.csv',sep="~",header=True,index=False)