# Beautiful Soup Tutorial

Como científico de datos, tarde o temprano llegarás a un punto en el que tendrás que recopilar grandes cantidades de datos. Ya sea un proyecto o por pasatiempo y no siempre podremos contar con las API, pero tranquilo tenemos el web scraping... ¡Y una de las mejores herramientas de web scraping es Beautiful Soup!

## ¿Pero.... qué es el web scraping?

En pocas palabras, el web scraping es la recopilación automatizada de datos de sitios web (para ser más precisos, del contenido HTML de los sitios web).

En este Jupyter, aprenderás los conceptos básicos sobre cómo extraer datos de HTML. 

Lo harás extrayendo datos de la página de libros más vendidos de Book Depository, y para lograr esto, también tendrá que hacer uso de un poco de pandas principalmente..

### Conoce a tus nuevos mejores amigos: 

- Beautiful Soup
- Requests

In [1]:
!pip install beautifulsoup4




[notice] A new release of pip is available: 23.0 -> 23.0.1
[notice] To update, run: python.exe -m pip install --upgrade pip


Para obtener la experiencia completa de Beautiful Soup, también deberás instalar un parser, dentro de ellos tenemos..

- html.parser
- lxml
- html5lib


Vamos a utilizar el lxml ya que es el mas rápido 

In [2]:
!pip install lxml




[notice] A new release of pip is available: 23.0 -> 23.0.1
[notice] To update, run: python.exe -m pip install --upgrade pip


Se necesita una cosa más para que podamos comenzar a hacer web scraping, y es la biblioteca de ```requests```. Con ```requests``` podemos solicitar páginas web de sitios web.

In [3]:
!pip install requests




[notice] A new release of pip is available: 23.0 -> 23.0.1
[notice] To update, run: python.exe -m pip install --upgrade pip


Ahora asi manos a la obra..

## Mi primer scraping

Como siempre lo primero es importar las librerías 

In [4]:
from bs4 import BeautifulSoup as bs
import requests
import pandas as pd
import numpy as np

Ahora, estamos listos para solicitar nuestra primera página web. No es nada complicado: guardamos la URL que queremos raspar en la variable URL, luego solicitamos la URL (requests.get (url)) y guardamos la respuesta en la variable de respuesta:

In [5]:
url = "https://www.bookdepository.com/es/bestsellers"
response = requests.get(url)

Cómo saber si se guardo correctamente el sitio web?

In [6]:
print(response)

<Response [200]>


Posibles respuestas:

- [Respuestas informativas](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status#information_responses) (100–199)
- [Respuestas exitosas](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status#successful_responses) (200–299)
- [Mensajes de redirección](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status#redirection_messages) (300–399)
- [Respuestas de error del cliente](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status#client_error_responses) (400–499)
- [Respuestas de error del servidor](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status#server_error_responses) (500–599)

Pero necesitamos el contenido HTML de la página web solicitada, así que como siguiente paso guardamos el contenido de la respuesta a html:

In [7]:
html = response.content

Lo podemos imprimir para ver su estructura

In [8]:
print(html)

b'<!DOCTYPE html>\n<html lang="en">\n<head>\n\n    <link rel="preconnect" href="https://d3ogvdx946i4sr.cloudfront.net"/>\n<link rel="dns-prefetch" href="https://d3ogvdx946i4sr.cloudfront.net"/>\n<script type="text/javascript">\n        function csmWidgetStart(widgetName) {\n            if (typeof uet == \'function\') {\n                uet(\'bb\', widgetName, {wb: 1});\n            }\n        }\n        function csmWidgetEnd(widgetName) {\n            if (typeof uet == \'function\') {\n                uex(\'ld\', widgetName, {wb: 1});\n            }\n        }\n    </script>\n    <noscript>\n        <style>\n            .hide-when-no-js {\n                display: none !important;\n            }\n\n            .show-when-no-js {\n                display: block !important;\n            }\n        </style>\n    </noscript>\n\n    <meta http-equiv="content-type" content="text/html; charset=UTF-8" />\n<meta name="copyright" content="&copy;2020 Book Depository Ltd." />\n<meta name="author" 

Este es el resultado obtenido en HTML de la página de los libros más vendidos, pero es realmente difícil de leer...

Pero para eso usamos BeautifulSoup y lxml

Cómo lo hacemos?..

Creamos un objeto BeautifulSoup llamado soup con la siguiente línea de código:

In [9]:
soup = bs(html, "lxml")

In [10]:
soup

<!DOCTYPE html>
<html lang="en">
<head>
<link href="https://d3ogvdx946i4sr.cloudfront.net" rel="preconnect"/>
<link href="https://d3ogvdx946i4sr.cloudfront.net" rel="dns-prefetch"/>
<script type="text/javascript">
        function csmWidgetStart(widgetName) {
            if (typeof uet == 'function') {
                uet('bb', widgetName, {wb: 1});
            }
        }
        function csmWidgetEnd(widgetName) {
            if (typeof uet == 'function') {
                uex('ld', widgetName, {wb: 1});
            }
        }
    </script>
<noscript>
<style>
            .hide-when-no-js {
                display: none !important;
            }

            .show-when-no-js {
                display: block !important;
            }
        </style>
</noscript>
<meta content="text/html; charset=utf-8" http-equiv="content-type"/>
<meta content="©2020 Book Depository Ltd." name="copyright"/>
<meta content="Book Depository" name="author"/>
<meta content="width=device-width, initial-scal

bs?

> from bs4 import BeautifulSoup as bs

El primer parámetro del método bs() es html (que fue la variable en la que guardamos ese contenido HTML difícil de leer de la URL de los libros más vendidos)

El segundo parámetro ('lxml'), es el parser que se usa en html 

Ahora vamos a ver el cambio

In [44]:
print(soup)

<!DOCTYPE html>
<html lang="en">
<head>
<link href="https://d3ogvdx946i4sr.cloudfront.net" rel="preconnect"/>
<link href="https://d3ogvdx946i4sr.cloudfront.net" rel="dns-prefetch"/>
<script type="text/javascript">
        function csmWidgetStart(widgetName) {
            if (typeof uet == 'function') {
                uet('bb', widgetName, {wb: 1});
            }
        }
        function csmWidgetEnd(widgetName) {
            if (typeof uet == 'function') {
                uex('ld', widgetName, {wb: 1});
            }
        }
    </script>
<noscript>
<style>
            .hide-when-no-js {
                display: none !important;
            }

            .show-when-no-js {
                display: block !important;
            }
        </style>
</noscript>
<meta content="text/html; charset=utf-8" http-equiv="content-type"/>
<meta content="©2020 Book Depository Ltd." name="copyright"/>
<meta content="Book Depository" name="author"/>
<meta content="width=device-width, initial-scal

## Cómo navegar por un objeto de Beautiful Soup

HTML consta de elementos como enlaces, párrafos, encabezados, bloques, etc. Estos elementos están envueltos entre etiquetas; dentro de la etiqueta de apertura y cierre se puede encontrar el contenido del elemento.

![image](img\html-content-web-scraping.png)

Los elementos HTML también pueden tener atributos que contienen información adicional sobre el elemento. Los atributos se definen en las etiquetas de apertura con la siguiente sintaxis: nombre del atributo = "valor del atributo".

![image](img\attribute-example-for-web-scraping-1536x386.png)

Ahora que hemos aprendido algo de HTML básico, finalmente podemos comenzar a extraer datos de soup. Simplemente escriba un nombre de etiqueta después de soup y un punto (como soup.title), y observe cómo se desarrolla la magia:

In [11]:
soup.title

<title>
	Bestselling books online with free delivery at Book Depository</title>

In [12]:
soup.h1

<h1>Los más vendidos — nuestros artículos más populares, actualizados diariamente.</h1>

Eliminamos las etiquetas

In [13]:
soup.h1.get_text()

'Los más vendidos — nuestros artículos más populares, actualizados diariamente.'

¿Qué sucede si solo necesita el atributo de un elemento? Tampoco hay problema:

In [14]:
soup.a['href']
soup.a.get('href')

'/help/topic/HelpId/53/How-we-use-cookies#helpContent'

También podemos..
> soup.a.get("href")

La sintaxis de soup.```cualquier_etiqueta``` devuelve solo el primer elemento con ese nombre de etiqueta. En lugar de soup.```cualquier_etiqueta```, también puedes usar el método .find() y obtendrás exactamente el mismo resultado:

In [15]:
print("Sin utilizar método .find()")
print(soup.h1)
print("")
print("Utilizando método .find()")
print(soup.find('h1'))


Sin utilizar método .find()
<h1>Los más vendidos — nuestros artículos más populares, actualizados diariamente.</h1>

Utilizando método .find()
<h1>Los más vendidos — nuestros artículos más populares, actualizados diariamente.</h1>


A menudo, no solo necesitas uno, sino todos los elementos (por ejemplo, cada enlace en una página). Para eso es bueno el método .find_all():

In [16]:
soup.find_all('a')

[<a href="/help/topic/HelpId/53/How-we-use-cookies#helpContent" target='"_blank"'>Ayuda sobre Cookies</a>,
 <a href="/help/topic/HelpId/53/How-we-use-cookies#helpContent" target='"_blank"'>Aviso de cookies</a>,
 <a class="showLess" role="button">Mostrar menos</a>,
 <a class="showMore" role="button">Mostrar más</a>,
 <a class="showLess" role="button">Mostrar menos</a>,
 <a class="showMore" role="button">Mostrar más</a>,
 <a href="/help/topic/HelpId/53/How-we-use-cookies#helpContent" target='"_blank"'>Aviso de Cookies</a>,
 <a href="/help/topic/HelpId/72/Interest-based-ads#helpContent" target='"_blank"'>Anuncios basados en intereses</a>,
 <a class="showLess" role="button">Mostrar menos</a>,
 <a class="showMore" role="button">Mostrar más</a>,
 <a class="home-icon-link" href="/es/"><i class="icon-home"></i><span class="show-non-desktop">Inicio</span></a>,
 <a href="/es/contactus"><i class="icon-em"></i>Contáctanos</a>,
 <a href="/es/help" rel="nofollow"><i class="icon-info"></i>Ayuda</a>,


Si nos fijamos podemos ver que lo que nos devuelve es una lista..

Qué podemos hacer con una lista?..

In [17]:
all_a = soup.find_all('a')
for a in all_a[:5]:
    print(a)
    print(type(a))

<a href="/help/topic/HelpId/53/How-we-use-cookies#helpContent" target='"_blank"'>Ayuda sobre Cookies</a>
<class 'bs4.element.Tag'>
<a href="/help/topic/HelpId/53/How-we-use-cookies#helpContent" target='"_blank"'>Aviso de cookies</a>
<class 'bs4.element.Tag'>
<a class="showLess" role="button">Mostrar menos</a>
<class 'bs4.element.Tag'>
<a class="showMore" role="button">Mostrar más</a>
<class 'bs4.element.Tag'>
<a class="showLess" role="button">Mostrar menos</a>
<class 'bs4.element.Tag'>


Ok.. Pero como extraigo la data con BeautifilSoup?..

La página contiene 30 libros con información relacionada con ellos. De los datos disponibles extraeremos los siguientes:

- book titles
- formats (paperback or hardback)
- publication dates
- prices

Mientras trabajamos con BeautifulSoup, el flujo general de extracción de datos será un enfoque de dos pasos:

* Inspeccionar en el navegador los elementos HTML que queremos extraer 
* Luego encontrar los elementos HTML con BeautifulSoup.

## Suficiente información...

Manos a la obra

## Obtener los titulos de los libros (find_all + get_text)

Para ello vamos a inspeccionar en el navegador (click derecho sobre un titulo de un libro y elegimos inspeccionar)

In [18]:
all_h3 = soup.find_all('h3')
for h3 in all_h3[:5]:
    print(h3)
    print('----')

<h3 class="title">
<a href="/es/How-Paint-Without-Brush-Red-Hong-Yi/9781419761959">
                    How to Paint Without a Brush<br/>
</a>
</h3>
----
<h3 class="title">
<a href="/es/Atomic-Habits-James-Clear/9781847941831">
                    Atomic Habits<br/>
</a>
</h3>
----
<h3 class="title">
<a href="/es/Young-Forever-Mark-Hyman/9781399716307">
                    Young Forever<br/>
</a>
</h3>
----
<h3 class="title">
<a href="/es/Things-We-Hide-From-Light-Lucy-Score/9781399713771">
                    Things We Hide From The Light<br/>
</a>
</h3>
----
<h3 class="title">
<a href="/es/It-Ends-With-Us-most-heartbreaking-novel-youll-ever-read-Colleen-Hoover/9781471156267">
                    It Ends With Us: The most heartbreaking novel you'll ever read<br/>
</a>
</h3>
----


Si queremos obtener solo los títulos

In [19]:
all_h3 = soup.find_all('h3', class_='title')
for h3 in all_h3:
    print(h3.get_text(strip = True))

How to Paint Without a Brush
Atomic Habits
Young Forever
Things We Hide From The Light
It Ends With Us: The most heartbreaking novel you'll ever read
The Letters I Will Never Send
The Parenting Map
UPROAR!
The Parenting Map
I Don't Need Therapy
Seven Husbands of Evelyn Hugo
Before the Coffee Gets Cold
Final Offer
The Body Keeps the Score
Twisted Love
Verity
The Psychology of Money
Small Things Like These
Things We Never Got Over
Twisted Games
Foster
Icebreaker
The Midnight Library
Rethink Your Position
The Fine Print
Spare
Heaven Official's Blessing: Tian Guan Ci Fu (Novel) Vol. 5
The Boy, The Mole, The Fox and The Horse
Me vs Brain
The Adventure Zone: The Eleventh Hour


## Tips importantes

soup.find_all(“h3”) encuentra cada elemento h3 en la página web; con class_=”title” especificamos que buscamos específicamente etiquetas h3 que contengan el atributo class_=”title” (nota importante: el “_” en **class__=”title”** no es un error tipográfico, se requiere en Beautiful Soup cuando seleccionando atributos de clase).

Guardamos los elementos h3 en all_h3, que se comporta como una lista, por lo que podemos recorrerlos con un bucle for. En cada iteración extraemos solo el texto del elemento h3 con .get_text(), y con el parámetro strip=True nos aseguramos de eliminar cualquier espacio en blanco innecesario.

## Obtener los formatos de los libros

Del paso anterior tenemos todos los títulos de libros de la página de los más vendidos. Pero, ¿qué sabemos acerca de sus formatos? ¿Hay más libros de tapa dura o tapa blanda?

Averigüémoslo inspeccionando el elemento de formato de libro:

Como siempre inspeccionamos y buscamos el formato..

Y como queremos saber la cantidad de cada formato lo metemos en dataframe

In [20]:
all_formats = soup.find_all('p', class_ = 'format')
for i in all_formats:
    print(i)

<p class="format">Hardback</p>
<p class="format">Paperback</p>
<p class="format">Paperback</p>
<p class="format">Paperback</p>
<p class="format">Paperback</p>
<p class="format">Paperback</p>
<p class="format">Hardback</p>
<p class="format">Hardback</p>
<p class="format">Paperback</p>
<p class="format">Paperback</p>
<p class="format">Paperback</p>
<p class="format">Paperback</p>
<p class="format">Paperback</p>
<p class="format">Paperback</p>
<p class="format">Paperback</p>
<p class="format">Paperback</p>
<p class="format">Paperback</p>
<p class="format">Paperback</p>
<p class="format">Paperback</p>
<p class="format">Paperback</p>
<p class="format">Paperback</p>
<p class="format">Paperback</p>
<p class="format">Paperback</p>
<p class="format">Paperback</p>
<p class="format">Paperback</p>
<p class="format">Hardback</p>
<p class="format">Paperback</p>
<p class="format">Hardback</p>
<p class="format">Hardback</p>
<p class="format">Paperback</p>


In [21]:
all_formats = soup.find_all('p', class_ = 'format')
for i in all_formats:
    print(i.get_text(strip=True))

Hardback
Paperback
Paperback
Paperback
Paperback
Paperback
Hardback
Hardback
Paperback
Paperback
Paperback
Paperback
Paperback
Paperback
Paperback
Paperback
Paperback
Paperback
Paperback
Paperback
Paperback
Paperback
Paperback
Paperback
Paperback
Hardback
Paperback
Hardback
Hardback
Paperback


In [22]:
formats = soup.select('div.item-info  p.format')
#Esto corresponde al selector CSS
#'body > div.page-slide > div.content-wrap > div.main-content.bestseller-page > div.content-block > div > div > div > div > div:nth-child(3) > div.item-info > p.format'

In [23]:
formats = soup.select('p.format')
formats

[<p class="format">Hardback</p>,
 <p class="format">Paperback</p>,
 <p class="format">Paperback</p>,
 <p class="format">Paperback</p>,
 <p class="format">Paperback</p>,
 <p class="format">Paperback</p>,
 <p class="format">Hardback</p>,
 <p class="format">Hardback</p>,
 <p class="format">Paperback</p>,
 <p class="format">Paperback</p>,
 <p class="format">Paperback</p>,
 <p class="format">Paperback</p>,
 <p class="format">Paperback</p>,
 <p class="format">Paperback</p>,
 <p class="format">Paperback</p>,
 <p class="format">Paperback</p>,
 <p class="format">Paperback</p>,
 <p class="format">Paperback</p>,
 <p class="format">Paperback</p>,
 <p class="format">Paperback</p>,
 <p class="format">Paperback</p>,
 <p class="format">Paperback</p>,
 <p class="format">Paperback</p>,
 <p class="format">Paperback</p>,
 <p class="format">Paperback</p>,
 <p class="format">Hardback</p>,
 <p class="format">Paperback</p>,
 <p class="format">Hardback</p>,
 <p class="format">Hardback</p>,
 <p class="format">P

In [25]:
formats = soup.select('div.item-info  p.format')
formats_series = pd.Series(formats)
formats_series_df = pd.DataFrame(formats)
formats_series.value_counts()

[Paperback]    24
[Hardback]      6
dtype: int64

## Obtener las fechas de publicación (find_all + get_text)

Al igual que antes inspeccionamos....

* type(date) = bs4.element.Tag
* type(date.get_text()) = str

In [26]:
#date = soup.find('p', class_='published')
#date = soup.find('p', attrs={'itemprop':'datePublished'})
#date = soup.find('p', attrs = {'class':'published'})
date = soup.find('p', attrs = {'class':'published', 'itemprop':'datePublished'})
print(date)
print(type(date))
print(date.get_text())
print(type(date.get_text(strip=True)))

<p class="published" itemprop="datePublished">11 May 2023</p>
<class 'bs4.element.Tag'>
11 May 2023
<class 'str'>


### Una forma de meter los años dentro de series

In [27]:
dates = soup.find_all('p', class_='published')
fechas = []
for date in dates:
    fechas.append(date.get_text(strip=True)[-4:])
fechas

['2023',
 '2018',
 '2023',
 '2023',
 '2016',
 '2023',
 '2023',
 '2023',
 '2023',
 '2023',
 '2021',
 '2019',
 '2023',
 '2015',
 '2022',
 '2022',
 '2020',
 '2022',
 '2022',
 '2022',
 '2022',
 '2023',
 '2021',
 '2023',
 '2022',
 '2023',
 '2022',
 '2019',
 '2023',
 '2023']

In [28]:
fechas_serie = pd.Series(fechas)
fechas_serie

0     2023
1     2018
2     2023
3     2023
4     2016
5     2023
6     2023
7     2023
8     2023
9     2023
10    2021
11    2019
12    2023
13    2015
14    2022
15    2022
16    2020
17    2022
18    2022
19    2022
20    2022
21    2023
22    2021
23    2023
24    2022
25    2023
26    2022
27    2019
28    2023
29    2023
dtype: object

### Otra forma de hacerlo

In [29]:
dates = soup.find_all('p', class_='published')
dates = [date.get_text() for date in dates]
dates_series = pd.Series(dates)
dates_series.value_counts()

11 May 2023    2
21 Feb 2023    2
16 Mar 2023    2
02 Mar 2023    2
05 May 2022    2
08 Sep 2020    1
20 Dec 2022    1
10 Jan 2023    1
27 Jan 2022    1
18 Feb 2021    1
19 Jan 2023    1
18 Aug 2022    1
14 Jul 2022    1
03 Nov 2022    1
24 Sep 2015    1
20 Jan 2022    1
27 Nov 2018    1
31 Jan 2023    1
19 Sep 2019    1
14 Oct 2021    1
28 Feb 2023    1
27 Apr 2023    1
02 Aug 2016    1
16 Feb 2023    1
04 Nov 2019    1
dtype: int64

In [30]:
dates = soup.find_all('p', class_='published')
dates = [date.get_text()[-4:] for date in dates]
dates_series = pd.Series(dates)
dates_series.value_counts()

2023    14
2022     8
2021     2
2019     2
2018     1
2016     1
2015     1
2020     1
dtype: int64

## Obtener los precios (find_all + get_text)

Inspeccionamos..

In [55]:
prices = soup.find_all('p', class_='price')
prices
for i in prices:
    print(i.get_text(strip=True))

31,00 €
20,93 €PVPR:22,00 €
21,40 €
23,43 €
13,03 €
31,51 €
12,58 €
30,50 €
21,77 €
12,56 €
13,61 €
17,11 €
13,78 €
21,17 €
13,14 €
12,76 €PVPR:13,50 €
14,22 €
13,02 €PVPR:13,50 €
12,57 €
18,23 €PVPR:18,50 €
12,84 €
13,04 €PVPR:13,50 €
12,34 €
28,24 €PVPR:35,50 €
20,92 €PVPR:21,50 €
13,16 €PVPR:13,50 €
20,15 €PVPR:21,00 €
12,50 €
20,07 €PVPR:21,00 €
20,11 €


In [31]:
prices = soup.find_all('span', class_='sale-price')
prices

[<span class="sale-price">31,00 €</span>,
 <span class="sale-price">21,40 €</span>,
 <span class="sale-price">21,91 €</span>,
 <span class="sale-price">14,32 €</span>,
 <span class="sale-price">12,58 €</span>,
 <span class="sale-price">18,50 €</span>,
 <span class="sale-price">31,55 €</span>,
 <span class="sale-price">28,51 €</span>,
 <span class="sale-price">21,00 €</span>,
 <span class="sale-price">35,16 €</span>,
 <span class="sale-price">13,14 €</span>,
 <span class="sale-price">13,74 €</span>,
 <span class="sale-price">13,39 €</span>,
 <span class="sale-price">17,05 €</span>,
 <span class="sale-price">12,89 €</span>,
 <span class="sale-price">13,11 €</span>,
 <span class="sale-price">18,17 €</span>,
 <span class="sale-price">12,92 €</span>,
 <span class="sale-price">12,53 €</span>,
 <span class="sale-price">13,00 €</span>,
 <span class="sale-price">12,75 €</span>,
 <span class="sale-price">13,56 €</span>,
 <span class="sale-price">12,80 €</span>,
 <span class="sale-price">21,71 €<

In [32]:
for price in prices:
    print(price.get_text(strip=True))
    

31,00 €
21,40 €
21,91 €
14,32 €
12,58 €
18,50 €
31,55 €
28,51 €
21,00 €
35,16 €
13,14 €
13,74 €
13,39 €
17,05 €
12,89 €
13,11 €
18,17 €
12,92 €
12,53 €
13,00 €
12,75 €
13,56 €
12,80 €
21,71 €
12,98 €
28,24 €
20,15 €
20,86 €
31,28 €
19,77 €


Precio del sexto libro

In [33]:
prices[5]

<span class="sale-price">18,50 €</span>

##### .split()

Queremos el texto y separado con .split

In [34]:
prices[5].get_text(strip=True).split()

['18,50', '€']

In [35]:
prices[5].get_text(strip=True).split(" ")

['18,50', '€']

.split separa los precios por el elemento que quieras

In [36]:
prices[5].get_text(strip=True).split(',')

['18', '50 €']

In [65]:
prices[5].get_text(strip=True).replace(',','.').split()

['31.51', '€']

In [72]:
prices[5].get_text(strip=True).replace(',','.').split()[0]

'31.51'

In [37]:
float(prices[5].get_text(strip=True).replace(',','.').split()[0])

18.5

### Añadirlo a una lista, limpiando los datos

In [38]:
prices = soup.find_all("p", class_="price")

final_prices = []
for price in prices:
    original_price = price.find("span", class_="sale-price")
    original_price = original_price.get_text()
    original_price = float(original_price.split("€")[0].replace(",", "."))
    final_prices.append(original_price)
print(final_prices)

[31.0, 21.4, 21.91, 14.32, 12.58, 18.5, 31.55, 28.51, 21.0, 35.16, 13.14, 13.74, 13.39, 17.05, 12.89, 13.11, 18.17, 12.92, 12.53, 13.0, 12.75, 13.56, 12.8, 21.71, 12.98, 28.24, 20.15, 20.86, 31.28, 19.77]


In [None]:
float("31.0 ") #Un espacio al final no afecta en la conversión a float
int("31")
int("31.0") #error

### Otra forma de hacerlo

In [39]:
final_price_compress = [float(price.find("span", class_="sale-price")\
        .get_text().split(" €")[0].replace(",", ".")) for price in prices]
final_price_compress

[31.0,
 21.4,
 21.91,
 14.32,
 12.58,
 18.5,
 31.55,
 28.51,
 21.0,
 35.16,
 13.14,
 13.74,
 13.39,
 17.05,
 12.89,
 13.11,
 18.17,
 12.92,
 12.53,
 13.0,
 12.75,
 13.56,
 12.8,
 21.71,
 12.98,
 28.24,
 20.15,
 20.86,
 31.28,
 19.77]

### Podéis también meterlo en una serie o en un dataframe

In [40]:
df = pd.DataFrame(final_prices)
df

df.columns=['Precios']
df[df['Precios']>25]

Unnamed: 0,Precios
0,31.0
6,31.55
7,28.51
9,35.16
25,28.24
28,31.28


Aunque se vean diferente, son la misma lista

In [84]:
print(final_prices == final_price_compress)

True


## Recolectar información de un libro

Primero creamos un soup en la pagína 'principal'

In [41]:
libros = soup.find_all('div', class_='item-img')

Guardamos en una variable la url principal

In [42]:
url_principal = 'https://www.bookdepository.com'

Creamos una lista con los urls de los libros

In [43]:
lista_URLs = []
for libro in libros:
    URL_libro= libro.find('a')['href']
    lista_URLs.append(url_principal+URL_libro)
lista_URLs

['https://www.bookdepository.com/es/How-Paint-Without-Brush-Red-Hong-Yi/9781419761959',
 'https://www.bookdepository.com/es/Atomic-Habits-James-Clear/9781847941831',
 'https://www.bookdepository.com/es/Young-Forever-Mark-Hyman/9781399716307',
 'https://www.bookdepository.com/es/Things-We-Hide-From-Light-Lucy-Score/9781399713771',
 'https://www.bookdepository.com/es/It-Ends-With-Us-most-heartbreaking-novel-youll-ever-read-Colleen-Hoover/9781471156267',
 'https://www.bookdepository.com/es/Letters-I-Will-Never-Send-Isabella-Dorta/9781529901061',
 'https://www.bookdepository.com/es/Parenting-Map-Shefali-Tsabary/9780063267954',
 'https://www.bookdepository.com/es/UPROAR-Alice-Loxton/9781785789540',
 'https://www.bookdepository.com/es/Parenting-Map-Dr-Shefali-Tsabary/9781399719087',
 'https://www.bookdepository.com/es/I-Dont-Need-Therapy-Toni-Lodge/9781761067693',
 'https://www.bookdepository.com/es/Seven-Husbands-Evelyn-Hugo-Taylor-Jenkins-Reid/9781398515697',
 'https://www.bookdepository.c

Vamos a analizar el url de un libro primero

In [50]:
# Hacemos un nuevo request para un libro (el segundo que aparece en la web): 
r = requests.get(lista_URLs[1])

# Creamos una sopa específica con la info de cada libro
soup_libro = bs(r.content)


creamos un soup del primer libro

In [51]:
soup_libro

<!DOCTYPE html>
<html lang="en">
<head>
<link href="https://d3ogvdx946i4sr.cloudfront.net" rel="preconnect"/>
<link href="https://d3ogvdx946i4sr.cloudfront.net" rel="dns-prefetch"/>
<script type="text/javascript">
        function csmWidgetStart(widgetName) {
            if (typeof uet == 'function') {
                uet('bb', widgetName, {wb: 1});
            }
        }
        function csmWidgetEnd(widgetName) {
            if (typeof uet == 'function') {
                uex('ld', widgetName, {wb: 1});
            }
        }
    </script>
<noscript>
<style>
            .hide-when-no-js {
                display: none !important;
            }

            .show-when-no-js {
                display: block !important;
            }
        </style>
</noscript>
<meta content="text/html; charset=utf-8" http-equiv="content-type"/>
<meta content="©2020 Book Depository Ltd." name="copyright"/>
<meta content="Book Depository" name="author"/>
<meta content="width=device-width, initial-scal

Obtenemos el titulo del libro

In [49]:
soup.h1.get_text()

'Los más vendidos — nuestros artículos más populares, actualizados diariamente.'

El rating

In [54]:
rating_count = soup_libro.find('span', class_='rating-count')\
        .get_text(strip=True)[1:].split()[0]\
        .replace(',','')
rating_count = int(rating_count)
rating_count

567225

In [55]:
price = soup_libro.find('span',class_= 'sale-price')\
        .get_text().split()[0].replace(',', '.')
price = float(price)
price

21.4

 Cuantas opiniones tiene el libro

In [53]:
rating_count = soup_libro.find("span", class_="rating-count").get_text()
rating_count

'\n                                    (567,225 opiniones de clientes de Goodreads)\n'

Tipo de formato

'Paperback'

Autor

'James Clear'

Precio

20.81

Url de la portada

<img alt="Atomic Habits" class="book-img" itemprop="image" src="https://d1w7fb2mkkr3kw.cloudfront.net/assets/images/book/lrg/9781/8479/9781847941831.jpg"/>

'https://d1w7fb2mkkr3kw.cloudfront.net/assets/images/book/lrg/9781/8479/9781847941831.jpg'

Ahora lo automatizamos para hacer un web scraping

In [69]:
pages = np.arange(1,3)
count = 1
for page in pages:
    URL = "https://www.bookdepository.com/es/bestsellers?page=" + str(page)
    r = requests.get(URL)
    soup = bs(r.text, "lxml")
    libros_grid = soup.find_all("div", class_="item-img")
    count_libro = 1
   
    for libro in libros_grid:
        #print del seguimiento de descarga
        print("Libro {} de {}, pag {} / {}".format(
            count_libro, len(libros_grid), page, len(pages)
        ))
        URL_libro = libro.find("a")["href"]
        r = requests.get(url_principal+URL_libro)
        soup_libro = bs(r.text, "lxml")

        

        #establecer ID para cada libro
        id_libro = "lb_" + str(count)
        
        name = soup_libro.find("h1").getText()
        try:
            price = float(soup_libro.find(class_="sale-price").text.split(" ")[0].replace(",","."))
        except:
            price = None

        print("Titulo {}: {}€".format(name, price))
        count_libro+=1
        count +=1
        
        #diccionario
        data  = {"id_libro": id_libro,
                 "name": name,
                 "price": price
                 }
        


Libro 1 de 30, pag 1 / 2
Titulo How to Paint Without a Brush : The Art of Red Hong Yi: 31.0€
Libro 2 de 30, pag 1 / 2
Titulo Atomic Habits : the life-changing million-copy #1 bestseller: 20.87€
Libro 3 de 30, pag 1 / 2
Titulo Young Forever : The Secrets to Living Your Longest, Healthiest Life: 22.49€
Libro 4 de 30, pag 1 / 2
Titulo Things We Hide From The Light : the unforgettable sequel to global bestseller Things We Never Got Over: 14.49€
Libro 5 de 30, pag 1 / 2
Titulo It Ends With Us: The most heartbreaking novel you'll ever read : The most heartbreaking novel you'll ever read: 13.09€
Libro 6 de 30, pag 1 / 2
Titulo The Letters I Will Never Send : poems to read, to write and to share: 18.5€
Libro 7 de 30, pag 1 / 2
Titulo The Parenting Map : Step-by-Step Solutions to Consciously Create the Ultimate Parent-Child Relationship: 31.55€
Libro 8 de 30, pag 1 / 2
Titulo UPROAR! : Satire, Scandal and Printmakers in Georgian London: 28.69€
Libro 9 de 30, pag 1 / 2
Titulo The Parenting Map :

---------------

Unnamed: 0,id_libro,name,price,author,format,rating,rating_count,imagen
0,lb_1,Me vs Brain : An Overthinker's Guide to Life,26.9,Hayley Morris,Hardback,,,https://d1w7fb2mkkr3kw.cloudfront.net/assets/i...
1,lb_2,Atomic Habits : the life-changing million-copy...,20.81,James Clear,Paperback,4.38,567225.0,https://d1w7fb2mkkr3kw.cloudfront.net/assets/i...
2,lb_3,"The Letters I Will Never Send : poems to read,...",18.5,Isabella Dorta,Paperback,1.0,1.0,https://d1w7fb2mkkr3kw.cloudfront.net/assets/i...
3,lb_4,It Ends With Us: The most heartbreaking novel ...,12.58,Colleen Hoover,Paperback,4.3,2215115.0,https://d1w7fb2mkkr3kw.cloudfront.net/assets/i...
4,lb_5,Final Offer : meet the new Dreamland billionai...,13.36,Lauren Asher,Paperback,4.64,1330.0,https://d1w7fb2mkkr3kw.cloudfront.net/assets/i...
5,lb_6,"The Body Keeps the Score : Mind, Brain and Bod...",17.01,Bessel van der Kolk,Paperback,4.46,121368.0,https://d1w7fb2mkkr3kw.cloudfront.net/assets/i...
6,lb_7,"UPROAR! : Satire, Scandal and Printmakers in G...",30.5,Alice Loxton,Hardback,4.5,4.0,https://d1w7fb2mkkr3kw.cloudfront.net/assets/i...
7,lb_8,Verity : The thriller that will capture your h...,13.06,Colleen Hoover,Paperback,4.38,1663104.0,https://d1w7fb2mkkr3kw.cloudfront.net/assets/i...
8,lb_9,Icebreaker,12.59,Hannah Grace,Paperback,4.13,127592.0,https://d1w7fb2mkkr3kw.cloudfront.net/assets/i...
9,lb_10,Timeless Textured Baby Crochet : 20 heirloom c...,22.27,Vita Apala,Paperback,,,https://d1w7fb2mkkr3kw.cloudfront.net/assets/i...
