# Beautiful Soup Tutorial

## ¿Pero.... qué es el web scraping?

En pocas palabras, el web scraping es la recopilación automatizada de datos de sitios web (para ser más precisos, del contenido HTML de los sitios web).

En este Jupyter, aprenderás los conceptos básicos sobre cómo extraer datos de HTML. 

Lo harás extrayendo datos de la página de libros más vendidos de Book Depository, y para lograr esto, también tendrá que hacer uso de un poco de pandas principalmente..

### Conoce a tus nuevos mejores amigos: 

- Beautiful Soup
- Requests

Para obtener la experiencia completa de Beautiful Soup, también deberás instalar un parser, dentro de ellos tenemos..

- html.parser
- lxml
- html5lib


## Mi primer scraping

Como siempre lo primero es importar las librerías 

In [1]:
from bs4 import BeautifulSoup as bs
import requests
import pandas as pd
import numpy as np
from datetime import datetime

## Ahora, estamos listos para solicitar nuestra primera página web. No es nada complicado: guardamos la URL que queremos raspar en la variable URL, luego solicitamos la URL (requests.get (url)) y guardamos la respuesta en la variable de respuesta:

In [2]:
url = "https://www.amantis.net/productos-amantis/"              # lista productos
url_principal="https://www.amantis.net/"                        # productos
response = requests.get(url)

Cómo saber si se guardo correctamente el sitio web?

In [3]:
print(response)

<Response [200]>


Posibles respuestas:

- [Respuestas informativas](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status#information_responses) (100–199)
- [Respuestas exitosas](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status#successful_responses) (200–299)
- [Mensajes de redirección](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status#redirection_messages) (300–399)
- [Respuestas de error del cliente](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status#client_error_responses) (400–499)
- [Respuestas de error del servidor](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status#server_error_responses) (500–599)

Pero necesitamos el contenido HTML de la página web solicitada, así que como siguiente paso guardamos el contenido de la respuesta a html:

In [4]:
html = response.content
soup = bs(html, "lxml")

Eliminamos las etiquetas

In [5]:
soup.a.get_text()

'Aquí tienes una guía para cómo habilitarlo'

## Obtener los datos de los productos (find_all + get_text)

Para ello vamos a inspeccionar en el navegador (click derecho sobre un titulo de un libro y elegimos inspeccionar)

Con este codigo extraigo la información de los productos

In [6]:
all_h3 = soup.find_all("h3")
all_h3

[<h3 class="t2sDiv-titulo hidden text-left color-corporativo">Top ventas en amantis</h3>,
 <h3 class="h3 group inner list-group-item-heading tdd_listado_nombre">
 <a href="https://www.amantis.net/tobogane-hot-rabbit-el-superventas-amantis-mejorado/">
 <span>TOBOGANE HOT RABBIT, el superventas de amantis ¡mejorado!</span>
 </a>
 </h3>,
 <h3 class="h3 group inner list-group-item-heading tdd_listado_nombre">
 <a href="https://www.amantis.net/ballenato-tu-vibrador-distancia-aleta-movil-sumergible/">
 <span>BALLENATO, tu vibrador a distancia con aleta móvil y sumergible...</span>
 </a>
 </h3>,
 <h3 class="h3 group inner list-group-item-heading tdd_listado_nombre">
 <a href="https://www.amantis.net/meneo-sube-baja-realista-control-remoto/">
 <span>MENEO sube y baja, placer realista con control remoto</span>
 </a>
 </h3>,
 <h3 class="h3 group inner list-group-item-heading tdd_listado_nombre">
 <a href="https://www.amantis.net/foxtail-plug-anal-cola-zorro/">
 <span>FOXTAIL, plug anal cola de z

Con este codigo extraigo los precios

In [7]:
all_price=soup.find_all("span",class_="productSpecialPrice")
price=[]

for precio in all_price:
    item_price=precio.get_text(strip=True).replace(",", ".").split('€')[0]
    price.append(item_price)
price


['39.99',
 '43.99',
 '44.99',
 '9.99',
 '17.99',
 '36.99',
 '9.99',
 '99.99',
 '29.99',
 '59.99',
 '17.99',
 '4.99',
 '14.99',
 '29.99',
 '34.99',
 '26.99',
 '24.99',
 '19.99',
 '9.99',
 '24.99',
 '9.99',
 '24.99',
 '17.99']

Con este codigo extraigo la información de los nombres de los productos

Queda pendiente evitar que name y demás variables sean listas de listas

In [8]:
titulos=soup.find_all("h3")
name=[]
desc=[]
for titulo in titulos[1:]:
    nombre=titulo.get_text(strip=True).split(',')[0]
    # description=titulo.get_text(strip=True).split(',')[1]
    name.append(nombre)
    # desc.append(description)
print(name)

['TOBOGANE HOT RABBIT', 'BALLENATO', 'MENEO sube y baja', 'FOXTAIL', 'LIZO 2', 'TOBOGANE', 'Bacanal Gel Anal monodosis', 'Vibrador Líquido con sabor Desliz! VIBRAGEL 30ml', 'FRESH GIRL', 'SAZZIA', 'TANDEM 2 flex', 'CRISTALINO XL', 'FLOGGY - Flogger BDSM de piel vegana', 'SÜABE - Flogger BDSM de pelo sintético vegano', 'REGGIA', 'Pro ANAL', 'TROMPI', 'Kit de 3 Plugs anales con diamante BLACK STAR Plugress', 'POWER UP METER - Bomba de succión con manómetro', 'DULCE TORMENTO', 'CUORE TRÍO', 'MAGIC CUP', 'TRIS-TRAS', 'MASTINA']


In [9]:
soup.find_all("h3")

[<h3 class="t2sDiv-titulo hidden text-left color-corporativo">Top ventas en amantis</h3>,
 <h3 class="h3 group inner list-group-item-heading tdd_listado_nombre">
 <a href="https://www.amantis.net/tobogane-hot-rabbit-el-superventas-amantis-mejorado/">
 <span>TOBOGANE HOT RABBIT, el superventas de amantis ¡mejorado!</span>
 </a>
 </h3>,
 <h3 class="h3 group inner list-group-item-heading tdd_listado_nombre">
 <a href="https://www.amantis.net/ballenato-tu-vibrador-distancia-aleta-movil-sumergible/">
 <span>BALLENATO, tu vibrador a distancia con aleta móvil y sumergible...</span>
 </a>
 </h3>,
 <h3 class="h3 group inner list-group-item-heading tdd_listado_nombre">
 <a href="https://www.amantis.net/meneo-sube-baja-realista-control-remoto/">
 <span>MENEO sube y baja, placer realista con control remoto</span>
 </a>
 </h3>,
 <h3 class="h3 group inner list-group-item-heading tdd_listado_nombre">
 <a href="https://www.amantis.net/foxtail-plug-anal-cola-zorro/">
 <span>FOXTAIL, plug anal cola de z

In [10]:
name

['TOBOGANE HOT RABBIT',
 'BALLENATO',
 'MENEO sube y baja',
 'FOXTAIL',
 'LIZO 2',
 'TOBOGANE',
 'Bacanal Gel Anal monodosis',
 'Vibrador Líquido con sabor Desliz! VIBRAGEL 30ml',
 'FRESH GIRL',
 'SAZZIA',
 'TANDEM 2 flex',
 'CRISTALINO XL',
 'FLOGGY - Flogger BDSM de piel vegana',
 'SÜABE - Flogger BDSM de pelo sintético vegano',
 'REGGIA',
 'Pro ANAL',
 'TROMPI',
 'Kit de 3 Plugs anales con diamante BLACK STAR Plugress',
 'POWER UP METER - Bomba de succión con manómetro',
 'DULCE TORMENTO',
 'CUORE TRÍO',
 'MAGIC CUP',
 'TRIS-TRAS',
 'MASTINA']

Con este codigo extraigo la descripción del producto

In [11]:
titulos=soup.find_all("h3")
desc=[]

for titulo in titulos[1:]:
    description=titulo.get_text(strip=True).split(', ')[1:]
    if description==[]:
        description=["No hay datos"]
    desc.append(description)

print(desc)

[['el superventas de amantis ¡mejorado!'], ['tu vibrador a distancia con aleta móvil y sumergible...'], ['placer realista con control remoto'], ['plug anal cola de zorro de 35cm'], ['Dildo de suave silicona en 3 tamaños'], ['el vibrador doble más vendido'], ['Pack de 10 uds'], ['hormigueo...'], ['6 Kilos y 40cm de piel real disfrutable'], ['masturbador hiperrealista'], ['vibrador doble flexible con mando'], ['gran dildo transparente de 22cm'], ['No hay datos'], ['No hay datos'], ['masturbador masculino doble'], ['vibrador anal progresivo'], ['vibrador sumergible ideal para Punto-G'], ['No hay datos'], ['No hay datos'], ['pala de bambú para azotes'], ['Kit de 3 plugs con corazón'], ['Masturbarse mola un huevo'], ['anilla con vibrador para doble penetración TRINITY...'], ['un arnés clásico', 'cómodo y sencillo']]


Con esto extraigo los links de los productos

In [12]:
productos = soup.find_all(class_='caption')
lista_URLs = []
for producto in productos[8:]:
    URL_producto = producto.find('a')['href']
    lista_URLs.append(URL_producto)

len(lista_URLs)

24

Con esta parte del codigo intento extraer la información de los comentarios??

In [13]:
# hearts = soup.find_all("h3",class_="col_xs_12")
# # hearts
# for heart in hearts:
#        print(heart.get_text())
# # print(len(all_price))

In [14]:
# hearts

Quedaría entrar en cada link para extraer la información de los comentarios de cada producto, número de comentarios por ejemplo.

Este es el codigo completo para extraer la información de cada página

In [39]:
titulos=soup.find_all("h3")
name=[]
desc=[]
price=[]
lista_URLs = []

for titulo in titulos:
    nombre=titulo.get_text(strip=True).split(',')[0]
    name.append(nombre)
    description=titulo.get_text(strip=True).split(', ')[1:]
    if description==[]:
        description=["No hay datos"]
    desc.append(description)

all_price=soup.find_all("span",class_="productSpecialPrice")

for precio in all_price:
    item_price=precio.get_text(strip=True).replace(",", ".").split('€')[0]
    price.append(item_price)

productos = soup.find_all(class_='caption')
for producto in productos[8:]:
    URL_producto = producto.find('a')['href']
    lista_URLs.append(URL_producto)

df_productos = pd.DataFrame({"Name": name,"Description": desc,"Price":price,"link":lista_URLs})
df_productos

Unnamed: 0,Name,Description,Price,link
0,Realidad Virtual 2,[tacto real + rotación + vibración],37.99,https://www.amantis.net/realidad-virtual-2-tac...
1,ERGO-G de amantis,[con 3 motores y recargable ¡tiembla Punto...],74.99,https://www.amantis.net/ergo-g-amantis-3-motor...
2,Mr BUFF recargable,[1 vibrador en cada oreja! éxtasis en estéreo...],49.99,https://www.amantis.net/mr-buff-recargable-1-v...
3,Seda•G de amantis,[doble estimulación de sedosa silicona],24.99,https://www.amantis.net/seda-g-amantis-doble-e...
4,AMAZONE PELOUSSE - Azotes y Caricias,[No hay datos],9.99,https://www.amantis.net/amazone-pelousse-azote...
5,Azótame Corazón,[paleta de polipiel color rosa o negro],5.99,https://www.amantis.net/azotame-corazon-paleta...
6,Pendientes para pezones con aros,[estimulación garantizada],6.99,https://www.amantis.net/pendientes-pezones-aro...
7,Pluma para caricias eróticas con aplicador,[No hay datos],4.99,https://www.amantis.net/pluma-caricias-erotica...
8,Cuerdita con plumas para caricias eróticas,[No hay datos],3.99,https://www.amantis.net/cuerdita-plumas-carici...
9,Kit de inmovilización de amantis Hogtie-Fácil,[No hay datos],21.99,https://www.amantis.net/kit-inmovilizacion-ama...


In [36]:
print("Nombres:" ,len(name))
print("descrip:" ,len(desc))
print("precio:" ,len(price))
print("URL:" ,len(lista_URLs))



Nombres: 24
descrip: 24
precio: 24
URL: 24


In [37]:
name[0]

'Realidad Virtual 2'

In [38]:
lista_URLs[0]

'https://www.amantis.net/realidad-virtual-2-tacto-real-rotacion-vibracion/'

Genero un Dataframe

In [None]:
# df_productos = pd.DataFrame({"Name": name,"Description": desc,"Price":price,"link":lista_URLs})
# len(df_productos)

24

Vamos a sacar la información de todas las páginas posibles, para extraer los links de los productos y ver si podemos sacar la información de su página concreta 

In [40]:
lista_URLs[0]

'https://www.amantis.net/realidad-virtual-2-tacto-real-rotacion-vibracion/'

In [41]:
# Hacemos un nuevo request para el primer libro: 
r = requests.get(lista_URLs[0])

# Creamos una sopa específica con la info de cada libro
soup_producto = bs(r.text, "lxml")

In [None]:
soup_producto

In [43]:
name = soup_producto.find('h1').text
print(name)

Realidad Virtual 2, tacto real + rotación + vibración


Con esta parte del código obtengo la información desde la página 1 en adelante

In [None]:
# type(pages[1])

NameError: name 'pages' is not defined

In [None]:
page=3
url = "https://www.amantis.net/productos-amantis/"              # lista productos
URL = url+'page' + str(page)+'/'
response = requests.get(URL)
titulos=soup.find_all("h3")
titulos

[<h3 class="t2sDiv-titulo hidden text-left color-corporativo">Top ventas en amantis</h3>,
 <h3 class="h3 group inner list-group-item-heading tdd_listado_nombre">
 <a href="https://www.amantis.net/tobogane-hot-rabbit-el-superventas-amantis-mejorado/">
 <span>TOBOGANE HOT RABBIT, el superventas de amantis ¡mejorado!</span>
 </a>
 </h3>,
 <h3 class="h3 group inner list-group-item-heading tdd_listado_nombre">
 <a href="https://www.amantis.net/meneo-sube-baja-realista-control-remoto/">
 <span>MENEO sube y baja, placer realista con control remoto</span>
 </a>
 </h3>,
 <h3 class="h3 group inner list-group-item-heading tdd_listado_nombre">
 <a href="https://www.amantis.net/ballenato-tu-vibrador-distancia-aleta-movil-sumergible/">
 <span>BALLENATO, tu vibrador a distancia con aleta móvil y sumergible...</span>
 </a>
 </h3>,
 <h3 class="h3 group inner list-group-item-heading tdd_listado_nombre">
 <a href="https://www.amantis.net/squizze-vibrador-multiple-squirting/">
 <span>SQUIZZE - Vibrador mú

In [None]:
URL                             # Esto está mal, por esto no coge bien los datos de los links

'https://www.amantis.net/productos-amantis/page3/'

In [None]:
html = response.content
soup = bs(html, "lxml")

In [45]:
url = "https://www.amantis.net/productos-amantis/"              # lista productos
url_principal="https://www.amantis.net/"                        # productos
response = requests.get(url)


pages= np.arange(1,5)
name=[]
desc=[]
price=[]
lista_URLs = []

for page in pages:
    if page == 1:
        print("Pagina",page)
        URL = url
        response = requests.get(url)
        soup = bs(response.text, 'lxml')
        titulos=soup.find_all("h3")

        for titulo in titulos:
            nombre=titulo.get_text(strip=True).split(',')[0]
            name.append(nombre)
            description=titulo.get_text(strip=True).split(', ')[1:]
            if description==[]:
                description=["No hay datos"]
            desc.append(description)
            print(nombre)

        all_price=soup.find_all("span",class_="productSpecialPrice")

        for precio in all_price:
            item_price=precio.get_text(strip=True).replace(",", ".").split('€')[0]
            price.append(item_price)


        productos = soup.find_all(class_='caption')

        for producto in productos[8:]:
            URL_producto = producto.find('a')['href']
            lista_URLs.append(URL_producto)
            print(URL_producto)
            
            
    else:
        print("Pagina",page)
        URL = url+'page' + str(page)+'/'
        response = requests.get(URL)
        soup = bs(response.text, 'lxml')
        titulos=soup.find_all("h3")

        for titulo in titulos:
            nombre=titulo.get_text(strip=True).split(',')[0]
            name.append(nombre)
            description=titulo.get_text(strip=True).split(', ')[1:]
            if description==[]:
                description=["No hay datos"]
            desc.append(description)
            print(nombre)

        for precio in all_price:
            item_price=precio.get_text(strip=True).replace(",", ".").split('€')[0]
            price.append(item_price)

        productos = soup.find_all(class_='caption')

        for producto in productos[8:]:
            URL_producto = producto.find('a')['href']
            lista_URLs.append(URL_producto)
            print(URL_producto)


Pagina 1
Top ventas en amantis
TOBOGANE HOT RABBIT
BALLENATO
MENEO sube y baja
FOXTAIL
LIZO 2
TOBOGANE
Bacanal Gel Anal monodosis
Vibrador Líquido con sabor Desliz! VIBRAGEL 30ml
FRESH GIRL
SAZZIA
TANDEM 2 flex
CRISTALINO XL
FLOGGY - Flogger BDSM de piel vegana
SÜABE - Flogger BDSM de pelo sintético vegano
REGGIA
Pro ANAL
TROMPI
Kit de 3 Plugs anales con diamante BLACK STAR Plugress
POWER UP METER - Bomba de succión con manómetro
DULCE TORMENTO
CUORE TRÍO
MAGIC CUP
TRIS-TRAS
MASTINA
https://www.amantis.net/tobogane-hot-rabbit-el-superventas-amantis-mejorado/
https://www.amantis.net/ballenato-tu-vibrador-distancia-aleta-movil-sumergible/
https://www.amantis.net/meneo-sube-baja-realista-control-remoto/
https://www.amantis.net/foxtail-plug-anal-cola-zorro/
https://www.amantis.net/lizo-2-dildo-suave-silicona-3-tamanos/
https://www.amantis.net/tobogane-el-vibrador-doble-mas-vendido-ahora-efecto-hot/
https://www.amantis.net/bacanal-monodosis-pack-10-uds/
https://www.amantis.net/desliz-vibrag

In [9]:
print(len(lista_URLs))

96


In [18]:
df_productos = pd.DataFrame({"link":lista_URLs})
df_productos

Unnamed: 0,link
0,https://www.amantis.net/tobogane-hot-rabbit-el...
1,https://www.amantis.net/ballenato-tu-vibrador-...
2,https://www.amantis.net/meneo-sube-baja-realis...
3,https://www.amantis.net/foxtail-plug-anal-cola...
4,https://www.amantis.net/lizo-2-dildo-suave-sil...
...,...
91,https://www.amantis.net/prince-vibrador-silico...
92,https://www.amantis.net/gota-soft-large-plug-a...
93,https://www.amantis.net/rocker-g-potente-estim...
94,https://www.amantis.net/gotical-choker-sujetad...


In [19]:
df_productos = pd.DataFrame({"Name": name,"Description": desc,"link":lista_URLs})
df_productos.head()

Unnamed: 0,Name,Description,link
0,TOBOGANE HOT RABBIT,[el superventas de amantis ¡mejorado!],https://www.amantis.net/tobogane-hot-rabbit-el...
1,BALLENATO,[tu vibrador a distancia con aleta móvil y sum...,https://www.amantis.net/ballenato-tu-vibrador-...
2,MENEO sube y baja,[placer realista con control remoto],https://www.amantis.net/meneo-sube-baja-realis...
3,FOXTAIL,[plug anal cola de zorro de 35cm],https://www.amantis.net/foxtail-plug-anal-cola...
4,LIZO 2,[Dildo de suave silicona en 3 tamaños],https://www.amantis.net/lizo-2-dildo-suave-sil...


Verifico que he conseguido las URLs de los productos

In [None]:

response = requests.get(lista_URLs[0])
html = response.content
soup_producto = bs(html, "lxml")
# titulo = soup_producto.find('h1').text
titulo=soup_producto.get_text(strip=True).split(',')[0]
# description=soup_producto.get_text(strip=True).split(',')[1:]                   #  Tengo que ver como extraer unicamente la información
# if description==[]:
#     description=["No hay datos"]

all_price = soup_producto.find_all("span",class_="productSpecialPrice")
price = [float(x.get_text(strip=True).replace(",", ".").split('€')[0]) for x in all_price]

print("Nombre producto ",titulo)
# print("Descripción ",description)

print("Precio ",price)

Nombre producto  TOBOGANE HOT RABBIT
Precio  [39.99]


Extraer la información de producto, descripción, enlace y precio tomando los datos desde las URLs de cada producto.

Queda pendiente extraer información de los ratings y los comentarios para establecer un estudio

In [50]:
url = "https://www.amantis.net/productos-amantis/"              # lista productos
url_principal="https://www.amantis.net/"                        # productos
response = requests.get(url)


pages= np.arange(1, 25)
name=[]
desc=[]
price=[]
lista_URLs = []

for page in pages:
    if page == 1:
        print("Pagina",page)
        URL = url
        response = requests.get(url)
        soup = bs(response.text, 'lxml')
        titulos=soup.find_all("h3")

        for titulo in titulos[1:]:
            nombre=titulo.get_text(strip=True).split(',')[0]
            name.append(nombre)
            description=titulo.get_text(strip=True).split(', ')[1:]
            if description==[]:
                description=["No hay datos"]
            desc.append(description)

        all_price=soup.find_all("span",class_="productSpecialPrice")

        for precio in all_price:
            item_price=precio.get_text(strip=True).replace(",", ".").split('€')[0]
            price.append(item_price)


        productos = soup.find_all(class_='caption')

        for producto in productos[8:]:
            URL_producto = producto.find('a')['href']
            lista_URLs.append(URL_producto)
            
            
    else:
        print("Pagina",page)
        URL = url+'page' + str(page)+'/'
        response = requests.get(URL)
        soup = bs(response.text, 'lxml')
        titulos=soup.find_all("h3")

        for titulo in titulos:
            nombre=titulo.get_text(strip=True).split(',')[0]
            name.append(nombre)
            description=titulo.get_text(strip=True).split(', ')[1:]
            if description==[]:
                description=["No hay datos"]
            desc.append(description)

        for precio in all_price:
            item_price=precio.get_text(strip=True).replace(",", ".").split('€')[0]
            price.append(item_price)

        productos = soup.find_all(class_='caption')

        for producto in productos[8:]:
            URL_producto = producto.find('a')['href']
            lista_URLs.append(URL_producto)




# df_productos = pd.DataFrame({"Name": name,"Description": desc,"Price":price,"link":lista_URLs})
# df_productos.head()


Pagina 1
Pagina 2
Pagina 3
Pagina 4
Pagina 5
Pagina 6
Pagina 7
Pagina 8
Pagina 9
Pagina 10
Pagina 11
Pagina 12
Pagina 13
Pagina 14
Pagina 15
Pagina 16
Pagina 17
Pagina 18
Pagina 19
Pagina 20
Pagina 21
Pagina 22
Pagina 23
Pagina 24


In [51]:
print("Nombres:" ,len(name))
print("descrip:" ,len(desc))
print("precio:" ,len(price))                    #  Se ve que hay un desajuste en el precio al extraer la información de 1 pagina
print("URL:" ,len(lista_URLs))

Nombres: 576
descrip: 576
precio: 552
URL: 576


In [52]:
print("Nombres:\n" ,name[:5])
print("descrip:\n" ,desc[:5])
print("precio:\n" ,price[:5])
print("URL:\n" ,lista_URLs[:5])

Nombres:
 ['TOBOGANE HOT RABBIT', 'BALLENATO', 'MENEO sube y baja', 'FOXTAIL', 'LIZO 2']
descrip:
 [['el superventas de amantis ¡mejorado!'], ['tu vibrador a distancia con aleta móvil y sumergible...'], ['placer realista con control remoto'], ['plug anal cola de zorro de 35cm'], ['Dildo de suave silicona en 3 tamaños']]
precio:
 ['39.99', '43.99', '44.99', '9.99', '17.99']
URL:
 ['https://www.amantis.net/tobogane-hot-rabbit-el-superventas-amantis-mejorado/', 'https://www.amantis.net/ballenato-tu-vibrador-distancia-aleta-movil-sumergible/', 'https://www.amantis.net/meneo-sube-baja-realista-control-remoto/', 'https://www.amantis.net/foxtail-plug-anal-cola-zorro/', 'https://www.amantis.net/lizo-2-dildo-suave-silicona-3-tamanos/']


Intentando extraer la información de ratings

In [58]:
prueba=lista_URLs[1]
response = requests.get(prueba)
soup_prueba = bs(response.text, 'lxml')

titulo=soup_prueba.get_text(strip=True).split(',')[0]
print(titulo)

BALLENATO


Con esto consigo extraer la información de las fechas de los comentarios,

In [232]:
import re
from dateutil import parser

In [254]:
rating=[]
all_ratings = soup_prueba.find_all("span", class_="date")  
sep_1=(' ')
sep_2=(', ')
# pattern = re.compile(sep)
for ratings in all_ratings:
    rating_coment_1=ratings.get_text(strip=True).split(sep_2)[1]
    rating_coment_2=ratings.get_text(strip=True).split(sep_2)[0]
    rating_coment_3=rating_coment_2.split(sep_1)[1:]
    date_1=rating_coment_3[0]+"/"+rating_coment_3[1]
    date_2=date_1+"/"+rating_coment_1                                       # Estamos pendientes de convertir a fechas, teniendo en cuenta
    date_object = datetime.strptime(date_2,'%d%m%Y')                        # que esta en español
    
    # print(type(date_1))
    # print(date_1)
    # rating.append(date_object)
    print(type(date_2))
    print(date_2)

# print(len(rating))
rating

TypeError: 'str' object cannot be interpreted as an integer

Con esto consigo extraer la información de los usuarios que han comentado, en el caso que no haya datos ver como modificarlo

In [61]:
user_comments=[]
all_user_comments = soup_prueba.find_all("span", class_="name-user")  

for user_comment in all_user_comments:
    user_comments.append(user_comment.get_text(strip=True))

print(len(user_comments))
user_comments[0]

19


'Tomabel'

In [26]:
user_comments

[]

Aquí extraigo la información de los comentarios y los meto en una lista

In [62]:
comment=[]
all_comments = soup_prueba.find_all("p")
for formats in all_comments[-len(rating):]:
    comment.append(formats.get_text(strip=True))

print(comment[1])
len(comment)


me lo regaló mi pareja y la verdad es que nos encanto! lo estamos incorporando más a nuestro día a día y nos parece de lo más!


19

Cómo puedo saber la valoración que tienen los productos? 

data_prefix=far es que no tiene punto
data_prefix=fas es que tiene un punto hasta un máximo de 5

In [None]:
# hearts = soup_prueba.find_all("div",class_="box-description")

# hearts

[<div class="box-description">
 <span class="fas fa-heart"></span><span class="fas fa-heart"></span><span class="fas fa-heart"></span><span class="fas fa-heart"></span><span class="far fa-heart"></span> <span class="date">lunes 05 diciembre, 2022</span>
 </div>,
 <div class="box-description">
 <span class="fas fa-heart"></span><span class="fas fa-heart"></span><span class="fas fa-heart"></span><span class="fas fa-heart"></span><span class="fas fa-heart"></span> <span class="date">miércoles 16 noviembre, 2022</span>
 </div>,
 <div class="box-description">
 <span class="fas fa-heart"></span><span class="fas fa-heart"></span><span class="fas fa-heart"></span><span class="fas fa-heart"></span><span class="fas fa-heart"></span> <span class="date">lunes 30 mayo, 2022</span>
 </div>]

In [63]:
# hearts = soup_prueba.find_all("span",class_="svg-inline--fa fa-heart fa-w-18")
# hearts = soup_prueba.get_text("svg")
hearts

NameError: name 'hearts' is not defined

Vamos a extraer la información de la descripción de cada producto, lo anterior era el subtitulo,

hay que buscar otro método para extraer esta información para poder guardarla correctamente.

Los rangos no cuadran

In [None]:

# prueba_2=rating.get_text()
# prueba_2


3

In [None]:
rating

Vamos a probar a agregar datos dentro del bucle inicial

In [3]:
url = "https://www.amantis.net/productos-amantis/"              # lista productos
url_principal="https://www.amantis.net/"                        # productos
response = requests.get(url)


pages= np.arange(1,5)
# pages= np.arange(1, 25)
name=[]
desc=[]
price=[]
lista_URLs = []
user_comments=[]
comment=[]
rating=[]


for page in pages:
    if page == 1:
        print("Pagina",page)
        URL = url
        response = requests.get(url)
        soup = bs(response.text, 'lxml')

        titulos=soup.find_all("h3")
        for titulo in titulos[1:]:
            nombre=titulo.get_text(strip=True).split(',')[0]
            name.append(nombre)
            description=titulo.get_text(strip=True).split(', ')[1:]
            if description==[]:
                description=["No hay datos"]
            desc.append(description)

        all_price=soup.find_all("span",class_="productSpecialPrice")
        for precio in all_price:
            item_price=precio.get_text(strip=True).replace(",", ".").split('€')[0]
            price.append(item_price)




            
            
    else:
        print("Pagina",page)
        URL = url+'page' + str(page)+'/'
        response = requests.get(URL)
        soup = bs(response.text, 'lxml')
        titulos=soup.find_all("h3")

        for titulo in titulos:
            nombre=titulo.get_text(strip=True).split(',')[0]
            name.append(nombre)
            description=titulo.get_text(strip=True).split(', ')[1:]
            if description==[]:
                description=["No hay datos"]
            desc.append(description)

        all_price=soup.find_all("span",class_="productSpecialPrice")
        for precio in all_price:
            item_price=precio.get_text(strip=True).replace(",", ".").split('€')[0]
            price.append(item_price)



Pagina 1
Pagina 2
Pagina 3
Pagina 4


In [None]:
print("Nombres:" ,len(name))
print("descrip:" ,len(desc))
print("precio:" ,len(price))                    #  Se ve que hay un desajuste en el precio al extraer la información de 1 pagina
print("URL:" ,len(lista_URLs))
print("dates:" ,len(rating))
print("Comentarios:" ,len(comment))
print("Usuarios:" ,len(user_comments))


In [None]:
print("Nombres:\n" ,name[:5])
print("descrip:\n" ,desc[:5])
print("precio:\n" ,price[:5])
print("URL:\n" ,lista_URLs[:5])
print("dates:\n" ,rating[:5])
print("Comentarios:\n" ,comment[:5])          # Esto no lo coge bien
print("Usuarios:\n" ,user_comments[:5])


Con este trozo de codigo obtengo la información relevante del producto y la separo en descripción y características

In [142]:
URL=lista_URLs[:2]


# name=[]
# desc=[]
# price=[]
# lista_URLs = []
user_comments=[]
comment=[]
date=[]




for i in URL:
    prueba=i
    response = requests.get(prueba)
    soup_prueba = bs(response.text, 'lxml')
    user_comments_product=[]
    date_comments_product=[]
    comments_product=[]

    # information=soup_prueba.find("div", class_="description") 
    # info=information.get_text().split('\n')[1:5]
    # name.append(info)
    # caract=information.get_text().split('\n')[5:-3]
    # desc.append(caract)

    # all_user_comments = soup_prueba.find_all("span", class_="name-user") 
    # for user_comment in all_user_comments:
    #     user_comments_product.append(user_comment.get_text(strip=True))
    # user_comments.append(user_comments_product)

    all_dates = soup_prueba.find_all("span", class_="date")  
    for dates in all_dates:
        date_comments_product.append(dates.get_text(strip=True).split(" \d"))
    date.append(date_comments_product)

    # all_comments = soup_prueba.find_all("p")
    # for formats in all_comments[-len(date_comments_product):]:
    #     comments_product.append(formats.get_text(strip=True))
    # comment.append(comments_product)


    # print(info)
    # print('-'*20)
    # print(caract)
    # print('-'*20)
    # print(user_comments_product)
    print('-'*20)
    print(date_comments_product)
    print('-'*20)
    print("longitud:",len(date_comments_product))
    print('-'*20)
    # print(comments_product)
    # print('-'*20)
    # print("longitud:",len(comments_product))
    # print('-'*20)
# print('-'*20)
# print(name)
# print('-'*20)
# print(len(name))
# print('-'*20)
# print(desc)
# print('-'*20)
# print(user_comments)
# print('-'*20)
# print(len(user_comments))
# print('-'*20)
# print(comment)
# print('-'*20)
# print(len(comment))
# print('-'*20)
print(date)
print('-'*20)
print(len(date))







--------------------
[['martes 22 noviembre, 2022'], ['jueves 07 julio, 2022'], ['sábado 23 abril, 2022'], ['jueves 07 abril, 2022'], ['sábado 26 marzo, 2022'], ['lunes 31 enero, 2022'], ['domingo 26 diciembre, 2021'], ['lunes 20 diciembre, 2021'], ['martes 23 noviembre, 2021'], ['viernes 08 octubre, 2021'], ['lunes 13 septiembre, 2021'], ['miércoles 01 septiembre, 2021'], ['miércoles 11 agosto, 2021'], ['lunes 07 junio, 2021'], ['lunes 05 abril, 2021'], ['viernes 05 marzo, 2021'], ['jueves 26 noviembre, 2020'], ['martes 24 noviembre, 2020'], ['jueves 12 noviembre, 2020'], ['viernes 18 septiembre, 2020']]
--------------------
longitud: 20
--------------------
--------------------
[['miércoles 01 febrero, 2023'], ['viernes 18 noviembre, 2022'], ['martes 06 septiembre, 2022'], ['miércoles 13 julio, 2022'], ['viernes 17 junio, 2022'], ['viernes 05 noviembre, 2021'], ['martes 06 julio, 2021'], ['lunes 24 mayo, 2021'], ['domingo 16 mayo, 2021'], ['viernes 30 abril, 2021'], ['viernes 16 abri

In [58]:
URL=lista_URLs[:2]
print(URL)

['https://www.amantis.net/tobogane-hot-rabbit-el-superventas-amantis-mejorado/', 'https://www.amantis.net/ballenato-tu-vibrador-distancia-aleta-movil-sumergible/']


In [None]:
comment

## Este es el código bueno para obtener la información de las páginas.

Queda pendiente de agregar nuevos parámetros.

In [29]:
url = "https://www.amantis.net/productos-amantis/"              # lista productos
url_principal="https://www.amantis.net/"                        # productos
# pages= np.arange(1,5)
pages= np.arange(1, 25)

'''Listas a generar con la información de los productos'''
lista_URLs = []
name=[]
subname=[]
regular_prices=[]
new_price=[]
# lista_URLs = []
info=[]
charac=[]
user_comments=[]
comment=[]
date=[]

''' Obtenemos las URLs de los productos para entrar luego en sus URLS y extraer la información'''

for page in pages:
    if page == 1:
        print("Pagina",page)
        URL = url
        response = requests.get(url)
        soup = bs(response.text, 'lxml')
        productos = soup.find_all(class_='caption')
        for producto in productos[8:]:
            URL_producto = producto.find('a')['href']
            lista_URLs.append(URL_producto)
        
    else:
        print("Pagina",page)
        URL = url+'page' + str(page)+'/'
        response = requests.get(URL)
        soup = bs(response.text, 'lxml')
        productos = soup.find_all(class_='caption')
        for producto in productos[8:]:
            URL_producto = producto.find('a')['href']
            lista_URLs.append(URL_producto)

'''Extraemos la información de cada producto existente'''

for URL in lista_URLs:
    url_product=URL
    response_product = requests.get(url_product)
    soup_product = bs(response_product.text, 'lxml')
    user_comments_product=[]
    date_comments_product=[]
    comments_product=[]

    titulos=soup_product.find_all("h1",class_="h3")
    for titulo in titulos:
        nombre=titulo.get_text(strip=True).split(',')[0]
        name.append(nombre)
        sub_title=titulo.get_text(strip=True).split(', ')[1:]
        if sub_title==[]:
            sub_title=["No hay datos"]
        subname.append(sub_title)

    all_price = soup_product.find_all("div", class_="productoPrecio pull-right tdd_precio")                        
    for price_container in all_price:                                                                    
        try:
            special_price = price_container.find("span", class_="productSpecialPrice")
            if special_price:
                item_price = float(special_price.get_text(strip=True).replace(",", ".").split('€')[0])
                new_price.append(item_price)
                regular_price = price_container.find("del").get_text(strip=True)
                item_regular_price = float(regular_price.replace(",", ".").split('€')[0])
                regular_prices.append(item_regular_price)
            else:
                regular_price = price_container.find("span").get_text(strip=True)
                item_regular_price = float(regular_price.replace(",", ".").split('€')[0])
                new_price.append(item_regular_price)
                regular_prices.append(None)
        except:
            new_price.append(None)
            regular_prices.append(None)

    description=soup_product.find("div", class_="description") 
    information=description.get_text().split('\n')[1:5]
    info.append(information)
    characteristic=description.get_text().split('\n')[5:-3]
    charac.append(characteristic)

    all_user_comments = soup_product.find_all("span", class_="name-user") 
    for user_comment in all_user_comments:
        user_comments_product.append(user_comment.get_text(strip=True))
    user_comments.append(user_comments_product)

    all_dates = soup_product.find_all("span", class_="date")  
    for dates in all_dates:
        dates_text=dates.get_text(strip=True)
        # dates=datetime.strftime(dates, '%dd/%mm/%Y')
        date_comments_product.append(dates_text)
        # date_object = datetime.strptime(date_comments_product)
    date.append(date_comments_product)

    all_comments = soup_product.find_all("p")
    for formats in all_comments[-len(date_comments_product):]:
        comments_product.append(formats.get_text(strip=True))
    comment.append(comments_product)

for i, regular_price in enumerate(regular_prices):
    if regular_price is None:
        regular_prices[i] = new_price[i]


# print('-'*20)
# print(name)
print('-'*20)
print(len(name))
# print('-'*20)
# print(subname)
print('-'*20)
print(len(subname))
print('-'*20)
# print(regular_prices)
# print('-'*20)
print(len(regular_prices))

# print('-'*20)
# print(new_price)
print('-'*20)
print(len(new_price))
print('-'*20)
print(len(lista_URLs))
# print('-'*20)
# print(lista_URLs)


# # print('-'*20)
# # print(info)
print('-'*20)
print(len(info))
# print('-'*20)
# # print(charac)
print('-'*20)
print(len(charac))
# print('-'*20)
# # print(user_comments)
print('-'*20)
print(len(user_comments))
# print('-'*20)
# # print(comment)
print('-'*20)
print(len(comment))
# # print('-'*20)
# # print(date)
print('-'*20)
print(len(date))

Pagina 1
Pagina 2
Pagina 3
Pagina 4
Pagina 5
Pagina 6
Pagina 7
Pagina 8
Pagina 9
Pagina 10
Pagina 11
Pagina 12
Pagina 13
Pagina 14
Pagina 15
Pagina 16
Pagina 17
Pagina 18
Pagina 19
Pagina 20
Pagina 21
Pagina 22
Pagina 23
Pagina 24
--------------------
576
--------------------
576
--------------------
576
--------------------
576
--------------------
576
--------------------
576
--------------------
576
--------------------
576
--------------------
576
--------------------
576


## Aqui vamos a seguir haciendo pruebas para extraer la información de los datos de *corazones* de *comments*.

In [None]:
url = "https://www.amantis.net/productos-amantis/"              # lista productos
url_principal="https://www.amantis.net/"                        # productos
# pages= np.arange(1,5)
pages= np.arange(1, 25)

'''Listas a generar con la información de los productos'''
lista_URLs = []
name=[]
# subname=[]
# regular_prices=[]
# new_price=[]
# # lista_URLs = []
# info=[]
# charac=[]
user_comments=[]
comment=[]
date=[]

''' Obtenemos las URLs de los productos para entrar luego en sus URLS y extraer la información'''

for page in pages:
    if page == 1:
        print("Pagina",page)
        URL = url
        response = requests.get(url)
        soup = bs(response.text, 'lxml')
        productos = soup.find_all(class_='caption')
        for producto in productos[8:]:
            URL_producto = producto.find('a')['href']
            lista_URLs.append(URL_producto)
        
    else:
        print("Pagina",page)
        URL = url+'page' + str(page)+'/'
        response = requests.get(URL)
        soup = bs(response.text, 'lxml')
        productos = soup.find_all(class_='caption')
        for producto in productos[8:]:
            URL_producto = producto.find('a')['href']
            lista_URLs.append(URL_producto)

'''Extraemos la información de cada producto existente'''

for URL in lista_URLs:
    url_product=URL
    response_product = requests.get(url_product)
    soup_product = bs(response_product.text, 'lxml')
    user_comments_product=[]
    date_comments_product=[]
    comments_product=[]

    titulos=soup_product.find_all("h1",class_="h3")
    for titulo in titulos:
        nombre=titulo.get_text(strip=True).split(',')[0]
        name.append(nombre)
        sub_title=titulo.get_text(strip=True).split(', ')[1:]
        if sub_title==[]:
            sub_title=["No hay datos"]
        subname.append(sub_title)

    all_user_comments = soup_product.find_all("span", class_="name-user") 
    for user_comment in all_user_comments:
        user_comments_product.append(user_comment.get_text(strip=True))
    user_comments.append(user_comments_product)

    all_dates = soup_product.find_all("span", class_="date")  
    for dates in all_dates:
        dates_text=dates.get_text(strip=True)
        # dates=datetime.strftime(dates, '%dd/%mm/%Y')
        date_comments_product.append(dates_text)
        # date_object = datetime.strptime(date_comments_product)
    date.append(date_comments_product)

    all_comments = soup_product.find_all("p")
    for formats in all_comments[-len(date_comments_product):]:
        comments_product.append(formats.get_text(strip=True))
    comment.append(comments_product)

'''Este codigo de aquí no es necesario para el punto corazones'''

    # all_price = soup_product.find_all("div", class_="productoPrecio pull-right tdd_precio")                        
    # for price_container in all_price:                                                                    
    #     try:
    #         special_price = price_container.find("span", class_="productSpecialPrice")
    #         if special_price:
    #             item_price = float(special_price.get_text(strip=True).replace(",", ".").split('€')[0])
    #             new_price.append(item_price)
    #             regular_price = price_container.find("del").get_text(strip=True)
    #             item_regular_price = float(regular_price.replace(",", ".").split('€')[0])
    #             regular_prices.append(item_regular_price)
    #         else:
    #             regular_price = price_container.find("span").get_text(strip=True)
    #             item_regular_price = float(regular_price.replace(",", ".").split('€')[0])
    #             new_price.append(item_regular_price)
    #             regular_prices.append(None)
    #     except:
    #         new_price.append(None)
    #         regular_prices.append(None)

    # description=soup_product.find("div", class_="description") 
    # information=description.get_text().split('\n')[1:5]
    # info.append(information)
    # characteristic=description.get_text().split('\n')[5:-3]
    # charac.append(characteristic)


# for i, regular_price in enumerate(regular_prices):
#     if regular_price is None:
#         regular_prices[i] = new_price[i]


# print('-'*20)
# print(name)
print('-'*20)
print(len(name))
# print('-'*20)
# print(subname)
print('-'*20)
print(len(subname))
print('-'*20)
# # print(regular_prices)
# # print('-'*20)
# print(len(regular_prices))

# # print('-'*20)
# # print(new_price)
# print('-'*20)
# print(len(new_price))
# print('-'*20)
# print(len(lista_URLs))
# # print('-'*20)
# print(lista_URLs)


# # print('-'*20)
# # print(info)
# print('-'*20)
# print(len(info))
# # print('-'*20)
# # # print(charac)
# print('-'*20)
# print(len(charac))
# # print('-'*20)
# # print(user_comments)
print('-'*20)
print(len(user_comments))
# print('-'*20)
# # print(comment)
print('-'*20)
print(len(comment))
# # print('-'*20)
# # print(date)
print('-'*20)
print(len(date))

In [42]:
len(rating_producto)

96

In [None]:
rating

In [None]:
# pages = np.arange(1, 3)
# count = 1
# lista_libros = []

# for page in pages:
    
#     URL = url+'/page/' + str(page)
#     r = requests.get(URL)
#     soup = bs(r.text, 'lxml')
#     libros_grid = soup.find_all(class_='item-img')
    
#     count_libro = 1 # para el print de seguimiento de descarga
    
#     for libro in libros_grid:
#         # Print de seguimiento de descarga:
#         print('Libro {} de {}, pag {}/{}'.format(
#             count_libro, len(libros_grid), page, len(pages)))

#         URL_libro = libro.find('a')['href']
#         r = requests.get(url_principal + URL_libro)
#         soup_libro = bs(r.text, 'lxml')
        
        # id_libro = 'lb_' + str(count)
        
        # name = soup_libro.find('h1').text   
        # try:
        #     price = float(soup_libro.find(class_ = 'sale-price').text.split(' ')[0].replace(',','.'))

        # except:
        #     price = None

        # try :
        #     author = soup_libro.find(class_ = 'item-annotation-wrap')('h2')[2].text[6:]

        # except:
        #     author = soup_libro.find(class_ = 'item-info')('span')[-1].text.split('\n                                    ')[-1]

        # formats = soup_libro.find(class_ = 'meta-info hidden-md')('li')[0].text

        # try:
        #     rating = soup_libro.find(class_ = 'rating-wrap hidden-md')('span')[5].text.split(' ')[-1].replace(',','.')
        #     rating = float(rating)
        
        # except:
        #     rating = None
        
        # try:    
        #     rating_count = soup_libro.find(class_ = 'rating-wrap hidden-md')('span')[-1].text.split(' ')[-6].replace('(','').replace('.','')
        #     rating_count = int(rating_count)
        
        # except:
        #     rating_count = None

        # imagen = soup_libro.find(class_ = 'book-img')['src']

        # data = {"name": name}


        # data = {"id_libro": id_libro,
        #         "name": name,
        #         "price": price,
        #         "author": author,
        #         "format": formats,
        #         "rating": rating,
        #         "rating_count": rating_count,
        #         "imagen": imagen}

        # lista_libros.append(data)
        
        # # Pasamos al siguiente id
        # count += 1
        # count_libro += 1

In [None]:
# lista_libros

[]

## Tips importantes

soup.find_all(“h3”) encuentra cada elemento h3 en la página web; con class_=”title” especificamos que buscamos específicamente etiquetas h3 que contengan el atributo class_=”title” (nota importante: el “_” en **class__=”title”** no es un error tipográfico, se requiere en Beautiful Soup cuando seleccionando atributos de clase).

Guardamos los elementos h3 en all_h3, que se comporta como una lista, por lo que podemos recorrerlos con un bucle for. En cada iteración extraemos solo el texto del elemento h3 con .get_text(), y con el parámetro strip=True nos aseguramos de eliminar cualquier espacio en blanco innecesario.

## Obtener los formatos de los libros

Del paso anterior tenemos todos los títulos de libros de la página de los más vendidos. Pero, ¿qué sabemos acerca de sus formatos? ¿Hay más libros de tapa dura o tapa blanda?

Averigüémoslo inspeccionando el elemento de formato de libro:

Como siempre inspeccionamos y buscamos el formato..

Y como queremos saber la cantidad de cada formato lo metemos en dataframe

In [None]:
# all_formats = soup.find_all("p", class_="format")
# for format in all_formats:
#        print(format.get_text(strip=True))

In [None]:
# formats = soup.select("div.item-info p.format") # div y p son etiquetas donde se encuentran
# formats_series = pd.Series(formats)
# formats_series.value_counts()

## Obtener las fechas de publicación (find_all + get_text)

Al igual que antes inspeccionamos....

In [None]:
# dates = soup.find_all("p", class_="published")
# dates = [date.get_text()for date in dates] #con esta list comprehension obtenemos solo el año
# dates_series = pd.Series(dates)
# dates_series.value_counts()

In [None]:
# dates = soup.find_all("p", class_="published")
# dates = [date.get_text()[-4:] for date in dates] #con esta list comprehension obtenemos solo el año
# dates_series = pd.Series(dates)
# dates_series.value_counts()

## Obtener los precios (find_all + get_text)

Inspeccionamos..

In [None]:
# prices = soup.find_all("p", class_="price")

In [None]:
# print(prices)

[<p class="price">
<span class="sale-price">17,53 €</span>
</p>, <p class="price">
<span class="sale-price">19,26 €</span>
<span class="rrp-label">
<a href="/es/help/topic/HelpId/RRP#helpContent">
                                        PVPR</a>:
                                </span>
                            
                             <span class="rrp omnibus">22,00 €</span>
</p>, <p class="price">
<span class="sale-price">12,89 €</span>
</p>, <p class="price">
<span class="sale-price">14,46 €</span>
</p>, <p class="price">
<span class="sale-price">14,15 €</span>
<span class="rrp-label">
<a href="/es/help/topic/HelpId/RRP#helpContent">
                                        PVPR</a>:
                                </span>
                            
                             <span class="rrp omnibus">14,50 €</span>
</p>, <p class="price">
<span class="sale-price">12,95 €</span>
</p>, <p class="price">
<span class="sale-price">12,79 €</span>
<span class="rrp-label">
<a hre

In [None]:
# prices[0]

<p class="price">
<span class="sale-price">17,53 €</span>
</p>

In [None]:
# prices[5].get_text(strip=True).split(' ')

['12,95', '€']

In [None]:
# final_prices = []
# for price in prices:
#       original_price = price.find("span", class_="rrp")
#       if original_price:
#              current_price = str(original_price.previousSibling).strip() # nos quedamos solo con el numero sin etiquetas
#              current_price = float(current_price.split("€")[0].replace(",", ".")) # quitamos el signo de euro y reemplazamos la coma por el punto para que python lo reconozca con float
#              final_prices.append(current_price)
#       else:
#              current_price = float(price.get_text(strip=True).split("€")[0].replace(",", "."))
#              final_prices.append(current_price)

In [None]:
# final_prices = []
# for price in prices:
#     original_price = price.find("span", class_="sale-price")
#     original_price = original_price.get_text()
#     original_price = float(original_price.split("€")[0].replace(",", "."))
#     final_prices.append(original_price)

In [None]:
# final_price_compress = [float(price.find("span", class_="sale-price").get_text().split(" €")[0].replace(",", ".")) for price in prices]

In [None]:
# print(final_prices==final_price_compress)

True


## Recolectar información de un libro

Primero creamos un soup en la pagína 'principal'

In [None]:
# libros = soup.find_all(class_='item-img')

Guardamos en una variable la url principal

In [None]:
# url_principal = 'https://www.bookdepository.com'

Creamos una lista con los urls de los libros

In [None]:
# lista_URLs = []
# for libro in libros:
#     URL_libro = libro.find('a')['href']
#     lista_URLs.append(url_principal+URL_libro)

# lista_URLs

Vamos a analizar el url de un libro primero

In [None]:
# # Hacemos un nuevo request para el primer libro: 
# r = requests.get(lista_URLs[0])

# # Creamos una sopa específica con la info de cada libro
# soup_libro = bs(r.text, "lxml")

creamos un soup del primer libro

In [None]:
# soup_libro

Obtenemos el titulo del libro

In [None]:
# name = soup_libro.find('h1').text
# print(name)

The Summer I Turned Pretty


El rating

In [None]:
# rating = soup_libro.find(class_ = 'rating-wrap hidden-md')('span')[5].text.split(' ')[-1].replace(',','.')
# rating = float(rating)
# rating

3.89

Cantidad de votaciones para el rating

In [None]:
# rating_count = soup_libro.find(class_ = 'rating-wrap hidden-md')('span')[-1].text.split(' ')[-6].replace('(','').replace('.','')
# rating_count = int(rating_count)
# rating_count

245161

Tipo de formato

In [None]:
# formats = soup_libro.find(class_ = 'meta-info hidden-md')('li')[0].text
# formats

'Paperback'

Autor

In [None]:
# author1 = soup_libro.find(class_ = 'item-info')('span')[-1].text.split('\n                                    ')[-1]
# author1

'Jenny Han'

In [None]:
# author = soup_libro.find(class_ = 'item-annotation-wrap')('h2')[2].text[6:]
# author

'Jenny Han'

Precio

In [None]:
# price = float(soup_libro.find(class_ = 'sale-price').text.split(' ')[0].replace(',','.'))
# price

17.53

Url de la portada

In [None]:
# imagen = soup_libro.find(class_ = 'book-img')['src']
# imagen

'https://d1w7fb2mkkr3kw.cloudfront.net/assets/images/book/lrg/9781/4169/9781416968290.jpg'

Ahora lo automatizamos para hacer un web scraping

In [None]:
# pages = np.arange(1, 2)
# count = 1
# lista_libros = []

# for page in pages:
    
#     URL = 'https://www.bookdepository.com/es/bestsellers?page=' + str(page)
#     r = requests.get(URL)
#     soup = bs(r.text, 'lxml')
#     libros_grid = soup.find_all(class_='item-img')
    
#     count_libro = 1 # para el print de seguimiento de descarga
    
#     for libro in libros_grid:
#         # Print de seguimiento de descarga:
#         print('Libro {} de {}, pag {}/{}'.format(
#             count_libro, len(libros_grid), page, len(pages)))

#         URL_libro = libro.find('a')['href']
#         r = requests.get('https://www.bookdepository.com/' + URL_libro)
#         soup_libro = bs(r.text, 'lxml')
        
#         id_libro = 'lb_' + str(count)
        
#         name = soup_libro.find('h1').text   
#         try:
#             price = float(soup_libro.find(class_ = 'sale-price').text.split(' ')[0].replace(',','.'))

#         except:
#             price = None

#         try :
#             author = soup_libro.find(class_ = 'item-annotation-wrap')('h2')[2].text[6:]

#         except:
#             author = soup_libro.find(class_ = 'item-info')('span')[-1].text.split('\n                                    ')[-1]

#         formats = soup_libro.find(class_ = 'meta-info hidden-md')('li')[0].text

#         try:
#             rating = soup_libro.find(class_ = 'rating-wrap hidden-md')('span')[5].text.split(' ')[-1].replace(',','.')
#             rating = float(rating)
        
#         except:
#             rating = None
        
#         try:    
#             rating_count = soup_libro.find(class_ = 'rating-wrap hidden-md')('span')[-1].text.split(' ')[-6].replace('(','').replace('.','')
#             rating_count = int(rating_count)
        
#         except:
#             rating_count = None

#         imagen = soup_libro.find(class_ = 'book-img')['src']

#         data = {"id_libro": id_libro,
#                 "name": name,
#                 "price": price,
#                 "author": author,
#                 "format": formats,
#                 "rating": rating,
#                 "rating_count": rating_count,
#                 "imagen": imagen}

#         lista_libros.append(data)
        
#         # Pasamos al siguiente id
#         count += 1
#         count_libro += 1

---------------

In [None]:
# df = pd.DataFrame(lista_libros)
# df

Unnamed: 0,id_libro,name,price,author,format,rating,rating_count,imagen
0,lb_1,The Summer I Turned Pretty,17.53,Jenny Han,Paperback,3.89,245161.0,https://d1w7fb2mkkr3kw.cloudfront.net/assets/i...
1,lb_2,Heaven Official's Blessing: Tian Guan Ci Fu (N...,19.26,ZeldaCW,Paperback,4.79,628.0,https://d1w7fb2mkkr3kw.cloudfront.net/assets/i...
2,lb_3,It Ends With Us: The most heartbreaking novel ...,12.89,Colleen Hoover,Paperback,4.42,1178344.0,https://d1w7fb2mkkr3kw.cloudfront.net/assets/i...
3,lb_4,Heartstopper Volume 3 : The million-copy bests...,14.46,Alice Oseman,Paperback,4.64,216345.0,https://d1w7fb2mkkr3kw.cloudfront.net/assets/i...
4,lb_5,Heartstopper Volume 2 : The million-copy bests...,14.15,Alice Oseman,Paperback,4.62,253424.0,https://d1w7fb2mkkr3kw.cloudfront.net/assets/i...
5,lb_6,Seven Husbands of Evelyn Hugo : The Sunday Tim...,12.95,Taylor Jenkins Reid,Paperback,4.48,1179179.0,https://d1w7fb2mkkr3kw.cloudfront.net/assets/i...
6,lb_7,Where the Crawdads Sing,12.79,Delia Owens,Paperback,4.45,1780708.0,https://d1w7fb2mkkr3kw.cloudfront.net/assets/i...
7,lb_8,Verity : The thriller that will capture your h...,12.37,Colleen Hoover,Paperback,4.43,823944.0,https://d1w7fb2mkkr3kw.cloudfront.net/assets/i...
8,lb_9,It's Not Summer Without You (Reprint),17.34,Jenny Han,Paperback,4.02,163323.0,https://d1w7fb2mkkr3kw.cloudfront.net/assets/i...
9,lb_10,Heartstopper Volume 1 : The million-copy bests...,14.15,Alice Oseman,Paperback,4.55,337901.0,https://d1w7fb2mkkr3kw.cloudfront.net/assets/i...
