# Projecto Integrador

Primer acercamiento a trabajar con el concepto de web Scrapping. El proyecto fué propuesto en clase por el maestro Gonzalo del Rio, durante el primer módulo del Bootcamp de Henry.

***

### Para empezar:

Se importan las librerías de procesamiento de los datos con las que se va a trabajar.

- Se usa Pandas para el procesamiento y visualización de los datos. **Se requiere crear un DataFrame.**
- Se usa el módulo `requests` para enviar requerimentos HTTP al sitio que nos interesa. Como respuesta queremos obtener el HTML crudo de la página.
- Se usa `Beautiful Soup` para leer el HTML en una estructura que sea útil para extraer la información.

In [1]:
%load_ext autoreload
%autoreload 2

In [33]:
import pandas as pd
import requests
from bs4 import BeautifulSoup
import numpy as np

In [3]:
url = 'https://cuspide.com/100-mas-vendidos/'

r = requests.get(url)

html_content = r.content

Beautiful soup interpreta el contenido html crudo y lo organiza en estructura jerárquica, parecido a como lo hace el navegador. Con la estructura de etiquetas donde podemos analizar esa jerarquía ya se puede empezar a estraer la información. 

Esa es la magia de Beautiful soup :D

In [5]:
# Definimos la "sopa de etiquetas"
soup = BeautifulSoup(html_content, 'lxml')

In [6]:
# extraer las etiquetas donde se encuentran los titulos titulos

title_tags = soup.find_all("h3", class_='product-title')

for tag in title_tags:
   print(tag)

<h3 class="name product-title woocommerce-loop-product__title" style="font-size: 14px; margin-top: 10px; font-weight: 400"><a href="https://cuspide.com/producto/la-casa-neville-la-formidable-senorita-manon/">LA CASA NEVILLE . LA FORMIDABLE SEÑORITA  MANON</a></h3>
<h3 class="name product-title woocommerce-loop-product__title" style="font-size: 14px; margin-top: 10px; font-weight: 400"><a href="https://cuspide.com/producto/este-dolor-no-es-mio/">ESTE DOLOR NO ES MIO</a></h3>
<h3 class="name product-title woocommerce-loop-product__title" style="font-size: 14px; margin-top: 10px; font-weight: 400"><a href="https://cuspide.com/producto/tesis-sobre-una-domesticacion/">TESIS SOBRE UNA DOMESTICACION</a></h3>
<h3 class="name product-title woocommerce-loop-product__title" style="font-size: 14px; margin-top: 10px; font-weight: 400"><a href="https://cuspide.com/producto/el-problema-final/">EL PROBLEMA FINAL</a></h3>
<h3 class="name product-title woocommerce-loop-product__title" style="font-size: 

In [7]:
titulos = [tag.string for tag in title_tags]
titulos

['LA CASA NEVILLE . LA FORMIDABLE SEÑORITA  MANON',
 'ESTE DOLOR NO ES MIO',
 'TESIS SOBRE UNA DOMESTICACION',
 'EL PROBLEMA FINAL',
 'BEYOND THE STORY ( EDICION EN ESPA/OL )',
 'ARTIFICIAL',
 'HOLLY',
 'EL VIENTO CONOCE MI NOMBRE',
 'EL VUELO DE LA LIBELULA',
 'DESTROZA ESTE DIARIO ( A TODO COLOR )',
 'UNA FAMILIA ANORMAL',
 '73 MARGARITAS',
 'EL PODER DE LAS PALABRAS',
 'EL PODER DEL AHORA',
 'ANTES DE QUE SE ENFRIE EL CAFE',
 'HOROSCOPO CHINO 2024',
 'DEJA DE SER TU',
 'LA CRISIS DE LA NARRACION',
 'NOSOTROS DOS EN LA TORMENTA',
 'ADIOS CACHORRA',
 'MIS DIAS EN LA LIBRERIA MORISAKI',
 'LOS CUATRO ACUERDOS',
 'UN VECINO ANORMAL  : Y EL LADRON DEL CHOCOLATE',
 'LA PACIENTE SILENCIOSA',
 'EL HOMBRE EN BUSCA DE SENTIDO',
 'LAS COSAS QUE PERDIMOS EN EL FUEGO',
 'LA ARMADURA DE LA LUZ',
 'BORN Y QUIETO',
 'MAFALDA : TODAS LAS TIRAS',
 'EL KIRCHNERISMO DESARMADO',
 'LA FELICIDAD CABE EN UNA TAZA DE CAFE',
 'GATURRO MESSI',
 'LA CASA DE LOS SUICIDIOS',
 '1966 DE ILLIA A ONGANIA',
 'EL AMOR 

In [8]:
urls = [tag.a.attrs['href'] for tag in title_tags]
urls

['https://cuspide.com/producto/la-casa-neville-la-formidable-senorita-manon/',
 'https://cuspide.com/producto/este-dolor-no-es-mio/',
 'https://cuspide.com/producto/tesis-sobre-una-domesticacion/',
 'https://cuspide.com/producto/el-problema-final/',
 'https://cuspide.com/producto/beyond-the-story-edicion-en-espa-ol/',
 'https://cuspide.com/producto/artificial-2/',
 'https://cuspide.com/producto/holly/',
 'https://cuspide.com/producto/el-viento-conoce-mi-nombre/',
 'https://cuspide.com/producto/el-vuelo-de-la-libelula/',
 'https://cuspide.com/producto/destroza-este-diario-a-todo-color/',
 'https://cuspide.com/producto/una-familia-anormal-5/',
 'https://cuspide.com/producto/73-margaritas/',
 'https://cuspide.com/producto/el-poder-de-las-palabras/',
 'https://cuspide.com/producto/el-poder-del-ahora/',
 'https://cuspide.com/producto/antes-de-que-se-enfrie-el-cafe/',
 'https://cuspide.com/producto/horoscopo-chino-2024/',
 'https://cuspide.com/producto/deja-de-ser-tu/',
 'https://cuspide.com

In [9]:
price_tags = soup.css.select('.product-price')
price_tags

[<div class="product-price"><span class="price"><span class="woocommerce-Price-amount amount"><bdi><span class="woocommerce-Price-currencySymbol">$</span> 11.900,00</bdi></span></span></div>,
 <div class="product-price"><span class="price"><span class="woocommerce-Price-amount amount"><bdi><span class="woocommerce-Price-currencySymbol">$</span> 9.900,00</bdi></span></span></div>,
 <div class="product-price"><span class="price"><span class="woocommerce-Price-amount amount"><bdi><span class="woocommerce-Price-currencySymbol">$</span> 9.900,00</bdi></span></span></div>,
 <div class="product-price"><span class="price"><span class="woocommerce-Price-amount amount"><bdi><span class="woocommerce-Price-currencySymbol">$</span> 10.699,00</bdi></span></span></div>,
 <div class="product-price"><span class="price"><span class="woocommerce-Price-amount amount"><bdi><span class="woocommerce-Price-currencySymbol">$</span> 9.999,00</bdi></span></span></div>,
 <div class="product-price"><span class="pr

In [10]:
for tag in price_tags:
    tag.select(".woocommerce-Price-currencySymbol")[0].decompose()

In [11]:
p = str(price_tags[0].string)

In [12]:
price_column = [tag.string[1:] for tag in price_tags]
price_column

['11.900,00',
 '9.900,00',
 '9.900,00',
 '10.699,00',
 '9.999,00',
 '7.999,00',
 '15.999,00',
 '10.699,00',
 '8.799,00',
 '11.200,00',
 '4.199,00',
 '6.999,00',
 '10.599,00',
 '7.199,00',
 '9.699,00',
 '7.999,00',
 '13.390,00',
 '6.800,00',
 '11.599,00',
 '9.000,00',
 '5.850,00',
 '8.490,00',
 '5.199,00',
 '9.999,00',
 '6.890,00',
 '10.950,00',
 '19.999,00',
 '11.800,00',
 '14.100,00',
 '8.500,00',
 '5.999,00',
 '4.290,00',
 '10.500,00',
 '9.999,00',
 '11.200,00',
 '8.900,00',
 '6.490,00',
 '5.990,00',
 '6.490,00',
 '9.999,00',
 '7.199,00',
 '3.749,00',
 '10.500,00',
 '14.999,00',
 '6.590,00',
 '15.300,00',
 '3.299,00',
 '5.700,00',
 '13.900,00',
 '8.570,00',
 '5.999,00',
 '5.490,00',
 '13.499,00',
 '12.500,00',
 '6.999,00',
 '7.250,00',
 '5.399,00',
 '10.500,00',
 '10.900,00',
 '10.500,00',
 '10.950,00',
 '6.350,00',
 '6.000,00',
 '3.999,00',
 '7.300,00',
 '9.799,00',
 '7.199,00',
 '10.750,00',
 '7.500,00',
 '8.730,00',
 '6.599,00',
 '15.300,00',
 '4.999,00',
 '5.940,00',
 '12.900,00'

Debido a que el precio en dólares se encuentra en cada url específico para cada libro, he creado funciones scrapper para esta tarea.
Las funciones están definidas dentro del módulo `functions.py`. Allí puede verse el script que se ha creado.

In [13]:
### obtener precio en usd de un libro para cada url específo del libro
import functions

In [18]:
usd_prices = [functions.get_us_price(url) for url in urls]

In [21]:
usd_prices

['32,56',
 '27,09',
 '27,09',
 '29,27',
 '27,36',
 '21,89',
 '43,77',
 '29,27',
 '24,07',
 '30,64',
 '11,49',
 '19,15',
 '29,00',
 '19,70',
 '26,54',
 '21,89',
 '36,63',
 '18,60',
 '31,73',
 '24,62',
 '16,01',
 '23,23',
 '14,22',
 '27,36',
 '18,85',
 '29,96',
 '54,72',
 '32,28',
 '38,58',
 '23,26',
 '16,41',
 '11,74',
 '28,73',
 '27,36',
 '30,64',
 '24,35',
 '17,76',
 '16,39',
 '17,76',
 '27,36',
 '19,70',
 '10,26',
 '28,73',
 '41,04',
 '18,03',
 '41,86',
 '9,03',
 '15,60',
 '38,03',
 '23,45',
 '16,41',
 '15,02',
 '36,93',
 '34,20',
 '19,15',
 '19,84',
 '14,77',
 '28,73',
 '29,82',
 '28,73',
 '29,96',
 '17,37',
 '16,42',
 '10,94',
 '19,97',
 '26,81',
 '19,70',
 '29,41',
 '20,52',
 '23,89',
 '18,05',
 '41,86',
 '13,68',
 '16,25',
 '35,29',
 '41,59',
 '24,35',
 '28,73',
 '25,17',
 '18,88',
 '18,03',
 '46,37',
 '32,56',
 '23,53',
 '15,59',
 '16,96',
 '25,58',
 '18,60',
 '24,62']

In [14]:
# Obtener las fechas, que tambien esán en cada url específico de cada libro.

dates = [functions.get_pub_date(url) for url in urls]
dates

['29/09/2023',
 '16/03/2018',
 '31/08/2023',
 '28/09/2023',
 '29/08/2023',
 '28/09/2023',
 '28/09/2023',
 '06/06/2023',
 '29/08/2023',
 '02/03/2018',
 '28/07/2023',
 '28/09/2023',
 '29/08/2022',
 '31/08/2015',
 '28/11/2022',
 '28/09/2023',
 '14/01/2021',
 '05/09/2023',
 '27/05/2023',
 '03/03/2023',
 '31/01/2023',
 '16/10/2007',
 '28/09/2023',
 '25/01/2022',
 '21/04/2016',
 '07/04/2016',
 '28/09/2023',
 '31/07/2023',
 '22/01/2014',
 '31/08/2023',
 '29/03/2023',
 '01/08/2023',
 '31/08/2023',
 '29/08/2023',
 '05/05/2023',
 '28/09/2023',
 '26/07/2022',
 '09/02/2023',
 '06/06/2023',
 '28/09/2023',
 '22/01/2021',
 '11/08/2023',
 '31/08/2023',
 '28/09/2023',
 '02/03/2023',
 '03/08/2022',
 '07/09/2023',
 '15/11/2019',
 '07/06/2023',
 '23/02/2023',
 '15/09/2023',
 '26/07/2022',
 '18/10/2019',
 '03/04/2023',
 '28/09/2023',
 '05/11/2022',
 '29/09/2022',
 '04/07/2023',
 '31/08/2023',
 '08/02/2023',
 '20/12/2016',
 '03/07/2023',
 '29/06/2023',
 '27/04/2023',
 '03/05/2019',
 '27/04/2023',
 '31/03/20

### Creación del DataFrame:

La siguiente consigna se trata de crear un dataFrame y posteriormente el csv de salida

In [40]:
df = pd.DataFrame(
    {
        'titulo': [str(title) for title in titulos],
        'url': [str(item) for item in urls],
        'precio_pesos': pd.Series(price_column),
        'precio_usd': pd.Series(usd_prices),
        'fecha_publicación': pd.to_datetime(dates) 
        
    }
)

In [31]:
df.head(10)

Unnamed: 0,titulo,url,precio_pesos,precio_usd,fecha_publicación
0,LA CASA NEVILLE . LA FORMIDABLE SEÑORITA MANON,https://cuspide.com/producto/la-casa-neville-l...,"11.900,00",3256,2023-09-29
1,ESTE DOLOR NO ES MIO,https://cuspide.com/producto/este-dolor-no-es-...,"9.900,00",2709,2018-03-16
2,TESIS SOBRE UNA DOMESTICACION,https://cuspide.com/producto/tesis-sobre-una-d...,"9.900,00",2709,2023-08-31
3,EL PROBLEMA FINAL,https://cuspide.com/producto/el-problema-final/,"10.699,00",2927,2023-09-28
4,BEYOND THE STORY ( EDICION EN ESPA/OL ),https://cuspide.com/producto/beyond-the-story-...,"9.999,00",2736,2023-08-29
5,ARTIFICIAL,https://cuspide.com/producto/artificial-2/,"7.999,00",2189,2023-09-28
6,HOLLY,https://cuspide.com/producto/holly/,"15.999,00",4377,2023-09-28
7,EL VIENTO CONOCE MI NOMBRE,https://cuspide.com/producto/el-viento-conoce-...,"10.699,00",2927,2023-06-06
8,EL VUELO DE LA LIBELULA,https://cuspide.com/producto/el-vuelo-de-la-li...,"8.799,00",2407,2023-08-29
9,DESTROZA ESTE DIARIO ( A TODO COLOR ),https://cuspide.com/producto/destroza-este-dia...,"11.200,00",3064,2018-02-03


In [32]:
df.to_csv('./libros_semana.csv', index=False)