# Análisis de Aspiradoras

El Objetivo de esta Note es los siguientes:

1. Obtener información de la página de Amazon sobre aspiradoras
2. Guardar las información de las 200 primeras aspiradoras en un dataframe
3. Pasar el DataFrame y aplicarle técnicas de aprendizaje No Supervisado para clasificar las aspiradoras

## Obtener Información de Aspiradoras de Amazon

### Web Scraping

In [125]:
#Líbrerias
import requests

#url = 'https://www.amazon.com/'
url = 'https://www.amazon.es/s?k=aspiradoras&__mk_es_ES=%C3%85M%C3%85%C5%BD%C3%95%C3%91&ref=nb_sb_noss_2'


aspiradoraWeb = requests.get(url)
aspiradoraWeb.status_code

503

* El primer método de Scraping iba hacer con BeautifulSoup, sin embargo, tengo un inconveniente debido a que el status code me da 503, eso significa que no esta accesible el servidor, y esto se debe a que hay páginas que no permiten realizar el WebScrapper por la líbreria requests

* Para resolver este caso vamos a utilizar Selenium

In [126]:
#Función que me permite obtener las URLs de las aspiradoras de una pagina

def ObtenerLinkAspiradora():
    pass

In [127]:
#SELENIUM

#Importamos Selenium
from selenium import webdriver

#Parametrizamos el driver
options = webdriver.ChromeOptions()
#Para navegar en modo incognito
options.add_argument('--incognito')

#Abrimos el driver
driver = webdriver.Chrome(executable_path='c:/chromedriver.exe',options=options)

#Nos vamos a la URL
driver.get(url)

In [128]:
# Vamos a obtener los links y los nombres de las aspiradoras
aspiradoras = driver.find_elements_by_xpath('//a[@class="a-link-normal a-text-normal"]')

aspiradoras
#Número de aspiradoras 
len(aspiradoras)

20

In [129]:
#vamos a obtener los links de cada aspiradora
linksAspiradoras = []
aspiradora = aspiradoras[5]

linkAspiradora = aspiradora.get_attribute('href')
linkAspiradora

#Obtengo los links de las aspiradoras
for aspiradora in aspiradoras:
    linksAspiradoras.append(aspiradora.get_attribute('href'))
    
linksAspiradoras

['https://www.amazon.es/gp/slredirect/picassoRedirect.html/ref=pa_sp_atf_aps_sr_pg1_1?ie=UTF8&adId=A01147902Q6W59R82Z299&url=%2FAmazonBasics-Aspiradora-cil%25C3%25ADndrica-bolsa-energ%25C3%25A9tica%2Fdp%2FB07C3NFCYC%2Fref%3Dsr_1_1_sspa%3F__mk_es_ES%3D%25C3%2585M%25C3%2585%25C5%25BD%25C3%2595%25C3%2591%26keywords%3Daspiradoras%26qid%3D1583447298%26sr%3D8-1-spons%26psc%3D1&qualifier=1583447297&id=5689450244253536&widgetName=sp_atf',
 'https://www.amazon.es/gp/slredirect/picassoRedirect.html/ref=pa_sp_atf_aps_sr_pg1_2?ie=UTF8&adId=A067223035FI8SQQRCGZA&url=%2FCecotec-EcoExtreme-Aspirador-Cicl%25C3%25B3nico-Capacidad%2Fdp%2FB07587LM6H%2Fref%3Dsr_1_2_sspa%3F__mk_es_ES%3D%25C3%2585M%25C3%2585%25C5%25BD%25C3%2595%25C3%2591%26keywords%3Daspiradoras%26qid%3D1583447298%26sr%3D8-2-spons%26psc%3D1&qualifier=1583447297&id=5689450244253536&widgetName=sp_atf',
 'https://www.amazon.es/Rowenta-Compact-Power-Cyclonic-Aspirador/dp/B01CIALC5G/ref=sr_1_3?__mk_es_ES=%C3%85M%C3%85%C5%BD%C3%95%C3%91&keywords=

In [130]:
driver.close()

In [131]:
# Vamos a obtener los datos de cada aspiradora
driver = webdriver.Chrome(executable_path='c:/chromedriver.exe',options=options)
driver.get(linksAspiradoras[0])

In [132]:
nombreAspiradora = driver.find_element_by_xpath('//*[@id="productTitle"]').text
numeroOpinion = driver.find_element_by_xpath('//*[@id="acrCustomerReviewText"]').text
precio = driver.find_element_by_xpath('//*[@id="priceblock_ourprice"]').text

print(nombreAspiradora)
print(numeroOpinion)
print(precio)

AmazonBasics - Aspiradora cilíndrica sin bolsa, 1,5L, 700 W [clase energética A]
3.874 valoraciones
49,99 €


In [133]:
#Obteniendo la tabla de caracteristicas técnicas

detallesTecnicos = driver.find_elements_by_xpath('//*[@id="prodDetails"]/div[2]/div[1]/div[1]/div[2]/div/div/table/tbody/tr')
detallesTecnicos


[<selenium.webdriver.remote.webelement.WebElement (session="dd155e6c41ced08f60bcc2d18768ae17", element="5d8f2017-fbf2-4cb0-b652-7202e886c019")>,
 <selenium.webdriver.remote.webelement.WebElement (session="dd155e6c41ced08f60bcc2d18768ae17", element="80ff6d87-6324-4aba-8428-4250e14bdbf8")>,
 <selenium.webdriver.remote.webelement.WebElement (session="dd155e6c41ced08f60bcc2d18768ae17", element="8fb7c2dc-f277-46c5-8f4d-6b34c50881cf")>,
 <selenium.webdriver.remote.webelement.WebElement (session="dd155e6c41ced08f60bcc2d18768ae17", element="6926495b-98d9-40e8-8e59-a4926a960897")>,
 <selenium.webdriver.remote.webelement.WebElement (session="dd155e6c41ced08f60bcc2d18768ae17", element="588d0cef-feb3-422d-b666-0d3bbf5bc6e6")>,
 <selenium.webdriver.remote.webelement.WebElement (session="dd155e6c41ced08f60bcc2d18768ae17", element="d4ceab31-792a-4a78-b107-def3a4d850e5")>,
 <selenium.webdriver.remote.webelement.WebElement (session="dd155e6c41ced08f60bcc2d18768ae17", element="dd95eab2-f456-4ace-b6bc-e3

In [134]:
detallesTecnicos[0].find_element_by_xpath('.//td[@class="label"]').text
detallesTecnicos[0].find_element_by_xpath('.//td[@class="value"]').text

tablaDetalleTecnico = {}

for detalle in detallesTecnicos:
    try:
        etiqueta = detalle.find_element_by_xpath('.//td[@class="label"]').text
        valor = detalle.find_element_by_xpath('.//td[@class="value"]').text
    
        # El valor le paso como una lista para que sea mas fácil la conversion a Dataframe
        tablaDetalleTecnico.update({etiqueta:[valor]})
    except:
        etiqueta = ''
        valor = ''
    
        #tablaDetalleTecnico.append({'':''})
    
tablaDetalleTecnico

{'Marca': ['AmazonBasics'],
 'Número de modelo': ['15KC-71EU4'],
 'Peso del producto': ['4,5 Kg'],
 'Dimensiones del producto': ['36,3 x 29,4 x 24,7 cm'],
 'Capacidad': ['1.5 litros'],
 'Volumen': ['1.5 litros'],
 'Potencia': ['700 vatios'],
 'Radio de acción': ['6 metros'],
 'Eficiencia energética': ['A'],
 'Consumo anual': ['23.4 kilowatt_hours_per_year'],
 'Nivel de limpieza en alfombra': ['E'],
 'Ruido': ['78 dB']}

In [135]:
#Mandando a un dataframe los detalles tecnicos

import pandas as pd

tablaDetalleTecnico

DatoAspiradora = pd.DataFrame(tablaDetalleTecnico)
DatoAspiradora

Unnamed: 0,Marca,Número de modelo,Peso del producto,Dimensiones del producto,Capacidad,Volumen,Potencia,Radio de acción,Eficiencia energética,Consumo anual,Nivel de limpieza en alfombra,Ruido
0,AmazonBasics,15KC-71EU4,"4,5 Kg","36,3 x 29,4 x 24,7 cm",1.5 litros,1.5 litros,700 vatios,6 metros,A,23.4 kilowatt_hours_per_year,E,78 dB


In [136]:
print(nombreAspiradora)
print(numeroOpinion)
print(precio)

AmazonBasics - Aspiradora cilíndrica sin bolsa, 1,5L, 700 W [clase energética A]
3.874 valoraciones
49,99 €


In [137]:
# Vamos añadir las columnas de:
# Nombre de la aspiradora; las valoraciones; y el precio en el DataFrame

DatoAspiradora['Nombre Aspiradora'] = nombreAspiradora
DatoAspiradora['Opiniones'] = numeroOpinion
DatoAspiradora['Precio'] = precio

DatoAspiradora

Unnamed: 0,Marca,Número de modelo,Peso del producto,Dimensiones del producto,Capacidad,Volumen,Potencia,Radio de acción,Eficiencia energética,Consumo anual,Nivel de limpieza en alfombra,Ruido,Nombre Aspiradora,Opiniones,Precio
0,AmazonBasics,15KC-71EU4,"4,5 Kg","36,3 x 29,4 x 24,7 cm",1.5 litros,1.5 litros,700 vatios,6 metros,A,23.4 kilowatt_hours_per_year,E,78 dB,AmazonBasics - Aspiradora cilíndrica sin bolsa...,3.874 valoraciones,"49,99 €"


In [138]:
DatoAspiradora.columns

Index(['Marca', 'Número de modelo', 'Peso del producto',
       'Dimensiones del producto', 'Capacidad', 'Volumen', 'Potencia',
       'Radio de acción', 'Eficiencia energética', 'Consumo anual',
       'Nivel de limpieza en alfombra', 'Ruido', 'Nombre Aspiradora',
       'Opiniones', 'Precio'],
      dtype='object')

In [139]:
# Voy a obtener unicamente los valores que necesito

resultadoAspiradoras = DatoAspiradora[['Nombre Aspiradora','Precio','Opiniones','Peso del producto','Potencia'
                                       ,'Dimensiones del producto','Volumen']]

resultadoAspiradoras

Unnamed: 0,Nombre Aspiradora,Precio,Opiniones,Peso del producto,Potencia,Dimensiones del producto,Volumen
0,AmazonBasics - Aspiradora cilíndrica sin bolsa...,"49,99 €",3.874 valoraciones,"4,5 Kg",700 vatios,"36,3 x 29,4 x 24,7 cm",1.5 litros
