# Web Scraping con Selenium

**Relator: Felipe Mesa Abraham** 

Correo: femesa@udec.cl

En esta actividad se trabajará con la librería [Selenium](https://www.selenium.dev/documentation/) para hacer scraping en páginas webs dinámicas, es decir, donde es necesario interactuar con el sitio web para revelar el contenido del sitio. La actividad consiste en un ejemplo sobre el funcionamiento de la librería y un ejercicio guiado.

## Descargamos Selenium y el chrome driver

In [None]:
!apt update
!apt install chromium-chromedriver
!pip install selenium

[33m0% [Working][0m            Hit:1 http://archive.ubuntu.com/ubuntu bionic InRelease
[33m0% [Connecting to security.ubuntu.com (91.189.91.38)] [Connecting to cloud.r-pr[0m                                                                               Get:2 http://archive.ubuntu.com/ubuntu bionic-updates InRelease [88.7 kB]
                                                                               Get:3 http://archive.ubuntu.com/ubuntu bionic-backports InRelease [74.6 kB]
                                                                               Get:4 https://cloud.r-project.org/bin/linux/ubuntu bionic-cran40/ InRelease [3,626 B]
                                                                               Get:5 http://ppa.launchpad.net/c2d4u.team/c2d4u4.0+/ubuntu bionic InRelease [15.9 kB]
                                                                               Hit:6 http://ppa.launchpad.net/cran/libgit2/ubuntu bionic InRelease
                       

## Cargamos las librerias

In [None]:
# Selenium para hacer scraping
from selenium import webdriver

# Time y random para tiempos de espera
import time
from random import randint

# Pandas para guardar información
import pandas as pd

##Cargamos la página

In [None]:
# DECLARAMOS LAS OPCIONES PARA EL WEBDRIVER
options = webdriver.ChromeOptions()
options.add_argument('--headless')
options.add_argument('--no-sandbox')
options.add_argument('--disable-dev-shm-usage')


#IMPORTAMOS EL WEBDRIVER CON LA ULTIMA VERSION DISPONIBLE Y ASIGNAMOS LAS OPCIONES
driver = webdriver.Chrome(options=options)

# CARGAMOS LA PAGINA
URL = 'https://www.puzles.cl/collections/1000-piezas'
driver.get(URL)

## Revelamos todo el contenido de la pagina para luego extraerlo

In [None]:
# La siguiente funcion hace "scroll down" y termina cuando se hayan cargado todos los elementos de la pagina
def scroll_infinito():
    buffer = 0
    while True:
        buffer = buffer + 800
        javascript = 'window.scroll({x},{y})'.format(x=buffer, y=buffer)
        driver.execute_script(javascript) 
        time.sleep(randint(1,2))

        page_height = driver.execute_script("return document.body.scrollHeight")
        if buffer >= page_height:
            break

In [None]:
scroll_infinito()

## Extraemos la información de los productos y la guardamos en contenedores

In [None]:
# Creamos listas vacias para guardar la información
nombre = []
precio = []
link = []


# Guardamos todos los productos en una lista de contenedores
# Notar la diferencia entre las funciones find_element y find_elements
lista_elementos = driver.find_element_by_class_name('product-list').find_elements_by_class_name('one-fourth')


# Iteramos la lista de contenedores y extraemos la información relevante
for item in lista_elementos:

    nombre.append(item.find_element_by_class_name('title').text)
    precio.append(item.find_element_by_class_name('current_price').text)
    link.append(item.find_element_by_tag_name('a').get_attribute('href'))

  if __name__ == '__main__':


## Guardamos la información

In [None]:
# Convertimos las listas en un dataframe
import pandas as pd
data = {'nombre' : nombre, 'precio': precio, 'link': link}
df = pd.DataFrame(data)
df.head()

Unnamed: 0,nombre,precio,link
0,PUZZLE 1000 PIEZAS - ROUND BASKETBALL,$4.990,https://www.puzles.cl/collections/1000-piezas/...
1,PUZZLE 1000 PIEZAS - FUTBOL,$4.990,https://www.puzles.cl/collections/1000-piezas/...
2,PUZZLE 1000 PIEZAS - VENICE,$5.990,https://www.puzles.cl/collections/1000-piezas/...
3,PUZZLE 1000 PIEZAS - TAXY NEW YORK,$5.990,https://www.puzles.cl/collections/1000-piezas/...
4,PUZZLE 1000 PIEZAS - BIG BEN DE LONDRES,$5.990,https://www.puzles.cl/collections/1000-piezas/...


In [None]:
# Guardamos la información en un archivo
df.to_csv('datos_puzles.csv', index=False)

In [None]:
#CERRAMOS CHROMEDRIVER
driver.quit()



---



# Práctica Selenium

Tomando en cuenta el ejemplo anterior, se le pide que realice webscraping para extraer información de la siguiente página:

https://contrapunto.cl/25-cocina

En particular, se desea extraer:


*   Título del libro
*   Precio original
*   Precio con descuento
*   Link del producto


Se le pide que haga scrolldown para cargar todos los productos de la página. Tambien se le pide que guarde sus resultados en un archivo .csv en caso de tener que hacer análisis porsteriores.

In [None]:
# Declaramos el webdriver con las respectivas opciones

# Cargamos la pagina

# Hacemos scroll down para cargar todos los elementos usando la funcion definida anteriormente

# Creamos listas vacias para guardar la información

# Guardamos todos los productos en una lista de contenedores

# Iteramos la lista de contenedores y extraemos la información relevante

# Convertimos las listas en un dataframe

# Guardamos la información en un archivo

# Cerramos webdriver

## Solución

In [None]:
# Declaramos el webdriver con las respectivas opciones
options = webdriver.ChromeOptions()
options.add_argument('--headless')
options.add_argument('--no-sandbox')
options.add_argument('--disable-dev-shm-usage')

driver = webdriver.Chrome(options=options) 

# Cargamos la pagina
URL = 'https://contrapunto.cl/25-cocina'
driver.get(URL)

# Hacemos scroll down para cargar todos los elementos usando la funcion definida anteriormente
scroll_infinito()

# Creamos listas vacias para guardar la información
titulo = []
precio_original = []
precio_descuento = []
link = []

# Guardamos todos los productos en una lista de contenedores
lista_elementos = driver.find_elements_by_class_name('js-product-miniature-wrapper')

# Iteramos la lista de contenedores y extraemos la información relevante
for item in lista_elementos:

    titulo.append(item.find_element_by_class_name('h3').text)
    precio_original.append(item.find_element_by_class_name('regular-price').text)
    precio_descuento.append(item.find_element_by_class_name('product-price').text)
    link.append(item.find_element_by_tag_name('a').get_attribute('href'))


# Convertimos las listas en un dataframe
import pandas as pd
data = {'titulo' : titulo, 'precio original': precio_original, 'precio decuento': precio_descuento, 'link':link}
df = pd.DataFrame(data)
df.head()

# Guardamos la información en un archivo
df.to_csv('datos_contrapunto.csv', index=False)

# Cerramos webdriver
driver.quit()