# Web Scraping: Selenium

A menudo, los datos están disponibles públicamente para nosotros, pero no en una forma que sea fácilmente utilizable. Ahí es donde entra en juego el web scraping, podemos usar web scraping para obtener nuestros datos deseados en un formato conveniente que luego se puede usar. A continuación, mostraré cómo se puede extraer información de interés de un sitio web usando el paquete Selenium en Python. Selenium nos permite manejar una ventana del navegador e interactuar con el sitio web mediante programación. 

Selenium también tiene varios métodos que facilitan la extracción de datos.
En este Jupyter Notebook vamos a usar Python 3 en Windows.

En primer lugar, tendremos que descargar un controlador.

Usaremos ChromeDriver para Google Chrome. Para obtener una lista completa de controladores y plataformas compatibles, consulte [Selenium](https://www.selenium.dev/downloads/). Si desea utilizar Google Chrome, diríjase a [chrome](https://chromedriver.chromium.org/) y descargue el controlador que corresponde a su versión actual de Google Chrome.

Como saber cual es la versión de chrome que utilizo simple clickamos en chrome en ayuda: Información de Google Chrome.

Antes de comenzar se preguntaran si ya se BeautifulSoup cual es la diferencia con Selenium.

A diferencia BeautifulSoup, Selenium no trabaja con el texto fuente en HTML de la web en cuestión, sino que carga la página en un navegador sin interfaz de usuario. El navegador interpreta entonces el código fuente de la página y crea, a partir de él, un Document Object Model (modelo de objetos de documento o DOM). Esta interfaz estandarizada permite poner a prueba las interacciones de los usuarios. De esta forma se consigue, por ejemplo, simular clics y rellenar formularios automáticamente. Los cambios en la web que resultan de dichas acciones se reflejan en el DOM. La estructura del proceso de web scraping con Selenium es la siguiente:

URL → Solicitud HTTP → HTML → Selenium → DOM



## Comencemos importando las bibliotecas que usaremos:

In [1]:
from selenium import webdriver
from selenium.webdriver.common.by import By
import urllib3 # urllib3 es un cliente HTTP potente y fácil de usar para Python.
import re # Expresiones regulares 
import time
import pandas as pd

El objeto driver es con el que trabajaremos a partir de ahora

In [2]:
# especificamos el path hasta nuestro driver recién descargado:
chrome_driver_path = 'chromedriver.exe'
options  = webdriver.ChromeOptions()

In [21]:
# Creamos el driver con el que nos vamos a manejar en la sesión de scrapeo:
driver = webdriver.Chrome(executable_path = chrome_driver_path, options = options)

In [22]:
# indicamos la URL de la página web a la que queremos acceder:
url = 'https://www.elpais.com'
# el objeto driver nos va a permitir alterar el estado del la página
driver.get(url)

Ahora si queremos hacer click en el boton de "Aceptar".

Selenium proporciona varios métodos para localizar elementos en la página web. Usaremos el método find_element_by_path() para crear un objeto de botón, con el que luego podremos interactuar:

In [25]:
loadMore = driver.find_element_by_xpath('//*[@id="didomi-notice-agree-button"]')
# find_elements_by_class_name
# find_elements(By.CLASS_NAME, "filing-name")

In [26]:
loadMore.click()

------------------------

# Otro ejemplo

In [176]:
driver = webdriver.Chrome(executable_path = chrome_driver_path, options = options)

In [177]:
# indicamos la URL de la página web a la que queremos acceder:
url = 'https://www.filmaffinity.com/es/main.html'
# el objeto driver nos va a permitir alterar el estado del la página
driver.get(url)

La página de Filmaffinity se ha abierto

Pero....

Nos hemos encontrado con un pop-up que nos pide aceptar cookies

1. Buscamos el botón
2. Hacemos click en el botón

Vamos a quitar el boton para seguir

In [178]:
elements_by_tag = driver.find_elements(By.TAG_NAME,'button')
elements_by_class_name = driver.find_elements(By.CLASS_NAME, 'css-2tkghh')
element_by_xpath = driver.find_element(By.XPATH, '/html/body/div[1]/div/div/div/div[2]/div/button[2]')

Una vez tenemos los elementos podemos hacer varias cosas con ellos

Podemos extraer todos los atributos que tenga

In [179]:
dir(element_by_xpath)
# obtenemos todos sus métodos y atributos:

['__class__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__le__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__weakref__',
 '_execute',
 '_id',
 '_parent',
 '_upload',
 '_w3c',
 'clear',
 'click',
 'find_element',
 'find_element_by_class_name',
 'find_element_by_css_selector',
 'find_element_by_id',
 'find_element_by_link_text',
 'find_element_by_name',
 'find_element_by_partial_link_text',
 'find_element_by_tag_name',
 'find_element_by_xpath',
 'find_elements',
 'find_elements_by_class_name',
 'find_elements_by_css_selector',
 'find_elements_by_id',
 'find_elements_by_link_text',
 'find_elements_by_name',
 'find_elements_by_partial_link_text',
 'find_elements_by_tag_name',
 'find_elements_by_xpath',
 'get_attribute',
 'get_property',
 'id',
 

Podemos evaluar que tipo de elemento es (tag)

In [180]:
element_by_xpath.tag_name

'button'

Podemos sacar el valor que tiene (el texto)

In [181]:
element_by_xpath.text

'ACEPTO'

Incluso podemos guardar una imagen del elemento

In [52]:
type(element_by_xpath)
# Vemos que es tipo 'WebElement' y en la documentación podremos encontrar sus métodos

selenium.webdriver.remote.webelement.WebElement

In [182]:
# guardamos como 'mi_imagen.png' la imagen asociada al xpath
element_by_xpath.screenshot('mi_imagen.png')

True

Evaluamos que elementos hemos encontrado por el tag:

In [183]:
for index, element in enumerate(elements_by_tag):
    print('Elemento:', index)
    print('Texto del elemento',index, 'es', element.text)
    print('El tag del elemento',index, 'es', element.tag_name)
    element.screenshot('mi_imagen'+str(index)+'.png')

Elemento: 0
Texto del elemento 0 es socios
El tag del elemento 0 es button
Elemento: 1
Texto del elemento 1 es MÁS OPCIONES
El tag del elemento 1 es button
Elemento: 2
Texto del elemento 2 es ACEPTO
El tag del elemento 2 es button


Basta de tonterias seguimos

Instanciamos el elemento del tag [2] en la variable boton aceptar

In [184]:
boton_aceptar = elements_by_tag[2]

Si el elemento es interactivo podremos hacer más cosas además de las anteriores. Por ejemplo: hacer click

In [185]:
boton_aceptar.click()

Buscamos una película por título

In [186]:
buscador = driver.find_element(By.XPATH, '//*[@id="top-search-input-2"]')

In [187]:
buscador.send_keys('Origen')

In [188]:
# una vez escrita la búsqueda deberíamos poder activarla:
buscador.send_keys(Keys.ENTER)

In [189]:
# volvemos a la página anterior
driver.back()

### Vamos a buscar todas las películas que se estrenan el próximo viernes

1. Cogemos los containers que hay en la zona lateral

In [204]:
menu_lateral = driver.find_element(By.ID, 'lsmenu') ####### si se corrompe el navegador seleciona cualquier pagina distinta a proximos extrenos y ejecuta desde aqui
menu_lateral

<selenium.webdriver.remote.webelement.WebElement (session="9549cda755d74cd647536b082bf3f1bd", element="9019B0DE2FADFA028CDDDE7B77007797_element_442")>

In [205]:
mis_secciones = menu_lateral.find_elements(By.TAG_NAME, 'a')

2. Vemos con cuál nos tenemos que quedar

In [206]:
for seccion in mis_secciones:
    if seccion.text == 'Próximos estrenos':
        seccion.click()
        break

Accedemos al container central, en el que aparecen los estrenos por semana que queremos ver, exactamente igual que hemos hecho antes

In [207]:
cajon_central = driver.find_elements(By.ID, 'main-wrapper-rdcat')

In [194]:
type(cajon_central)

list

In [208]:
for semana in cajon_central:
    print(semana.find_element(By.TAG_NAME, 'div').text)
    print(semana.find_element(By.TAG_NAME, 'div').get_attribute('id'))

19 de mayo de 2023
2023-05-19
25 de mayo de 2023
2023-05-25
26 de mayo de 2023
2023-05-26
29 de mayo de 2023
2023-05-29
30 de mayo de 2023
2023-05-30
2 de junio de 2023
2023-06-02
8 de junio de 2023
2023-06-08
9 de junio de 2023
2023-06-09
16 de junio de 2023
2023-06-16
19 de junio de 2023
2023-06-19
23 de junio de 2023
2023-06-23
27 de junio de 2023
2023-06-27
28 de junio de 2023
2023-06-28
30 de junio de 2023
2023-06-30


El siguiente comando es para buscar un boton y darle click en un solo paso

In [210]:
driver.find_element(By.XPATH, '/html/body/div[5]/table/tbody/tr/td[2]/div/div[5]/a[1]/div').click()

In [211]:
cajon_central = driver.find_elements(By.ID, 'main-wrapper-rdcat')
for semana in cajon_central:
    print(semana.find_element(By.TAG_NAME, 'div').text)
    print(semana.find_element(By.TAG_NAME, 'div').get_attribute('id'))

7 de julio de 2023
2023-07-07
14 de julio de 2023
2023-07-14
21 de julio de 2023
2023-07-21
28 de julio de 2023
2023-07-28
4 de agosto de 2023
2023-08-04
11 de agosto de 2023
2023-08-11
18 de agosto de 2023
2023-08-18
25 de agosto de 2023
2023-08-25
1 de septiembre de 2023
2023-09-01
8 de septiembre de 2023
2023-09-08
12 de septiembre de 2023
2023-09-12
15 de septiembre de 2023
2023-09-15
22 de septiembre de 2023
2023-09-22
29 de septiembre de 2023
2023-09-29


Buscamos cómo acceder a las películas

In [212]:
peliculas = driver.find_elements(By.CLASS_NAME, 'top-movie')
lista_pelis = []
for peli in peliculas:
    lista_pelis.append(peli.find_element(By.TAG_NAME, 'a').get_attribute('href'))

In [213]:
lista_pelis

['https://www.filmaffinity.com/es/film733604.html',
 'https://www.filmaffinity.com/es/film663650.html',
 'https://www.filmaffinity.com/es/film440109.html',
 'https://www.filmaffinity.com/es/film225035.html',
 'https://www.filmaffinity.com/es/film294032.html',
 'https://www.filmaffinity.com/es/film896629.html',
 'https://www.filmaffinity.com/es/film639124.html',
 'https://www.filmaffinity.com/es/film885776.html',
 'https://www.filmaffinity.com/es/film100609.html',
 'https://www.filmaffinity.com/es/film444031.html',
 'https://www.filmaffinity.com/es/film298807.html',
 'https://www.filmaffinity.com/es/film945258.html',
 'https://www.filmaffinity.com/es/film313208.html',
 'https://www.filmaffinity.com/es/film712411.html',
 'https://www.filmaffinity.com/es/film613533.html',
 'https://www.filmaffinity.com/es/film424908.html',
 'https://www.filmaffinity.com/es/film294474.html',
 'https://www.filmaffinity.com/es/film506593.html',
 'https://www.filmaffinity.com/es/film559121.html',
 'https://ww

Una vez tenemos todas las urls podemos recorrerlas y almacenar los datos necesarios

In [214]:
# Accedemos a la página de la primera pelicula
driver.get(lista_pelis[0])

In [215]:
# titulo, año, direccion
titulo = driver.find_element(By.XPATH, '/html/body/div[5]/table/tbody/tr/td[2]/div[1]/div[4]/h1/span').text
año = driver.find_element(By.XPATH, '/html/body/div[5]/table/tbody/tr/td[2]/div[1]/div[4]/div/div[3]/dl[1]/dd[2]').text

In [216]:
titulo

'Vacaciones de verano'

In [217]:
año

'2023'

Vamos a ver cómo nos podemos mover entre ventanas del navegador

Abrir nueva ventana:

In [219]:
driver.execute_script('window.open("");')

Movernos a otra ventana

In [226]:
# driver.switch_to.window(driver.window_handles[0])
driver.switch_to.window(driver.window_handles[-1])

Cerrar ventana

In [221]:
driver.close()

In [222]:
driver.switch_to.window(driver.window_handles[-1])

Sabiendo cómo podemos movernos por entre las ventanas y sabiendo cómo extraer de cada página toda la información que necesitamos vamos a crear nuestro dataframe:

In [110]:
# para abrir todos los links en lista_pelis
for link in lista_pelis:
    driver.execute_script('window.open("'+link+'");')
    driver.get(link)

In [227]:
# Creamos un dataframe con todas las pelis que se estrenan la próxima semana:
pelis_dict = {"Titulo":[],
              "Año": []}

for link in lista_pelis[:5]:
    driver.execute_script('window.open("");')
    driver.switch_to.window(driver.window_handles[-1])
    driver.get(link)

    titulo = driver.find_element(By.XPATH, '/html/body/div[5]/table/tbody/tr/td[2]/div[1]/div[4]/h1/span').text
    año = driver.find_element(By.XPATH, '/html/body/div[5]/table/tbody/tr/td[2]/div[1]/div[4]/div/div[3]/dl[1]/dd[2]').text
    pelis_dict['Titulo'].append(titulo)
    pelis_dict['Año'].append(año)

df_peliculas = pd.DataFrame(pelis_dict)

In [228]:
df_peliculas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Titulo  5 non-null      object
 1   Año     5 non-null      object
dtypes: object(2)
memory usage: 208.0+ bytes


In [229]:
df_peliculas

Unnamed: 0,Titulo,Año
0,Vacaciones de verano,2023
1,Te estoy amando locamente,2023
2,Vesper,2022
3,The Black Demon,2023
4,Reposo absoluto,2022
