# Web Scraping: Selenium

A menudo, los datos están disponibles públicamente para nosotros, pero no en una forma que sea fácilmente utilizable. Ahí es donde entra en juego el web scraping, podemos usar web scraping para obtener nuestros datos deseados en un formato conveniente que luego se puede usar. A continuación, mostraré cómo se puede extraer información de interés de un sitio web usando el paquete Selenium en Python. Selenium nos permite manejar una ventana del navegador e interactuar con el sitio web mediante programación. 

Selenium también tiene varios métodos que facilitan la extracción de datos.
En este Jupyter Notebook vamos a usar Python 3 en Windows.

En primer lugar, tendremos que descargar un controlador.

Usaremos ChromeDriver para Google Chrome. Para obtener una lista completa de controladores y plataformas compatibles, consulte [Selenium](https://www.selenium.dev/downloads/). Si desea utilizar Google Chrome, diríjase a [chrome](https://chromedriver.chromium.org/) y descargue el controlador que corresponde a su versión actual de Google Chrome.

Como saber cual es la version de chrome que utilizo simple utilizamos pegamos el siguiente enlace en la barra de chrome chrome://settings/help

Antes de comenzar se preguntaran si ya se BeautifulSoup cual es la diferencia con Selenium.

A diferencia BeautifulSoup, Selenium no trabaja con el texto fuente en HTML de la web en cuestión, sino que carga la página en un navegador sin interfaz de usuario. El navegador interpreta entonces el código fuente de la página y crea, a partir de él, un Document Object Model (modelo de objetos de documento o DOM). Esta interfaz estandarizada permite poner a prueba las interacciones de los usuarios. De esta forma se consigue, por ejemplo, simular clics y rellenar formularios automáticamente. Los cambios en la web que resultan de dichas acciones se reflejan en el DOM. La estructura del proceso de web scraping con Selenium es la siguiente:

URL → Solicitud HTTP → HTML → Selenium → DOM



## Comencemos importando las bibliotecas que usaremos:

In [2]:
# pip install selenium

In [1]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
# import urllib3 # urllib3 es un cliente HTTP potente y fácil de usar para Python.
import re # Expresiones regulares 
import time
import pandas as pd

El objeto driver es con el que trabajaremos a partir de ahora

In [2]:
service = Service(executable_path='./chromedriver.exe')
options = webdriver.ChromeOptions()

In [3]:
driver = webdriver.Chrome(service=service, options=options)
# ...
# driver.quit()

In [4]:
# Creamos el driver con el que nos vamos a manejar en la sesión de scrapeo:

driver.get("http://www.google.es")

# time.sleep(5)

# driver.quit()

Ahora si queremos hacer click en el boton de "Rechazar". Selenium proporciona varios métodos para localizar elementos en la página web. Usaremos el método find_element para crear un objeto de botón, con el que luego podremos interactuar:

In [5]:
loadMore = driver.find_element(By.XPATH, '/html/body/div[2]/div[3]/div[3]/span/div/div/div/div[3]/div[1]/button[1]/div')

In [6]:
loadMore.click()

In [7]:
search_box = driver.find_element(By.XPATH, "/html/body/div[1]/div[3]/form/div[1]/div[1]/div[1]/div/div[2]/textarea")
search_box.send_keys("thebridgeschool")
search_box.submit()

In [8]:
driver.quit()

# Filmaffinity

In [9]:
service = Service(executable_path='./chromedriver.exe')
# options = webdriver.ChromeOptions()
driver = webdriver.Chrome(service=service, options=options)

In [10]:
# indicamos la URL de la página web a la que queremos acceder:
url = 'https://www.filmaffinity.com/es/main.html'
# el objeto driver nos va a permitir alterar el estado del la página
driver.get(url)

La página de Filmaffinity se ha abierto

Pero....

Nos hemos encontrado con un pop-up que nos pide aceptar cookies

1. Buscamos el botón
2. Hacemos click en el botón

Vamos a quitar el boton para seguir

In [11]:
elements_by_tag = driver.find_elements(By.TAG_NAME,'button')
elements_by_class_name = driver.find_elements(By.CLASS_NAME, 'css-2tkghh')
element_by_xpath = driver.find_element(By.XPATH, '/html/body/div[1]/div/div/div/div[2]/div/button[2]')

Una vez tenemos los elementos podemos hacer varias cosas con ellos

Podemos extraer todos los atributos que tenga

In [35]:
dir(element_by_xpath)
# obtenemos todos sus métodos y atributos:

['__abstractmethods__',
 '__class__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__le__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__weakref__',
 '_abc_impl',
 '_execute',
 '_id',
 '_parent',
 '_upload',
 'accessible_name',
 'aria_role',
 'clear',
 'click',
 'find_element',
 'find_elements',
 'get_attribute',
 'get_dom_attribute',
 'get_property',
 'id',
 'is_displayed',
 'is_enabled',
 'is_selected',
 'location',
 'location_once_scrolled_into_view',
 'parent',
 'rect',
 'screenshot',
 'screenshot_as_base64',
 'screenshot_as_png',
 'send_keys',
 'shadow_root',
 'size',
 'submit',
 'tag_name',
 'text',
 'value_of_css_property']

Podemos evaluar que tipo de elemento es (tag)

In [36]:
element_by_xpath.tag_name

'button'

Podemos sacar el valor que tiene (el texto)

In [37]:
element_by_xpath.text

'ACEPTO'

In [12]:
for i in range(0,len(elements_by_tag)):
    print(elements_by_tag[i].text)

socios
MÁS OPCIONES
ACEPTO


Incluso podemos guardar una imagen del elemento

In [40]:
type(element_by_xpath)
# Vemos que es tipo 'WebElement' y en la documentación podremos encontrar sus métodos

selenium.webdriver.remote.webelement.WebElement

In [13]:
# guardamos como 'mi_imagen.png' la imagen asociada al xpath
element_by_xpath.screenshot('mi_imagen.png')

True

Evaluamos que elementos hemos encontrado por el tag:

In [14]:
for index, element in enumerate(elements_by_tag):
    print('Elemento:', index)
    print('Texto del elemento',index, 'es', element.text)
    print('El tag del elemento',index, 'es', element.tag_name)
    element.screenshot('mi_imagen'+str(index)+'.png')

Elemento: 0
Texto del elemento 0 es socios
El tag del elemento 0 es button


Elemento: 1
Texto del elemento 1 es MÁS OPCIONES
El tag del elemento 1 es button
Elemento: 2
Texto del elemento 2 es ACEPTO
El tag del elemento 2 es button


Basta de tonterias seguimos

Instanciamos el elemento del tag [2] en la variable boton aceptar

In [15]:
boton_aceptar = elements_by_tag[2]

Si el elemento es interactivo podremos hacer más cosas además de las anteriores. Por ejemplo: hacer click

In [16]:
boton_aceptar.click()

Buscamos una película por título

In [20]:
from selenium.webdriver.common.keys import Keys

In [17]:
buscador = driver.find_element(By.XPATH, '/html/body/header/div[1]/div/div[2]/div/form/div/input')

In [18]:
buscador.send_keys('Oppenheimmer')
# buscador.clear()

In [21]:
# una vez escrita la búsqueda deberíamos poder activarla:
buscador.send_keys(Keys.ENTER)

In [25]:
# volvemos a la página anterior
driver.back()

In [23]:
buscador = driver.find_element(By.XPATH, '/html/body/header/div[1]/div/div[2]/div/form/div/input')
buscador.send_keys('Oppenheimer')

In [24]:
buscador.send_keys(Keys.ENTER)

### Vamos a buscar todas las películas que se estrenan el próximo viernes

1. Cogemos los containers que hay en la zona lateral

In [26]:
menu_lateral = driver.find_element(By.ID, 'lsmenu') 

In [27]:
mis_secciones = menu_lateral.find_elements(By.TAG_NAME, 'a')

2. Vemos con cuál nos tenemos que quedar

In [28]:
for a in mis_secciones:
    a.click()
    time.sleep(3)
    driver.back()

StaleElementReferenceException: Message: stale element reference: stale element not found
  (Session info: chrome=118.0.5993.71); For documentation on this error, please visit: https://www.selenium.dev/documentation/webdriver/troubleshooting/errors#stale-element-reference-exception
Stacktrace:
	GetHandleVerifier [0x00007FF76CB38EF2+54786]
	(No symbol) [0x00007FF76CAA5612]
	(No symbol) [0x00007FF76C95A64B]
	(No symbol) [0x00007FF76C9683FC]
	(No symbol) [0x00007FF76C95FA59]
	(No symbol) [0x00007FF76C95E34A]
	(No symbol) [0x00007FF76C96115F]
	(No symbol) [0x00007FF76C961250]
	(No symbol) [0x00007FF76C99D265]
	(No symbol) [0x00007FF76C992796]
	(No symbol) [0x00007FF76C9BBE6A]
	(No symbol) [0x00007FF76C9922E6]
	(No symbol) [0x00007FF76C9BC080]
	(No symbol) [0x00007FF76C9D4D02]
	(No symbol) [0x00007FF76C9BBC43]
	(No symbol) [0x00007FF76C990941]
	(No symbol) [0x00007FF76C991B84]
	GetHandleVerifier [0x00007FF76CE87F52+3524194]
	GetHandleVerifier [0x00007FF76CEDD800+3874576]
	GetHandleVerifier [0x00007FF76CED5D7F+3843215]
	GetHandleVerifier [0x00007FF76CBD5086+694166]
	(No symbol) [0x00007FF76CAB0A88]
	(No symbol) [0x00007FF76CAACA94]
	(No symbol) [0x00007FF76CAACBC2]
	(No symbol) [0x00007FF76CA9CC83]
	BaseThreadInitThunk [0x00007FFA7A497034+20]
	RtlUserThreadStart [0x00007FFA7B482651+33]


Accedemos al container central, en el que aparecen los estrenos por semana que queremos ver, exactamente igual que hemos hecho antes

In [29]:
cajon_central = driver.find_elements(By.CLASS_NAME, 'padding-movie-catrd')

In [30]:
for peli in cajon_central:
    print(peli.find_element(By.TAG_NAME, 'div').text)
    print(peli.find_element(By.TAG_NAME, 'a').get_attribute('href'))

Taylor Swift: The Eras Tour
(13 de octubre)


https://www.filmaffinity.com/es/film527865.html
Me he hecho viral
(11 de octubre)
https://www.filmaffinity.com/es/film486375.html
La Patrulla Canina: La superpelícula
(11 de octubre)
https://www.filmaffinity.com/es/film935252.html
Sound of Freedom
(11 de octubre)
https://www.filmaffinity.com/es/film678456.html
O corno
(11 de octubre)
https://www.filmaffinity.com/es/film212116.html
Al otro lado del río y entre los árboles
(11 de octubre)
https://www.filmaffinity.com/es/film195838.html
Orlando, mi biografía política
(11 de octubre)
https://www.filmaffinity.com/es/film304660.html
La vida de Brianeitor
(11 de octubre)
https://www.filmaffinity.com/es/film504999.html
Los colonos
(11 de octubre)
https://www.filmaffinity.com/es/film931693.html
Los asesinos de la luna
(20 de octubre)
https://www.filmaffinity.com/es/film970587.html
Mi otro Jon
(20 de octubre)
https://www.filmaffinity.com/es/film750006.html
El reino animal
(20 de octubre)
https://www.filmaffinity.com/es/film930773.html
El legado


Vamos a ver cómo nos podemos mover entre ventanas del navegador

Abrir nueva ventana:

In [31]:
driver.execute_script('window.open("");')

Movernos a otra ventana

In [33]:
driver.switch_to.window(driver.window_handles[1])

Cerrar ventana

In [34]:
driver.close()

Una vez cerramos la ventana tenemos que indicarle a qué ventana tiene que ir

In [35]:
driver.switch_to.window(driver.window_handles[-1])

In [36]:
driver.close()