# Web Scraping: Selenium

A menudo, los datos están disponibles públicamente para nosotros, pero no en una forma que sea fácilmente utilizable. Ahí es donde entra en juego el web scraping, podemos usar web scraping para obtener nuestros datos deseados en un formato conveniente que luego se puede usar. A continuación, mostraré cómo se puede extraer información de interés de un sitio web usando el paquete Selenium en Python. Selenium nos permite manejar una ventana del navegador e interactuar con el sitio web mediante programación. 

Selenium también tiene varios métodos que facilitan la extracción de datos.
En este Jupyter Notebook vamos a usar Python 3 en Windows.

En primer lugar, tendremos que descargar un controlador.

Usaremos ChromeDriver para Google Chrome. Para obtener una lista completa de controladores y plataformas compatibles, consulte [Selenium](https://www.selenium.dev/downloads/). Si desea utilizar Google Chrome, diríjase a [chrome](https://chromedriver.chromium.org/) y descargue el controlador que corresponde a su versión actual de Google Chrome.

Como saber cual es la version de chrome que utilizo simple utilizamos pegamos el siguiente enlace en la barra de chrome chrome://settings/help

Antes de comenzar se preguntaran si ya se BeautifulSoup cual es la diferencia con Selenium.

A diferencia BeautifulSoup, Selenium no trabaja con el texto fuente en HTML de la web en cuestión, sino que carga la página en un navegador sin interfaz de usuario. El navegador interpreta entonces el código fuente de la página y crea, a partir de él, un Document Object Model (modelo de objetos de documento o DOM). Esta interfaz estandarizada permite poner a prueba las interacciones de los usuarios. De esta forma se consigue, por ejemplo, simular clics y rellenar formularios automáticamente. Los cambios en la web que resultan de dichas acciones se reflejan en el DOM. La estructura del proceso de web scraping con Selenium es la siguiente:

URL → Solicitud HTTP → HTML → Selenium → DOM



## Comencemos importando las bibliotecas que usaremos:

In [1]:
pip install selenium

Collecting selenium
  Downloading selenium-4.32.0-py3-none-any.whl.metadata (7.5 kB)
Collecting trio~=0.17 (from selenium)
  Downloading trio-0.30.0-py3-none-any.whl.metadata (8.5 kB)
Collecting trio-websocket~=0.9 (from selenium)
  Downloading trio_websocket-0.12.2-py3-none-any.whl.metadata (5.1 kB)
Collecting sortedcontainers (from trio~=0.17->selenium)
  Downloading sortedcontainers-2.4.0-py2.py3-none-any.whl.metadata (10 kB)
Collecting outcome (from trio~=0.17->selenium)
  Downloading outcome-1.3.0.post0-py2.py3-none-any.whl.metadata (2.6 kB)
Collecting wsproto>=0.14 (from trio-websocket~=0.9->selenium)
  Downloading wsproto-1.2.0-py3-none-any.whl.metadata (5.6 kB)
Collecting pysocks!=1.5.7,<2.0,>=1.5.6 (from urllib3[socks]<3,>=1.26->selenium)
  Downloading PySocks-1.7.1-py3-none-any.whl.metadata (13 kB)
Downloading selenium-4.32.0-py3-none-any.whl (9.4 MB)
   ---------------------------------------- 0.0/9.4 MB ? eta -:--:--
   ---------------------------------------- 0.0/9.4 MB ? 

In [45]:
pip install fake-useragent

Collecting fake-useragent
  Downloading fake_useragent-2.2.0-py3-none-any.whl.metadata (17 kB)
Downloading fake_useragent-2.2.0-py3-none-any.whl (161 kB)
Installing collected packages: fake-useragent
Successfully installed fake-useragent-2.2.0
Note: you may need to restart the kernel to use updated packages.


In [1]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
# import urllib3 # urllib3 es un cliente HTTP potente y fácil de usar para Python.
import re # Expresiones regulares 
import time
import pandas as pd

El objeto driver es con el que trabajaremos a partir de ahora

In [35]:
service = Service(executable_path='./chromedriver.exe')
options = webdriver.ChromeOptions()

In [36]:
driver = webdriver.Chrome(service=service, options=options)
# ...
# driver.quit()

In [41]:
# Creamos el driver con el que nos vamos a manejar en la sesión de scrapeo:
driver = webdriver.Chrome(service=service, options=options)
driver.get("https://www.google.es")

#time.sleep(5)

#driver.quit()

Ahora si queremos hacer click en el boton de "Rechazar". Selenium proporciona varios métodos para localizar elementos en la página web. Usaremos el método find_element para crear un objeto de botón, con el que luego podremos interactuar:

In [42]:
loadMore = driver.find_element(By.XPATH, '/html/body/div[2]/div[2]/div[3]/span/div/div/div/div[3]/div[1]/button[1]')

In [43]:
loadMore.click()

In [44]:
search_box = driver.find_element(By.XPATH, "/html/body/div[1]/div[3]/form/div[1]/div[1]/div[1]/div/div[2]/textarea")
search_box.send_keys("thebridgeschool")
search_box.submit()

In [34]:
driver.quit()

# Filmaffinity

In [29]:
service = Service(executable_path='./chromedriver.exe')
options = webdriver.ChromeOptions()
driver = webdriver.Chrome(service=service, options=options)

In [30]:
# indicamos la URL de la página web a la que queremos acceder:
url = 'https://www.filmaffinity.com/es/main.html'
# el objeto driver nos va a permitir alterar el estado del la página
driver.get(url)

La página de Filmaffinity se ha abierto

Pero....

Nos hemos encontrado con un pop-up que nos pide aceptar cookies

1. Buscamos el botón
2. Hacemos click en el botón

Vamos a quitar el boton para seguir

In [31]:
elements_by_tag = driver.find_elements(By.TAG_NAME,'button')
elements_by_class_name = driver.find_elements(By.CLASS_NAME, 'css-2tkghh')
element_by_xpath = driver.find_element(By.XPATH, '/html/body/div[1]/div/div/div/div[2]/div/button[2]')

Una vez tenemos los elementos podemos hacer varias cosas con ellos

Podemos extraer todos los atributos que tenga

In [32]:
dir(element_by_xpath)
# obtenemos todos sus métodos y atributos:

['__abstractmethods__',
 '__class__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__le__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__weakref__',
 '_abc_impl',
 '_execute',
 '_id',
 '_parent',
 '_upload',
 'accessible_name',
 'aria_role',
 'clear',
 'click',
 'find_element',
 'find_elements',
 'get_attribute',
 'get_dom_attribute',
 'get_property',
 'id',
 'is_displayed',
 'is_enabled',
 'is_selected',
 'location',
 'location_once_scrolled_into_view',
 'parent',
 'rect',
 'screenshot',
 'screenshot_as_base64',
 'screenshot_as_png',
 'send_keys',
 'shadow_root',
 'size',
 'submit',
 'tag_name',
 'text',
 'value_of_css_property']

Podemos evaluar que tipo de elemento es (tag)

In [33]:
element_by_xpath.tag_name

'button'

Podemos sacar el valor que tiene (el texto)

In [34]:
element_by_xpath.text

'NO ACEPTO'

In [35]:
for i in range(0,len(elements_by_tag)):
    print(elements_by_tag[i].text)

socios
MÁS OPCIONES
NO ACEPTO
ACEPTO


Incluso podemos guardar una imagen del elemento

In [40]:
type(element_by_xpath)
# Vemos que es tipo 'WebElement' y en la documentación podremos encontrar sus métodos

selenium.webdriver.remote.webelement.WebElement

In [36]:
# guardamos como 'mi_imagen.png' la imagen asociada al xpath
element_by_xpath.screenshot('mi_imagen.png')

True

Evaluamos que elementos hemos encontrado por el tag:

In [37]:
for index, element in enumerate(elements_by_tag):
    print('Elemento:', index)
    print('Texto del elemento',index, 'es', element.text)
    print('El tag del elemento',index, 'es', element.tag_name)
    element.screenshot('mi_imagen'+str(index)+'.png')

Elemento: 0
Texto del elemento 0 es socios
El tag del elemento 0 es button
Elemento: 1
Texto del elemento 1 es MÁS OPCIONES
El tag del elemento 1 es button
Elemento: 2
Texto del elemento 2 es NO ACEPTO
El tag del elemento 2 es button
Elemento: 3
Texto del elemento 3 es ACEPTO
El tag del elemento 3 es button


Basta de tonterias seguimos

Instanciamos el elemento del tag [2] en la variable boton aceptar

In [38]:
boton_aceptar = elements_by_tag[2]

Si el elemento es interactivo podremos hacer más cosas además de las anteriores. Por ejemplo: hacer click

In [39]:
boton_aceptar.click()

Buscamos una película por título

In [49]:
from selenium.webdriver.common.keys import Keys

In [40]:
buscador = driver.find_element(By.XPATH, '/html/body/header/div[1]/div/div[2]/div/form/div/input')

In [43]:
buscador.send_keys('Oppenheimmer')
# buscador.clear()

In [42]:
buscador.clear()

In [44]:
# una vez escrita la búsqueda deberíamos poder activarla:
# buscador.send_keys(Keys.ENTER)
buscador.submit()

In [45]:
# volvemos a la página anterior
driver.back()

In [46]:
buscador.clear()

In [47]:
buscador = driver.find_element(By.XPATH, '/html/body/header/div[1]/div/div[2]/div/form/div/input')
buscador.send_keys('Oppenheimer')

In [50]:
buscador.send_keys(Keys.ENTER)

### Vamos a buscar todas las películas que se estrenan el próximo viernes

1. Cogemos los containers que hay en la zona lateral

In [51]:
menu_lateral = driver.find_element(By.ID, 'lsmenu') 

In [52]:
mis_secciones = menu_lateral.find_elements(By.TAG_NAME, 'a')

2. Vemos con cuál nos tenemos que quedar

In [53]:
mis_secciones

[<selenium.webdriver.remote.webelement.WebElement (session="2b2bed7f4fc52dc08beca4bf4d1d0fbe", element="f.0C6FD960A8F19D538ABF13D0D07CA512.d.8E0B997B52F82D446A0382BB8B4F587E.e.3571")>,
 <selenium.webdriver.remote.webelement.WebElement (session="2b2bed7f4fc52dc08beca4bf4d1d0fbe", element="f.0C6FD960A8F19D538ABF13D0D07CA512.d.8E0B997B52F82D446A0382BB8B4F587E.e.3572")>,
 <selenium.webdriver.remote.webelement.WebElement (session="2b2bed7f4fc52dc08beca4bf4d1d0fbe", element="f.0C6FD960A8F19D538ABF13D0D07CA512.d.8E0B997B52F82D446A0382BB8B4F587E.e.3573")>,
 <selenium.webdriver.remote.webelement.WebElement (session="2b2bed7f4fc52dc08beca4bf4d1d0fbe", element="f.0C6FD960A8F19D538ABF13D0D07CA512.d.8E0B997B52F82D446A0382BB8B4F587E.e.3574")>,
 <selenium.webdriver.remote.webelement.WebElement (session="2b2bed7f4fc52dc08beca4bf4d1d0fbe", element="f.0C6FD960A8F19D538ABF13D0D07CA512.d.8E0B997B52F82D446A0382BB8B4F587E.e.3575")>,
 <selenium.webdriver.remote.webelement.WebElement (session="2b2bed7f4fc52dc

In [54]:
for a in mis_secciones[:5]:
    # print(a)
    a.click()
    time.sleep(3)
    driver.back()

Accedemos al container central, en el que aparecen los estrenos por semana que queremos ver, exactamente igual que hemos hecho antes

In [60]:
driver.forward()
driver.back

In [61]:
cajon_central = driver.find_elements(By.CLASS_NAME, 'padding-movie-catrd')

In [62]:
for peli in cajon_central:
    print(peli.find_element(By.TAG_NAME, 'div').text)
    print(peli.find_element(By.TAG_NAME, 'a').get_attribute('href'))

Borromini y Bernini: Eternos rivales
(7 de octubre)
https://www.filmaffinity.com/es/film773810.html
Joker: Folie à Deux
(4 de octubre)
https://www.filmaffinity.com/es/film630860.html
Alas blancas
(4 de octubre)
https://www.filmaffinity.com/es/film734110.html
Los destellos
(4 de octubre)
https://www.filmaffinity.com/es/film356977.html
Crossing
(4 de octubre)
https://www.filmaffinity.com/es/film295796.html
Antes era divertido
(4 de octubre)
https://www.filmaffinity.com/es/film549023.html
Saturno
(4 de octubre)
https://www.filmaffinity.com/es/film627095.html
Orgullo Vieja
(4 de octubre)
https://www.filmaffinity.com/es/film413001.html
Fin de viaje, Sahara
(4 de octubre)
https://www.filmaffinity.com/es/film168387.html
Super/Man: La historia de Christopher Reeve
(10 de octubre)
https://www.filmaffinity.com/es/film791753.html
Robot salvaje
(11 de octubre)
https://www.filmaffinity.com/es/film605382.html
La infiltrada
(11 de octubre)
https://www.filmaffinity.com/es/film932478.html
La sustancia


Vamos a ver cómo nos podemos mover entre ventanas del navegador

Abrir nueva ventana:

In [63]:
driver.execute_script('window.open("");')

Movernos a otra ventana

In [66]:
driver.switch_to.window(driver.window_handles[1])

Cerrar ventana

In [70]:
driver.close()

Una vez cerramos la ventana tenemos que indicarle a qué ventana tiene que ir

In [69]:
driver.switch_to.window(driver.window_handles[-1])

In [75]:
# driver.quit()

In [76]:
service = Service(executable_path='./chromedriver.exe')
options = webdriver.ChromeOptions()
driver = webdriver.Chrome(service=service, options=options)
time.sleep(3)

driver.get("http://www.google.es")
loadMore = driver.find_element(By.XPATH, '/html/body/div[2]/div[2]/div[3]/span/div/div/div/div[3]/div[1]/button[1]')
loadMore.click()

lista_conceptos = ["precio bitcoin", "precio ethereum", "precio sp500", "precio oro"]
search_box = driver.find_element(By.XPATH, "/html/body/div[1]/div[3]/form/div[1]/div[1]/div[1]/div/div[2]/textarea")
lista_titulos = []

for concepto in lista_conceptos:
    search_box.send_keys(concepto)
    search_box.submit()
    link = driver.find_element(By.TAG_NAME, "a")
    lista_titulos.append(link.text)
    time.sleep(5)
    driver.back()
print(lista_titulos)

['Saltar al contenido principal', 'Saltar al contenido principal', 'Saltar al contenido principal', 'Saltar al contenido principal']


In [85]:
driver.quit()

### IMDB

In [86]:
service = Service(executable_path='./chromedriver.exe')
options = webdriver.ChromeOptions()
driver = webdriver.Chrome(service=service, options=options)
time.sleep(2)

driver.get("https://www.imdb.com/chart/top/")
loadMore = driver.find_element(By.XPATH, '/html/body/div[2]/div/div/div[2]/div/button[1]')
loadMore.click()
time.sleep(2)
pelicula = driver.find_element(By.XPATH, '/html/body/div[2]/main/div/div[3]/section/div/div[2]/div/ul/li[1]/div[2]/div/div/div[1]/a')
pelicula.click()
time.sleep(2)
puntuar = driver.find_element(By.XPATH, '/html/body/div[2]/main/div/section[1]/section/div[3]/section/section/div[3]/div[2]/div[2]/div[1]/div/div[2]/button')
puntuar.click()
time.sleep(2)
# estrellas_10 = driver.find_element(By.XPATH, '/html/body/div[4]/div[2]/div/div[2]/div/div[2]/div[2]/div/div[2]/button[9]')
# estrellas_10.click()
# time.sleep(2)
# confirmar = driver.find_element(By.XPATH, '/html/body/div[4]/div[2]/div/div[2]/div/div[2]/div[2]/button')
# confirmar.click()
time.sleep(2)
driver.back()
driver.back()
driver.quit()