# Web Scraping: Selenium

A menudo, los datos están disponibles públicamente para nosotros, pero no en una forma que sea fácilmente utilizable. Ahí es donde entra en juego el web scraping, podemos usar web scraping para obtener nuestros datos deseados en un formato conveniente que luego se puede usar. A continuación, mostraré cómo se puede extraer información de interés de un sitio web usando el paquete Selenium en Python. Selenium nos permite manejar una ventana del navegador e interactuar con el sitio web mediante programación. 

Selenium también tiene varios métodos que facilitan la extracción de datos.
En este Jupyter Notebook vamos a usar Python 3 en Windows.

En primer lugar, tendremos que descargar un controlador.

Usaremos ChromeDriver para Google Chrome. Para obtener una lista completa de controladores y plataformas compatibles, consulte [Selenium](https://www.selenium.dev/downloads/). Si desea utilizar Google Chrome, diríjase a [chrome](https://chromedriver.chromium.org/) y descargue el controlador que corresponde a su versión actual de Google Chrome.

Como saber cual es la version de chrome que utilizo simple utilizamos pegamos el siguiente enlace en la barra de chrome chrome://settings/help

Antes de comenzar se preguntaran si ya se BeautifulSoup cual es la diferencia con Selenium.

A diferencia BeautifulSoup, Selenium no trabaja con el texto fuente en HTML de la web en cuestión, sino que carga la página en un navegador sin interfaz de usuario. El navegador interpreta entonces el código fuente de la página y crea, a partir de él, un Document Object Model (modelo de objetos de documento o DOM). Esta interfaz estandarizada permite poner a prueba las interacciones de los usuarios. De esta forma se consigue, por ejemplo, simular clics y rellenar formularios automáticamente. Los cambios en la web que resultan de dichas acciones se reflejan en el DOM. La estructura del proceso de web scraping con Selenium es la siguiente:

URL → Solicitud HTTP → HTML → Selenium → DOM



## Comencemos importando las bibliotecas que usaremos:

In [2]:
# pip install selenium

In [1]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
import time

El objeto driver es con el que trabajaremos a partir de ahora

In [17]:
service = Service(executable_path='./chromedriver.exe')
options = webdriver.ChromeOptions()

In [18]:
driver = webdriver.Chrome(service=service, options=options)
# ...
# driver.quit()

In [11]:
# Creamos el driver con el que nos vamos a manejar en la sesión de scrapeo:

driver.get("http://www.google.es")

# time.sleep(5)

# driver.quit()

In [7]:
# driver.get("https://www.thebridge.tech/")

In [8]:
# driver.quit()

Ahora si queremos hacer click en el boton de "Rechazar". Selenium proporciona varios métodos para localizar elementos en la página web. Usaremos el método find_element para crear un objeto de botón, con el que luego podremos interactuar:

In [None]:
/html/body/div[2]/div[2]/div[3]/span/div/div/div/div[3]/div[1]/button[1]/div

In [12]:
loadMore = driver.find_element(By.XPATH, '/html/body/div[2]/div[2]/div[3]/span/div/div/div/div[3]/div[1]/button[1]/div')

In [13]:
loadMore.click()

In [15]:
search_box = driver.find_element(By.XPATH, "/html/body/div[1]/div[3]/form/div[1]/div[1]/div[1]/div/div[2]/textarea")
search_box.send_keys("thebridgeschool")
search_box.submit()

In [16]:
driver.quit()

In [19]:
lista_webs = ["https://www.thebridge.tech/",
              "https://www.kaggle.com/",
              "https://www.youtube.com/",
              "https://www.elpais.com/",
              "https://www.rtve.es/"
              ]

for web in lista_webs:
    driver.get(web)
    time.sleep(3)

In [20]:
driver.quit()

# Filmaffinity

In [41]:
service = Service(executable_path='./chromedriver.exe')
options = webdriver.ChromeOptions()
driver = webdriver.Chrome(service=service, options=options)

In [42]:
# indicamos la URL de la página web a la que queremos acceder:
url = 'https://www.filmaffinity.com/es/main.html'
# el objeto driver nos va a permitir alterar el estado del la página
driver.get(url)

La página de Filmaffinity se ha abierto

Pero....

Nos hemos encontrado con un pop-up que nos pide aceptar cookies

1. Buscamos el botón
2. Hacemos click en el botón

Vamos a quitar el boton para seguir

In [43]:
elements_by_tag = driver.find_elements(By.TAG_NAME,'button')
elements_by_class_name = driver.find_elements(By.CLASS_NAME, 'css-2tkghh')
element_by_xpath = driver.find_element(By.XPATH, '//*[@id="qc-cmp2-ui"]/div[2]/div/button[2]')

Una vez tenemos los elementos podemos hacer varias cosas con ellos

Podemos extraer todos los atributos que tenga

In [19]:
dir(element_by_xpath)
# obtenemos todos sus métodos y atributos:

['__abstractmethods__',
 '__class__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__le__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__weakref__',
 '_abc_impl',
 '_execute',
 '_id',
 '_parent',
 '_upload',
 'accessible_name',
 'aria_role',
 'clear',
 'click',
 'find_element',
 'find_elements',
 'get_attribute',
 'get_dom_attribute',
 'get_property',
 'id',
 'is_displayed',
 'is_enabled',
 'is_selected',
 'location',
 'location_once_scrolled_into_view',
 'parent',
 'rect',
 'screenshot',
 'screenshot_as_base64',
 'screenshot_as_png',
 'send_keys',
 'shadow_root',
 'size',
 'submit',
 'tag_name',
 'text',
 'value_of_css_property']

Podemos evaluar que tipo de elemento es (tag)

In [24]:
element_by_xpath.tag_name

'button'

Podemos sacar el valor que tiene (el texto)

In [25]:
element_by_xpath.text

'NO ACEPTO'

In [26]:
for i in range(0,len(elements_by_tag)):
    print(elements_by_tag[i].text)

socios
MÁS OPCIONES
NO ACEPTO
ACEPTO


Incluso podemos guardar una imagen del elemento

In [40]:
type(element_by_xpath)
# Vemos que es tipo 'WebElement' y en la documentación podremos encontrar sus métodos

selenium.webdriver.remote.webelement.WebElement

In [27]:
# guardamos como 'mi_imagen.png' la imagen asociada al xpath
element_by_xpath.screenshot('mi_imagen.png')

True

Evaluamos que elementos hemos encontrado por el tag:

In [28]:
for index, element in enumerate(elements_by_tag):
    print('Elemento:', index)
    print('Texto del elemento',index, 'es', element.text)
    print('El tag del elemento',index, 'es', element.tag_name)
    element.screenshot('mi_imagen'+str(index)+'.png')

Elemento: 0
Texto del elemento 0 es socios
El tag del elemento 0 es button
Elemento: 1
Texto del elemento 1 es MÁS OPCIONES
El tag del elemento 1 es button
Elemento: 2
Texto del elemento 2 es NO ACEPTO
El tag del elemento 2 es button
Elemento: 3
Texto del elemento 3 es ACEPTO
El tag del elemento 3 es button


Basta de tonterias seguimos

Instanciamos el elemento del tag [2] en la variable boton aceptar

In [44]:
boton_aceptar = elements_by_tag[2]

Si el elemento es interactivo podremos hacer más cosas además de las anteriores. Por ejemplo: hacer click

In [45]:
boton_aceptar.click()

Buscamos una película por título

In [38]:
from selenium.webdriver.common.keys import Keys

In [31]:
buscador = driver.find_element(By.XPATH, '/html/body/header/div[1]/div/div[2]/div/form/div/input')

In [32]:
buscador.send_keys('Oppenheimmer')
# buscador.clear()

In [33]:
# una vez escrita la búsqueda deberíamos poder activarla:
# buscador.send_keys(Keys.ENTER)
buscador.submit()

In [34]:
# volvemos a la página anterior
driver.back()

In [35]:
buscador.clear()

In [36]:
buscador = driver.find_element(By.XPATH, '/html/body/header/div[1]/div/div[2]/div/form/div/input')
buscador.send_keys('Oppenheimer')

In [39]:
buscador.send_keys(Keys.ENTER)

### Vamos a buscar todas las películas que se estrenan el próximo viernes

1. Cogemos los containers que hay en la zona lateral

In [46]:
menu_lateral = driver.find_element(By.ID, 'lsmenu') 

In [47]:
mis_secciones = menu_lateral.find_elements(By.TAG_NAME, 'a')

2. Vemos con cuál nos tenemos que quedar

In [48]:
mis_secciones

[<selenium.webdriver.remote.webelement.WebElement (session="1cd30cd32ecdd24308cfedfa3bf4a3a4", element="f.E67EE9D51C01558264D0016EA57FA9B3.d.590A681811BF5FB8CE54F9285BC70595.e.43")>,
 <selenium.webdriver.remote.webelement.WebElement (session="1cd30cd32ecdd24308cfedfa3bf4a3a4", element="f.E67EE9D51C01558264D0016EA57FA9B3.d.590A681811BF5FB8CE54F9285BC70595.e.113")>,
 <selenium.webdriver.remote.webelement.WebElement (session="1cd30cd32ecdd24308cfedfa3bf4a3a4", element="f.E67EE9D51C01558264D0016EA57FA9B3.d.590A681811BF5FB8CE54F9285BC70595.e.114")>,
 <selenium.webdriver.remote.webelement.WebElement (session="1cd30cd32ecdd24308cfedfa3bf4a3a4", element="f.E67EE9D51C01558264D0016EA57FA9B3.d.590A681811BF5FB8CE54F9285BC70595.e.115")>,
 <selenium.webdriver.remote.webelement.WebElement (session="1cd30cd32ecdd24308cfedfa3bf4a3a4", element="f.E67EE9D51C01558264D0016EA57FA9B3.d.590A681811BF5FB8CE54F9285BC70595.e.116")>,
 <selenium.webdriver.remote.webelement.WebElement (session="1cd30cd32ecdd24308cfe

In [50]:
# for a in mis_secciones[:5]:
#     # print(a)
#     a.click()
#     time.sleep(3)
#     driver.back()

Accedemos al container central, en el que aparecen los estrenos por semana que queremos ver, exactamente igual que hemos hecho antes

In [51]:
cajon_central = driver.find_elements(By.CLASS_NAME, 'padding-movie-catrd')

In [52]:
for peli in cajon_central:
    print(peli.find_element(By.TAG_NAME, 'div').text)
    print(peli.find_element(By.TAG_NAME, 'a').get_attribute('href'))

Furiosa: De la saga Mad Max
(24 de mayo)
https://www.filmaffinity.com/es/film501691.html
Segundo premio
(24 de mayo)
https://www.filmaffinity.com/es/film385824.html
Jugando con fuego
(24 de mayo)
https://www.filmaffinity.com/es/film612853.html
Se abre la veda
(24 de mayo)
https://www.filmaffinity.com/es/film164108.html
Red
(24 de mayo)
https://www.filmaffinity.com/es/film896906.html
Historias
(24 de mayo)
https://www.filmaffinity.com/es/film218437.html
El último late night
(24 de mayo)
https://www.filmaffinity.com/es/film897658.html
El último verano
(24 de mayo)
https://www.filmaffinity.com/es/film132707.html
Sabor a libertad
(24 de mayo)
https://www.filmaffinity.com/es/film790882.html
Back to Black
(31 de mayo)
https://www.filmaffinity.com/es/film159385.html
El exorcismo de Georgetown
(31 de mayo)
https://www.filmaffinity.com/es/film238020.html
Arthur
(31 de mayo)
https://www.filmaffinity.com/es/film439872.html
La mujer dormida
(31 de mayo)
https://www.filmaffinity.com/es/film117802.h

Vamos a ver cómo nos podemos mover entre ventanas del navegador

Abrir nueva ventana:

In [53]:
driver.execute_script('window.open("");')

Movernos a otra ventana

In [56]:
driver.switch_to.window(driver.window_handles[1])

Cerrar ventana

In [57]:
driver.close()

Una vez cerramos la ventana tenemos que indicarle a qué ventana tiene que ir

In [59]:
driver.switch_to.window(driver.window_handles[-1])

In [63]:
# driver.close()

In [64]:
service = Service(executable_path='./chromedriver.exe')
options = webdriver.ChromeOptions()
driver = webdriver.Chrome(service=service, options=options)
time.sleep(3)

driver.get("http://www.google.es")
loadMore = driver.find_element(By.XPATH, '/html/body/div[2]/div[2]/div[3]/span/div/div/div/div[3]/div[1]/button[1]/div')
loadMore.click()

lista_conceptos = ["precio bitcoin", "precio ethereum", "precio sp500", "precio oro"]
search_box = driver.find_element(By.XPATH, "/html/body/div[1]/div[3]/form/div[1]/div[1]/div[1]/div/div[2]/textarea")
lista_titulos = []

for concepto in lista_conceptos:
    search_box.send_keys(concepto)
    search_box.submit()
    link = driver.find_element(By.TAG_NAME, "a")
    lista_titulos.append(link.text)
    time.sleep(5)
    driver.back()
print(lista_titulos)

['Saltar al contenido principal', 'Saltar al contenido principal', 'Saltar al contenido principal', 'Saltar al contenido principal']


In [65]:
driver.quit()