Antes de empezar: un poco de documentación para enterder ligeramente cómo funciona HTML:

https://www.w3schools.com/html/html_intro.asp

# Web Scraping: Selenium

En este notebook veremos cómo automatizar la extracción de datos de una página web simulando la navegación. Para ello utilizaremos la librería Selenium:
https://selenium-python.readthedocs.io/

El software libre Selenium es un **framework** para realizar test automatizados de software a aplicaciones web. En principio, fue desarrollado para poner a prueba páginas y apps web, pero el **WebDriver** de Selenium también puede usarse con Python para realizar scraping. Si bien Selenium en sí no está escrito en Python, con este lenguaje de programación es posible acceder a las funciones del software.

A diferencia de Scrapy y de BeautifulSoup, Selenium no trabaja con el texto fuente en HTML de la web en cuestión, sino que carga la página en un navegador sin interfaz de usuario. El navegador interpreta entonces el código fuente de la página y crea, a partir de él, un **Document Object Model** (modelo de objetos de documento o DOM). Esta interfaz estandarizada permite poner a prueba las interacciones de los usuarios. De esta forma se consigue, por ejemplo, simular clics y rellenar formularios automáticamente. Los cambios en la web que resultan de dichas acciones se reflejan en el DOM. La estructura del proceso de web scraping con Selenium es la siguiente:

URL → Solicitud HTTP → HTML → Selenium → DOM

In [2]:
# Imports
import pandas as pd 
from selenium import webdriver
from selenium.webdriver.common.keys import Keys


Deberemos descargar un archivo Chrome driver para selenium en https://chromedriver.chromium.org/downloads, es importante que compruebes la versión de Chrome que utilizas y descargaues el driver correspondiente.
Una vez descargado crearemos una variable con la dirección completa del path al chromedriver 

In [2]:
# Mientras estas usando selenium no se debe usar la página web

El objeto driver es con el que trabajaremos a partir de ahora

In [3]:
# especificamos el path hasta nuestro driver recién descargado:
chrome_driver_path = 'c:\\Users\\Usuario\\Desktop\\The_Bridge\\chromedriver.exe'    #hay que añadir chromedriver al final del path
# headless nos permite no tener que ver la navegación en la ventana de Chrome
options = webdriver.ChromeOptions()
#options.add_argument("headless")    #para no ver el resultado de lo que hago

In [4]:
# Creamos el driver con el que nos vamos a manejar en la sesión de scrapeo:
driver = webdriver.Chrome(executable_path = chrome_driver_path, options= options) # las opciones por defectos 

In [5]:
# indicamos la URL de la página web a la que queremos acceder:
url = "https://www.filmaffinity.com/es/main.html"
# el objeto driver nos va a permitir alterar el estado del la página
driver.get(url)

¡Vaya! Nos hemos encontrado con un pop-up que nos pide aceptar cookies o algo po el estilo, si nos lo queremos saltar, para poder automatizar el proceso deberemos:

1. Buscamos el botón
2. Hacemos click en el botón

Selenium nos permite buscar elementos por etiqueteas de html: https://selenium-python.readthedocs.io/locating-elements.html

CUIDADO! Los metodos de busqueda de elementos estan "duplicados". Tenemos *find_element_by_tag_name* y *find_elements_by_tag_name* el primero nos devolverá el primer elemento que encuentre (aunque haya más), el segundo nos devolverá una lista con todos los elementos que encuentre (aunque solo sea uno)

In [6]:
# diferencia entre hacer la busqueda por xpath, id, class
# Xpath es lo mas facil boton derecho, copiar, copy full Xpath - hace referencia a un elemento de la página web por posición. Si algun paso de la web se elimina, luego este sistema ya no me vale, no seria la mejor opcion para automatizar un proceso


In [7]:
# Las tres maneras de hacerlo
elements_by_tag = driver.find_elements_by_tag_name("button")    #element no es lo mismo que find_elements (hay que tener cuidado). Singular solo me trae el primero
elements_by_class_name = driver.find_element_by_class_name("css-47sehv")
elements_by_xpath = driver.find_element_by_xpath ("/html/body/div[1]/div/div/div/div[2]/div/button[2]")

Una vez tenemos los elementos podemos hacer varias cosas con ellos

Podemos extraer todos los atributos que tenga

In [8]:
dir(elements_by_xpath)

['__class__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__le__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__weakref__',
 '_execute',
 '_id',
 '_parent',
 '_upload',
 '_w3c',
 'clear',
 'click',
 'find_element',
 'find_element_by_class_name',
 'find_element_by_css_selector',
 'find_element_by_id',
 'find_element_by_link_text',
 'find_element_by_name',
 'find_element_by_partial_link_text',
 'find_element_by_tag_name',
 'find_element_by_xpath',
 'find_elements',
 'find_elements_by_class_name',
 'find_elements_by_css_selector',
 'find_elements_by_id',
 'find_elements_by_link_text',
 'find_elements_by_name',
 'find_elements_by_partial_link_text',
 'find_elements_by_tag_name',
 'find_elements_by_xpath',
 'get_attribute',
 'get_property',
 'id',
 

In [9]:
# obtenemos todos sus métodos y atributos:


In [10]:
# dimensiones del boton
elements_by_xpath.size

{'height': 40, 'width': 340}

In [11]:
elements_by_xpath.get_attribute("size")

'large'

Podemos evaluar que tipo de elemento es (tag)

In [12]:
elements_by_xpath.tag_name

'button'

Podemos sacar el valor que tiene (el texto)

In [1]:
elements_by_xpath.text

NameError: name 'elements_by_xpath' is not defined

In [14]:
for i in range(0, len(elements_by_tag)):
    print(elements_by_tag[i])       #revisar la clase grabada, no es socios

<selenium.webdriver.remote.webelement.WebElement (session="df228c863b176523f9cd5f69c27c04d5", element="6b38a219-383a-423a-980e-cd587115be8c")>
<selenium.webdriver.remote.webelement.WebElement (session="df228c863b176523f9cd5f69c27c04d5", element="342dff7b-f6c8-4368-9e27-ab27ee48e50f")>
<selenium.webdriver.remote.webelement.WebElement (session="df228c863b176523f9cd5f69c27c04d5", element="f8768fe0-f4de-4563-8941-967f7b8fff57")>


Incluso podemos guardar una imagen del elemento

In [15]:
# Vemos que es tipo 'WebElement' y en la documentación podremos encontrar sus métodos
type(elements_by_xpath)

selenium.webdriver.remote.webelement.WebElement

In [16]:
# guardamos como 'mi_imagen.png' la imagen asociada al xpath


Evaluamos que elementos hemos encontrado por el tag:

In [17]:
elements_by_xpath.screenshot("mi_imagen.png")
# Me da true porque los screenshots se han creado correctamente

True

Nos quedamos con el botón que nos interesa

In [18]:
for index, element in enumerate(elements_by_tag):
    print("Elementos", index)
    print("Texto del elemento", index, "es", element.text)
    print("El tag del elemento", index, "es", element.tag_name)
    element.screenshot("mi_imagen"+ str(index)+".png")

Elementos 0
Texto del elemento 0 es socios
El tag del elemento 0 es button
Elementos 1
Texto del elemento 1 es MÁS OPCIONES
El tag del elemento 1 es button
Elementos 2
Texto del elemento 2 es ACEPTO
El tag del elemento 2 es button


In [19]:
# Generalmente cuando queramos clicar sobre cosas la opcion que nos sirve es el tag
boton_aceptar = elements_by_tag[2]
boton_aceptar

<selenium.webdriver.remote.webelement.WebElement (session="df228c863b176523f9cd5f69c27c04d5", element="f8768fe0-f4de-4563-8941-967f7b8fff57")>

Si el elemento es interactivo podremos hacer más cosas además de las anteriores. Por ejemplo: hacer click

In [20]:
# Hemos quitado el pop up inicial de la página desde python por medio de la etiqueta tag del botón

boton_aceptar.click()

Queremos descargar las peliculas que se van a estrenar el viernes siguiente (es algo especifico que tiene que automatizarse porque cambia semanalmente)

Buscamos una película por título

In [21]:
# quiero ir al buscador de la página
buscador = driver.find_element_by_xpath("/html/body/div[1]/div[1]/div/div[2]/form/input[1]")

NoSuchElementException: Message: no such element: Unable to locate element: {"method":"xpath","selector":"/html/body/div[1]/div[1]/div/div[2]/form/input[1]"}
  (Session info: chrome=90.0.4430.212)


In [44]:
buscador.send_keys("Interstellar")

NameError: name 'buscador' is not defined

In [64]:
# una vez escrita la búsqueda deberíamos poder activarla:
buscador.send_keys(Keys.ENTER)

NameError: name 'buscador' is not defined

In [65]:
# volvemos a la página anterior
driver.back()

### Vamos a buscar todas las películas que se estrenan el próximo viernes

1. Cogemos los containers que hay en la zona central

In [66]:
menu_lateral = driver.find_element_by_id("lsmenu")
menu_lateral

NoSuchElementException: Message: no such element: Unable to locate element: {"method":"css selector","selector":"[id="lsmenu"]"}
  (Session info: chrome=90.0.4430.212)


In [67]:
secciones_menu = menu_lateral.find_elements_by_tag_name("a")
secciones_menu

NameError: name 'menu_lateral' is not defined

2. Vemos con cuál nos tenemos que quedar

In [68]:
for a in secciones_menu:
    if a.text == "Próximos estrenos":
        a.click()
        break

NameError: name 'secciones_menu' is not defined

Accedemos al container central, en el que aparecen los estrenos por semana que queremos ver, exactamente igual que hemos hecho antes

In [85]:
# con beautifulsoup si cambiamos de pagina web teniamos que volver a hacer requests, con selenium no hace falta porque el driver es el mismo
cajon_central = driver.find_elements_by_id("main-wrapper-rdcat")

In [86]:
type(cajon_central)

list

In [91]:
for semana in cajon_central:
    print(semana.find_element_by_tag_name("div").text)  #porque las fechas están dentro de div
    print(semana.find_element_by_tag_name("div").get_attribute("id"))

21 de mayo de 2021
2021-05-21
28 de mayo de 2021
2021-05-28
3 de junio de 2021
2021-06-03
4 de junio de 2021
2021-06-04
11 de junio de 2021
2021-06-11
16 de junio de 2021
2021-06-16
18 de junio de 2021
2021-06-18
25 de junio de 2021
2021-06-25


Buscamos cómo acceder a las películas

In [93]:
# Queremos coger las peliculas del viernes seleccionado solo
for semana in cajon_central:
    fecha = semana.find_element_by_tag_name("div").get_attribute("id")
    if fecha == "2021-05-21":
        break

In [98]:
caratulas = semana.find_elements_by_class_name("mc-poster")
lista_pelis = []    
for peli in caratulas:
    lista_pelis.append(peli.find_element_by_tag_name("a").get_attribute("href"))

In [99]:
len(lista_pelis)

13

Una vez tenemos todas las urls vamos a ver qué hacemos con cada una de ellas

In [103]:
# Accedemos a la página de la primera pelicula
driver.get(lista_pelis[0])

In [102]:
# driver.back() si quisiera volver a atrás

Vamos a ver el proceso que deberíamos hacer con cada una de las películas:

1. Sacamos toda la información que nos interesa

In [106]:
# titulo, nota, numero de votos y ficha técnica
titulo = driver.find_element_by_xpath("/html/body/div[4]/table/tbody/tr/td[2]/div[1]/div[4]/h1/span").text
nota = driver.find_element_by_xpath("/html/body/div[4]/table/tbody/tr/td[2]/div[1]/div[4]/div/div[2]/div[2]/div[1]/div[2]/div[1]").text
votos = driver.find_element_by_xpath("/html/body/div[4]/table/tbody/tr/td[2]/div[1]/div[4]/div/div[2]/div[2]/div[1]/div[2]/div[2]/span").text
ficha = driver.find_element_by_xpath("/html/body/div[4]/table/tbody/tr/td[2]/div[1]/div[4]/div/div[3]/dl[1]")


In [110]:
titulo

'Spiral: Saw'

In [111]:
nota

'4,9'

In [112]:
votos

'39'

In [113]:
ficha

<selenium.webdriver.remote.webelement.WebElement (session="22c9fdaa1767426fb1284fd95e09b06d", element="e5f806f3-34eb-4e4a-9ac8-4f2caba15483")>

2. Creamos una lista a partir de la ficha técnica

In [118]:
# Depuramos la ficha técnica
# Los nombres estan con tag  = 'dt' y los valores con 'dd'
ficha_claves = []
ficha_valores = []

for name in ficha.find_elements_by_tag_name("dt"):
    ficha_claves.append(name.text)

for value in ficha.find_elements_by_tag_name("dd"):
    ficha_valores.append(value.text)


3. Creamos un dataframe con la info

In [120]:
columns = ["Titulo", "Nota", "Votos"]
columns.extend(ficha_claves)
len(columns)

16

In [121]:
values = [titulo, nota, votos]
values.extend(ficha_valores)
len(values) # Miramos que tenemos el mismo número de filas y de columnas

16

In [30]:
pd.DataFrame([values], columns = columns)

NameError: name 'values' is not defined

Ahora vamos a crear una función que nos haga todo esto para cada una de las películas:

In [27]:
def sacar_info(driver):
    titulo = driver.find_element_by_xpath("/html/body/div[4]/table/tbody/tr/td[2]/div[1]/div[4]/h1/span").text
    try:
        nota = driver.find_element_by_xpath("/html/body/div[4]/table/tbody/tr/td[2]/div[1]/div[4]/div/div[2]/div[2]/div[1]/div[2]/div[1]").text
        votos = driver.find_element_by_xpath("/html/body/div[4]/table/tbody/tr/td[2]/div[1]/div[4]/div/div[2]/div[2]/div[1]/div[2]/div[2]/span").text
    except:
        nota = None
        votos = None
    ficha = driver.find_element_by_xpath("/html/body/div[4]/table/tbody/tr/td[2]/div[1]/div[4]/div/div[3]/dl[1]")
    return titulo, nota, votos, ficha

def sacar_ficha(ficha):
    ficha_claves = []
    ficha_valores = []

    for name in ficha.find_elements_by_tag_name("dt"):
        ficha_claves.append(name.text)

    for value in ficha.find_elements_by_tag_name("dd"):
        ficha_valores.append(value.text)
    
    return ficha_claves, ficha_valores

def montar_df(ficha_claves, ficha_valores):
    columns = ["Titulo", "Nota", "Votos"]
    columns.extend(ficha_claves)
    values = [titulo, nota, votos]
    values.extend(ficha_valores)

    pd.DataFrame([values], columns = columns)

def nueva_peli(driver):
    titulo, nota, votos, ficha = sacar_info(driver)
    ficha_claves, ficha_valores = sacar_ficha(ficha)
    df_peli = montar_df(ficha_claves, ficha_valores)

    return df_peli


## Modo Dios: moviendonos entre ventanas

Vamos a ver cómo nos podemos mover entre ventanas del navegador

Abrir nueva ventana:

In [136]:

driver.execute_script("window.open("");")

Movernos a otra ventana

In [137]:
driver.switch_to_window(driver.window_handles[0]) # 0 porque vamos a la primera página, -1 si queremos la ultima, etc



Cerrar ventana

In [148]:
driver.close()  # solo puedo cerrar una ventana, porque el driver se queda alli. Tengo que volver a cambiar ventana y volver a cerrar





Una vez cerramos la ventana tenemos que indicarle a qué ventana tiene que ir

Sabiendo cómo podemos movernos por entre las ventanas y sabiendo cómo extraer de cada página toda la información que necesitamos vamos a crear nuestro dataframe:

In [29]:
# para abrir todos los links en lista_pelis
for link in lista_pelis:
    driver.execute_script('window.open("'+link+'");')   # dobles comillas dentro del paréntesis. Abre todas las ventanas
    driver.switch_to_window(driver.window_handles[-1])  
    driver.get(link)

NameError: name 'lista_pelis' is not defined

In [28]:
# Creamos un dataframe con todas las pelis que se estrenan la próxima semana:
df_peliculas = pd.DataFrame()

for link in lista_pelis:
    driver.execute_script('window.open("'+link+'");')   
    driver.switch_to_window(driver.window_handles[-1])  
    driver.get(link)
    nueva_pelicula = nueva_peli(driver)
    df_peliculas = df_peliculas.append(nueva_pelicula)

NameError: name 'lista_pelis' is not defined

In [22]:
df_peliculas        # mira a ver si sale

NameError: name 'df_peliculas' is not defined

¡Tachán! Ya tenemos un dataframe con todas las películas que se van a estrenar el próximo viernes