# Web Scraping con Selenium

##### Vamos a ver como acceder a una web creando un bot con la librería Selenium que interactuará con la página

^Daniel Vivas - Data Science Teacher Assistant - DS Abril 2022^

## 1. Instalación de librerías

Tenemos que usar las librerías Selenium y Webdriver_manager. Vamos a instalarlas:

In [1]:
!pip install selenium
!pip install webdriver_manager



## 2. Importación de las librerías

In [1]:
#Para la manipulación de datos
import pandas as pd

#Servicio y driver de Chrome de Selenium
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager

#Las opciones que vamos a tener para buscar elementos
from selenium.webdriver.common.by import By

#Para cuando queramos mandar pulsaciones de teclado
from selenium.webdriver.common.keys import Keys

#Hacemos que espere
import time


## 3. Instalación del webdriver

El webdriver es lo que nos va a permitir conectarnos con el navegador. Lo instalamos:

In [2]:
service = Service(ChromeDriverManager().install())
driver = webdriver.Chrome(service=service)

[WDM] - Downloading: 100%|██████████| 8.82M/8.82M [00:01<00:00, 7.58MB/s]


## 4. Abrir web
Abrimos la web en el driver ya podemos navegar y acceder a los elementos de la página

In [3]:
url = "https://www.filmaffinity.com"
driver.get(url)

## 5. Scrapeo
Empezamos lo interesante:

Podemos acceder a elementos en la página de varias maneras:
- Nombre de la etiqueta
- Atributo: Clase
- Atributo: ID
- Atributo: Name
- Selector: Xpath
- Selector: CSS Selector

Para ello vamos a usar el driver que hemos creado y el By.

##### Beginner Selenium Cheatsheet:
Sacar un elemento:
- element = driver.find_element(by, value)

Sacar varios elementos:
- element = driver.find_elements(by, value)

Sacar atributos:
- attribute = element.--el atributo--
- attribute = element.get_attribute(--el atributo--)

Hacer click:
- element.click()

Teclear:
- element.send_keys()

Gestión de pestañas:
- driver.switch_to.window(driver.window_handles[-1])
- driver.get(url)
- driver.close()

Vemos que hay un popup pidiendo que aceptemos las cookies. ¡Vamos a aceptarlo!

In [15]:
# Encontrar elementos por etiqueta html
elements_by_tag = driver.find_elements(By.TAG_NAME, 'button')
print(type(elements_by_tag))

# Encontrar elementos por clase
element_by_class_name = driver.find_element(By.CLASS_NAME,'css-2tkghh')
print(element_by_class_name.text)

# Encontrar elementos por XPATH
element_by_xpath = driver.find_element(By.XPATH,'//*[@id="qc-cmp2-ui"]/div[2]/div/button[2]')
print(element_by_xpath.text)


<class 'list'>
MÁS OPCIONES
ACEPTO


### Dos formas de obtener todos los botones

Recorriendo la lista

In [12]:
for i in elements_by_tag:
    print(i.text)

socios
MÁS OPCIONES
ACEPTO


Recorriendo los índices

In [14]:
print(len(elements_by_tag))
for i in range(len(elements_by_tag)):
    print(elements_by_tag[i].text)

3
socios
MÁS OPCIONES
ACEPTO


In [20]:
#Primero, seleccionamos el botón
accept = driver.find_element(By.CLASS_NAME, 'css-v43ltw')

#Nos aseguramos de que es el botón que estamos buscando

print("Etiqueta: {}".format(accept.tag_name))
print("Texto de la etiqueta: {}".format(accept.text))
print("Atributo mode: {}".format(accept.get_attribute('mode')))
print("Atributo size: {}".format(accept.get_attribute('size')))

#Hacemos click
accept.click()

Etiqueta: button
Texto de la etiqueta: ACEPTO
Atributo mode: primary
Atributo size: large


Hacemos la búsqueda de una película

In [21]:
#Búsqueda por etiqueta
search = driver.find_element(By.TAG_NAME, 'input')
search

<selenium.webdriver.remote.webelement.WebElement (session="3e4da2cb14242f1f4db64b71406db795", element="e30955f7-ac7e-4b79-bbef-8ebdd083e0ce")>

In [22]:
#Búsqueda por ID. Buscamos la barra de navegación de la página web
search = driver.find_element(By.ID, 'top-search-input')
search

<selenium.webdriver.remote.webelement.WebElement (session="3e4da2cb14242f1f4db64b71406db795", element="e30955f7-ac7e-4b79-bbef-8ebdd083e0ce")>

In [23]:
#Teclea contenido dentro de la barra.
search.send_keys('Oblivion')

In [24]:
# limpiar la barra de búsqueda
search.clear()

In [None]:
#Para asegurarnos, podemos hacer una captura del elemento
search.screenshot('buscador.png')

In [25]:
#Introducimos el nombre de la película a buscar
search.send_keys('Oblivion')

#Espera 5 segundos
time.sleep(5)

#Pulsamos intro
search.send_keys(Keys.ENTER)


Entramos en el primer resultado

In [28]:
#Accedemos al bloque que vemos que se repite. Podemos sacar la lista...
movie = driver.find_elements(By.CLASS_NAME, 'se-it')[0]


#...o podemos directamente el primer resultado
movie = driver.find_element(By.CLASS_NAME, 'se-it')
movie

<selenium.webdriver.remote.webelement.WebElement (session="3e4da2cb14242f1f4db64b71406db795", element="1b7e8057-8fbc-4f78-9e89-61c6c953a841")>

In [29]:
#Accedemos mediante un selector CSS al elemento a, que contiene el enlace (texto)
url = movie.find_element(By.CSS_SELECTOR, 'div.mc-title a')
'div.mc-title a'
'div.mc-info-container a'
#Accedemos mediante un selector CSS al elemento a, que contiene el enlace (texto) desde el padre
url = movie.find_element(By.CSS_SELECTOR, 'div.mc-info-container a')


In [33]:
#Accedemos mediante la clase al elemento a, que contiene el enlace (texto)
url_titulo = movie.find_element(By.CLASS_NAME, 'mc-title')
url=url_titulo.find_element(By.TAG_NAME, 'a')
url.text

'Oblivion'

In [34]:
url_poster = movie.find_element(by=By.CLASS_NAME, value='mc-poster')
url = url_poster.find_element(By.TAG_NAME, value="a")

In [35]:
#Guardamos el enlace
link = url.get_attribute('href')
print(link)

https://www.filmaffinity.com/es/film618375.html


In [36]:
#Hacemos click
url.click()

In [48]:
#Volver
#driver.back()

Vamos a sacar los datos principales de la película:

In [41]:
data = driver.find_element(By.CLASS_NAME, 'movie-info')
dts = data.find_elements(By.TAG_NAME, 'dt')
dds = data.find_elements(By.TAG_NAME, 'dd')

#len(dts) == len(dds)
movie_dict = dict()
for i in range(len(dts)):
    movie_dict[dts[i].text] = dds[i].text
    print(f"{dts[i].text} - {dds[i].text}")

Título original - Oblivion
Año - 2013
Duración - 126 min.
País -  Estados Unidos
Dirección - Joseph Kosinski
Guion - Joseph Kosinski, Michael Arndt, Karl Gajdusek. Cómic: Joseph Kosinski, Arvid Nelson
Música - Anthony Gonzalez, M83, Joseph Trapanese
Fotografía - Claudio Miranda
Reparto - Tom Cruise, Andrea Riseborough, Olga Kurylenko, Morgan Freeman, Nikolaj Coster-Waldau, Zoe Bell, Melissa Leo, Jaylen Moore, Julie Hardin, Paul Gunawan, ver 4 más
Compañías - Universal Pictures, Chernin Entertainment, Relativity Studios, Monolith Pictures, Radical Studios
Género - Ciencia ficción. Intriga | Futuro postapocalíptico. Distopía. Cómic
Sinopsis - Año 2073. Hace más de 60 años la Tierra fue atacada; se ganó la guerra, pero la mitad del planeta quedó destruido, y todos los seres humanos fueron evacuados. Jack Harper (Tom Cruise), un antiguo marine, es uno de los últimos hombres que la habitan. Es un ingeniero de Drones que participa en una operación para extraer los recursos vitales del planet

Creamos un dataframe y metemos los datos

{'Título original': 'Oblivion',
 'Año': '2013',
 'Duración': '126 min.',
 'País': ' Estados Unidos',
 'Dirección': 'Joseph Kosinski',
 'Guion': 'Joseph Kosinski, Michael Arndt, Karl Gajdusek. Cómic: Joseph Kosinski, Arvid Nelson',
 'Música': 'Anthony Gonzalez, M83, Joseph Trapanese',
 'Fotografía': 'Claudio Miranda',
 'Reparto': 'Tom Cruise, Andrea Riseborough, Olga Kurylenko, Morgan Freeman, Nikolaj Coster-Waldau, Zoe Bell, Melissa Leo, Jaylen Moore, Julie Hardin, Paul Gunawan, Jay Oliver, Jason Stanly, Abigail Lowe, Isabelle Lowe',
 'Productora': 'Universal Pictures, Chernin Entertainment, Relativity Studios, Monolith Pictures, Radical Studios',
 'Género': 'Ciencia ficción. Intriga | Futuro postapocalíptico. Distopía. Cómic',
 'Sinopsis': 'Año 2073. Hace más de 60 años la Tierra fue atacada; se ganó la guerra, pero la mitad del planeta quedó destruido, y todos los seres humanos fueron evacuados. Jack Harper (Tom Cruise), un antiguo marine, es uno de los últimos hombres que la habitan

In [42]:
movie_dict

{'Título original': 'Oblivion',
 'Año': '2013',
 'Duración': '126 min.',
 'País': ' Estados Unidos',
 'Dirección': 'Joseph Kosinski',
 'Guion': 'Joseph Kosinski, Michael Arndt, Karl Gajdusek. Cómic: Joseph Kosinski, Arvid Nelson',
 'Música': 'Anthony Gonzalez, M83, Joseph Trapanese',
 'Fotografía': 'Claudio Miranda',
 'Reparto': 'Tom Cruise, Andrea Riseborough, Olga Kurylenko, Morgan Freeman, Nikolaj Coster-Waldau, Zoe Bell, Melissa Leo, Jaylen Moore, Julie Hardin, Paul Gunawan, ver 4 más',
 'Compañías': 'Universal Pictures, Chernin Entertainment, Relativity Studios, Monolith Pictures, Radical Studios',
 'Género': 'Ciencia ficción. Intriga | Futuro postapocalíptico. Distopía. Cómic',
 'Sinopsis': 'Año 2073. Hace más de 60 años la Tierra fue atacada; se ganó la guerra, pero la mitad del planeta quedó destruido, y todos los seres humanos fueron evacuados. Jack Harper (Tom Cruise), un antiguo marine, es uno de los últimos hombres que la habitan. Es un ingeniero de Drones que participa en 

In [43]:
#Creamos el dataframe
df = pd.DataFrame(columns = movie_dict.keys())
#Añadimos datos
df = df.append(movie_dict, ignore_index = True)
df

  df = df.append(movie_dict, ignore_index = True)


Unnamed: 0,Título original,Año,Duración,País,Dirección,Guion,Música,Fotografía,Reparto,Compañías,Género,Sinopsis
0,Oblivion,2013,126 min.,Estados Unidos,Joseph Kosinski,"Joseph Kosinski, Michael Arndt, Karl Gajdusek....","Anthony Gonzalez, M83, Joseph Trapanese",Claudio Miranda,"Tom Cruise, Andrea Riseborough, Olga Kurylenko...","Universal Pictures, Chernin Entertainment, Rel...",Ciencia ficción. Intriga | Futuro postapocalíp...,Año 2073. Hace más de 60 años la Tierra fue at...


In [44]:
df = pd.DataFrame(columns=movie_dict.keys())
df_new = pd.concat([df, pd.DataFrame.from_records([movie_dict])])
#mirar documentación
df_new

Unnamed: 0,Título original,Año,Duración,País,Dirección,Guion,Música,Fotografía,Reparto,Compañías,Género,Sinopsis
0,Oblivion,2013,126 min.,Estados Unidos,Joseph Kosinski,"Joseph Kosinski, Michael Arndt, Karl Gajdusek....","Anthony Gonzalez, M83, Joseph Trapanese",Claudio Miranda,"Tom Cruise, Andrea Riseborough, Olga Kurylenko...","Universal Pictures, Chernin Entertainment, Rel...",Ciencia ficción. Intriga | Futuro postapocalíp...,Año 2073. Hace más de 60 años la Tierra fue at...


In [45]:
df= pd.DataFrame(columns=movie_dict.keys())
df_new_row = pd.DataFrame([movie_dict])
df_final = pd.concat([df, df_new_row])
df_final

Unnamed: 0,Título original,Año,Duración,País,Dirección,Guion,Música,Fotografía,Reparto,Compañías,Género,Sinopsis
0,Oblivion,2013,126 min.,Estados Unidos,Joseph Kosinski,"Joseph Kosinski, Michael Arndt, Karl Gajdusek....","Anthony Gonzalez, M83, Joseph Trapanese",Claudio Miranda,"Tom Cruise, Andrea Riseborough, Olga Kurylenko...","Universal Pictures, Chernin Entertainment, Rel...",Ciencia ficción. Intriga | Futuro postapocalíp...,Año 2073. Hace más de 60 años la Tierra fue at...


#### EXTRA

Abrir nueva ventana:

In [46]:
driver.execute_script('window.open("");')

Movernos a otra ventana

In [49]:
driver.switch_to.window(driver.window_handles[-1])

Cerrar ventana

In [50]:
driver.close()

Una vez cerramos la ventana tenemos que indicarle a qué ventana tiene que ir

In [55]:
driver.execute_script('window.open("'+link+'");')
driver.get(link)

NoSuchWindowException: Message: no such window: target window already closed
from unknown error: web view not found
  (Session info: chrome=110.0.5481.177)
Stacktrace:
0   chromedriver                        0x000000010b3c7138 chromedriver + 4923704
1   chromedriver                        0x000000010b33f9d3 chromedriver + 4368851
2   chromedriver                        0x000000010af88787 chromedriver + 472967
3   chromedriver                        0x000000010af5ec15 chromedriver + 302101
4   chromedriver                        0x000000010affb4cf chromedriver + 943311
5   chromedriver                        0x000000010b0102c6 chromedriver + 1028806
6   chromedriver                        0x000000010aff5d23 chromedriver + 920867
7   chromedriver                        0x000000010afbca4b chromedriver + 686667
8   chromedriver                        0x000000010afbe044 chromedriver + 692292
9   chromedriver                        0x000000010b3928fe chromedriver + 4708606
10  chromedriver                        0x000000010b397e22 chromedriver + 4730402
11  chromedriver                        0x000000010b3a06bf chromedriver + 4765375
12  chromedriver                        0x000000010b398e80 chromedriver + 4734592
13  chromedriver                        0x000000010b369975 chromedriver + 4540789
14  chromedriver                        0x000000010b3bae78 chromedriver + 4873848
15  chromedriver                        0x000000010b3baff5 chromedriver + 4874229
16  chromedriver                        0x000000010b3cf6de chromedriver + 4957918
17  libsystem_pthread.dylib             0x00007ff81a1144e1 _pthread_start + 125
18  libsystem_pthread.dylib             0x00007ff81a10ff6b thread_start + 15
