# Web Scraping con Selenium

##### Vamos a ver como acceder a una web creando un bot con la librería Selenium que interactuará con la página

^Daniel Vivas - Data Science Teacher Assistant - DS Abril 2022^

## 1. Instalación de librerías

Tenemos que usar las librerías Selenium y Webdriver_manager. Vamos a instalarlas:

In [1]:
!pip install selenium
!pip install webdriver_manager



## 2. Importación de las librerías

In [2]:
#Para la manipulación de datos
import pandas as pd

#Servicio y driver de Chrome de Selenium
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager

#Las opciones que vamos a tener para buscar elementos
from selenium.webdriver.common.by import By

#Para cuando queramos mandar pulsaciones de teclado
from selenium.webdriver.common.keys import Keys

#Hacemos que espere
import time


## 3. Instalación del webdriver

El webdriver es lo que nos va a permitir conectarnos con el navegador. Lo instalamos:

In [37]:
service = Service(ChromeDriverManager().install())
driver = webdriver.Chrome(service=service)

[WDM] - Downloading: 100%|██████████| 6.30M/6.30M [00:00<00:00, 27.3MB/s]


## 4. Abrir web
Abrimos la web en el driver ya podemos navegar y acceder a los elementos de la página

In [38]:
url = "https://www.filmaffinity.com"
driver.get(url)

## 5. Scrapeo
Empezamos lo interesante:

Podemos acceder a elementos en la página de varias maneras:
- Nombre de la etiqueta
- Atributo: Clase
- Atributo: ID
- Atributo: Name
- Selector: Xpath
- Selector: CSS Selector

Para ello vamos a usar el driver que hemos creado y el By.

##### Beginner Selenium Cheatsheet:
Sacar un elemento:
- element = driver.find_element(by, value)

Sacar varios elementos:
- element = driver.find_elements(by, value)

Sacar atributos:
- attribute = element.--el atributo--
- attribute = element.get_attribute(--el atributo--)

Hacer click:
- element.click()

Teclear:
- element.send_keys()

Gestión de pestañas:
- driver.switch_to.window(driver.window_handles[-1])
- driver.get(url)
- driver.close()

Vemos que hay un popup pidiendo que aceptemos las cookies. ¡Vamos a aceptarlo!

In [5]:
# Encontrar elementos por etiqueta html
elements_by_tag = driver.find_elements(By.TAG_NAME, 'button')
print(type(elements_by_tag))

for i in elements_by_tag:
    print(i.text)


# Encontrar elementos por clase
element_by_class_name = driver.find_element(By.CLASS_NAME,'css-2tkghh')
print(element_by_class_name.find_element(By.TAG_NAME, 'span').text)

# Encontrar elementos por XPATH
element_by_xpath = driver.find_element(By.XPATH,'//*[@id="qc-cmp2-ui"]/div[2]/div/button[2]')
print(element_by_xpath.text)


<class 'list'>
socios
MÁS OPCIONES
ACEPTO
MÁS OPCIONES
ACEPTO


### Dos formas de obtener todos los botones

Recorriendo la lista

In [6]:
for i in elements_by_tag:
    print(i.text)

socios
MÁS OPCIONES
ACEPTO


Recorriendo los índices

In [7]:
print(len(elements_by_tag))
for i in range(len(elements_by_tag)):
    print(elements_by_tag[i].text)

3
socios
MÁS OPCIONES
ACEPTO


In [8]:
#Primero, seleccionamos el botón
accept = driver.find_element(By.CLASS_NAME, 'css-v43ltw')

#Nos aseguramos de que es el botón que estamos buscando

print("Etiqueta: {}".format(accept.tag_name))
print("Texto de la etiqueta: {}".format(accept.text))
print("Atributo mode: {}".format(accept.get_attribute('mode')))
print("Atributo size: {}".format(accept.get_attribute('size')))

#Hacemos click
accept.click()

Etiqueta: button
Texto de la etiqueta: ACEPTO
Atributo mode: primary
Atributo size: large


Hacemos la búsqueda de una película

In [11]:
#Búsqueda por etiqueta
search = driver.find_element(By.TAG_NAME, 'input')
search

<selenium.webdriver.remote.webelement.WebElement (session="3fbc9f8cce81e6d063bc3da8f8894fdf", element="92DCE29CA3D146E41737CC5511710436_element_74")>

In [13]:
#Búsqueda por ID. Buscamos la barra de navegación de la página web
search = driver.find_element(By.ID, 'top-search-input-2')
search

<selenium.webdriver.remote.webelement.WebElement (session="3fbc9f8cce81e6d063bc3da8f8894fdf", element="92DCE29CA3D146E41737CC5511710436_element_74")>

In [14]:
#Teclea contenido dentro de la barra.
search.send_keys('Oblivion')

In [15]:
# limpiar la barra de búsqueda
search.clear()

In [16]:
#Para asegurarnos, podemos hacer una captura del elemento
search.screenshot('buscador.png')

True

In [17]:
#Introducimos el nombre de la película a buscar
search.send_keys('Oblivion')

#Espera 5 segundos
time.sleep(5)

#Pulsamos intro
search.send_keys(Keys.ENTER)


Entramos en el primer resultado

In [18]:
#Accedemos al bloque que vemos que se repite. Podemos sacar la lista...
movie = driver.find_elements(By.CLASS_NAME, 'se-it')[0]


#...o podemos directamente el primer resultado
movie = driver.find_element(By.CLASS_NAME, 'se-it')
movie

<selenium.webdriver.remote.webelement.WebElement (session="3fbc9f8cce81e6d063bc3da8f8894fdf", element="CD7A6C4B9076F282A1D140BE3B3C4981_element_272")>

In [19]:
#Accedemos mediante un selector CSS al elemento a, que contiene el enlace (texto)
url = movie.find_element(By.CSS_SELECTOR, 'div.mc-title a')
'div.mc-title a'
'div.mc-info-container a'
#Accedemos mediante un selector CSS al elemento a, que contiene el enlace (texto) desde el padre
url = movie.find_element(By.CSS_SELECTOR, 'div.mc-info-container a')


In [20]:
#Accedemos mediante la clase al elemento a, que contiene el enlace (texto)
url_titulo = movie.find_element(By.CLASS_NAME, 'mc-title')
url=url_titulo.find_element(By.TAG_NAME, 'a')
url.text

'Oblivion'

In [21]:
url_poster = movie.find_element(by=By.CLASS_NAME, value='mc-poster')
url = url_poster.find_element(By.TAG_NAME, value="a")

In [22]:
#Guardamos el enlace
link = url.get_attribute('href')
print(link)

https://www.filmaffinity.com/es/film618375.html


In [23]:
#Hacemos click
url.click()

In [48]:
#Volver
#driver.back()

Vamos a sacar los datos principales de la película:

In [24]:
data = driver.find_element(By.CLASS_NAME, 'movie-info')
dts = data.find_elements(By.TAG_NAME, 'dt')
dds = data.find_elements(By.TAG_NAME, 'dd')

#len(dts) == len(dds)
movie_dict = dict()
for i in range(len(dts)):
    movie_dict[dts[i].text] = dds[i].text
    print(f"{dts[i].text} - {dds[i].text}")

Título original - Oblivion
Año - 2013
Duración - 126 min.
País -  Estados Unidos
Dirección - Joseph Kosinski
Guion - Joseph Kosinski, Michael Arndt, Karl Gajdusek. Cómic: Joseph Kosinski, Arvid Nelson
Reparto - Tom Cruise
Andrea Riseborough
Olga Kurylenko
Morgan Freeman
Nikolaj Coster-Waldau
Zoe Bell
Música - Anthony Gonzalez, M83, Joseph Trapanese
Fotografía - Claudio Miranda
Compañías - Universal Pictures, Chernin Entertainment, Relativity Studios, Monolith Pictures, Radical Studios
Género - Ciencia ficción. Intriga | Futuro postapocalíptico. Distopía. Cómic
Sinopsis - Año 2073. Hace más de 60 años la Tierra fue atacada; se ganó la guerra, pero la mitad del planeta quedó destruido, y todos los seres humanos fueron evacuados. Jack Harper (Tom Cruise), un antiguo marine, es uno de los últimos hombres que la habitan. Es un ingeniero de Drones que participa en una operación para extraer los recursos vitales del planeta. Su misión consiste en patrullar diariamente los cielos. Un día, resc

In [25]:
movie_dict

{'Título original': 'Oblivion',
 'Año': '2013',
 'Duración': '126 min.',
 'País': ' Estados Unidos',
 'Dirección': 'Joseph Kosinski',
 'Guion': 'Joseph Kosinski, Michael Arndt, Karl Gajdusek. Cómic: Joseph Kosinski, Arvid Nelson',
 'Reparto': 'Tom Cruise\nAndrea Riseborough\nOlga Kurylenko\nMorgan Freeman\nNikolaj Coster-Waldau\nZoe Bell',
 'Música': 'Anthony Gonzalez, M83, Joseph Trapanese',
 'Fotografía': 'Claudio Miranda',
 'Compañías': 'Universal Pictures, Chernin Entertainment, Relativity Studios, Monolith Pictures, Radical Studios',
 'Género': 'Ciencia ficción. Intriga | Futuro postapocalíptico. Distopía. Cómic',
 'Sinopsis': 'Año 2073. Hace más de 60 años la Tierra fue atacada; se ganó la guerra, pero la mitad del planeta quedó destruido, y todos los seres humanos fueron evacuados. Jack Harper (Tom Cruise), un antiguo marine, es uno de los últimos hombres que la habitan. Es un ingeniero de Drones que participa en una operación para extraer los recursos vitales del planeta. Su mi

#### Creamos un dataframe

In [28]:
df= pd.DataFrame([movie_dict]) #es decir, mediante una lista de diccionarios (1 diccionario)
df_final

Unnamed: 0,Título original,Año,Duración,País,Dirección,Guion,Reparto,Música,Fotografía,Compañías,Género,Sinopsis
0,Oblivion,2013,126 min.,Estados Unidos,Joseph Kosinski,"Joseph Kosinski, Michael Arndt, Karl Gajdusek....",Tom Cruise\nAndrea Riseborough\nOlga Kurylenko...,"Anthony Gonzalez, M83, Joseph Trapanese",Claudio Miranda,"Universal Pictures, Chernin Entertainment, Rel...",Ciencia ficción. Intriga | Futuro postapocalíp...,Año 2073. Hace más de 60 años la Tierra fue at...


#### EXTRA

Abrir nueva ventana:

In [34]:
driver.execute_script('window.open("");')

Movernos a otra ventana

In [33]:
driver.switch_to.window(driver.window_handles[-1])

Cerrar ventana

In [31]:
driver.close()