# Web Scraping con Selenium

##### Vamos a ver como acceder a una web creando un bot con la librería Selenium que interactuará con la página


## 1. Instalación de librerías

Tenemos que usar las librerías Selenium y Webdriver_manager. Vamos a instalarlas:

In [58]:
#!pip install selenium
#!pip install webdriver_manager

## 2. Importación de las librerías

In [1]:
import pandas as pd

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager

from selenium.webdriver.common.by import By

from selenium.webdriver.common.keys import Keys

import time


## 3. Instalación del webdriver

El webdriver es lo que nos va a permitir conectarnos con el navegador. Lo instalamos:

In [2]:
service = Service(ChromeDriverManager().install())
driver = webdriver.Chrome(service=service)

## 4. Abrir web
Abrimos la web en el driver ya podemos navegar y acceder a los elementos de la página

In [3]:
url = "https://www.filmaffinity.com"
driver.get(url)

## 5. Scrapeo
Empezamos lo interesante:

Podemos acceder a elementos en la página de varias maneras:
- Nombre de la etiqueta
- Atributo: Clase
- Atributo: ID
- Atributo: Name
- Selector: Xpath
- Selector: CSS Selector

Para ello vamos a usar el driver que hemos creado y el By.

##### Beginner Selenium Cheatsheet:
Sacar un elemento:
- element = driver.find_element(by, value)

Sacar varios elementos:
- element = driver.find_elements(by, value)

Sacar atributos:
- attribute = element.--el atributo--
- attribute = element.get_attribute(--el atributo--)

Hacer click:
- element.click()

Teclear:
- element.send_keys()

Gestión de pestañas:
- driver.switch_to.window(driver.window_handles[-1])
- driver.get(url)
- driver.close()

Vemos que hay un popup pidiendo que aceptemos las cookies. ¡Vamos a aceptarlo!

In [4]:
elements_by_tag = driver.find_elements(By.TAG_NAME, 'button')
print(type(elements_by_tag))

for i in elements_by_tag:
    print(i.text)

# Encontrar elementos por clase
element_by_class_name = driver.find_element(By.CLASS_NAME,'css-xlut8b')
print(element_by_class_name.find_element(By.TAG_NAME, 'span').text)

# Encontrar elementos por XPATH
element_by_xpath = driver.find_element(By.XPATH,'//*[@id="qc-cmp2-ui"]/div[2]/div/button[2]')
print(element_by_xpath.text)



<class 'list'>
socios
MÁS OPCIONES
NO ACEPTO
ACEPTO
ACEPTO
NO ACEPTO


### Dos formas de obtener todos los botones

Recorriendo la lista

In [5]:
for i in elements_by_tag:
    print(i.text)

socios
MÁS OPCIONES
NO ACEPTO
ACEPTO


Recorriendo los índices

In [6]:
print(len(elements_by_tag))
for i in range(len(elements_by_tag)):
    print(elements_by_tag[i].text)

4
socios
MÁS OPCIONES
NO ACEPTO
ACEPTO


In [7]:
accept = driver.find_element(By.CLASS_NAME, 'css-xlut8b')
#Nos aseguramos de que es el botón que estamos buscando

print("Etiqueta: {}".format(accept.tag_name))
print("Texto de la etiqueta: {}".format(accept.text))
print("Atributo mode: {}".format(accept.get_attribute('mode')))
print("Atributo size: {}".format(accept.get_attribute('size')))

accept.click()


Etiqueta: button
Texto de la etiqueta: ACEPTO
Atributo mode: primary
Atributo size: large


Hacemos la búsqueda de una película

In [8]:
search = driver.find_element(By.TAG_NAME, 'input')
search

<selenium.webdriver.remote.webelement.WebElement (session="952f66d5a3daa5845393b1898f60c105", element="f.C8668D2BC22BB87338017C8F03CED79A.d.968FDDB867195A3D2D8A973A7B71FC9F.e.8")>

In [9]:
search = driver.find_element(By.ID, 'top-search-input-2')
search

<selenium.webdriver.remote.webelement.WebElement (session="952f66d5a3daa5845393b1898f60c105", element="f.C8668D2BC22BB87338017C8F03CED79A.d.968FDDB867195A3D2D8A973A7B71FC9F.e.8")>

In [10]:
search.send_keys("Oblivion")

In [11]:
search.clear()

In [12]:
#Introducimos el nombre de la película a buscar
search.send_keys('Oblivion')

#Espera 5 segundos
time.sleep(2)

search.send_keys(Keys.ENTER)

Entramos en el primer resultado

In [71]:
movie = driver.find_elements(By.CLASS_NAME, "se-it")[0]
movie = driver.find_element(By.CLASS_NAME, "se-it")
movie

<selenium.webdriver.remote.webelement.WebElement (session="1dfcb0317d4d42cbf8bdd4fcc2dc0c22", element="f.9866AC54E718B01D2A03A1C72353D679.d.B4F1408F8EA189DB5B056E416C3897FC.e.60")>

In [72]:

#Accedemos mediante un selector CSS al elemento a, que contiene el enlace (texto)
url = movie.find_element(By.CSS_SELECTOR, 'div.mc-title a')
#'div.mc-title a'
#'div.mc-info-container a'
#Accedemos mediante un selector CSS al elemento a, que contiene el enlace (texto) desde el padre
url = movie.find_element(By.CSS_SELECTOR, 'div.mc-info-container a')

In [73]:
#Accedemos mediante la clase al elemento a, que contiene el enlace (texto)
url_titulo = movie.find_element(By.CLASS_NAME, 'mc-title')
url=url_titulo.find_element(By.TAG_NAME, 'a')
url.text

'Oblivion'

In [74]:
movie.screenshot("pelicula.png")

True

In [75]:
url_poster = movie.find_element(by=By.CLASS_NAME, value='mc-poster')
#url = url_poster.find_element(By.TAG_NAME, value="a")

In [76]:
url_poster

<selenium.webdriver.remote.webelement.WebElement (session="1dfcb0317d4d42cbf8bdd4fcc2dc0c22", element="f.9866AC54E718B01D2A03A1C72353D679.d.B4F1408F8EA189DB5B056E416C3897FC.e.66")>

In [77]:
#Guardamos el enlace
link = url.get_attribute('href')
print(link)

https://www.filmaffinity.com/es/film618375.html


In [78]:
#Hacemos click
url_poster.click()

In [79]:
#Volver
#driver.back()

Vamos a sacar los datos principales de la película:

In [80]:
data = driver.find_element(By.CLASS_NAME, 'movie-info')
dts = data.find_elements(By.TAG_NAME, 'dt')
dds = data.find_elements(By.TAG_NAME, 'dd')

#len(dts) == len(dds)
movie_dict = dict()
for i in range(len(dts)):
    movie_dict[dts[i].text] = dds[i].text
    print(f"{dts[i].text} - {dds[i].text}")

Título original - Oblivion
Año - 2013
Duración - 126 min.
País -  Estados Unidos
Dirección - Joseph Kosinski
Guion - Joseph Kosinski, Michael Arndt, Karl Gajdusek. Cómic: Joseph Kosinski, Arvid Nelson
Reparto - Tom Cruise
Andrea Riseborough
Olga Kurylenko
Morgan Freeman
Nikolaj Coster-Waldau
Zoe Bell
Música - Anthony Gonzalez, M83, Joseph Trapanese
Fotografía - Claudio Miranda
Compañías - Universal Pictures, Chernin Entertainment, Relativity Studios, Monolith Pictures, Radical Studios
Género - Ciencia ficción. Intriga | Futuro postapocalíptico. Distopía. Cómic
Sinopsis - Año 2073. Hace más de 60 años la Tierra fue atacada; se ganó la guerra, pero la mitad del planeta quedó destruido, y todos los seres humanos fueron evacuados. Jack Harper (Tom Cruise), un antiguo marine, es uno de los últimos hombres que la habitan. Es un ingeniero de Drones que participa en una operación para extraer los recursos vitales del planeta. Su misión consiste en patrullar diariamente los cielos. Un día, resc

In [81]:
movie_dict

{'Título original': 'Oblivion',
 'Año': '2013',
 'Duración': '126 min.',
 'País': ' Estados Unidos',
 'Dirección': 'Joseph Kosinski',
 'Guion': 'Joseph Kosinski, Michael Arndt, Karl Gajdusek. Cómic: Joseph Kosinski, Arvid Nelson',
 'Reparto': 'Tom Cruise\nAndrea Riseborough\nOlga Kurylenko\nMorgan Freeman\nNikolaj Coster-Waldau\nZoe Bell',
 'Música': 'Anthony Gonzalez, M83, Joseph Trapanese',
 'Fotografía': 'Claudio Miranda',
 'Compañías': 'Universal Pictures, Chernin Entertainment, Relativity Studios, Monolith Pictures, Radical Studios',
 'Género': 'Ciencia ficción. Intriga | Futuro postapocalíptico. Distopía. Cómic',
 'Sinopsis': 'Año 2073. Hace más de 60 años la Tierra fue atacada; se ganó la guerra, pero la mitad del planeta quedó destruido, y todos los seres humanos fueron evacuados. Jack Harper (Tom Cruise), un antiguo marine, es uno de los últimos hombres que la habitan. Es un ingeniero de Drones que participa en una operación para extraer los recursos vitales del planeta. Su mi

#### Creamos un dataframe

In [82]:
df= pd.DataFrame([movie_dict]) #es decir, mediante una lista de diccionarios (1 diccionario)


In [83]:
df

Unnamed: 0,Título original,Año,Duración,País,Dirección,Guion,Reparto,Música,Fotografía,Compañías,Género,Sinopsis
0,Oblivion,2013,126 min.,Estados Unidos,Joseph Kosinski,"Joseph Kosinski, Michael Arndt, Karl Gajdusek....",Tom Cruise\nAndrea Riseborough\nOlga Kurylenko...,"Anthony Gonzalez, M83, Joseph Trapanese",Claudio Miranda,"Universal Pictures, Chernin Entertainment, Rel...",Ciencia ficción. Intriga | Futuro postapocalíp...,Año 2073. Hace más de 60 años la Tierra fue at...


Cerrar ventana

In [84]:
driver.close()