# Web Scraping con Selenium

##### Vamos a ver como acceder a una web creando un bot con la librería Selenium que interactuará con la página

^Daniel Vivas - Data Science Teacher Assistant - DS Abril 2022^

## 1. Instalación de librerías

Tenemos que usar las librerías Selenium y Webdriver_manager. Vamos a instalarlas:

In [67]:
!pip install selenium
!pip install webdriver_manager



## 2. Importación de las librerías

In [68]:
#Para la manipulación de datos
import pandas as pd

#Servicio y driver de Chrome de Selenium
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager

#Las opciones que vamos a tener para buscar elementos
from selenium.webdriver.common.by import By

#Para cuando queramos mandar pulsaciones de teclado
from selenium.webdriver.common.keys import Keys

#Hacemos que espere
import time


## 3. Instalación del webdriver

El webdriver es lo que nos va a permitir conectarnos con el navegador. Lo instalamos:

In [84]:
service = Service(ChromeDriverManager().install())
driver = webdriver.Chrome(service=service)

[WDM] - Downloading: 100%|██████████| 6.30M/6.30M [00:01<00:00, 5.87MB/s]


## 4. Abrir web
Abrimos la web en el driver ya podemos navegar y acceder a los elementos de la página

In [85]:
url='https://www.filmaffinity.com/'

driver.get(url)

## 5. Scrapeo
Empezamos lo interesante:

Podemos acceder a elementos en la página de varias maneras:
- Nombre de la etiqueta
- Atributo: Clase
- Atributo: ID
- Atributo: Name
- Selector: Xpath
- Selector: CSS Selector

Para ello vamos a usar el driver que hemos creado y el By.

##### Beginner Selenium Cheatsheet:
Sacar un elemento:
- element = driver.find_element(by, value)

Sacar varios elementos:
- element = driver.find_elements(by, value)

Sacar atributos:
- attribute = element.--el atributo--
- attribute = element.get_attribute(--el atributo--)

Hacer click:
- element.click()

Teclear:
- element.send_keys()

Gestión de pestañas:
- driver.switch_to.window(driver.window_handles[-1])
- driver.get(url)
- driver.close()

Vemos que hay un popup pidiendo que aceptemos las cookies. ¡Vamos a aceptarlo!

In [71]:
# Encontrar elementos por etiqueta html
elements_by_tag=driver.find_elements(By.TAG_NAME, 'button')
print(elements_by_tag)

for i in elements_by_tag:
    print(i.text)

# Encontrar elementos por clase

elements_by_class_name= driver.find_element(By.CLASS_NAME,'css-v43ltw')
print(elements_by_class_name.text)

# Encontrar elementos por XPATH

elements_by_xpath= driver.find_element(By.XPATH,'//*[@id="qc-cmp2-ui"]/div[2]/div/button[2]')

print(elements_by_xpath.text)


[<selenium.webdriver.remote.webelement.WebElement (session="56a68e4f26f45a0127ecac085fbc5b30", element="02C026BDE23110C741D6C0405F77250A_element_31")>, <selenium.webdriver.remote.webelement.WebElement (session="56a68e4f26f45a0127ecac085fbc5b30", element="02C026BDE23110C741D6C0405F77250A_element_21")>, <selenium.webdriver.remote.webelement.WebElement (session="56a68e4f26f45a0127ecac085fbc5b30", element="02C026BDE23110C741D6C0405F77250A_element_22")>]
socios
MÁS OPCIONES
ACEPTO
ACEPTO
ACEPTO


### Dos formas de obtener todos los botones

Recorriendo la lista

In [72]:
for i in elements_by_tag:
    print(i.text)

socios
MÁS OPCIONES
ACEPTO


Recorriendo los índices

In [86]:
#Primero, seleccionamos el botón
accept=driver.find_element(By.CLASS_NAME,'css-v43ltw')


#Nos aseguramos de que es el botón que estamos buscando
print("Etiqueta: {}".format(accept.tag_name))
print("Texto de la etiqueta: {}".format(accept.text))
print("Atributo mode: {}".format(accept.get_attribute('mode')))
print("Atributo size: {}".format(accept.get_attribute('size')))

#Hacemos click
accept.click()

Etiqueta: button
Texto de la etiqueta: ACEPTO
Atributo mode: primary
Atributo size: large


Hacemos la búsqueda de una película

In [74]:
#Búsqueda por etiqueta
search=driver.find_element(By.TAG_NAME, 'input')
search



<selenium.webdriver.remote.webelement.WebElement (session="56a68e4f26f45a0127ecac085fbc5b30", element="02C026BDE23110C741D6C0405F77250A_element_32")>

In [88]:
#Búsqueda por ID. Buscamos la barra de navegación de la página web
search=driver.find_element(By.ID, 'top-search-input-2')
search

<selenium.webdriver.remote.webelement.WebElement (session="05acedcfdaeea92e5ca002c2558038c6", element="AE6D472F4B62785377E0D34C90A7F9E3_element_53")>

In [89]:
#Teclea contenido dentro de la barra.
search.send_keys('Oblivion')

In [90]:
# limpiar la barra de búsqueda
search.clear()

In [91]:
#Para asegurarnos, podemos hacer una captura del elemento
# search.screenshot('buscador.png')
#
#Introducimos el nombre de la película a buscar
search.send_keys('Oblivion')

#Espera 5 segundos
time.sleep(5)

#Pulsamos intro
search.send_keys(Keys.ENTER)


Entramos en el primer resultado

In [92]:
#Accedemos al bloque que vemos que se repite. Podemos sacar la lista...
movie=driver.find_elements(By.CLASS_NAME,'se-it')[0]
movie
movie=driver.find_element(By.CLASS_NAME,'se-it')
movie
#...o podemos directamente el primer resultado


<selenium.webdriver.remote.webelement.WebElement (session="05acedcfdaeea92e5ca002c2558038c6", element="62AED82C8492AA8F358F57027D1C76B9_element_91")>

In [93]:
#Accedemos mediante un selector CSS al elemento a, que contiene el enlace (texto)
url=movie.find_element(By.CSS_SELECTOR,'div.mc-info-container div.mc-title a')
url

#Accedemos mediante un selector CSS al elemento a, que contiene el enlace (texto) desde el padre


<selenium.webdriver.remote.webelement.WebElement (session="05acedcfdaeea92e5ca002c2558038c6", element="62AED82C8492AA8F358F57027D1C76B9_element_96")>

In [98]:
#Accedemos mediante la clase al elemento a, que contiene el enlace (texto)
print(url.get_attribute('href'))
url_titulo=movie.find_element(By.CLASS_NAME,'mc-title')
url_titulo.text

https://www.filmaffinity.com/es/film618375.html


'Oblivion'

In [101]:
url_poster=movie.find_element(By.CLASS_NAME,'mc-poster')



AttributeError: 'WebElement' object has no attribute 'get_atribute'

In [106]:
#Guardamos el enlace
url=url_poster.find_element(By.TAG_NAME,'a').get_attribute('href')
url

'https://www.filmaffinity.com/es/film618375.html'

In [107]:
#Hacemos click
url_poster.click()

In [63]:
#Volver
#driver.back()

Vamos a sacar los datos principales de la película:

In [115]:
data= driver.find_element(By.CLASS_NAME,'movie-info')
dts= data.find_elements(By.TAG_NAME,'dt')
dds=data.find_elements(By.TAG_NAME,'dd')

movie_dict=dict()

for i in range(len(dts)):
    movie_dict[dts[i].text]= dds[i].text
movie_dict

movie_dict['Reparto']=movie_dict['Reparto'].replace('\n',', ')

movie_dict


{'Título original': 'Oblivion',
 'Año': '2013',
 'Duración': '126 min.',
 'País': ' Estados Unidos',
 'Dirección': 'Joseph Kosinski',
 'Guion': 'Joseph Kosinski, Michael Arndt, Karl Gajdusek. Cómic: Joseph Kosinski, Arvid Nelson',
 'Reparto': 'Tom Cruise, Andrea Riseborough, Olga Kurylenko, Morgan Freeman, Nikolaj Coster-Waldau, Zoe Bell',
 'Música': 'Anthony Gonzalez, M83, Joseph Trapanese',
 'Fotografía': 'Claudio Miranda',
 'Compañías': 'Universal Pictures, Chernin Entertainment, Relativity Studios, Monolith Pictures, Radical Studios',
 'Género': 'Ciencia ficción. Intriga | Futuro postapocalíptico. Distopía. Cómic',
 'Sinopsis': 'Año 2073. Hace más de 60 años la Tierra fue atacada; se ganó la guerra, pero la mitad del planeta quedó destruido, y todos los seres humanos fueron evacuados. Jack Harper (Tom Cruise), un antiguo marine, es uno de los últimos hombres que la habitan. Es un ingeniero de Drones que participa en una operación para extraer los recursos vitales del planeta. Su mi

Creamos un dataframe y metemos los datos

In [117]:
#Creamos el dataframe
df=pd.DataFrame([movie_dict])
df

#Añadimos datos


Unnamed: 0,Título original,Año,Duración,País,Dirección,Guion,Reparto,Música,Fotografía,Compañías,Género,Sinopsis
0,Oblivion,2013,126 min.,Estados Unidos,Joseph Kosinski,"Joseph Kosinski, Michael Arndt, Karl Gajdusek....","Tom Cruise, Andrea Riseborough, Olga Kurylenko...","Anthony Gonzalez, M83, Joseph Trapanese",Claudio Miranda,"Universal Pictures, Chernin Entertainment, Rel...",Ciencia ficción. Intriga | Futuro postapocalíp...,Año 2073. Hace más de 60 años la Tierra fue at...


#### EXTRA

Abrir nueva ventana:

In [120]:
driver.execute_script('window.open("");')

Movernos a otra ventana

In [122]:
driver.switch_to.window(driver.window_handles[-1])

Cerrar ventana

In [123]:
driver.close()

Una vez cerramos la ventana tenemos que indicarle a qué ventana tiene que ir

In [129]:
from selenium import webdriver
from selenium.webdriver.common.keys import Keys

driver = webdriver.Chrome()

driver.get(url)

# Desplazarse hasta abajo de la página
driver.find_element_by_tag_name("body").send_keys(Keys.END)

InvalidArgumentException: Message: invalid argument: 'url' must be a string
  (Session info: chrome=114.0.5735.199)
Stacktrace:
Backtrace:
	GetHandleVerifier [0x0088A813+48355]
	(No symbol) [0x0081C4B1]
	(No symbol) [0x00725358]
	(No symbol) [0x0077CF98]
	(No symbol) [0x0076A73C]
	(No symbol) [0x0077C922]
	(No symbol) [0x0076A536]
	(No symbol) [0x007482DC]
	(No symbol) [0x007493DD]
	GetHandleVerifier [0x00AEAABD+2539405]
	GetHandleVerifier [0x00B2A78F+2800735]
	GetHandleVerifier [0x00B2456C+2775612]
	GetHandleVerifier [0x009151E0+616112]
	(No symbol) [0x00825F8C]
	(No symbol) [0x00822328]
	(No symbol) [0x0082240B]
	(No symbol) [0x00814FF7]
	BaseThreadInitThunk [0x76747D59+25]
	RtlInitializeExceptionChain [0x7763B74B+107]
	RtlClearBits [0x7763B6CF+191]
