# 2.1 - Web Scraping (selenium)

<p align = 'center'>
<img src = 'https://www.scrapingbee.com/blog/selenium-python/cover.png' >
</p>

**[Docu **SELENIUM**](https://selenium-python.readthedocs.io/)**

Selenium es un entorno de pruebas de software para aplicaciones basadas en la web. Selenium provee una herramienta de grabar/reproducir para crear pruebas sin usar un lenguaje de scripting para pruebas (Selenium IDE). Incluye también un lenguaje específico de dominio para pruebas (Selenese) para escribir pruebas en un amplio número de lenguajes de programación populares incluyendo Java, C#, Ruby, Groovy, Perl, Php y Python. Las pruebas pueden ejecutarse entonces usando la mayoría de los navegadores web modernos en diferentes sistemas operativos como Windows, Linux y OSX.

Selenium fue originalmente desarrollado por Jason Huggins en **2004** y pronto se unieron al esfuerzo otras personas especialistas en pruebas y programación.

Es un software de código abierto bajo la licencia apache 2.0 que puede ser descargada y usada sin cargo. El nombre proviene de una broma hecha por Huggins burlándose de un competidor llamado Mercury (mercurio) diciendo que el envenenamiento por mercurio puede ser curado tomando complementos de Selenium. Los participantes tomaron el nombre y siguieron con él. Existen otros proyectos que se desarrollan alrededor de Selenium como Selenium Grid, para probar concurrencia de múltiples pruebas concurrentes de clientes remotos o locales, así como Flash Selenium para probar programas escritos en Adobe Flex o Selenium Silverlight.


### Componentes

**Selenium IDE**

Selenium IDE es un entorno de desarrollo integrado para pruebas con Selenium. Está implementado como una extensión de Firefox y permite grabar, editar y depurar pruebas. Originalmente se le conoció como Selenium Recorder.

Se pueden desarrollar automáticamente scripts al crear una grabación y de esa manera se puede editar manualmente con sentencias y comandos para que la reproducción de nuestra grabación sea correcta

Los scripts se generan en Selanese, un lenguaje de scripting especial para Selenium. Selanese provee comandos que ejecutan acciones sobre objetos en el navegador, como hacer clic en un enlace, seleccionar de una lista de opciones, verificar la presencia de un texto en particular así como para tomar la totalidad de la página producto de las acciones.

Características:

+ Grabación y reproducción fácil
+ Selección inteligente de campos usando ID, nombre o XPath según se necesite.
+ Compleción automática de los comandos de Selenium más comunes.
+ Pruebas de revisión cruzada
+ Depuración y puntos de verificación (breakpoint)
+ Almacenar las pruebas como Selanese, Ruby, Java y otros formatos.
+ Soporte al archivo user-extensions.js
+ Opción para asertar el título de la página.
+ Opción de modificarle a la medida con el uso de complementos


**Selenium Client API**

Interfaz de programación de aplicaciones (API) de clientes Como alternativa a escribir pruebas en Selanese, las pruebas pueden escribirse en varios lenguajes de programación, éstos se comunican con Selenium mediante llamadas a los métodos de Selenium Client API. Actualmente Selenium provee API para Java, C#, Ruby y Python. Con Selenium 2 se presentó una nueva API de clientes, con WebDriver como componente central, aunque la anterior API puede seguirse usando llamando a la clase Selenium.


**Selenium Remote Control**

Selenium Remote Control (RC) es un servidor escrito en Java que acepta comandos al navegador vía HTTP. RC hace posible escribir pruebas automatizadas para aplicaciones web, en cualquier lenguaje de programación lo que permite una mejor integración de Selenium a entornos de prueba existentes. Para hacer la escritura de pruebas más fácil, Selenium actualmente provee controladores de dispositivos para PHP, Python, Ruby,.NET, Perl y Java. El controlador de Java puede usarse para Javascript vía el motor Rhino. Selenium Remote Control fue una refactorización de Driven Selenium o Selenium B, la versión original lanzaba directamente un proceso para el navegador en cuestión desde el lenguaje de prueba; el protocolo de cable (confusamente llamado Selanese también en aquel tiempo) fue reimplementado al portarse a cada lenguaje. Después de la refactorización, hubo un proceso intermediario demonio entre el script controlador y el navegador. Los beneficios incluyeron la capacidad de controlar navegadores remotos y reducir la necesidad de portar el código a un número creciente de lenguajes. Con la liberación de Selenium 2, Selenium RC fue oficialmente descartado en favor de Selenium WebDriver.


**Selenium WebDriver**

Selenium WebDriver es el sucesor de Selenium RC. Selenium WebDriver acepta comandos (enviados en Selenese o vía el API de cliente) y los envía a un navegador. Esto se implementa a través de un controlador del navegador específico para cada navegador que envía los comandos y trae los resultados de regreso. La mayoría de los controladores del navegador lanzan y acceden a la aplicación de navegador (como Mozilla Firefox o Internet Explorer), pero también hay un controlador para HtmlUnit que simula un navegador. A diferencia de Selenium 1, donde el servidor Selenium RC era indispensable, en Selenium WebDriver no se requiere de un servidor especial para ejecutar las pruebas, en vez de ello WebDriver inicia una instancia del navegador y lo controla; sin embargo puede usarse Selenium Grid (ver abajo) para ejecutar pruebas en sistemas remotos (ver más abajo). Desde inicios de 2012, Simon Stewart de Google (inventor del WebDriver) y David Burns de la Fundación Mozilla se encuentran negociando con el W3C que WebDriver se convierta en un estándar de Internet, como tal Selenium-Webdriver (Selenium 2.0) apunta a ser la implementación de referencia del estándar WebDriver en varios lenguajes de programación. Selenium-WebDriver está completamente implementado y soportado en Java, Ruby, Python y C#. En la práctica, esto significa que la API de Selenium 2.0 tiene significativamente menos llamadas que el API de Selenium 1.0. Donde Selenium 1.0 intentaba proveer una interfaz rica en muchas operaciones, Selenium 2.0 intenta proveer de los bloques de construcción básicos con los cuales los desarrolladores puedan programar su propio lenguaje específico de dominio. Uno de ellos ya existe y es el proyecto Watir en Ruby que tiene una historia rica en buen diseño. Watir-WebDriver implementa el API de Watir como un envolvente del Selenium-Webdriver en Ruby. Watir-WebDriver se crea de forma completamente automática, basado en las especificaciones del WebDriver y HTML.

**Selenium Grid**

Selenium Grid es un servidor que permite usar instancias de navegador ejecutándose en máquinas remotas. Con Selenium Grid, uno de los servidores actúa como concentrador. Las pruebas contactan al concentrador para obtener acceso a instancias de navegadores; el concentrador lleva una lista de instancias de los navegadores (Nodos de WebDriver) y permiten a las pruebas usar estas instancias. Selenium Grid permite ejecutar pruebas en paralelo en múltiples máquinas y manejar diferentes versiones y configuraciones de manera centralizada.

Nosotros usaremos fundamentalmente el Webdriver en Python.

https://chromedriver.chromium.org/downloads

Para instalar:

```bash
pip install selenium
```

In [2]:
pip install selenium

Note: you may need to restart the kernel to use updated packages.


Import

In [1]:
from selenium import webdriver

In [14]:
help(webdriver)

Help on package selenium.webdriver in selenium:

NAME
    selenium.webdriver

DESCRIPTION
    # Licensed to the Software Freedom Conservancy (SFC) under one
    # or more contributor license agreements.  See the NOTICE file
    # distributed with this work for additional information
    # regarding copyright ownership.  The SFC licenses this file
    # to you under the Apache License, Version 2.0 (the
    # "License"); you may not use this file except in compliance
    # with the License.  You may obtain a copy of the License at
    #
    #   http://www.apache.org/licenses/LICENSE-2.0
    #
    # Unless required by applicable law or agreed to in writing,
    # software distributed under the License is distributed on an
    # "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
    # KIND, either express or implied.  See the License for the
    # specific language governing permissions and limitations
    # under the License.

PACKAGE CONTENTS
    chrome (package)
    chromium (packag

**Si no has descargado el driver para Google, o el geckodriver para Firefox, puedes manejarlo para Chrome con esta librería.**

In [3]:
pip install webdriver-manager

Note: you may need to restart the kernel to use updated packages.


In [4]:
from webdriver_manager.chrome import ChromeDriverManager # Se encarga de descargar el driver de chrome y de mantenerlo actualizado
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.chrome.service import Service

### Opciones ChromeDriver

In [5]:

#Opciones de chrome
options = webdriver.ChromeOptions()

# Abre la ventana maximizada
#options.add_argument('--start-maximized')

# Abre la ventana en un tamaño determinado
options.add_argument('window-size=775,1400')

options.add_argument('--disable-extensions')
#options.add_argument('--headless') # no abre la ventana de chrome
# echo 'export PATH=$PATH:/mnt/j/Analisis Datos/Programas/Chromedriver/chrome' >> ~/.bash_profile
#service = Service(r'J:\Analisis Datos\Programas\Chromedriver\chrome')

In [7]:
driver = webdriver.Chrome(options=options)   # abre una ventana de chrome
driver.get('https://www.google.es')

SessionNotCreatedException: Message: session not created: Chrome failed to start: exited normally.
  (session not created: DevToolsActivePort file doesn't exist)
  (The process started from chrome location /usr/bin/chromium-browser is no longer running, so ChromeDriver is assuming that Chrome has crashed.)
Stacktrace:
#0 0x557b1a9732da <unknown>
#1 0x557b1a641200 <unknown>
#2 0x557b1a6791e5 <unknown>
#3 0x557b1a675058 <unknown>
#4 0x557b1a6c1a7e <unknown>
#5 0x557b1a6c1296 <unknown>
#6 0x557b1a6b5673 <unknown>
#7 0x557b1a683473 <unknown>
#8 0x557b1a68447e <unknown>
#9 0x557b1a93a0db <unknown>
#10 0x557b1a93e071 <unknown>
#11 0x557b1a9269d5 <unknown>
#12 0x557b1a93ebf2 <unknown>
#13 0x557b1a90bb6f <unknown>
#14 0x557b1a962248 <unknown>
#15 0x557b1a962417 <unknown>
#16 0x557b1a9720cc <unknown>
#17 0x7fe5c2769ac3 <unknown>


In [26]:
driver.quit() #Cerramos la ventana de chrome

In [7]:
#Nos salía un mensaje de "un software automatizado de pruebas esta controlando Chrome"
#Para evitarlo, tenemos que añadir una opción al navegador
options.add_argument('--disable-blink-features=AutomationControlled')
#Quitamos el modo sandbox
options.add_argument('--no-sandbox')
options.add_experimental_option('excludeSwitches', ['enable-automation'])

In [8]:
driver = webdriver.Chrome(options=options)   # abre una ventana de chrome
driver.get('https://www.google.es')

WebDriverException: Message: Service /mnt/j/.cache/selenium/chromedriver/linux64/129.0.6668.58/chromedriver unexpectedly exited. Status code was: 127


In [28]:
driver.quit()

In [9]:
# Además nos pide seleccionar el buscador por defecto
from selenium.webdriver.chrome.service import Service

# Deshabilita la ventana emergente de selección del buscador
options.add_argument("--no-default-browser-check")
options.add_argument("--disable-search-engine-choice-screen")

# Evitar mensajes emergentes automáticos de configuración
options.add_argument("--disable-infobars")

In [10]:
driver = webdriver.Chrome(options=options)   # abre una ventana de chrome
driver.get('https://www.google.es')

WebDriverException: Message: Service /mnt/j/.cache/selenium/chromedriver/linux64/129.0.6668.58/chromedriver unexpectedly exited. Status code was: 127


### Realizando una búsqueda en Google

Importamos `time` para el manejo de los tiempos dentro del código. Haremos una búsqueda en Google y extraeremos los enlaces de los resultados.

In [11]:
import time
#import warnings
#warnings.filterwarnings('ignore')
from selenium.webdriver.common.by import By # By es para buscar por tag, clase, id...

In [16]:
#help(By)

In [12]:
url = 'https://www.google.es/search?q='
busqueda = 'Gamma Tech School'

In [13]:
driver = webdriver.Chrome(options=options)
driver.get(url+busqueda)
#time.sleep(15)
#driver.quit() #Cerramos la ventana de chrome

WebDriverException: Message: Service /mnt/j/.cache/selenium/chromedriver/linux64/129.0.6668.58/chromedriver unexpectedly exited. Status code was: 127


Entrando en el inspector podemos ubicar el botón por su ID. Primero permitimos que el cursor nos permita identificar el código en el que se encuentra el botón. Localizamos el ID y lo copiamos.

In [18]:
driver.find_element(By.ID, 'W0wltc').click()

In [19]:
driver.quit()

Por XPATH

In [None]:
driver = webdriver.Chrome(options = options)   # abre ventana

driver.get(url+busqueda)          # entra en google y busca

time.sleep(5)                     # espera 8 secs
#XPATH copiado de chrome --> inspeccionar --> click derecho --> copy --> copy XPATH

# XPATH --> //*[@id="W0wltc"]

driver.find_element(By.XPATH,'//*[@id="W0wltc"]').click()  # clicka en rechazar

time.sleep(3)

driver.quit()

Por CSS:

In [None]:
driver = webdriver.Chrome(options = options)   # abre ventana

driver.get(url+busqueda)          # entra en google y busca

time.sleep(3)                     # espera 8 secs
#Miramos el CSS del botón de rechazar
#Inspector --> botón derecho --> copy --> copy selector

# #W0wltc

driver.find_element(By.CSS_SELECTOR,'#W0wltc').click()  # clicka en rechazar
#driver.find_element(By.CSS_SELECTOR,'button#W0wltc.tHlp8d').click()  # clicka en rechazar

time.sleep(3)
driver.quit()

Scroll en ventanas

Lo vamos a realizar con driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")

Donde 0 es el eje x y document.body.scrollHeight es el eje y de la ventana.

Ejemplo: queremos bajar hasta el final de la página y luego subir hasta el inicio en 3 pasos.

In [None]:
driver = webdriver.Chrome(options = options)   # abre ventana

driver.get(url+busqueda)          # entra en google y busca

#Primero vamos a hacer scroll hasta el final de la página
time.sleep(2)                     # espera 2 secs
driver.find_element(By.CSS_SELECTOR,'#W0wltc').click()  # clicka en rechazar

In [None]:
#Nos guardamos el alto de la página en una variable
alto_pagina = driver.execute_script("return document.body.scrollHeight;")

#Bajamos hasta el final de la página
driver.execute_script("window.scrollTo(0, document.body.scrollHeight);") # todo el scroll

In [None]:
alto_pagina

In [None]:
#Vamos a subir hasta el principio de la página
driver.execute_script("window.scrollTo(0, 0);") # todo el scroll hasta la posición 0

In [None]:
#Vamos a bajar hasta el primer tercio de la página
driver.execute_script("window.scrollTo(0, document.body.scrollHeight/3);")
alto_pagina_nuevo = driver.execute_script("return document.body.scrollHeight;")
#Tb podría hacerlo con la variable que me he guardado pero ojo con las divisiones, necesito f-strings
#driver.execute_script(f"window.scrollTo(0, {alto_pagina}/3);" )
time.sleep(5)
driver.execute_script(f"window.scrollTo(0, ({alto_pagina}*2)/3);" )
time.sleep(5)
driver.execute_script(f"window.scrollTo(0, {alto_pagina});" )

In [None]:
alto_pagina, alto_pagina_nuevo

In [None]:
driver.quit()

Vamos a centrarnos en la parte de resultados de videos:

In [None]:
driver = webdriver.Chrome(options = options)   # abre ventana

driver.get(url+busqueda)          # entra en google y busca

# Primero las cookies
time.sleep(2)                     # espera 2 secs
driver.find_element(By.CSS_SELECTOR,'#W0wltc').click()  # clicka en rechazar

In [None]:
#Tengo que pinchar el boton de resultados de video:
#Lo primero es buscar dónde se encuentran los botones:
# Lo buscamos por SELECTOR --> div.crJ18e
botones = driver.find_elements(By.CSS_SELECTOR,'div.crJ18e')

# EN LA VERSION ANTERIOR
#Voy a buscar un span con clases = 'FMKtTb UqcIvb' jsname = 'PIvPIe' y texto = 'Vídeos'
#botones = driver.find_elements(By.CSS_SELECTOR,'span.FMKtTb.UqcIvb')

In [None]:
#Tenemos un monton de botones, vamos a verlos:
for btn in botones:
    print(btn.text)

### Traducciones de XPATHs:

``//*[@id="bqHHPb"]/div/div/div[1]/a[2]/div/span``

*[@id="bqHHPb"] --> cualquier elemento que tenga un atributo id con valor bqHHPb

/div --> cualquier elemento que sea hijo de un elemento div

/div --> cualquier elemento que sea hijo de un elemento div

[1] --> el primer elemento de la lista

/a[2] --> el segundo elemento de la lista

/div --> cualquier elemento que sea hijo de un elemento div

/span --> cualquier elemento que sea hijo de un elemento span

In [None]:
#Vamos a ser más específicos a la hora de buscar el botón
#//*[@id="hdtb-sc"]/div/div/div[1]/div[4]/a/div
boton_video = driver.find_element(By.XPATH, "//div[contains(text(),'Vídeos')]")
boton_video.text
boton_video.click()

In [None]:
driver.quit()

### EJERCICIO
Vamos a hacer un pequeño ejercicio, vamos a buscar en google un término de busqueda 'pesca en Madrid'.

Una vez cargada la página haz click en el botón de vídeos. Coge todos los resultados y accede al link de href para tener los links a los vídeos. Almacena todos los links en una lista.

In [None]:
# voy a buscar vídeos de pesca en madrid
busqueda = 'pesca en madrid'
resultado_videos = []                          #Aquí meteré mis resultados
url = 'https://www.google.es/search?q='
driver = webdriver.Chrome(options = options)   # abre ventana
driver.get(url+busqueda)                       # entra en google y busca
time.sleep(2)                                  # espera 2 secs

# click en rechazar
driver.find_element(By.CSS_SELECTOR,'#W0wltc').click()  # clicka en rechazar
time.sleep(2)

# click en el botón de vídeos
driver.find_element(By.XPATH, '//*[@id="hdtb-sc"]/div/div[1]/div[1]/div[3]/a/div').click()
time.sleep(2)

#Buscamos los videos,Están en un div con ID = 'search'
resultados = driver.find_element(By.ID, 'search')
resultados

#Busco dentro de resultados todos los elementos que sean a con atributo jsname = 'UWckNb'
# a es la etiqueta
# [jsname="UWckNb"] es lo que tiene que coger
videos = resultados.find_elements(By.CSS_SELECTOR, 'a[jsname="UWckNb"]')
videos.__len__()

#Vemos el href que contiene cada uno de esos a:
for video in videos:
    print(video.get_attribute('href'))
    resultado_videos.append(video.get_attribute('href'))

driver.quit()

In [None]:
resultado_videos