# Selenium

Selenium es una librería para poder hacer Web Scrapping y automatizar pruebas desde un navegador web. Permite acceder a componentes HTML en específico a través del XPATH como también del ID o del texto que tengan. Funciona en varios navegadores como Google Chrome y Firefox.

El contenido de este notebook está orientado a ser de ayuda rápida para algunas funciones básicas que ofrece la librería Selenium así como también su uso con otras librerías como Pandas para estandarizar el contenido recolectado desde una web y Requests para consumo de API's.

Al final del notebook tengo dos ejemplos más complejos de su uso:

1. Extracción de información a partir de un API para almacenarlo en un DataFrame.
2. Ingresar a una página web mediante usuario y password. Navegar a través de las opciones desplegables. Completar los valores de campos tipo COMBOBOX y DATE y recuperar la información de una tabla para almacenarlo en un DataFrame.


Fuentes:

- https://pypi.org/project/selenium/
- https://selenium-python.readthedocs.io/
- https://www.selenium.dev/selenium/docs/api/py/

## Completar valor en campos y hacer click

En este ejemplo se puede acceder a una URL y enviar un valor `valor` al campo con identificador `name` ubicándolo con el XPATH.

Luego, se presiona el botón con identificador `name_button` accediendo también desde su XPATH.

In [None]:
from selenium import webdriver

In [None]:
url = "http://www.direccion-ejemplo.com"

In [None]:
driver = webdriver.Chrome()
driver.get(url)

In [None]:
driver.find_element_by_xpath('//*[@id="name"]').send_keys('valor')
driver.find_element_by_xpath('//*[@id="name_button"]/button').click()

## Click en botón y esperar unos segundos

En este ejemplo se accede a una URL, se presiona un botón con ID `name_button` y se espera 10 segundos hasta que carge la página. Finalmente se recupera el texto que se encuentre en el componente H4 con ID `name`.

**Sugerencia**

En algunos casos, luego de usar el atributo `.text` retorna un texto en blanco. Por lo que se puede usar la función `.get_attribute("innerHTML")`. De este modo se accede al atributo `innerHTML` del mismo componente.

In [None]:
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait

In [None]:
url = "http://www.direccion-ejemplo.com"

In [None]:
driver = webdriver.Chrome()
driver.get(url)

In [None]:
driver.find_element_by_xpath('//*[@id="name_button"]/button').click()

In [None]:
driver.implicitly_wait(10)

In [None]:
text = driver.find_element_by_xpath('//*[@id="name"]/h4').text

In [None]:
print(text)

## Iterar valores dentro de una lista de elementos

En este ejemplo se usa la librería Pandas para crear un DataFrame a partir de una lista de elementos.

Se cargará la URL y se ubicará mediante el XPATH a la tabla con ID `tabla`. Luego se recuperará los valores del texto mediante `text` o también podrán obtenerse mediante `.get_attribute("innerHTML")`. Cada uno de estos valores se almacenará en un diccionario de nombre item que se agregarán a la lista `tabla_list`. Finalmente, se creará un DataFrame con los valores de la lista.

Una vez se tenga el DataFrame, se podrá manipular la data recolectada y empezar el proceso de análisis de data.

In [None]:
from selenium import webdriver
import pandas as pd

In [None]:
url = "http://www.direccion-ejemplo.com"

In [None]:
driver = webdriver.Chrome()
driver.get(url)

In [None]:
tabla = driver.find_elements_by_xpath('//*[@id="tabla"]')

tabla_list = []

for elemento in tabla_list:
    campo_titulo = video.find_element_by_xpath('.//*[@id="titulo"]').text
    campo_span = video.find_element_by_xpath('.//*[@id="metadata"]/span').text
    item = {
        'campo_titulo': campo_titulo,
        'campo_span': campo_span
    }
    tabla_list.append(item)

df = pd.DataFrame(tabla_list)
print(df)

## Scroll una página web dinámica

Es útil para páginas web que no cargan todo el contenido de su web inmediatamente, sino que a medida que vas haciendo scroll va apareciendo más contenido.

Para ello, se cargará la URL, se recuperará la sesión y se hará el scroll. Se ubicará un elemento con el identificador `tabla` y se iterará sus elementos. Estos elementos serán almacenados en un diccionario y se imprimirán en pantalla.


In [None]:
from requests_html import HTMLSession

In [None]:
url = "http://www.direccion-ejemplo.com"

In [None]:
session = HTMLSession()
r = session.get(url)
r.html.render(sleep=1, keep_page=True, scrolldown=1)

In [None]:
tabla = r.html.find('#tabla')

for elementos in tabla:
    item = {
        'titulo': elementos.text,
        'link': elementos.absolite_links
    }
    print(item)

# BONUS: Consumir un API

Este ejemplo muestra el consumo de un API mediante la librería Requests mediante el método POST.

Luego, se muestra un ejemplo colocando las mismas líneas de código dentro de una función. Esta función será iterada por los días de la semana. Para finalmente completar un DataFrame que será filtrado por valores de una columna.

In [9]:
!pip install requests



In [10]:
import requests

url = ""

payload = "{\"fechaClase\":\"2021-08-11\",\"idSede\":\"1\",\"unidad\":\"343\",\"jornada\":\"-1\",\"dia\":\"Lunes\"}"

headers = {
    'cookie': "_gid=GA1.2.180153173.1628450383; ASP.NET_SessionId=lk11cb4uyusmscbpeqcnum1m; _ga=GA1.1.1415120954.1623200353; _ga_20VTGECP99=GS1.1.1628712418.179.0.1628712421.0",
    'user-agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36",
    'accept': "application/json, text/javascript, */*; q=0.01",
    'accept-language': "es-419,es;q=0.9,en;q=0.8",
    'referer': "",
    'content-type': "application/json; charset=UTF-8",
    'origin': ""
}

response = requests.request("POST",
                           url,
                           data=payload,
                           headers=headers)

print(response.text)

{"d":"[]"}


In [11]:
import json
import requests
from datetime import date

def obtener_fecha_actual():
    today = date.today()
    # Formato : "2021-08-27"
    month = today.month if today.month > 9 else "0" + str(today.month)
    day = today.day if today.day > 9 else "0" + str(today.day)
    return f"{today.year}-{month}-{day}"

dict_dias_semana = ["Lunes","Martes","Miercoles","Jueves","Viernes","Sabado"]

def obtener_horarios_disponibles(url, dict_dias_semana=dict_dias_semana):
    today = obtener_fecha_actual()

    headers = {
        'cookie': "_gid=GA1.2.180153173.1628450383; ASP.NET_SessionId=lk11cb4uyusmscbpeqcnum1m; _ga=GA1.1.1415120954.1623200353; _ga_20VTGECP99=GS1.1.1628712418.179.0.1628712421.0",
        'user-agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36",
        'accept': "application/json, text/javascript, */*; q=0.01",
        'accept-language': "es-419,es;q=0.9,en;q=0.8",
        'referer': "",
        'content-type': "application/json; charset=UTF-8",
        'origin': ""
    }

    list_horarios = []
    for dia_semana in dict_dias_semana:
        payload = json.dumps({
            'fechaClase':today,
            'idSede':"1",
            'unidad':"343",
            'jornada':"-1",
            "dia":dia_semana
        })

        response = requests.request("POST",
                                    url,
                                    data=payload,
                                    headers=headers)

        dict_data = json.loads(response.text)
        dict_data = json.loads(dict_data["d"])
        for data in dict_data:
            horario_item = {'Dia':data['Dia'],
                            'HoraIni':data['HoraIni'],
                            'HoraFin':data['HoraFin'],
                            'NombreActividad':data['NombreActividad'],
                            'Profesor':str(data['Profesor']).replace("  ", " ").upper()
                            }
            list_horarios.append(horario_item)

    df = pd.DataFrame(list_horarios)
    return df

df_horarios = obtener_horarios_disponibles(url)

In [12]:
df_horarios.head(10)

Unnamed: 0,Dia,HoraIni,HoraFin,NombreActividad,Profesor
0,Jueves,07:00,08:00,VOCABULARY Books 2a4,nombre_profesor_1
1,Jueves,07:00,08:00,VOCABULARY Books 2a4,nombre_profesor_1
2,Jueves,08:00,09:00,ENGLISH IN CONTEXT Books 2a4,nombre_profesor_1
3,Jueves,08:00,09:00,ENGLISH IN CONTEXT Books 2a4,nombre_profesor_1
4,Jueves,09:00,10:00,PHONETICS Books 2a4,nombre_profesor_1
5,Jueves,10:00,11:00,READING Books 2a4,nombre_profesor_1
6,Jueves,10:00,11:00,READING Books 2a4,nombre_profesor_1
7,Jueves,10:00,11:00,READING Books 2a4,nombre_profesor_1
8,Jueves,11:00,12:00,GAMES Books 2a4,nombre_profesor_1
9,Jueves,11:00,12:00,GAMES Books 2a4,nombre_profesor_1


A partir del DataFrame filtro las clases que dictan los profesores. Para esto, me apoyo de una lista de elementos con los nombres de los profesores.

In [13]:
list_profesores = ['nombre_profesor_1','nombre_profesor_2']
df_horarios[df_horarios['Profesor'].isin(list_profesores)]

Unnamed: 0,Dia,HoraIni,HoraFin,NombreActividad,Profesor
0,Jueves,07:00,08:00,VOCABULARY Books 2a4,nombre_profesor_1
1,Jueves,07:00,08:00,VOCABULARY Books 2a4,nombre_profesor_1
2,Jueves,08:00,09:00,ENGLISH IN CONTEXT Books 2a4,nombre_profesor_1
3,Jueves,08:00,09:00,ENGLISH IN CONTEXT Books 2a4,nombre_profesor_1
4,Jueves,09:00,10:00,PHONETICS Books 2a4,nombre_profesor_1
...,...,...,...,...,...
60,Sabado,15:00,16:00,WRITING Books 2a4,nombre_profesor_1
61,Sabado,15:00,16:00,WRITING Books 2a4,nombre_profesor_1
62,Sabado,15:00,16:00,WRITING Books 2a4,nombre_profesor_1
63,Sabado,16:00,17:00,VOCABULARY Books 2a4,nombre_profesor_1


Consultando registro con índice 45 y sólo muestra el nombre del profesor.

In [14]:
df_horarios.iloc[45]['Profesor']

'nombre_profesor_1'

# BONUS: Obtener horarios de clase de Inglés

Utilizando Selenium ingresaré al portal web de clases de inglés y consultaré los horarios de clase disponibles. Para esto tendré que instalar algunas librerías en Google Colab y copiar el contenido de la carpeta del navegador Chrome para que Selenium pueda reconocerlo empezar a interactuar con el portal web de horario de clases.

In [1]:
!pip install selenium
!apt-get update # to update ubuntu to correctly run apt install
!apt install chromium-chromedriver
!cp /usr/lib/chromium-browser/chromedriver /usr/bin

Collecting selenium
  Downloading selenium-3.141.0-py2.py3-none-any.whl (904 kB)
[?25l[K     |▍                               | 10 kB 15.1 MB/s eta 0:00:01[K     |▊                               | 20 kB 18.8 MB/s eta 0:00:01[K     |█                               | 30 kB 23.2 MB/s eta 0:00:01[K     |█▌                              | 40 kB 25.2 MB/s eta 0:00:01[K     |█▉                              | 51 kB 27.6 MB/s eta 0:00:01[K     |██▏                             | 61 kB 29.1 MB/s eta 0:00:01[K     |██▌                             | 71 kB 30.2 MB/s eta 0:00:01[K     |███                             | 81 kB 30.6 MB/s eta 0:00:01[K     |███▎                            | 92 kB 32.1 MB/s eta 0:00:01[K     |███▋                            | 102 kB 30.9 MB/s eta 0:00:01[K     |████                            | 112 kB 30.9 MB/s eta 0:00:01[K     |████▍                           | 122 kB 30.9 MB/s eta 0:00:01[K     |████▊                           | 133 kB 30.9 MB

In [2]:
import sys
sys.path.insert(0,'/usr/lib/chromium-browser/chromedriver')
from selenium import webdriver
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--disable-dev-shm-usage')
wd = webdriver.Chrome('chromedriver',chrome_options=chrome_options)

  


In [3]:
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.ui import Select
import pandas as pd

In [4]:
from datetime import date

def obtener_fecha_actual():
    today = date.today()
    # Formato : "2021-08-27"
    month = today.month if today.month > 9 else "0" + str(today.month)
    day = today.day if today.day > 9 else "0" + str(today.day)
    return f"{today.year}-{month}-{day}"

In [5]:
url = ""

In [8]:
wd.get(url)

wd.find_element_by_xpath('//*[@id="txt_user"]').send_keys('')
wd.find_element_by_xpath('//*[@id="txt_password"]').send_keys('')
wd.find_element_by_xpath('//*[@id="Btn_login"]').click()
print("Se logró acceder con éxito a la página web.")
element = WebDriverWait(wd, 10).until(
    EC.presence_of_element_located((By.LINK_TEXT, 'Reservas'))
)
print("Click en opción Reservas del menú.")
element.click()
print("Se logró acceder a la subopción de Reservas con éxito.")
element = WebDriverWait(wd, 10).until(
    #EC.presence_of_element_located((By.XPATH, '//*[@id="RE"]/li/a')) # Consultar por XPATH
    EC.presence_of_element_located((By.LINK_TEXT, 'Generacion de Reservas'))
)
print("Click en subopción Generación de Reservas del menú.")
element.click()
print("Se logró acceder a la página de Generación de Reservas.")

element = WebDriverWait(wd, 10).until(
    #EC.presence_of_element_located((By.ID, 'cmbNivelRes')) # Consultar por ID
    EC.presence_of_element_located((By.XPATH, '//*[@id="cmbNivelRes"]/option[1]'))
)
print("Logró cargar la página de Generación de Reservas.")

def seleccionar_valor_combobox(xpath, texto_a_seleccionar):
    select = wd.find_element_by_xpath(xpath)
    select = Select(select)
    select_options = select.options
    print(f" Existen {len(select_options)} opciones a escoger")
    for index, option in enumerate(select_options):
        option_value = option.get_attribute("value")
        option_text = option.get_attribute("text")
        print(f' Opción {option_value} - {option_text}')
        if option_text == texto_a_seleccionar:
            print(f" Click en opción {texto_a_seleccionar}.")
            select.select_by_index(index)
            print(f" Se logró seleccionar la opción {texto_a_seleccionar}.")
            break

print("Accediendo a los niveles disponibles ...")
seleccionar_valor_combobox(xpath='//*[@id="cmbNivelRes"]', texto_a_seleccionar='WORKSHOPS')

print("Cargando las unidades disponibles ...")
element = WebDriverWait(wd, 10).until(
    EC.presence_of_element_located((By.XPATH, '//*[@id="cmbUnidadRes"]/option[1]'))
)
print("Accediendo a las unidades disponibles ...")
seleccionar_valor_combobox(xpath='//*[@id="cmbUnidadRes"]', texto_a_seleccionar='Actividad Practica Books 2 a 4')

print("Seleccionando la fecha de reserva ...")
fecha_clase = wd.find_element_by_id('txt_FechaClase')
fecha_hoy = obtener_fecha_actual()
fecha_clase_wait = WebDriverWait(wd, 10).until(
    EC.presence_of_element_located((By.ID, 'txt_FechaClase'))
)
print(f" Se asignará fecha {fecha_hoy}.")
wd.execute_script(f"document.getElementById('txt_FechaClase').value = '{fecha_hoy}'")
print(f" Se asignó fecha {fecha_clase.get_attribute('value')}.")

print("Consultando horarios disponibles ...")
element = WebDriverWait(wd, 10).until(
    EC.presence_of_element_located((By.LINK_TEXT, 'Consultar'))
)
if element.is_displayed() and element.is_enabled():
    print("Click en boton")
    element.click()

print("Consultando horarios disponibles del día jueves ...")
tabla_horarios = WebDriverWait(wd, 10).until(
    EC.presence_of_element_located((By.XPATH, '//*[@id="ReservasdivTablaJue"]/tbody'))
)

print("Mostrando los valores de la lista de horarios del día jueves ...")
rows = len(wd.find_elements_by_xpath('//*[@id="ReservasdivTablaJue"]/tbody/tr'))
cols = len(wd.find_elements_by_xpath('//*[@id="ReservasdivTablaJue"]/tbody/tr[1]/td'))

for row in range(2, rows+1):
    for col in range(1, cols+1):
        dato = wd.find_element_by_xpath('//*[@id="ReservasdivTablaJue"]/tbody/tr['+str(row)+']/td['+str(col)+']')
        if col in [2,3,4,5]:
            print(dato.get_attribute("innerHTML"), end='   ')
    print()

Se logró acceder con éxito a la página web.
Click en opción Reservas del menú.
Se logró acceder a la subopción de Reservas con éxito.
Click en subopción Generación de Reservas del menú.
Se logró acceder a la página de Generación de Reservas.
Logró cargar la página de Generación de Reservas.
Accediendo a los niveles disponibles ...
 Existen 2 opciones a escoger
 Opción -1 - -- Seleccione --
 Opción 5 - WORKSHOPS
 Click en opción WORKSHOPS.
 Se logró seleccionar la opción WORKSHOPS.
Cargando las unidades disponibles ...
Accediendo a las unidades disponibles ...
 Existen 3 opciones a escoger
 Opción -1 - -- Seleccione --
 Opción 193 - Actividad Practica Book 1
 Opción 343 - Actividad Practica Books 2 a 4
 Click en opción Actividad Practica Books 2 a 4.
 Se logró seleccionar la opción Actividad Practica Books 2 a 4.
Seleccionando la fecha de reserva ...
 Se asignará fecha 2021-08-12.
 Se asignó fecha 2021-08-12.
Consultando horarios disponibles ...
Click en boton
Consultando horarios dispo