# Practica 1: Web scraping con Selenium

In [37]:
# Curso: TDM - 2023/2024
# Nombre: Daniel Mihai
# Apellidos: Rece
# Fecha: 2023-11-03 (yyyy-mm-dd)

## Librerías necesarias

Es necesario tener instalada la librería `Selenium` y  `webdriver-manager`. También es recomendable tener instalado `BeautifulSoup`.


In [38]:
# Descomenta y ejecuta una de las dos alternativas (o ejecútalos desde una consola de comandos):
# 1. Instalar desde Anaconda
#!conda install -c conda-forge selenium

# 2. Instalar con pipzz
#!pip install -U selenium

In [39]:
# Descomenta y ejecuta una de las dos alternativas (o ejecútalos desde una consola de comandos):
# 1. Instalar desde Anaconda
#!conda install   webdriver-manager

# 2. Instalar con pip
#!pip install --user  webdriver-manager

## Comprobación de funcionamiento (con Firefox)

Ejecutar la siguiente celda:

In [40]:
import os
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager

# para la localización de elementos en la página web
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import Select

# opciones del navegador de pruebas
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--no-sandbox')        # para ejecución en entorno controlado
chrome_options.add_argument('--start-maximized')   # maximizar_ventana
chrome_options.page_load_strategy = 'normal'      # WebDriver espera hasta que se carga.

## Ejercicios

### Abrir una página

Escribir código para abrir en Chrome la URL: https://www.easycalculation.com/es/physics/classical-physics/wavelength.php

Este sitio web permite calcular la longitud de onda, frecuencia de onda y velocidad de la onda.

<img src="./images/velocidad.PNG" style="width: 300px;"/>


In [41]:
# Sol:
s = Service(ChromeDriverManager().install())
driver = webdriver.Chrome(service=s, options = chrome_options)
url = "https://www.easycalculation.com/es/physics/classical-physics/wavelength.php"
driver.get(url)

### Consentimiento para uso personal de datos 

Si sale la ventana de consentimiento, pulsar consentir

In [42]:
# Sol:
aceptar = driver.find_element(By.CLASS_NAME, "fc-primary-button")
if aceptar.is_enabled():    
    aceptar.click()

### Seleccionar la operación a realizar

El primer campo permite elegir la operación. Solo hay tres valores permitidos.  Seleccionar `Velocidad de la onda`.

Importa la librería `Select`. Esta librería  nos permite seleccionar el campo que tiene las opciones. La propia librería incluye la propiedad `options` para recuperar todas las posibles opciones de un campo.

Puedes ver algunos ejemplos en:
https://stackoverflow.com/questions/7867537/how-to-select-a-drop-down-menu-value-with-selenium-using-python

In [43]:
from selenium.webdriver.support.ui import Select
# Sol:

selectionable = Select(driver.find_element(By.NAME, 'ss'))

Mostrar los valores de las tres  opciones:

In [44]:
# Sol:
elementos = driver.find_elements(By.XPATH, '//select[@name="ss"]/option')
for elemento in elementos:
    print(elemento.text)

Longitud de onda(W)
La onda de frecuencia(F)
Velocidad de la onda(V)


Para selecciona una opción de las permitidas, tenemos varias funciones:
* campo.select_by_index(By.index)
* campo.select_by_visible_text("text")
* campo.select_by_value(value)

In [45]:
# Sol:
selectionable.select_by_visible_text("Velocidad de la onda(V)")

### Rellenar datos de entrada

La página permite calcular la velocidad de onda a partir la longitud de la onda y de la frecuencia. Rellenar los campos necesarios para realizar el cálculo:

* W = Longitud de onda (100)
* F = La onda de frecuencia (25)

Para escribir texto en una caja `input` se utiliza el método `send_keys(s)`, con `s` el string que se desea escribir. Sin embargo, al tratarse de cajas numéricas conviene hacerlo en dos fases tras seleccionar el elemento.

1. elem.send_keys(Keys.CONTROL + 'a')  # seleccionar todo el texto
2. elem.send_keys(valorquequeramos)

La primera llamada lo que hace es seleccionar el valor actual de la casilla, mientras que la segunda llamada lo sobreescribe.

Usa las esperas explícitas entre las 2 fases.

In [46]:
# Sol:
import time
from selenium.webdriver.common.keys import Keys

long = driver.find_element(By.NAME, "res1")
long.clear()
long.send_keys(100)
time.sleep(2)
frec = driver.find_element(By.NAME, "res3")
frec.clear()
frec.send_keys(25)


### Pulsar el botón "Calcular"

Para obtener un elemento `element` por un `valor` de un atributo `attribute` se escribe:

```
elemento = driver.find_element(By.XPATH, "//element[@attribute='valor']")
```

Usa el método `click()` para pulsar el botón.

In [47]:
# Sol:
elemento = driver.find_element(By.XPATH, '//input[@class="calc"]')
elemento.click()

### Recoger el dato calculado

Para obtener el texto asociado a un elemento de tipo  input, leer la respuesa a la pregunta: https://stackoverflow.com/questions/25580569/get-value-of-an-input-box-using-selenium-python

In [48]:
# Sol:
vel = driver.find_element(By.NAME, "res2")
vel.get_attribute('value')

'2500'

### Crear una función que agrupe el código

Crer una función llamada calcular_velocidad que realiza el cálculo anterior. Recibe tres parámetros de entrada: el objeto driver, la onda de frecuencia y la longitud de la onda. El valor devuelto es numérico y representa la velocidad de la onda

In [49]:
def calcula_velocidad(driver, frecuencia, long):
   # escribir código
   url = "https://www.easycalculation.com/es/physics/classical-physics/wavelength.php"
   driver.get(url)
   try: 
      aceptar = driver.find_element(By.CLASS_NAME, "fc-primary-button")
      if aceptar.is_enabled():    
         aceptar.click()
   except:
      pass
   Select(driver.find_element(By.NAME, 'ss')).select_by_visible_text("Velocidad de la onda(V)")
   driver.find_element(By.NAME, "res1").clear()
   driver.find_element(By.NAME, "res1").send_keys(frecuencia)
   driver.find_element(By.NAME, "res3").clear()
   driver.find_element(By.NAME, "res3").send_keys(long)
   driver.find_element(By.XPATH, '//input[@class="calc"]').click()
   vel = driver.find_element(By.NAME, "res2")
   return int(vel.get_attribute('value'))






In [50]:
# Prueba
driver = webdriver.Chrome(service=s, options = chrome_options)
f = 25
l = 40
calcula_velocidad(driver, f, l)

1000

### Calcular la velocidad para un conjunto de valores

El fichero [datos_onda.csv](datos_onda.csv) recoge datos de Longitud de onda y frecuencia. Se pide:

* Leer el fichero   `csv` usando la librería `pandas`.

* Para cada linea del fichero llamaremos a la función `calcular_velocidad` e iremos mostrando tanto los valores leídos, como el valor devuelto por la función.

La salida será similar a:
```
14643 14815 -> 216936045
22498 10420 -> 234429160
16090 12725 -> 204745250
```

Como sugerencia, usar la operación  `apply`  de los dataframes junto con una función lambda, siguiendo la siquiente estructura:

```
tabla.apply(lambda fila: mostrar(fila), axis = 1)
```

donde `mostrar` es una función de usuario (la tienes que crear) que recibe una fila del dataframe y hace la llamada a `calcular_velocidad`.

In [51]:
import csv
import pandas as pd
path = './datos_onda.csv'
df = pd.read_csv(path)
def mostrar(driver_obj, frec, long):
    print(f"{frec} {long} -> {calcula_velocidad(driver_obj, frec, long)}")
    
df.apply(lambda x: mostrar(driver, int(x['Frecuencia']), int(x['Longitud'])), axis=1)

    
# Sol:


14643 14815 -> 216936045
22498 10420 -> 234429160


KeyboardInterrupt: 

### Cuidado con los datos missing en el fichero

Ahora consideremos el fichero ['datos_onda.csv']('datos_onda.csv'). En este caso faltan algunos valores , tanto para la primera columna como para la segunda columna.

Estos valores 'missing' son muy comunes en ciencia de datos y hay varias formas de tratarlos

* contar los valores missing de cada columna
* Rellenar los valores missing de la columna `Frecuencia` por el valor de la fila anterior. Consulta la operación `fillna` de las Series de Pandas.
* Rellenar los valores missing de la columna `longitud` por el valor de la fila siguiente.

In [None]:
tabla = pd.read_csv('datos_onda_err.csv')
tabla.info()
tabla['Frecuencia']=tabla['Frecuencia'].fillna(method='ffill')
tabla['Longitud']=tabla['Longitud'].fillna(method='bfill')
tabla.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 2 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Frecuencia  8 non-null      float64
 1   Longitud    8 non-null      float64
dtypes: float64(2)
memory usage: 288.0 bytes
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 2 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Frecuencia  10 non-null     float64
 1   Longitud    10 non-null     float64
dtypes: float64(2)
memory usage: 288.0 bytes


  tabla['Frecuencia']=tabla['Frecuencia'].fillna(method='ffill')
  tabla['Longitud']=tabla['Longitud'].fillna(method='bfill')


In [None]:
# Sol:
serie_vel = tabla.apply(lambda x: calcula_velocidad(driver, int(x['Frecuencia']), int(x['Longitud'])), axis = 1)

KeyboardInterrupt: 

### Completar la tabla

Crear un nuevo fichero llamado `completo.csv` con la nueva columna `Velocidad` según la hemos calculado en el  apartado anterior. 

In [28]:
completo=tabla
completo['Velocidad'] = serie_vel
completo.to_csv()

NoSuchWindowException: Message: no such window: target window already closed
from unknown error: web view not found
  (Session info: chrome=117.0.5938.132)
Stacktrace:
#0 0x55ced29a06b3 <unknown>
#1 0x55ced26761e7 <unknown>
#2 0x55ced264efe8 <unknown>
#3 0x55ced26e442f <unknown>
#4 0x55ced26f7e76 <unknown>
#5 0x55ced26dee93 <unknown>
#6 0x55ced26b1934 <unknown>
#7 0x55ced26b271e <unknown>
#8 0x55ced2965cb8 <unknown>
#9 0x55ced2969bf0 <unknown>
#10 0x55ced297419c <unknown>
#11 0x55ced296a808 <unknown>
#12 0x55ced293727f <unknown>
#13 0x55ced298ee88 <unknown>
#14 0x55ced298f059 <unknown>
#15 0x55ced299f843 <unknown>
#16 0x7f4773c94b43 <unknown>


### Cerrar el driver

In [52]:
# Sol:
driver.close()

Recordad subir el fichero al campus virtual.