# Web Scraping con Python
Rafa Caballero

Este script muestra algunas posibilidades de la biblioteca *Selenium* que nos permite obtener, automáticamente, datos de páginas web dinámicas, es decir que necesitan pulsar botones, etc, etc.

Selenium está pensado realmente para automatizar pruebas de entornos web, pero a nosotros nos servirá para nuestro propósito de hacer web scraping.

En particular, lo que vamos a hacer es arrancar Google Chrome y manejarlo automáticamente desde Python.

Para ello necesitamos 3 cosas:

1.- Tener google Chrome

2.- Instalar la biblioteca selenium

3.- Tener un fichero controlador, un driver, de nombre *chromedriver.exe*. En nuestro caso supondremos que se encuentra en la carpeta c:/hlocal/sgdi.

Podemos obtener el fichero Chromedriver, desde http://chromedriver.storage.googleapis.com/index.html

Debemos descargar un driver suficientemente moderno, según nuestra versión de Chrome.

Para encontrar la versión de Chrome, desde dentro del navegador :
-	Abrir el menú de arriba a la derecha (icono 3 puntitos verticales, o una “i”)
-	Selecciones “Ayuda” y a continuación “Información de Google Chrome”
-	Allí debemos ver algo como “Versión 76.0.3809.132 (Build oficial) (64 bits)”


Empezamos por asegurarnos de que Selenium está instalado, e instalándolo en caso contrario

In [2]:
import sys
try:
    import selenium
    print("selenium está en el sistema!")
except ImportError as e:
    !{sys.executable} -m pip install --upgrade --user selenium

Collecting selenium
  Downloading selenium-3.141.0-py2.py3-none-any.whl (904 kB)
Installing collected packages: selenium
Successfully installed selenium-3.141.0


Iniciamos una sesión de Chrome, recordar cambiar la variable al lugar donde está el fichero Chromedriver

In [4]:
chromedriver = "c:/hlocal/sgdi/chromedriver.exe"

# Ahora arrancamos una instancia de google Chrome. 
import os
import time
 

from selenium import webdriver  # si da error, desde anaconda prompt sobre python 3.x hacer pip install --user  selenium
os.environ["webdriver.chrome.driver"] = chromedriver
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--no-sandbox')
driver = webdriver.Chrome(executable_path=chromedriver,options=chrome_options)

##### Ejercicio 1

Cargar la página http://mustcalculate.com/electronics/unitconverter.php

In [5]:
s = 'http://mustcalculate.com/electronics/unitconverter.php'
driver.get(s)



##### Ejercicio 2
Cargar los valores a convertir (convertir.csv) como un Dataframe pandas

In [6]:
import pandas as pd
valores = "https://raw.githubusercontent.com/RafaelCaballero/tdm/master/datos/convertir.csv"
df = pd.read_csv(valores,encoding= 'unicode_escape')
df

Unnamed: 0,valor,origen,destino
0,10,Binary,Octal
1,100,Fahrenheit,Celsius
2,1000,Hertz,Seconds


#### Ejercicio 3
Para cada fila:

* Poner en Value el `valor`
* En la lista desplegable elegir el Origen
* Dar al botón `Calculate`
* Buscar el resultado en la tabla Results y añadirlo a una lista

Al final añadir una columna 'resultado' al dataframe y volver a grabarlo con formato csv

Sugerencia: hacerlo al principio solo para la primera fila, y cuando funcione iterar en un bucle

Para localizar los elementos mirar esta [ayuda](https://selenium-python.readthedocs.io/locating-elements.html)

Para seleccionar un elemento de un desplegable utilizar Select. [Aquí](https://stackoverflow.com/questions/7867537/how-to-select-a-drop-down-menu-value-with-selenium-using-python) hay un ejemplo (buscar la respuesta que utiliza Select)

In [9]:
from selenium.webdriver.support.ui import Select

# para guardar los resultados
resultados=[]
for index, r in df.iterrows():
    # meter los valores en la caja de texto
    caja = driver.find_element_by_name("in")
    caja.clear()
    caja.send_keys(str(r.valor))

    # lista desplegable
    select = Select(driver.find_element_by_name('ino'))
    select.select_by_visible_text(r.origen)

    # pulsar botón
    driver.find_element_by_id('calcbutton').click()

    # buscar en la tabla
    div = driver.find_element_by_id('answer')
    trs = div.find_elements_by_xpath("table/tbody/tr")
    
    found = False
    i = 0
    while not found and i<len(trs): 
        tr = trs[i]
        # ojo con la cabecera, que tiene otro formato
        if len(tr.find_elements_by_xpath("td"))>1:
            nombre = tr.find_element_by_xpath("td[1]").text
            valor = tr.find_element_by_xpath("td[2]").text
            if nombre==r.destino:
                resultados.append(valor)
                found=True
        i+=1
df["resultados"] = resultados  
df.to_csv('c:/hlocal/sgdi/resultados.csv', index=False)

In [10]:
driver.close()