# 8.3. Web Scraping II.

- En este cuaderno veremos como usar selenium, una libreria para automatizar el manejo del navegador.

- Seleniun es muy util cuando tenemos que hacer acciones en un sitio tales como:
    - Pulsar botones.
    - Rellenar formularios.
    - Scrolling.
    - Capturar pantallas.


Necesitamos:
    - Navegador Chrome.
    - Driver de Chrome: https://sites.google.com/a/chromium.org/chromedriver/downloads
    - Paquete Selenium


In [None]:
!pip install selenium

In [1]:
from selenium import webdriver

DRIVER_PATH = '/Users/fernando/Downloads/chromedriver'
driver = webdriver.Chrome(executable_path=DRIVER_PATH)
driver.get('https://www.bolsamadrid.es/')

- Tambien existe la opción de no abrir el navegador (por ejemplo en un servidor) para hacer esto.
- Podemos encontrar elementos de distintas maneras:
    ```python
    driver.find_element_by_name('')
    driver.find_element_by_class_name('')
    driver.find_element_by_xpath('')
    driver.find_element_by_id('')
    ```

- Por ejemplo:

In [3]:
all_links = driver.find_elements_by_tag_name('a')
all_links

[<selenium.webdriver.remote.webelement.WebElement (session="f8a27509564a9e9a1eb1a32bdb66cd55", element="67401540-7db3-4377-8bef-86ecd5682e5d")>,
 <selenium.webdriver.remote.webelement.WebElement (session="f8a27509564a9e9a1eb1a32bdb66cd55", element="1a415c94-54a6-4b8e-a809-aa119d2b592d")>,
 <selenium.webdriver.remote.webelement.WebElement (session="f8a27509564a9e9a1eb1a32bdb66cd55", element="4c1b1c4c-8f45-4f6f-97b4-93cfb0852537")>,
 <selenium.webdriver.remote.webelement.WebElement (session="f8a27509564a9e9a1eb1a32bdb66cd55", element="e58d4d46-6023-4c1c-86d9-8f62dbb86e9f")>,
 <selenium.webdriver.remote.webelement.WebElement (session="f8a27509564a9e9a1eb1a32bdb66cd55", element="9fee2fe8-84c7-49e8-b072-f07eb3c3997e")>,
 <selenium.webdriver.remote.webelement.WebElement (session="f8a27509564a9e9a1eb1a32bdb66cd55", element="924b9be6-7b9c-4907-85f0-a25fe2a0d1be")>,
 <selenium.webdriver.remote.webelement.WebElement (session="f8a27509564a9e9a1eb1a32bdb66cd55", element="93d406a4-262d-43af-982c-d9

- Con xpath es muy sencillo, podemos encotrarlo con el navegador (boton derecho en el elemento y copy-copy_XPath:

In [4]:
boton_acciones = driver.find_element_by_xpath('//*[@id="MenuIzq"]/div[1]/div[4]/div[1]/div/a')

In [5]:
boton_acciones

<selenium.webdriver.remote.webelement.WebElement (session="f8a27509564a9e9a1eb1a32bdb66cd55", element="392b280b-be71-4ad1-b106-603e805fc900")>

Sobre los elementos podemos hacer las siguientes acciones:
- Acceder al texto con elemento.text
- Si es un boton  pulsarlo con  element.click().
- Acceder a un atributo del elemento con: element.get_attribute('class')
- Mandar texto con: element.send_keys('mypassword')

Por ejemplo vamos a ir al apartado acciones:

In [6]:
boton_acciones.text

'Acciones'

In [7]:
boton_acciones.click()

- Como ves ha cambiado la web en el navegador.
- Podemos tomar una captura de pantalla:

In [8]:
driver.save_screenshot('tabla.png')

True

- Encontramos un elemento en concreto, en este caso la tabla con los datos, la forma más sencilla es con xpath:

In [9]:
tabla = driver.find_element_by_xpath('//*[@id="aspnetForm"]/div[6]')

In [10]:
tabla_html = tabla.get_attribute('innerHTML')

In [11]:
tabla_html

'\n\t<table class="TblPort" cellspacing="0" cellpadding="3" id="ctl00_Contenido_tblAcciones" style="width:100%;border-collapse:collapse;">\n\t\t<tbody><tr align="center">\n\t\t\t<th scope="col">Nombre</th><th scope="col">Últ.</th><th scope="col">% Dif.</th><th scope="col">Máx.</th><th scope="col">Mín.</th><th scope="col">Volumen</th><th scope="col">Efectivo (miles €)</th><th scope="col">Fecha</th><th class="Ult" scope="col">Hora</th>\n\t\t</tr><tr align="right">\n\t\t\t<td class="DifFlBj" align="left"><a href="/esp/aspx/Empresas/FichaValor.aspx?ISIN=ES0125220311">ACCIONA</a></td><td>97,8500</td><td class="DifClBj">-0,05</td><td>98,5500</td><td>97,1500</td><td>19.625</td><td>1.917,97</td><td align="center">13/11/2020</td><td class="Ult" align="center">12:02:06</td>\n\t\t</tr><tr align="right">\n\t\t\t<td class="DifFlSb" align="left"><a href="/esp/aspx/Empresas/FichaValor.aspx?ISIN=ES0132105018">ACERINOX</a></td><td>8,1540</td><td class="DifClSb">1,75</td><td>8,1700</td><td>7,9520</td><t

- Podemos leer la tabla con pandas, es necesario instalar html5lib con: pip install html5lib

In [12]:
import pandas as pd

In [13]:
df = pd.read_html(tabla_html)

In [14]:
df[0]

Unnamed: 0,Nombre,Últ.,% Dif.,Máx.,Mín.,Volumen,Efectivo (miles €),Fecha,Hora
0,ACCIONA,978500,-5,985500,971500,19.625,1.91797,13/11/2020,12:02:06
1,ACERINOX,81540,175,81700,79520,260.500,2.10574,13/11/2020,12:02:08
2,ACS,251300,129,251900,245600,123.817,3.09271,13/11/2020,12:02:03
3,AENA,1415000,35,1427000,1395000,29.764,4.21121,13/11/2020,12:02:03
4,ALMIRALL,112100,247,112500,109300,245.207,2.73473,13/11/2020,12:02:03
5,AMADEUS,568800,128,571600,550000,297.451,16.83713,13/11/2020,12:02:03
6,ARCELORMIT.,135160,152,135640,131860,195.456,2.62619,13/11/2020,12:00:34
7,B.SANTANDER,23960,336,24115,22880,35.770.609,84.47019,13/11/2020,12:02:09
8,BA.SABADELL,3386,323,3420,3243,26.611.841,8.97409,13/11/2020,12:02:03
9,BANKIA,13920,98,13995,13500,1.622.831,2.25124,13/11/2020,12:02:00


## Ejercicos
**8.3.1** Cambia en el selector a Ibex Small Cap y obten la tabla de los datos en un dataframe.

In [15]:
botton_small_cap = driver.find_element_by_xpath('//*[@id="SelIndice"]/option[4]')

In [16]:
botton_small_cap.text

'IBEX SMALL CAP®'

In [17]:
botton_small_cap.click()

In [19]:
botton_consultar = driver.find_element_by_xpath('//*[@id="ctl00_Contenido_Consultar"]')

In [20]:
botton_consultar.click()

In [31]:
tabla_small_cap = driver.find_element_by_xpath('//*[@id="aspnetForm"]/div[6]')

In [35]:
tabla_html = tabla_small_cap.get_attribute('innerHTML')

In [37]:
df = pd.read_html(tabla_html)

In [38]:
df[0]

Unnamed: 0,Nombre,Últ.,% Dif.,Máx.,Mín.,Volumen,Efectivo (miles €),Fecha,Hora
0,AEDAS,175000,-011,176800,175000,296,522,13/11/2020,11:54:43
1,ALANTRA,109000,-180,111000,109000,371,406,13/11/2020,11:08:14
2,AMPER,1820,-098,01858,01750,1.212.313,21843,13/11/2020,11:55:18
3,ARIMA,85600,-,-,-,-,-,12/11/2020,Cierre
4,ATRESMEDIA,26260,258,26400,24980,165.424,42909,13/11/2020,12:01:04
5,AUDAX RENOV.,21350,-047,21650,21350,300.634,64657,13/11/2020,12:03:33
6,BERKELEY,2680,037,02735,02600,1.705.686,45349,13/11/2020,12:03:04
7,CASH,8100,214,08160,07760,512.912,41039,13/11/2020,11:56:23
8,D.FELGUERA,4955,610,05120,04630,3.203.105,1.58091,13/11/2020,12:01:05
9,DIA,1309,038,01326,01283,2.508.291,32878,13/11/2020,12:00:02
