# Web Scraping con Python (II)
Vamos a usar la librería [Selenium](https://www.selenium.dev/) para hacer web scraping. Instalación (en Anaconda):
```
conda install -c conda-forge selenium

```
o con pip:

```
pip install selenium

```
 

## Librería Selenium

In [1]:
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By 
import pandas as pd

Un `WebDriver` sirve para navegar en un navegador de forma nativa, como lo haría un usuario, bien localmente, bien de manera remota utilizando un servidor selenium. Según el navegador que utilices y la versión, deberás descargarte el webdriver asociado. Por ejemplo para Chrome: https://chromedriver.chromium.org/downloads

In [4]:
driver = webdriver.Firefox()

### Página de test de IDAL

In [27]:
driver.get("https://idal.uv.es/ejemplo.html")

In [28]:
enlace2=driver.find_elements(By.XPATH,"//div[@class='col-sm-4']/a[@class='btn']");
enlace2[1].text

'Enlace 2'

In [29]:
test=driver.find_element(By.ID,"col4")
print(test.text)

Columna 3
Lorem ipsum dolor sit amet, consectetur adipisicing elit...
Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris...
Enlace 3


In [30]:
col=driver.find_element(By.XPATH,"//div[@class='container']/*/*/h3")
print(col.text)

Columna 1


In [31]:
idal=driver.find_element(By.XPATH,"//a[contains(@href, 'idal')]");
print(idal.text)

Intelligent Data Analysis Laboratory


In [32]:
etse=driver.find_element(By.XPATH,"//a[starts-with(@href, 'http://etse')]");
print(etse.text)

Escola Tècnica Superior d'Enginyeria


In [34]:
enlaces = driver.find_elements(By.XPATH,"//a")
print(enlaces[5].text)  

Universitat de València


In [35]:
print(enlaces[5].get_attribute("title"))

UV


### Salarios de jugadores de baloncesto

El siguiente código abre la página web que queremos leer.

In [22]:
driver.get('https://hoopshype.com/salaries/players/')

Para extraer la información que necesitamos tenemos que localizar el  XPath del elemento. El XPath es la sintaxis utilizada para encontrar cualquier elemento en la página web. Para localizar el elemento, subrallamos el elemento que nos interesa extraer, clicamos en el botón derecho y seleccionamos "inspeccionar", lo que nos abrirá las herramientas de desarrollador en la parte derecha del navegador.

Si seleccionamos el primer nombre de la lista, vemos en las herramientas de desarrollador el nombre que hemos seleccionado, que corresponde con `<td class="name">`. Hacemos lo mismo con el segundo y vemos que también corresponde con esta etiqueta.

Buscamos ahora todos los jugadores con selenium. La sintaxis para XPATH es `Xpath =//tagname[@Attribute="value"]`. // significa que busque en todo el documento. El `tagname` es el nombre del tag que tiene un id de atributo igual a "value". 

In [23]:
jugadores = driver.find_elements(By.XPATH,'//td[@class="name"]')

Obtenemos los nombres de cada jugador en una lista:

In [24]:
lista_jugadores = []
for p in range(len(jugadores)):
    if jugadores[p].text:
        lista_jugadores.append(jugadores[p].text)

In [None]:
print(lista_jugadores)

Seguimos el mismo procedimiento para obtener los salarios.

In [113]:
salarios = driver.find_elements(By.XPATH,'//td[@class="hh-salaries-sorted"]')

In [114]:
lista_salarios = []
for s in range(len(salarios)):
    if salarios[s].text:
        lista_salarios.append(salarios[s].text)

In [None]:
print(lista_salarios)

Creamos un dataframe con los nombres y los salarios por anualidades.

In [3]:
df = pd.DataFrame() # crea el dataframe

driver = webdriver.Chrome('chromedriver')

for yr in range(2018,2021):
    page_num = str(yr) + '-' + str(yr+1) +'/'
    url = 'https://hoopshype.com/salaries/players/' + page_num
    driver.get(url)
    
    jugadores = driver.find_elements(By.XPATH,'//td[@class="name"]')
    salarios = driver.find_elements(By.XPATH,'//td[@class="hh-salaries-sorted"]')
    
    lista_jugadores = []
    for p in range(len(jugadores)):
        if jugadores[p].text:
            lista_jugadores.append(jugadores[p].text)
    
    lista_salarios = []
    for s in range(len(salarios)):
        if salarios[s].text:
            lista_salarios.append(salarios[s].text)
    
    jugadorYr = 'Jugador'+str(yr)
    salarioYr = 'Salario'+str(yr)

    df[jugadorYr] = lista_jugadores[1:500]
    df[salarioYr] = lista_salarios[1:500]
           
driver.close()

In [4]:
df.head(5)

Unnamed: 0,Jugador2018,Salario2018,Jugador2019,Salario2019,Jugador2020,Salario2020
0,Stephen Curry,"$37,457,154",Stephen Curry,"$40,231,758",Stephen Curry,"$43,006,362"
1,Russell Westbrook,"$35,665,000",Chris Paul,"$38,506,482",Russell Westbrook,"$41,358,814"
2,LeBron James,"$35,654,150",Russell Westbrook,"$38,506,482",Chris Paul,"$41,358,814"
3,Chris Paul,"$35,654,150",John Wall,"$38,199,000",John Wall,"$41,254,920"
4,Kyle Lowry,"$32,700,000",James Harden,"$38,199,000",James Harden,"$41,254,920"
