# Web Scrapping Parte 2. Selenium

Continuamos con el módulo de web scrapping, en este caso vamos a hablar de Selenium.

## ¿Qué es Selenium?


Selenium es una herramienta ampliamente utilizada en ingeniería de datos y automatización de pruebas en el campo de la informática. Aunque es más conocida por su uso en pruebas de software, también se puede utilizar en procesos ETL (Extracción, Transformación y Carga) de datos.

<center><image src="https://img-b.udemycdn.com/course/750x422/1890436_501f_2.jpg" alt="Selenium"><center>

## Componentes principales de Selenium.





1. **Selenium WebDriver**: WebDriver es el núcleo de Selenium y proporciona una interfaz de programación que permite interactuar con navegadores web de forma programática. Permite automatizar tareas como navegar por páginas web, interactuar con elementos de la página (clics, llenado de formularios, selección de elementos, etc.) y extraer datos de las páginas.

2. **Selenium IDE**: Selenium Integrated Development Environment (IDE) es una extensión para navegadores web que permite la grabación y reproducción de acciones en un navegador. Es útil para crear scripts de prueba de manera rápida y sencilla, pero puede ser menos versátil que WebDriver para tareas de automatización avanzadas.

3. **Selenium Grid**: Selenium Grid es un componente que permite la ejecución de pruebas en paralelo en múltiples máquinas y navegadores. Es especialmente útil cuando se necesita realizar pruebas en diferentes configuraciones de navegadores y sistemas operativos de manera simultánea.

A parte de estos componentes principales Selenium también dispone de:
- *Selenium Client Libraries*: Selenium ofrece bibliotecas de cliente para varios lenguajes de programación, incluyendo Java, Python, C#, Ruby entre otros. 

- *Drivers de navegadores*: Selenium utiliza controladores específicos para cada navegador web que deseas automatizar. Estos controladores actúan como intermediarios entre Selenium y el navegador real. Algunos ejemplos de controladores populares son el ChromeDriver para Google Chrome, el GeckoDriver para Mozilla Firefox y el Microsoft WebDriver para Microsoft Edge.

- *Selenium Standalone Server*: El servidor independiente de Selenium proporciona un entorno de ejecución para pruebas en Selenium Grid. Permite coordinar la ejecución de pruebas en diferentes máquinas y administrar los recursos de forma centralizada.

- *Buscadores*: Selenium es compatible con varios navegadores web populares, como Google Chrome, Mozilla Firefox, Microsoft Edge, Safari, e incluso navegadores móviles. Cada navegador requiere su controlador específico para funcionar con Selenium.

- *Frameworks de prueba*: A menudo, Selenium se utiliza en conjunto con frameworks de prueba como TestNG, JUnit o PyTest, según el lenguaje de programación que estés utilizando. Estos frameworks proporcionan estructura y funcionalidad adicional para escribir y ejecutar pruebas de software de manera eficiente.


## Ventajas e inconvenientes de Selenium.

### Ventajas

- `Interacción con múltiples lenguajes de programación`: Selenium ofrece soporte para varios lenguajes de programación populares, incluyendo Python, Java, C#, Ruby y otros. Esto hace que sea fácil de integrar en tus flujos de trabajo de ETL, independientemente del lenguaje que prefieras.
- `Headless mode`: Selenium puede ejecutarse en modo "headless", lo que significa que puede realizar las operaciones de automatización sin abrir una ventana del navegador visible. Esto lo hace más eficiente en términos de recursos y es útil cuando se automatizan tareas de extracción de datos a gran escala.

### Inconvenientes

- `Desafíos de mantenimiento`: Las páginas web cambian con frecuencia, lo que puede requerir actualizaciones periódicas en tus scripts Selenium para mantenerlos funcionando correctamente. Esto puede ser un desafío en procesos de ETL a largo plazo, ya que los sitios web objetivo pueden cambiar su estructura o elementos HTML.
- `Limitaciones legales y éticas`: Al realizar web scraping con Selenium, es importante considerar las implicaciones legales y éticas. Algunos sitios pueden tener políticas que prohíban la recopilación de datos automatizada, por ello debemos asegurarnos de cumplir con las leyes y regulaciones locales y respetar los términos de servicio de los sitios web.

## Alternativas

 Además de Selenium, existen otras herramientas y bibliotecas que se pueden utilizar para tareas de web scraping y ETL, como Beautiful Soup (del que ya hablamos en el módulo anterior)  y Scrapy en Python, o Puppeteer en JavaScript. La elección de la herramienta dependerá de tus necesidades específicas y las tecnologías que estemos utilizando.

## Como utilizar Selenium.

Como ya comentamos en el módulo anterior para utilizar el WebDriver de Selenium, debemos de tener unos conocimientos básicos de como se estructura una página web y del lenguaje de marcado HTML, con alguna diferencia respecto al uso de Beautiful Soup, en este caso en vez de localizar por etiqueta, también podemos seleccionar los elementos de la página web a partir nombre, de la clase, del CSS Selector o del XPath, para elegir el elemento a partir de alguna de estas opciones lo primero que debemos hacer es:
- Abrir el inspector web: Pulsamos a la vez `Crtl + Shift + i` para abrir el inspector
- Seleccionamos la opción de seleccionar elemento dentro del inspector
- Una vez que tenemos marcado el elemento, hacemos click en el botón derecho del ratón, vamos a la opción de copiar y en el menú desplegable que se no abre elegimos la opción que queremos copiar

### Elementos más relevantes dentro del Modulo WebDriver

#### Como iniciar un navegador y abrir una página web


In [None]:
#%pip install selenium

In [7]:
from selenium import webdriver

# Iniciar el navegador (por ejemplo, Chrome)
driver = webdriver.Chrome('../5.Web_scraping/chromedriver.exe')

# Abrir una página web
driver.get("https://www.google.com")

# Cerrar el navegador
driver.quit()

#### Como localizar elementos de una pagina web

In [8]:
#CODIGOS NO EJECUTABLES:

In [6]:
from selenium import webdriver
from selenium.webdriver.common.by import By

driver = webdriver.Chrome()
driver.get("https://www.google.com")

# Localizar un elemento por su ID
elemento = driver.find_element(By.ID, "elemento_id")

# Localizar un elemento por su nombre
elemento = driver.find_element(By.NAME, "nombre_elemento")

# Localizar varios elementos
elementos = driver.find_elements(By.XPATH, 'xpath copiado del navegador')

# En este caso nos devuelve una lista y si queremos ver uno por uno todos los elementos deberemos recorrer la lista

for e in elementos:
    print(e.text) # En este caso nos mostrará el texto del elemento seleccionado a través del xpath

#### Interactuar con elementos

In [None]:
from selenium import webdriver
from selenium.webdriver.common.by import By

driver = webdriver.Chrome()
driver.get("https://www.google.com")

# Localizar un elemento por su ID
elemento = driver.find_element(By.ID, "elemento_id")

elemento.click() # Hacemos click en el elemento seleccionado, por ejemplo un boton de aceptar

#### Esperas explícitas e implícitas

In [None]:
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

driver = webdriver.Chrome()
driver.get("https://www.ejemplo.com")

# Espera explícita hasta que un elemento sea visible
elemento = WebDriverWait(driver, 10).until(EC.visibility_of_element_located((By.ID, "elemento_id")))

Estos son algunos ejemplos del uso del WebDriver, podemos encontrar la documentación explícita para Python de cada uno de los módulos en la siguiente dirección https://selenium-python.readthedocs.io/, y si queremos ver en otros lenguages o de manera genérica en https://www.selenium.dev/ 

## Ejemplo práctico de extracción de datos con Selenium

A continuación veremos un pequeño de ejemplo de como realizar un ETL básico mediante Web Scrapping con Selenium.

**Primero importamos las librerías que vamos ha utilizar**

In [69]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options
import pandas as pd

**Ahora editaremos las opciones del driver**

Primero inicializamos el objeto de opciones

In [70]:
options = Options()

A continuación veremos algunos de los parámetros que podemos añadir a nuestro objeto de opciones

In [71]:
# Con esto podemos evitar que el navegador detecte que estamos usando un software de automatización
#para decirle que no somos un robot hay que generar el objeto opctions() antes
options.add_experimental_option('excludeSwitches', ['enable-automation'])
options.add_experimental_option('useAutomationExtension', False)

In [6]:
# También podemos indicar si queremos que nos abra una ventana de navegación al ejecutar el código o no, al no abrir la ventana de navegación consumiremos menos recursos.
                    #paraque no se abra el navegador
#options.add_argument('--headless') # de esta forma nuestro código se ejecutará sin abrir el navegador

In [72]:
# Podemos guardar las cookies
#archivo temporal para guardar las cookies aceptadas, para la proxima vez que abramos el navegador no se ejecuten las cookies
options.add_argument('user-data-dir=/tmp/selenium_profile')  

In [8]:
# otras opciones
abrir en modo incognito
# options.add_argument('--incognito')              # iniciamos la sesión en modo incognito
 
# options.add_argument('--no-proxy-server')                 # sin proxy
crear un usuario ficcticio
# options.add_argument('proxy-server=000.000.0.00:0000')    # podemos añadir un servidor proxy

Podemos iniciar nuestra sesión con un usuario random, en ocasiones los servidores pueden cerrar la sesión si creen que estamos usando un software de automatización, en esos casos este tipo de herramientas pueden ayudar a que esto no ocurra. 

Lo primero que debemos hacer es instalar la librería fake-useragent

In [12]:
#para poder crear un usuario fake
%pip install fake-useragent

Collecting fake-useragent
  Obtaining dependency information for fake-useragent from https://files.pythonhosted.org/packages/56/56/f72e9ca4f9cfb966f489c2b8ea04c67fa8d0cfbb62b1651cb9d6aef110a6/fake_useragent-1.3.0-py3-none-any.whl.metadata
  Downloading fake_useragent-1.3.0-py3-none-any.whl.metadata (13 kB)
Downloading fake_useragent-1.3.0-py3-none-any.whl (15 kB)
Installing collected packages: fake-useragent
Successfully installed fake-useragent-1.3.0
Note: you may need to restart the kernel to use updated packages.


In [15]:
#PARA QUE NO TE BANEEN, A PARTIR DE X REQUESTS TE BANEAN

In [73]:
from fake_useragent import UserAgent

user = UserAgent().random

print(user)

Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/16.5.2 Safari/605.1.15


In [74]:
# ahora añadiremos nuestro usuario al objeto de opciones

options.add_argument(f'user-agent={user}')

Ahora ya podemos iniciar nuestra sesión con las opciones selecionadas

In [75]:
#cargamos el driver con nuestro archivo de opciones
driver=webdriver.Chrome('../5.Web_scraping/chromedriver.exe',options=options)   

driver.get('https://fbref.com/es/') 

Una vez abierto el navegador como estamos iniciando una sesión nueva deberemos de aceptar las cookies del sitio para poder continuar.

In [65]:
#encuentrame las cookies:
# esto nos hace click en el botón de aceptar las cookies en el caso de que sea la primera vez que visitamos la página y no tenemos guardadas las cookies
try:
    driver.find_element(By.CSS_SELECTOR, '#qc-cmp2-ui > div.qc-cmp2-footer.qc-cmp2-footer-overlay.qc-cmp2-footer-scrolled > div > button.css-47sehv').click()
except:
    pass

En este ejemplo extraeremos los datos de todos los equipos de La Liga, pero para hacer el proceso lo más automatizado posible, primero extraeremos el nombre y el link de cada equipo de la tabla de clasificación de esta página, para ellos con el navegador abierto abriremos el inspector (`Ctrl+shift+i`), elegimos la opción de selecionar elementos y vamos a la tabla para ver que elemento es el que queremos seleccionar 

<center><image src="src\seleccion_equipos.png" alt="Selenium"><center>

In [76]:
team_links = [] # inicializa una lista vacía
teams = driver.find_elements(By.CLASS_NAME, 'left') # localiza todos los elementos de esta clase
#teams[0].find_element(By.TAG_NAME, "a").get_attribute("href")
#hacemos lo de arriba con todos, hasta 20 porque solo hay 20 equipos:
#itereamos por los elementos lo hemos limitado a 20, ya que la hay más elementos de esta clase, pero los que queremos son los 20 primeros, que son los que corresponden a los equipos de La Liga
for t in teams[:20]: 
    try:
        name = t.text # Guardamos el texto de la etiqueta
        link = t.find_element(By.TAG_NAME, 'a').get_attribute('href') # Guardamos el atributo que contiene el link al equipo
        team_links.append([name,link]) # Añadimos el nombre y el link en una lista, a la lista vacia inicial
    except:
        pass

team_links

[['Real Madrid',
  'https://fbref.com/es/equipos/53a2f082/Estadisticas-de-Real-Madrid'],
 ['Girona', 'https://fbref.com/es/equipos/9024a00a/Estadisticas-de-Girona'],
 ['Barcelona',
  'https://fbref.com/es/equipos/206d90db/Estadisticas-de-Barcelona'],
 ['Atlético Madrid',
  'https://fbref.com/es/equipos/db3b9613/Estadisticas-de-Atletico-Madrid'],
 ['Athletic Club',
  'https://fbref.com/es/equipos/2b390eca/Estadisticas-de-Athletic-Club'],
 ['Real Sociedad',
  'https://fbref.com/es/equipos/e31d1cd9/Estadisticas-de-Real-Sociedad'],
 ['Betis', 'https://fbref.com/es/equipos/fc536746/Estadisticas-de-Real-Betis'],
 ['Rayo Vallecano',
  'https://fbref.com/es/equipos/98e8af82/Estadisticas-de-Rayo-Vallecano'],
 ['Valencia',
  'https://fbref.com/es/equipos/dcc91a7b/Estadisticas-de-Valencia'],
 ['Las Palmas',
  'https://fbref.com/es/equipos/0049d422/Estadisticas-de-Las-Palmas'],
 ['Getafe', 'https://fbref.com/es/equipos/7848bd64/Estadisticas-de-Getafe'],
 ['Osasuna', 'https://fbref.com/es/equipos/0

Una vez que tenemos la lista con el nombre y el link al equipo vamos a ver si podemos extraer los datos de uno de ellos.

Para ello vamos a la dirección del equipo elegido

In [77]:
#le pasamos el enlace 3:1, ahtletic club
driver.get(team_links[3][1])

In [None]:
#VAMOS A EXTRAER DE CADA PAGINA LOS NOMBRES DE LAS COLUMNAS:

Podemos ver que tenemos una nueva tabla que podemos extraer de forma sencilla, para ello vamos al inspector y localizamos el elemento de la tabla, construiremos nuestra tabla paso a paso, por lo que primero seleccionaremos las columnas que tendrá nuestra tabla.

<center><image src="src\seleccion_columnas.png" alt="Selenium"><center>


Seleccionaremos todas las columnas, pero vemos que hay más th, por lo que iterando un poco vemos que nos interesan las posiciones del 7 al 40.

In [78]:
COL_NAMES = []
columnas = driver.find_elements(By.TAG_NAME, 'th')
cols = [e.text for e in columnas[:50]]
# cols
# hasta aqui me da nombres de columnas que no me interesas
start = cols.index('Jugador') #que empiece en el indice jugador
end = start + 33 #Y para en la columna 34
print(start, end)
for c in columnas[start:end]:
    COL_NAMES.append(c.text)

COL_NAMES

7 40


['Jugador',
 'País',
 'Posc',
 'Edad',
 'PJ',
 'Titular',
 'Mín',
 '90 s',
 'Gls.',
 'Ass',
 'G+A',
 'G-TP',
 'TP',
 'TPint',
 'TA',
 'TR',
 'xG',
 'npxG',
 'xAG',
 'npxG+xAG',
 'PrgC',
 'PrgP',
 'PrgR',
 'Gls.',
 'Ast',
 'G+A',
 'G-TP',
 'G+A-TP',
 'xG',
 'xAG',
 'xG+xAG',
 'npxG',
 'npxG+xAG']

Una vez que tenemos el nombre de las columnas vamos a seleccionar a los jugadores, en este caso utilizaremos el Xpath del elemento, nos devolverá un string separado por saltos de linea '\n', por lo que editaremos este string para generar una lista que nos devolvera un string por cada fila de la tabla, que a su vez 'limpiaremos' para que nos devuelva la tabla lo más limpia posible.

In [79]:
# Quitamos las dos primeras filas que corresponden a los nombres de las columnas que ya hemos extraido anteriormente
#la tabla entera copiar xpath en herramienta de desarrollador(sin el ultimo corchete obtengo las columnas tambien)
players_stats = driver.find_element(By.XPATH, '//*[@id="stats_standard_12"]').text.split('\n')[2:]


In [80]:
players_stats

['Jan Oblak si SVN PO 30-276 8 8 720 8.0 0 0 0 0 0 0 0 0 0.0 0.0 0.0 0.0 0 0 0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 Partidos',
 'Mario Hermoso es ESP DF 28-114 8 8 691 7.7 0 0 0 0 0 0 3 0 0.1 0.1 0.0 0.2 3 30 8 0.00 0.00 0.00 0.00 0.00 0.02 0.01 0.02 0.02 0.02 Partidos',
 'Antoine Griezmann fr FRA DL 32-203 8 8 662 7.4 4 0 4 3 1 1 3 0 3.3 2.7 1.1 3.8 7 32 53 0.54 0.00 0.54 0.41 0.41 0.45 0.16 0.61 0.37 0.52 Partidos',
 'Marcos Llorente es ESP CC,DF 28-253 8 7 535 5.9 2 0 2 2 0 0 1 0 0.6 0.6 0.6 1.2 15 19 28 0.34 0.00 0.34 0.34 0.34 0.11 0.10 0.21 0.11 0.21 Partidos',
 'Axel Witsel be BEL DF 34-271 7 6 585 6.5 0 0 0 0 0 0 0 0 0.3 0.3 0.3 0.5 1 19 1 0.00 0.00 0.00 0.00 0.00 0.04 0.04 0.08 0.04 0.08 Partidos',
 'Álvaro Morata es ESP DL 30-352 7 5 485 5.4 5 0 5 5 0 0 3 1 3.2 3.2 0.1 3.2 3 6 17 0.93 0.00 0.93 0.93 0.93 0.59 0.01 0.59 0.59 0.59 Partidos',
 'César Azpilicueta es ESP DF 34-043 7 5 484 5.4 0 1 1 0 0 0 1 0 0.6 0.6 1.6 2.2 15 29 18 0.00 0.19 0.19 0.00 0.19 0.12 0.29 

Ahora recorremos cada una de las filas y generaremos las columnas de nuestra tabla tratando de que coincidan con el número de columnas que hemos seleccionado, para ello tras varios intentos e inspeccionar antes algunas tablas de distintos equipos seleccionamos los casos atípicos para evitar posibles errores a la hora de construir la tabla

In [101]:
players_stats_list = []
for p in players_stats: #añadimos los elementos de cada jugada
    #eliminar una columna rara que se pone en el medio
    if "Jugador" in p or "Rendimiento" in p:
        pass
    else:
        player = p.split(' ') # Transformamos el string en una lista
        player_stats_list = []
#queriamos añadir los nombres completos de los jugadores pero tienen cantidad de palabras distintas en todos los nombres
    # Esto nos contruye la columna de nombre este caso tiene en cuenta si el nombre tiene un 'de' o 'la' dentro del nombre
    # si entre nombre y apellido tiene un de, o el nombre es compuesto y luego tiene un de
        if player[1] == 'de' or player[2] == 'de' and player[3][1]==player[3][1].lower() or player[2] == 'la' : 
            if player[1] == 'de' and player[2]!= 'la':
            # Une el nombre y apellidos
                player_fixed = [f'{player[0]} {player[1]} {player[2]}']
            # Une el nombre corregido con el resto de la lista eliminando el campo de la bandera del pais
                player_stats_fixed = player_fixed + player[4:-1]
            else:
                player_fixed = [f'{player[0]} {player[1]} {player[2]} {player[3]}']
                player_stats_fixed = player_fixed + player[5:-1]#¿quitar las 5 primeras columnas?
        # Añade los datos del jugador a la lista de jugadores
            players_stats_list.append(player_stats_fixed)
    # Este caso tiene en cuenta que el nombre del jugador tenga un nombre compuesto y dos apellidos
        elif player[2][0] == player[2][0].upper() and player[3][0] == player[3][0].upper() and len(player[3])>3 and ',' not in player[3]:
            player_fixed = [f'{player[0]} {player[1]} {player[2]} {player[3]}']
            player_stats_fixed = player_fixed + player[5:-1]
            players_stats_list.append(player_stats_fixed)
        # Este caso tiene en cuenta que el nombre del jugador tenga un nombre compuesto o dos apellidos
        elif player[2][0] == player[2][0].upper() and player[2]!=player[2].upper():
            player_fixed = [f'{player[0]} {player[1]} {player[2]}']
            player_stats_fixed = player_fixed + player[4:-1]
            players_stats_list.append(player_stats_fixed)
        # Este caso contempla que el nombre del jugador tiene nombre y un apellido
        elif player[1][0]==player[1][0].upper():
            player_fixed = [f'{player[0]} {player[1]}']
            player_stats_fixed = player_fixed + player[3:-1]
            players_stats_list.append(player_stats_fixed)
        # Caso para guardar los datos totales del equipo y datos totales de los equipos visitantes
        elif player[0] == 'Total':
        # Unimos los campos texto de total
            player_fixed = [f'{player[0]} {player[1]} {player[2]}']
        # Añadimos dos columnas vacias después de la columna que acabamos de crear con el nombre
            player_stats_fixed = player_fixed + ['-','-'] + player[3:]
            players_stats_list.append(player_stats_fixed)
    # Por último contemplamos los jugadores que tienen un único nombre
        else:
        # eliminamos el índice correspondiente al campo de la bandera del pais
            player.pop(1)
        # añadimos la lista quitando el último elemento
            players_stats_list.append(player[:-1])

In [102]:
players_pd = pd.DataFrame(players_stats_list, columns=COL_NAMES)

Podemos ver que el campo edad tiene la edad en años y días, vamos a limpiarla para que quede un poco más claro

In [103]:
players_pd

Unnamed: 0,Jugador,País,Posc,Edad,PJ,Titular,Mín,90 s,Gls.,Ass,...,Gls..1,Ast,G+A,G-TP,G+A-TP,xG,xAG,xG+xAG,npxG,npxG+xAG
0,Jan Oblak,SVN,PO,30-276,8,8,720.0,8.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,Mario Hermoso,ESP,DF,28-114,8,8,691.0,7.7,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.02,0.01,0.02,0.02,0.02
2,Antoine Griezmann,FRA,DL,32-203,8,8,662.0,7.4,4.0,0.0,...,0.54,0.0,0.54,0.41,0.41,0.45,0.16,0.61,0.37,0.52
3,Marcos Llorente,ESP,"CC,DF",28-253,8,7,535.0,5.9,2.0,0.0,...,0.34,0.0,0.34,0.34,0.34,0.11,0.1,0.21,0.11,0.21
4,Axel Witsel,BEL,DF,34-271,7,6,585.0,6.5,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.04,0.04,0.08,0.04,0.08
5,Álvaro Morata,ESP,DL,30-352,7,5,485.0,5.4,5.0,0.0,...,0.93,0.0,0.93,0.93,0.93,0.59,0.01,0.59,0.59,0.59
6,César Azpilicueta,ESP,DF,34-043,7,5,484.0,5.4,0.0,1.0,...,0.0,0.19,0.19,0.0,0.19,0.12,0.29,0.41,0.12,0.41
7,Nahuel Molina,ARG,DF,25-187,6,5,439.0,4.9,2.0,0.0,...,0.41,0.0,0.41,0.41,0.41,0.12,0.04,0.16,0.12,0.16
8,Stefan Savić,MNE,DF,32-275,6,5,417.0,4.6,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
9,Koke,ESP,CC,31-275,5,5,291.0,3.2,0.0,1.0,...,0.0,0.31,0.31,0.0,0.31,0.01,0.31,0.31,0.01,0.31


In [104]:
players_pd['Edad'] = players_pd['Edad'].apply(lambda x: x if x == None else x.split('-')[0])
players_pd

Unnamed: 0,Jugador,País,Posc,Edad,PJ,Titular,Mín,90 s,Gls.,Ass,...,Gls..1,Ast,G+A,G-TP,G+A-TP,xG,xAG,xG+xAG,npxG,npxG+xAG
0,Jan Oblak,SVN,PO,30.0,8,8,720.0,8.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,Mario Hermoso,ESP,DF,28.0,8,8,691.0,7.7,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.02,0.01,0.02,0.02,0.02
2,Antoine Griezmann,FRA,DL,32.0,8,8,662.0,7.4,4.0,0.0,...,0.54,0.0,0.54,0.41,0.41,0.45,0.16,0.61,0.37,0.52
3,Marcos Llorente,ESP,"CC,DF",28.0,8,7,535.0,5.9,2.0,0.0,...,0.34,0.0,0.34,0.34,0.34,0.11,0.1,0.21,0.11,0.21
4,Axel Witsel,BEL,DF,34.0,7,6,585.0,6.5,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.04,0.04,0.08,0.04,0.08
5,Álvaro Morata,ESP,DL,30.0,7,5,485.0,5.4,5.0,0.0,...,0.93,0.0,0.93,0.93,0.93,0.59,0.01,0.59,0.59,0.59
6,César Azpilicueta,ESP,DF,34.0,7,5,484.0,5.4,0.0,1.0,...,0.0,0.19,0.19,0.0,0.19,0.12,0.29,0.41,0.12,0.41
7,Nahuel Molina,ARG,DF,25.0,6,5,439.0,4.9,2.0,0.0,...,0.41,0.0,0.41,0.41,0.41,0.12,0.04,0.16,0.12,0.16
8,Stefan Savić,MNE,DF,32.0,6,5,417.0,4.6,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
9,Koke,ESP,CC,31.0,5,5,291.0,3.2,0.0,1.0,...,0.0,0.31,0.31,0.0,0.31,0.01,0.31,0.31,0.01,0.31


Para finalizar guardamos nuestro dataframe en un csv

In [93]:
players_pd.to_csv(f'../5.Web_scraping/{team_links[3][0]}_stats.csv', index=False)

Una vez que hemos comprobado que nuestro código es funcional, lo encapsularemos en diferentes funciones para poder reutilizarlo y extraer los datos de los 20 equipos de primera división en un único porceso

In [91]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options
import pandas as pd
from fake_useragent import UserAgent
from datetime import datetime

In [105]:
#obtiene los links
def get_teams_links(driver)->list:

    team_links = []
    teams = driver.find_elements(By.CLASS_NAME, 'left')

    for t in teams[:20]:
        try:
            name = t.text
            link = t.find_element(By.TAG_NAME, 'a').get_attribute('href')
            team_links.append([name,link])
        except:
            pass

    return team_links


In [95]:
#extraer las columnas de los jugadores:
def get_column_names(driver)->list:

    COL_NAMES = []
    columnas = driver.find_elements(By.TAG_NAME, 'th')
    cols = [e.text for e in columnas[:50]]
    try:
        start = cols.index('Jugador')
        end = start + 33
        for c in cols[start:end]:
            COL_NAMES.append(c)
    except:
        for c in columnas[7:40]:
            COL_NAMES.append(c.text)
    
    return COL_NAMES


In [109]:
#obtener el dataframe
def create_players_pd(driver, COL_NAMES:list)-> pd.DataFrame: #lo de despues de la flecha no le importa a python

    players_stats = driver.find_element(By.XPATH, '//*[@id="stats_standard_12"]').text.split('\n')[2:]

    players_stats_list = []
    for p in players_stats:
        if "Jugador" in p or "Rendimiento" in p:
            pass
        else:
            player = p.split(' ')
            player_stats_fixed = []
            if player[1] == 'de' or player[2] == 'de' and player[3][1]==player[3][1].lower() or player[2] == 'la' : 
                if player[1] == 'de' and player[2]!= 'la':
                    player_fixed = [f'{player[0]} {player[1]} {player[2]}']
                    player_stats_fixed = player_fixed + player[4:-1]
                else:
                    player_fixed = [f'{player[0]} {player[1]} {player[2]} {player[3]}']
                    player_stats_fixed = player_fixed + player[5:-1]
                players_stats_list.append(player_stats_fixed)
            elif player[2][0] == player[2][0].upper() and player[3][0] == player[3][0].upper() and len(player[3])>3 and ',' not in player[3]:
                player_fixed = [f'{player[0]} {player[1]} {player[2]} {player[3]}']
                player_stats_fixed = player_fixed + player[5:-1]
                players_stats_list.append(player_stats_fixed)
            elif player[2][0] == player[2][0].upper() and player[2]!=player[2].upper():
                player_fixed = [f'{player[0]} {player[1]} {player[2]}']
                player_stats_fixed = player_fixed + player[4:-1]
                players_stats_list.append(player_stats_fixed)

            elif player[1][0]==player[1][0].upper():
                player_fixed = [f'{player[0]} {player[1]}']
                player_stats_fixed = player_fixed + player[3:-1]
                players_stats_list.append(player_stats_fixed)
            elif player[0] == 'Total':
                player_fixed = [f'{player[0]} {player[1]} {player[2]}']
                player_stats_fixed = player_fixed + ['-','-'] + player[3:]
                players_stats_list.append(player_stats_fixed)
            else:
                player.pop(1)
                players_stats_list.append(player[:-1])

        players_pd = pd.DataFrame(players_stats_list, columns=COL_NAMES)

        players_pd['Edad'] = players_pd['Edad'].apply(lambda x: x if x == None else x.split('-')[0])

        return players_pd


In [112]:
def save_stats_pd(players_pd:pd.DataFrame, team:str)->None:

    players_pd.to_csv(f'../5.Web_scraping/{team}_stats.csv', index=False)


In [113]:
start = datetime.now()
user = UserAgent().random

options = Options()
options.add_experimental_option('excludeSwitches', ['enable-automation'])
options.add_experimental_option('useAutomationExtension', False)
#options.add_argument('user-data-dir=/tmp/selenium_profile') 
#options.add_argument(f'user-agent={user}')

driver=webdriver.Chrome("../5.Web_scraping/chromedriver.exe", options=options)  #sino funciona hay que poner el path del chrom driver 

driver.get('https://fbref.com/es/')

try:
    driver.find_element(By.CSS_SELECTOR, '#qc-cmp2-ui > div.qc-cmp2-footer.qc-cmp2-footer-overlay.qc-cmp2-footer-scrolled > div > button.css-47sehv').click()
except:
    pass

team_links = get_teams_links(driver)

errores = 0 #contadores de errores
for t in team_links:  #llama a la funcion que obtiene links
    print(f'Creando tabla de {t[0]}')
    driver.get(t[1])  #obten la direccion del equipo
    cols = get_column_names(driver) #creame la columna

    team_pd = create_players_pd(driver,cols) #creame el dataframe

    save_stats_pd(team_pd, t[0]) #guardamelo
    # try: 
    #     driver.get(t[1])
    #     cols = get_column_names(driver)

    #     team_pd = create_players_pd(driver,cols)

    #     save_stats_pd(team_pd, t[0])
    # except:
    #     print(f'Error al crear la tabla de {t[0]}')
    #     errores += 1

driver.quit()

end = datetime.now() #para ver cuanto ha tardado

print(f'Proceso finalizado en {end - start} con {errores} errores')




Creando tabla de Real Madrid
Creando tabla de Girona
Creando tabla de Barcelona
Creando tabla de Atlético Madrid
Creando tabla de Athletic Club
Creando tabla de Real Sociedad
Creando tabla de Betis
Creando tabla de Rayo Vallecano
Creando tabla de Valencia
Creando tabla de Las Palmas
Creando tabla de Getafe
Creando tabla de Osasuna
Creando tabla de Cádiz
Creando tabla de Sevilla
Creando tabla de Mallorca
Creando tabla de Villarreal
Creando tabla de Alavés
Creando tabla de Celta Vigo
Creando tabla de Granada
Creando tabla de Almería
Proceso finalizado en 0:00:57.714513 con 0 errores


Mismo proceso pero sin abrir el navegador

In [None]:
start = datetime.now()
user = UserAgent().random

options = Options()
options.add_argument('--headless')
options.add_experimental_option('excludeSwitches', ['enable-automation'])
options.add_experimental_option('useAutomationExtension', False)

driver=webdriver.Chrome(options=options)   

driver.get('https://fbref.com/es/')

try:
    driver.find_element(By.CSS_SELECTOR, '#qc-cmp2-ui > div.qc-cmp2-footer.qc-cmp2-footer-overlay.qc-cmp2-footer-scrolled > div > button.css-47sehv').click()
except:
    pass

team_links = get_teams_links(driver)

errores = 0
for t in team_links:
    print(f'Creando tabla de {t[0]}')
    try: 
        driver.get(t[1])
        cols = get_column_names(driver)

        team_pd = create_players_pd(driver,cols)

        save_stats_pd(team_pd, t[0])
    except:
        print(f'Error al crear la tabla de {t[0]}')
        errores += 1

driver.quit()

end = datetime.now()

print(f'Proceso finalizado en {end - start} con {errores} errores')

Como hemos podido comprobar hemos reducido el tiempo de ejecución del proceso, vamos a ver si podemos mejorar el tiempo de ejecución paralelizando el proceso, para ello utilizaremos la librería joblib que nos permite lanzar procesos en paralelo.

In [115]:
%pip install joblib #para que vaya mas rapido

Collecting joblib
  Obtaining dependency information for joblib from https://files.pythonhosted.org/packages/10/40/d551139c85db202f1f384ba8bcf96aca2f329440a844f924c8a0040b6d02/joblib-1.3.2-py3-none-any.whl.metadata
  Downloading joblib-1.3.2-py3-none-any.whl.metadata (5.4 kB)
Downloading joblib-1.3.2-py3-none-any.whl (302 kB)
   ---------------------------------------- 0.0/302.2 kB ? eta -:--:--
   ---- ----------------------------------- 30.7/302.2 kB 1.3 MB/s eta 0:00:01
   --------- ----------------------------- 71.7/302.2 kB 653.6 kB/s eta 0:00:01
   -------------- ------------------------- 112.6/302.2 kB 1.1 MB/s eta 0:00:01
   ------------------------------- -------- 235.5/302.2 kB 1.3 MB/s eta 0:00:01
   --------------------------------- ------ 256.0/302.2 kB 1.2 MB/s eta 0:00:01
   ---------------------------------------- 302.2/302.2 kB 1.2 MB/s eta 0:00:00
Installing collected packages: joblib
Successfully installed joblib-1.3.2
Note: you may need to restart the kernel to use 

In [116]:
from joblib import Parallel, delayed
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

In [117]:
def all_process(t):
    
    print(f'Creando tabla de {t[0]}')
    
    opt = Options()
    options.add_argument('--headless')
    opt.add_experimental_option('excludeSwitches', ['enable-automation'])
    opt.add_experimental_option('useAutomationExtension', False)
    #options.add_argument('user-data-dir=/tmp/selenium_profile') 
    
    # if headless==True:
    #     options.add_argument('--headless')
    # else:
    #     
    #     options.add_argument(f'user-agent={user}')
        

    d=webdriver.Chrome("../5.Web_scraping/chromedriver.exe",options=opt)
    d.get(t[1])
    # try:
    #     cookies = WebDriverWait(d, 10).until(EC.visibility_of_element_located((By.CSS_SELECTOR, '#qc-cmp2-ui > div.qc-cmp2-footer.qc-cmp2-footer-overlay.qc-cmp2-footer-scrolled > div > button.css-47sehv')))
    #     cookies.click()
    # except:
    #     pass

    COL_NAMES = []
    columnas = d.find_elements(By.TAG_NAME, 'th')
    cols = [e.text for e in columnas[:50]]
    try:
        start = cols.index('Jugador')
        end = start + 33
        for c in cols[start:end]:
            COL_NAMES.append(c)
    except:
        for c in columnas[7:40]:
            COL_NAMES.append(c.text)
    
    players_stats = d.find_element(By.XPATH, '//*[@id="stats_standard_12"]').text.split('\n')[2:]

    players_stats_list = []
    for p in players_stats:
        if "Jugador" in p or "Rendimiento" in p:
            pass
        else:
            player = p.split(' ')
            player_stats_fixed = []
            if player[1] == 'de' or player[2] == 'de' and player[3][1]==player[3][1].lower() or player[2] == 'la' : 
                if player[1] == 'de' and player[2]!= 'la':
                    player_fixed = [f'{player[0]} {player[1]} {player[2]}']
                    player_stats_fixed = player_fixed + player[4:-1]
                else:
                    player_fixed = [f'{player[0]} {player[1]} {player[2]} {player[3]}']
                    player_stats_fixed = player_fixed + player[5:-1]
                players_stats_list.append(player_stats_fixed)
            elif player[2][0] == player[2][0].upper() and player[3][0] == player[3][0].upper() and len(player[3])>3 and ',' not in player[3]:
                player_fixed = [f'{player[0]} {player[1]} {player[2]} {player[3]}']
                player_stats_fixed = player_fixed + player[5:-1]
                players_stats_list.append(player_stats_fixed)
            elif player[2][0] == player[2][0].upper() and player[2]!=player[2].upper():
                player_fixed = [f'{player[0]} {player[1]} {player[2]}']
                player_stats_fixed = player_fixed + player[4:-1]
                players_stats_list.append(player_stats_fixed)

            elif player[1][0]==player[1][0].upper():
                player_fixed = [f'{player[0]} {player[1]}']
                player_stats_fixed = player_fixed + player[3:-1]
                players_stats_list.append(player_stats_fixed)
            elif player[0] == 'Total':
                player_fixed = [f'{player[0]} {player[1]} {player[2]}']
                player_stats_fixed = player_fixed + ['-','-'] + player[3:]
                players_stats_list.append(player_stats_fixed)
            else:
                player.pop(1)
                players_stats_list.append(player[:-1])

        players_pd = pd.DataFrame(players_stats_list, columns=COL_NAMES)

        players_pd['Edad'] = players_pd['Edad'].apply(lambda x:x if x==None else x.split('-')[0])

        players_pd.to_csv(f'../5.Web_scraping/src/{t[0]}_stats.csv', index=False)
    
        d.quit()

        return players_pd

In [119]:
start = datetime.now()
user = UserAgent().random

options = Options()
options.add_argument('--headless')
options.add_experimental_option('excludeSwitches', ['enable-automation'])
options.add_experimental_option('useAutomationExtension', False)
#options.add_argument('user-data-dir=/tmp/selenium_profile') 
#options.add_argument(f'user-agent={user}')

driver=webdriver.Chrome("../5.Web_scraping/chromedriver.exe",options=options)   

driver.get('https://fbref.com/es/')

try:
    driver.find_element(By.CSS_SELECTOR, '#qc-cmp2-ui > div.qc-cmp2-footer.qc-cmp2-footer-overlay.qc-cmp2-footer-scrolled > div > button.css-47sehv').click()
except:
    pass

team_links = get_teams_links(driver)


errores = 0

list_pd = Parallel(n_jobs=6, verbose=True)(delayed(all_process)(t) for t in team_links)

driver.quit()

end = datetime.now()

print(f'Proceso finalizado en {end - start} con {errores} errores')

[Parallel(n_jobs=6)]: Using backend LokyBackend with 6 concurrent workers.
[Parallel(n_jobs=6)]: Done  20 out of  20 | elapsed:   49.2s finished


Proceso finalizado en 0:00:56.249021 con 0 errores


ESTE ULTIMO METODO HA TARDADO UN SEGUNDO MENOS...