<a href="https://colab.research.google.com/github/mlaricobar/WebScrapingCourse/blob/master/DMC2019I_NOT6_Web_Scraping_WhoScored.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Web Scraping de Whoscored.com

![alt text](https://static1.squarespace.com/static/571c8a6a27d4bd683bd92775/5a70d6579140b77181a5d93c/5a70d6bfc83025604e837be4/1517344449065/whoscored+logo+wstrap+%28on+white%29.jpg?format=2500w)

### Instalación de Selenium Python Bindings

In [0]:
# Librería Selenium
!pip install selenium

#### En windows

### Instalación del Web Driver de Selenium

Para automatizar las interacciones con el navegador necesitamos de un **Driver** que sirva como interfaz ante el navegador. Por ejemplo, `Google Chrome` requiere [chromedriver](https://sites.google.com/a/chromium.org/chromedriver/downloads). En la siguiente tabla se listan los drivers necesarios para cada navegador:

| Navegador | Driver 
| --- | :---: 
| **Chrome:** |   https://sites.google.com/a/chromium.org/chromedriver/downloads  
| **Edge:** |   https://developer.microsoft.com/en-us/microsoft-edge/tools/webdriver/  
| **Firefox:** |   https://github.com/mozilla/geckodriver/releases  
| **Safari:** |   https://webkit.org/blog/6900/webdriver-support-in-safari-10/

#### En Linux

In [0]:
# instalar el Driver de Chrome
!apt install chromium-chromedriver

In [0]:
# Encontrar el path donde se encuentra instalado el Driver de Chrome
!which chromedriver

### Importar los módulos y configurar el driver de Selenium

In [0]:
# path donde se encuentra el chromedriver
driver_path = "/Users/bcpcoelab/Downloads/chromedriver_2"

In [0]:
# importar los módulos de la librería Selenium
from selenium import webdriver
from selenium.webdriver.chrome.options import Options

In [0]:
# Opciones para el navegador
options = Options()
#options.add_argument("--headless") # Importante para ocultar la interfaz gráfica del navegador
options.add_argument('--no-sandbox')
options.add_argument("--disable-extensions")
options.add_argument('start-maximized')
options.add_argument('disable-infobars')

In [0]:
# Instanciar el objeto Driver usando los path definidos
driver = webdriver.Chrome(options=options, executable_path=driver_path)

### Principales métodos y propiedades de Selenium

In [0]:
# Con el método help podemos tener una idea de los métodos y propiedades del driver
help(driver)

Help on WebDriver in module selenium.webdriver.chrome.webdriver object:

class WebDriver(selenium.webdriver.remote.webdriver.WebDriver)
 |  WebDriver(executable_path='chromedriver', port=0, options=None, service_args=None, desired_capabilities=None, service_log_path=None, chrome_options=None, keep_alive=True)
 |  
 |  Controls the ChromeDriver and allows you to drive the browser.
 |  
 |  You will need to download the ChromeDriver executable from
 |  http://chromedriver.storage.googleapis.com/index.html
 |  
 |  Method resolution order:
 |      WebDriver
 |      selenium.webdriver.remote.webdriver.WebDriver
 |      builtins.object
 |  
 |  Methods defined here:
 |  
 |  __init__(self, executable_path='chromedriver', port=0, options=None, service_args=None, desired_capabilities=None, service_log_path=None, chrome_options=None, keep_alive=True)
 |      Creates a new instance of the chrome driver.
 |      
 |      Starts the service and then creates new instance of chrome driver.
 |      

In [0]:
# Definir Url de la página que vamos a Scrapear
url = "https://es.whoscored.com/Players/14260/Show/Sergio-Ag%C3%BCero"

![alt text](https://raw.githubusercontent.com/mikolarico/course-images/master/whoscored.png)
Fuente: https://es.whoscored.com/

- **get(url)**: Carga una página web en la sesión actual del navegador a partir de la url brindada.

In [0]:
driver.get(url)

- **page_source**: Propiedad que nos permite obtener el código fuente de la página actual.

In [0]:
print(driver.page_source)

<html lang="es"><head><script async="" src="https://platform.twitter.com/widgets.js?_=1559282876822"></script>
    <meta name="apple-itunes-app" content="app-id=940048063">
    <!-- #229 -->
    <meta http-equiv="content-type" content="text/html; charset=utf-8">
    <meta http-equiv="X-UA-Compatible" content="IE=Edge"><script src="https://js-agent.newrelic.com/nr-1123.min.js"></script><script async="" src="https://mc.yandex.ru/metrika/tag.js"></script><script src="https://www.googletagservices.com/activeview/js/current/osd.js?cb=%2Fr20100101"></script><script src="https://securepubads.g.doubleclick.net/gpt/pubads_impl_rendering_2019052302.js"></script><script type="text/javascript" async="" src="/_Incapsula_Resource?SWJIYLWA=719d34d31c8e3a6e6fffd425f7e032f3&amp;ns=1&amp;cb=499015227"></script><script async="" src="//www.google-analytics.com/analytics.js"></script><script type="text/javascript">window.NREUM||(NREUM={});NREUM.info = {"beacon":"bam.nr-data.net","errorBeacon":"bam.nr-data.

- **find_element_by_xpath**: Método que utiliza el lenguaje XPath para identificar a un elemento dentro del código HTML.

![image.png](attachment:image.png)
Fuente: https://www.edureka.co/blog/xpath-in-selenium/

In [0]:
### Imagen del Jugador

In [0]:
##### Identificar el elemento que contiene el perfil del jugador
player_profile = driver.find_element_by_xpath("//div[@id='player-profile']")

In [0]:
##### Identificar el elemento que contiene la imagen del jugador
img_url = player_profile.find_element_by_xpath(".//img[@class='player-picture']").get_attribute("src")
img_url

'https://d2zywfiolv4f83.cloudfront.net/img/players/14260.jpg'

In [0]:
##### Importar el método Image para poder mostar la imagen del jugador
from IPython.display import Image as ImageDisplay

In [0]:
##### Mostrar la imagen del Jugador
ImageDisplay(url=img_url)

In [0]:
### Información genérica del jugador

In [0]:
##### Identificar el elemento que el bloque de datos genéricos del jugador
info_block_list = player_profile.find_elements_by_xpath("//dl[@class='player-info-block']")

In [0]:
##### Identificar los elementos que contienen cada uno de los datos genéricos del jugador
general_fields = {e.find_element_by_xpath("dt").text: e.find_element_by_xpath("dd").text for e in info_block_list}
general_fields

{'Nombre:': 'Sergio Agüero',
 'Equipo Actual:': 'Manchester City',
 'Número de Dorsal:': '10',
 'Posiciones:': 'Mediapunta (Central, Izquierdo)\nDelantero',
 'Edad:': '30 años (02-06-1988)',
 'Altura:': '173cm',
 'Peso:': '70kg',
 'Nacionalidad:': 'Argentina'}

In [0]:
### Statistics

In [0]:
##### Identificar el elemento que contiene las estadísticas del jugador
player_stats = driver.find_element_by_xpath("//div[@id='player-tournament-stats']")

In [0]:
##### Identificar el elemento que contiene las opciones de summary, defensive, offensive, passing y detailed
stats_options = player_stats.find_element_by_xpath("//ul[@id='player-tournament-stats-options']")

In [0]:
##### Identificar el elemento que contiene los datos de resumen (summary)
summary_stats = player_stats.find_element_by_xpath("//div[@id='player-tournament-stats-summary']")

In [0]:
##### Identificar la tabla que contiene los datos de resumen (summary)
stats_table = summary_stats.find_element_by_xpath("//div[@id='statistics-table-summary']")

In [0]:
##### Identificar los elementos que contienen las cabeceras y los registros de la tabla
table_header = stats_table.find_element_by_xpath("//thead[@id='player-table-statistics-head']")
table_body = stats_table.find_element_by_xpath("//tbody[@id='player-table-statistics-body']")

In [0]:
##### Extraer los headers
dict_keys = [e.text for e in table_header.find_elements_by_xpath(".//th")]
dict_keys

['Campeonato',
 'Jgdos',
 'Mins',
 'Goles',
 'Asist',
 'Amar',
 'Roja',
 'TpP',
 'AP%',
 'Aéreos',
 'JdelP',
 'Rating']

In [0]:
##### Extraer los valores y mapear con los headers
dict_values = [dict(zip(dict_keys, [v.text for v in row.find_elements_by_xpath(".//td")])) for row in table_body.find_elements_by_xpath(".//tr")]

In [0]:
dict_values

[{'Campeonato': 'UEFA Champions League',
  'Jgdos': '6(1)',
  'Mins': '510',
  'Goles': '6',
  'Asist': '1',
  'Amar': '2',
  'Roja': '-',
  'TpP': '4.3',
  'AP%': '88.2',
  'Aéreos': '0.9',
  'JdelP': '1',
  'Rating': '7.55'},
 {'Campeonato': 'Premier League',
  'Jgdos': '31(2)',
  'Mins': '2480',
  'Goles': '21',
  'Asist': '8',
  'Amar': '3',
  'Roja': '-',
  'TpP': '3.6',
  'AP%': '85',
  'Aéreos': '0.5',
  'JdelP': '5',
  'Rating': '7.53'},
 {'Campeonato': 'FIFA World Cup Argentina',
  'Jgdos': '2(2)',
  'Mins': '178',
  'Goles': '2',
  'Asist': '-',
  'Amar': '-',
  'Roja': '-',
  'TpP': '1.5',
  'AP%': '83.3',
  'Aéreos': '0.3',
  'JdelP': '-',
  'Rating': '6.71'},
 {'Campeonato': 'FA Cup',
  'Jgdos': '0(2)',
  'Mins': 'N/A',
  'Goles': '2',
  'Asist': 'N/A',
  'Amar': '-',
  'Roja': '-',
  'TpP': 'N/A',
  'AP%': 'N/A',
  'Aéreos': 'N/A',
  'JdelP': 'N/A',
  'Rating': '-'},
 {'Campeonato': 'League Cup',
  'Jgdos': '3',
  'Mins': 'N/A',
  'Goles': '1',
  'Asist': 'N/A',
  'Amar':

In [0]:
##### Identificar las opciones de summary, defensive, offensive, passing y detailed
option_list = {o.get_attribute("href").split("#")[-1]: o for o in stats_options.find_elements_by_xpath(".//a")}
option_list

{'player-tournament-stats-summary': <selenium.webdriver.remote.webelement.WebElement (session="74d34cd32d7d8bd375947b3630dabafa", element="0.8215933684361223-123")>,
 'player-tournament-stats-defensive': <selenium.webdriver.remote.webelement.WebElement (session="74d34cd32d7d8bd375947b3630dabafa", element="0.8215933684361223-124")>,
 'player-tournament-stats-offensive': <selenium.webdriver.remote.webelement.WebElement (session="74d34cd32d7d8bd375947b3630dabafa", element="0.8215933684361223-125")>,
 'player-tournament-stats-passing': <selenium.webdriver.remote.webelement.WebElement (session="74d34cd32d7d8bd375947b3630dabafa", element="0.8215933684361223-126")>,
 'player-tournament-stats-detailed': <selenium.webdriver.remote.webelement.WebElement (session="74d34cd32d7d8bd375947b3630dabafa", element="0.8215933684361223-127")>}

In [0]:
#### Importar métodos para definir el tiempo de espera hasta la existencia de un elemento
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

- **WebDriverWait**: Método que permite definir una espera explícita para que ocurra una determinada condición antes de continuar con el código.

- **presence_of_element_located**: Método que permite definir la condición de existencia y/o presencia de un elemento.

In [0]:
dict_values_general = {}
for id_, element in option_list.items():
    print("Tab: {0}".format(id_))
    ##### Click en la opción
    element.click()
    
    ##### Identificar el elemento que contiene los datos de la opción 'id_'
    section_stats = player_stats.find_element_by_xpath("//div[@id='{0}']".format(id_))
    
    ##### Identificar la tabla que contien los datos de la opción 'id_'
    stats_table = section_stats.find_element_by_xpath("//div[@id='statistics-table-{0}']".format(id_.split("-")[-1]))
    
    ##### Identificar los elementos que contienen las cabeceras y los registros de la tabla esperando que aparezcan
    table_header = WebDriverWait(stats_table, 15).until(EC.presence_of_element_located((By.XPATH, ".//thead[@id='player-table-statistics-head']")))
    table_body = WebDriverWait(stats_table, 15).until(EC.presence_of_element_located((By.XPATH, ".//tbody[@id='player-table-statistics-body']")))
    
    ##### Extraer los headers
    dict_keys = [e.text for e in table_header.find_elements_by_xpath(".//th")]
    
    ##### Extraer los valores y mapear con los headers
    dict_values = [dict(zip(dict_keys, [v.text for v in row.find_elements_by_xpath(".//td")])) for row in table_body.find_elements_by_xpath(".//tr")]
    dict_values_general[id_] = dict_values

Tab: player-tournament-stats-summary
Tab: player-tournament-stats-defensive
Tab: player-tournament-stats-offensive
Tab: player-tournament-stats-passing
Tab: player-tournament-stats-detailed


In [0]:
dict_values_general

{'player-tournament-stats-summary': [{'Campeonato': 'UEFA Champions League',
   'Jgdos': '6(1)',
   'Mins': '510',
   'Goles': '6',
   'Asist': '1',
   'Amar': '2',
   'Roja': '-',
   'TpP': '4.3',
   'AP%': '88.2',
   'Aéreos': '0.9',
   'JdelP': '1',
   'Rating': '7.55'},
  {'Campeonato': 'Premier League',
   'Jgdos': '31(2)',
   'Mins': '2480',
   'Goles': '21',
   'Asist': '8',
   'Amar': '3',
   'Roja': '-',
   'TpP': '3.6',
   'AP%': '85',
   'Aéreos': '0.5',
   'JdelP': '5',
   'Rating': '7.53'},
  {'Campeonato': 'FIFA World Cup Argentina',
   'Jgdos': '2(2)',
   'Mins': '178',
   'Goles': '2',
   'Asist': '-',
   'Amar': '-',
   'Roja': '-',
   'TpP': '1.5',
   'AP%': '83.3',
   'Aéreos': '0.3',
   'JdelP': '-',
   'Rating': '6.71'},
  {'Campeonato': 'FA Cup',
   'Jgdos': '0(2)',
   'Mins': 'N/A',
   'Goles': '2',
   'Asist': 'N/A',
   'Amar': '-',
   'Roja': '-',
   'TpP': 'N/A',
   'AP%': 'N/A',
   'Aéreos': 'N/A',
   'JdelP': 'N/A',
   'Rating': '-'},
  {'Campeonato': 'Leagu

- **execute_script**: Método que permite ejecutar código javascript.

In [0]:
#### Integrar los pasos vistos anteriormente en una sola función llamada 'get_data_from_player'

In [0]:
def get_data_from_player(url):
    ##### cargar la página del jugador
    driver.get(url)
    
    #### Identificar el elemento que contiene el perfil del jugador
    player_profile = driver.find_element_by_xpath("//div[@id='player-profile']")
    
    ##### Identificar el elemento que contiene la imagen del jugador
    img_url = player_profile.find_element_by_xpath("//img[@class='player-picture']").get_attribute("src")
    
    ##### Identificar el elemento que el bloque de datos genéricos del jugador
    info_block_list = player_profile.find_elements_by_xpath("//dl[@class='player-info-block']")
    ##### Identificar los elementos que contienen cada uno de los datos genéricos del jugador
    general_fields = {e.find_element_by_xpath("dt").text: e.find_element_by_xpath("dd").text for e in info_block_list}
    
    
    ##### Identificar el elemento que contiene las estadísticas del jugador
    player_stats = driver.find_element_by_xpath("//div[@id='player-tournament-stats']")
    
    ##### Identificar el elemento que contiene las opciones de summary, defensive, offensive, passing y detailed
    stats_options = player_stats.find_element_by_xpath("//ul[@id='player-tournament-stats-options']")
    option_list = {o.get_attribute("href").split("#")[-1]: o for o in stats_options.find_elements_by_xpath(".//a")}
    
    ##### Scrolear hasta la posición donse se encuentran las opciones sino no carga las tablas de estadísticas
    driver.execute_script("arguments[0].scrollIntoView();", stats_options)
    
    dict_values_general = {}
    for id_, element in option_list.items():
        print("Tab: {0}".format(id_))
        element.click()
        section_stats = player_stats.find_element_by_xpath("//div[@id='{0}']".format(id_))
        stats_table = section_stats.find_element_by_xpath("//div[@id='statistics-table-{0}']".format(id_.split("-")[-1]))
        table_header = WebDriverWait(stats_table, 15).until(EC.presence_of_element_located((By.XPATH, ".//thead[@id='player-table-statistics-head']")))
        table_body = WebDriverWait(stats_table, 15).until(EC.presence_of_element_located((By.XPATH, ".//tbody[@id='player-table-statistics-body']")))
        dict_keys = [e.text for e in table_header.find_elements_by_xpath(".//th")]
        dict_values = [dict(zip(dict_keys, [v.text for v in row.find_elements_by_xpath(".//td")])) for row in table_body.find_elements_by_xpath(".//tr")]
        dict_values_general[id_] = dict_values
    
    ##### devolver los datos
    return {
        "img_url": img_url,
        "general_fields": general_fields,
        "dict_values_general": dict_values_general
    }

In [0]:
#### Probando con la url del Kun Agüero
get_data_from_player("https://es.whoscored.com/Players/14260/Show/Sergio-Ag%C3%BCero")

Tab: player-tournament-stats-summary
Tab: player-tournament-stats-defensive
Tab: player-tournament-stats-offensive
Tab: player-tournament-stats-passing
Tab: player-tournament-stats-detailed


{'img_url': 'https://d2zywfiolv4f83.cloudfront.net/img/players/14260.jpg',
 'general_fields': {'Nombre:': 'Sergio Agüero',
  'Equipo Actual:': 'Manchester City',
  'Número de Dorsal:': '10',
  'Posiciones:': 'Mediapunta (Central, Izquierdo)\nDelantero',
  'Edad:': '30 años (02-06-1988)',
  'Altura:': '173cm',
  'Peso:': '70kg',
  'Nacionalidad:': 'Argentina'},
 'dict_values_general': {'player-tournament-stats-summary': [{'Campeonato': 'UEFA Champions League',
    'Jgdos': '6(1)',
    'Mins': '510',
    'Goles': '6',
    'Asist': '1',
    'Amar': '2',
    'Roja': '-',
    'TpP': '4.3',
    'AP%': '88.2',
    'Aéreos': '0.9',
    'JdelP': '1',
    'Rating': '7.55'},
   {'Campeonato': 'Premier League',
    'Jgdos': '31(2)',
    'Mins': '2480',
    'Goles': '21',
    'Asist': '8',
    'Amar': '3',
    'Roja': '-',
    'TpP': '3.6',
    'AP%': '85',
    'Aéreos': '0.5',
    'JdelP': '5',
    'Rating': '7.53'},
   {'Campeonato': 'FIFA World Cup Argentina',
    'Jgdos': '2(2)',
    'Mins': '1

In [0]:
##### Probando con la url de Fernandinho
get_data_from_player("https://es.whoscored.com/Players/19119/Show/Fernandinho")

Tab: player-tournament-stats-summary
Tab: player-tournament-stats-defensive
Tab: player-tournament-stats-offensive
Tab: player-tournament-stats-passing
Tab: player-tournament-stats-detailed


{'img_url': 'https://d2zywfiolv4f83.cloudfront.net/img/players/19119.jpg',
 'general_fields': {'Nombre:': 'Fernandinho',
  'Equipo Actual:': 'Manchester City',
  'Nombre Completo:': 'Fernando Luiz Rosa',
  'Número de Dorsal:': '25',
  'Posiciones:': 'Defensa (Derecho)\nMediocentro Central',
  'Edad:': '34 años (04-05-1985)',
  'Altura:': '179cm',
  'Peso:': '67kg',
  'Nacionalidad:': 'Brasil'},
 'dict_values_general': {'player-tournament-stats-summary': [{'Campeonato': 'Premier League',
    'Jgdos': '27(2)',
    'Mins': '2382',
    'Goles': '1',
    'Asist': '3',
    'Amar': '5',
    'Roja': '-',
    'TpP': '1',
    'AP%': '87.5',
    'Aéreos': '2.6',
    'JdelP': '2',
    'Rating': '7.31'},
   {'Campeonato': 'UEFA Champions League',
    'Jgdos': '7(1)',
    'Mins': '643',
    'Goles': '-',
    'Asist': '-',
    'Amar': '3',
    'Roja': '-',
    'TpP': '0.6',
    'AP%': '87.3',
    'Aéreos': '2',
    'JdelP': '-',
    'Rating': '6.88'},
   {'Campeonato': 'FIFA World Cup Brazil',
    'J

In [0]:
### Una lista definida de jugadores
player_url_list = [
    "https://es.whoscored.com/Players/19119/Show/Fernandinho",
    "https://es.whoscored.com/Players/14260/Show/Sergio-Ag%C3%BCero",
    "https://es.whoscored.com/Players/88300/Show/Danilo",
    "https://es.whoscored.com/Players/14102/Show/David-Silva",
    "https://es.whoscored.com/Players/279379/Show/Gabriel-Jesus"
]

In [0]:
### Por cada jugador de la lista, extraemos sus datos
player_data_list = []
for player_url in player_url_list:
    print("Player: {0}".format(player_url))
    player_data_list.append(get_data_from_player(player_url))

Player: https://es.whoscored.com/Players/19119/Show/Fernandinho
Tab: player-tournament-stats-summary
Tab: player-tournament-stats-defensive
Tab: player-tournament-stats-offensive
Tab: player-tournament-stats-passing
Tab: player-tournament-stats-detailed
Player: https://es.whoscored.com/Players/14260/Show/Sergio-Ag%C3%BCero
Tab: player-tournament-stats-summary
Tab: player-tournament-stats-defensive
Tab: player-tournament-stats-offensive
Tab: player-tournament-stats-passing
Tab: player-tournament-stats-detailed
Player: https://es.whoscored.com/Players/88300/Show/Danilo
Tab: player-tournament-stats-summary
Tab: player-tournament-stats-defensive
Tab: player-tournament-stats-offensive
Tab: player-tournament-stats-passing
Tab: player-tournament-stats-detailed
Player: https://es.whoscored.com/Players/14102/Show/David-Silva
Tab: player-tournament-stats-summary
Tab: player-tournament-stats-defensive
Tab: player-tournament-stats-offensive
Tab: player-tournament-stats-passing
Tab: player-tourname

In [0]:
##### Estructurar los datos

In [0]:
### importar pandas para manejar datos estructurados (DataFrames)
import pandas as pd

In [0]:
### Lectura del DataFrame a partir de la lista de objectos (diccionarios)
df = pd.DataFrame(player_data_list)

In [0]:
### Pintar una muestra de 5 registros
df.head()

Unnamed: 0,dict_values_general,general_fields,img_url
0,{'player-tournament-stats-summary': [{'Campeon...,"{'Nombre:': 'Fernandinho', 'Equipo Actual:': '...",https://d2zywfiolv4f83.cloudfront.net/img/play...
1,{'player-tournament-stats-summary': [{'Campeon...,"{'Nombre:': 'Sergio Agüero', 'Equipo Actual:':...",https://d2zywfiolv4f83.cloudfront.net/img/play...
2,{'player-tournament-stats-summary': [{'Campeon...,"{'Nombre:': 'Danilo', 'Equipo Actual:': 'Manch...",https://d2zywfiolv4f83.cloudfront.net/img/play...
3,{'player-tournament-stats-summary': [{'Campeon...,"{'Nombre:': 'David Silva', 'Equipo Actual:': '...",https://d2zywfiolv4f83.cloudfront.net/img/play...
4,{'player-tournament-stats-summary': [{'Campeon...,"{'Nombre:': 'Gabriel Jesus', 'Equipo Actual:':...",https://d2zywfiolv4f83.cloudfront.net/img/play...


In [0]:
#### Explode de campos
df = pd.concat([df["dict_values_general"].apply(pd.Series), df["general_fields"].apply(pd.Series), df[["img_url"]]], axis=1)

In [0]:
### Pintar una muestra de 5 registros
df.head()

Unnamed: 0,player-tournament-stats-summary,player-tournament-stats-defensive,player-tournament-stats-offensive,player-tournament-stats-passing,player-tournament-stats-detailed,Nombre:,Equipo Actual:,Nombre Completo:,Número de Dorsal:,Posiciones:,Edad:,Altura:,Peso:,Nacionalidad:,img_url
0,"[{'Campeonato': 'Premier League', 'Jgdos': '27...","[{'Campeonato': 'Premier League', 'Jgdos': '27...","[{'Campeonato': 'Premier League', 'Jgdos': '27...","[{'Campeonato': 'Premier League', 'Jgdos': '27...","[{'Campeonato': 'Premier League', 'Jgdos': '29...",Fernandinho,Manchester City,Fernando Luiz Rosa,25,Defensa (Derecho)\nMediocentro Central,34 años (04-05-1985),179cm,67kg,Brasil,https://d2zywfiolv4f83.cloudfront.net/img/play...
1,"[{'Campeonato': 'UEFA Champions League', 'Jgdo...","[{'Campeonato': 'UEFA Champions League', 'Jgdo...","[{'Campeonato': 'UEFA Champions League', 'Jgdo...","[{'Campeonato': 'UEFA Champions League', 'Jgdo...","[{'Campeonato': 'UEFA Champions League', 'Jgdo...",Sergio Agüero,Manchester City,,10,"Mediapunta (Central, Izquierdo)\nDelantero",30 años (02-06-1988),173cm,70kg,Argentina,https://d2zywfiolv4f83.cloudfront.net/img/play...
2,"[{'Campeonato': 'Premier League', 'Jgdos': '9(...","[{'Campeonato': 'Premier League', 'Jgdos': '9(...","[{'Campeonato': 'Premier League', 'Jgdos': '9(...","[{'Campeonato': 'Premier League', 'Jgdos': '9(...","[{'Campeonato': 'Premier League', 'Jgdos': '11...",Danilo,Manchester City,Danilo Luiz da Silva,3,"Defensa (Izquierdo, Derecho)",27 años (15-07-1991),184cm,78kg,Brasil,https://d2zywfiolv4f83.cloudfront.net/img/play...
3,"[{'Campeonato': 'UEFA Champions League', 'Jgdo...","[{'Campeonato': 'UEFA Champions League', 'Jgdo...","[{'Campeonato': 'UEFA Champions League', 'Jgdo...","[{'Campeonato': 'UEFA Champions League', 'Jgdo...","[{'Campeonato': 'UEFA Champions League', 'Jgdo...",David Silva,Manchester City,,21,"Centrocampista (Central, Izquierdo, Derecho)",33 años (08-01-1986),173cm,67kg,España,https://d2zywfiolv4f83.cloudfront.net/img/play...
4,"[{'Campeonato': 'UEFA Champions League', 'Jgdo...","[{'Campeonato': 'UEFA Champions League', 'Jgdo...","[{'Campeonato': 'UEFA Champions League', 'Jgdo...","[{'Campeonato': 'UEFA Champions League', 'Jgdo...","[{'Campeonato': 'UEFA Champions League', 'Jgdo...",Gabriel Jesus,Manchester City,Gabriel Fernando de Jesus,33,"Mediapunta (Izquierdo, Derecho)\nDelantero",22 años (03-04-1997),175cm,73kg,Brasil,https://d2zywfiolv4f83.cloudfront.net/img/play...


In [0]:
### Manchester City team
##### Ejecutar la misma lógica para todos los jugadores del Manchester City

In [0]:
team_url = "https://es.whoscored.com/Teams/167/Show/Inglaterra-Manchester-City"

In [0]:
driver.get(team_url)

In [0]:
players_body = driver.find_element_by_xpath("//tbody[@id='player-table-statistics-body']")

In [0]:
player_url_list = [a.get_attribute("href") for a in players_body.find_elements_by_xpath(".//a[@class='player-link']")]

In [0]:
player_data_list = []
for player_url in player_url_list:
    print("Player: {0}".format(player_url))
    player_data_list.append(get_data_from_player(player_url))

Player: https://es.whoscored.com/Players/97692/Show/Raheem-Sterling
Tab: player-tournament-stats-summary
Tab: player-tournament-stats-defensive
Tab: player-tournament-stats-offensive
Tab: player-tournament-stats-passing
Tab: player-tournament-stats-detailed
Player: https://es.whoscored.com/Players/14260/Show/Sergio-Ag%C3%BCero
Tab: player-tournament-stats-summary
Tab: player-tournament-stats-defensive
Tab: player-tournament-stats-offensive
Tab: player-tournament-stats-passing
Tab: player-tournament-stats-detailed
Player: https://es.whoscored.com/Players/19119/Show/Fernandinho
Tab: player-tournament-stats-summary
Tab: player-tournament-stats-defensive
Tab: player-tournament-stats-offensive
Tab: player-tournament-stats-passing
Tab: player-tournament-stats-detailed
Player: https://es.whoscored.com/Players/105962/Show/Benjamin-Mendy
Tab: player-tournament-stats-summary
Tab: player-tournament-stats-defensive
Tab: player-tournament-stats-offensive
Tab: player-tournament-stats-passing
Tab: pl

In [0]:
df = pd.DataFrame(player_data_list)

In [0]:
df.head()

Unnamed: 0,dict_values_general,general_fields,img_url
0,{'player-tournament-stats-summary': [{'Campeon...,"{'Nombre:': 'Raheem Sterling', 'Equipo Actual:...",https://d2zywfiolv4f83.cloudfront.net/img/play...
1,{'player-tournament-stats-summary': [{'Campeon...,"{'Nombre:': 'Sergio Agüero', 'Equipo Actual:':...",https://d2zywfiolv4f83.cloudfront.net/img/play...
2,{'player-tournament-stats-summary': [{'Campeon...,"{'Nombre:': 'Fernandinho', 'Equipo Actual:': '...",https://d2zywfiolv4f83.cloudfront.net/img/play...
3,{'player-tournament-stats-summary': [{'Campeon...,"{'Nombre:': 'Benjamin Mendy', 'Equipo Actual:'...",https://d2zywfiolv4f83.cloudfront.net/img/play...
4,{'player-tournament-stats-summary': [{'Campeon...,"{'Nombre:': 'David Silva', 'Equipo Actual:': '...",https://d2zywfiolv4f83.cloudfront.net/img/play...


In [0]:
df = pd.concat([df["dict_values_general"].apply(pd.Series), df["general_fields"].apply(pd.Series), df[["img_url"]]], axis=1)

In [0]:
df.head()

Unnamed: 0,player-tournament-stats-summary,player-tournament-stats-defensive,player-tournament-stats-offensive,player-tournament-stats-passing,player-tournament-stats-detailed,Nombre:,Equipo Actual:,Número de Dorsal:,Posiciones:,Edad:,Altura:,Peso:,Nacionalidad:,Nombre Completo:,img_url
0,"[{'Campeonato': 'UEFA Champions League', 'Jgdo...","[{'Campeonato': 'UEFA Champions League', 'Jgdo...","[{'Campeonato': 'UEFA Champions League', 'Jgdo...","[{'Campeonato': 'UEFA Champions League', 'Jgdo...","[{'Campeonato': 'UEFA Champions League', 'Jgdo...",Raheem Sterling,Manchester City,7,"Centrocampista (Central, Izquierdo, Derecho)\n...",24 años (08-12-1994),170cm,69kg,Inglaterra,,https://d2zywfiolv4f83.cloudfront.net/img/play...
1,"[{'Campeonato': 'UEFA Champions League', 'Jgdo...","[{'Campeonato': 'UEFA Champions League', 'Jgdo...","[{'Campeonato': 'UEFA Champions League', 'Jgdo...","[{'Campeonato': 'UEFA Champions League', 'Jgdo...","[{'Campeonato': 'UEFA Champions League', 'Jgdo...",Sergio Agüero,Manchester City,10,"Mediapunta (Central, Izquierdo)\nDelantero",30 años (02-06-1988),173cm,70kg,Argentina,,https://d2zywfiolv4f83.cloudfront.net/img/play...
2,"[{'Campeonato': 'Premier League', 'Jgdos': '27...","[{'Campeonato': 'Premier League', 'Jgdos': '27...","[{'Campeonato': 'Premier League', 'Jgdos': '27...","[{'Campeonato': 'Premier League', 'Jgdos': '27...","[{'Campeonato': 'Premier League', 'Jgdos': '29...",Fernandinho,Manchester City,25,Defensa (Derecho)\nMediocentro Central,34 años (04-05-1985),179cm,67kg,Brasil,Fernando Luiz Rosa,https://d2zywfiolv4f83.cloudfront.net/img/play...
3,"[{'Campeonato': 'Premier League', 'Jgdos': '10...","[{'Campeonato': 'Premier League', 'Jgdos': '10...","[{'Campeonato': 'Premier League', 'Jgdos': '10...","[{'Campeonato': 'Premier League', 'Jgdos': '10...","[{'Campeonato': 'Premier League', 'Jgdos': '10...",Benjamin Mendy,Manchester City,22,Defensa (Izquierdo)\nMediocentro Central\nCent...,24 años (17-07-1994),185cm,85kg,Francia,,https://d2zywfiolv4f83.cloudfront.net/img/play...
4,"[{'Campeonato': 'UEFA Champions League', 'Jgdo...","[{'Campeonato': 'UEFA Champions League', 'Jgdo...","[{'Campeonato': 'UEFA Champions League', 'Jgdo...","[{'Campeonato': 'UEFA Champions League', 'Jgdo...","[{'Campeonato': 'UEFA Champions League', 'Jgdo...",David Silva,Manchester City,21,"Centrocampista (Central, Izquierdo, Derecho)",33 años (08-01-1986),173cm,67kg,España,,https://d2zywfiolv4f83.cloudfront.net/img/play...


In [0]:
df.shape

(21, 15)

In [0]:
df["Nombre:"].nunique()

21

In [0]:
df_stats_summary = df["player-tournament-stats-summary"].apply(pd.Series)\
                                     .merge(df[["Nombre:"]], right_index = True, left_index = True)\
                                     .melt(id_vars=["Nombre:"], value_name="tournament")\
                                     .drop("variable", axis=1)\
                                     .dropna()

df_stats_summary = pd.concat([df_stats_summary[["Nombre:"]], df_stats_summary["tournament"].apply(pd.Series)], axis=1)

<div class="alert alert-block alert-info">
    <b>melt:</b> <b>Unpivot</b> un DataFrame con formato ancho a uno con formato largo.
</div>

In [0]:
df_stats_summary["Mins"] = df_stats_summary["Mins"].replace({"N/A": None}).astype(float)

In [0]:
df_stats_summary

Unnamed: 0,Nombre:,Campeonato,Jgdos,Mins,Goles,Asist,Amar,Roja,TpP,AP%,Aéreos,JdelP,Rating
0,Raheem Sterling,UEFA Champions League,10,871.0,5,2,1,-,2.3,83.5,0.3,1,7.87
1,Sergio Agüero,UEFA Champions League,6(1),510.0,6,1,2,-,4.3,88.2,0.9,1,7.55
2,Fernandinho,Premier League,27(2),2382.0,1,3,5,-,1,87.5,2.6,2,7.31
3,Benjamin Mendy,Premier League,10,900.0,-,5,1,-,0.7,88.3,0.8,-,7.29
4,David Silva,UEFA Champions League,9,719.0,3,2,-,-,1.4,84.2,0.6,2,7.34
5,Bernardo Silva,UEFA Champions League,6(2),578.0,4,1,-,-,1.5,89.3,0.1,-,7.68
6,Leroy Sané,UEFA Champions League,4(4),395.0,4,4,-,-,1.5,85.8,0.1,2,7.52
7,Oleksandr Zinchenko,UEFA Champions League,4(1),337.0,-,2,1,-,0.4,92.9,0.8,-,7.27
8,Ilkay Gündogan,Premier League,23(8),2136.0,6,3,3,-,1.4,90.8,0.8,2,7.10
9,Aymeric Laporte,Premier League,34(1),3057.0,3,3,3,-,0.7,92.3,2.2,1,7.05


In [0]:
df_mins_mean_players = df_stats_summary.pivot_table(index="Nombre:", columns="Campeonato", values="Mins", aggfunc="mean").reset_index(drop=False)[["Nombre:", "Total / Promedio", "Premier League"]]

In [0]:
df = df.merge(df_mins_mean_players, how="left", on="Nombre:")
df

Unnamed: 0,player-tournament-stats-summary,player-tournament-stats-defensive,player-tournament-stats-offensive,player-tournament-stats-passing,player-tournament-stats-detailed,Nombre:,Equipo Actual:,Número de Dorsal:,Posiciones:,Edad:,Altura:,Peso:,Nacionalidad:,Nombre Completo:,img_url,Total / Promedio,Premier League
0,"[{'Campeonato': 'UEFA Champions League', 'Jgdo...","[{'Campeonato': 'UEFA Champions League', 'Jgdo...","[{'Campeonato': 'UEFA Champions League', 'Jgdo...","[{'Campeonato': 'UEFA Champions League', 'Jgdo...","[{'Campeonato': 'UEFA Champions League', 'Jgdo...",Raheem Sterling,Manchester City,7,"Centrocampista (Central, Izquierdo, Derecho)\n...",24 años (08-12-1994),170cm,69kg,Inglaterra,,https://d2zywfiolv4f83.cloudfront.net/img/play...,4362.0,2777.0
1,"[{'Campeonato': 'UEFA Champions League', 'Jgdo...","[{'Campeonato': 'UEFA Champions League', 'Jgdo...","[{'Campeonato': 'UEFA Champions League', 'Jgdo...","[{'Campeonato': 'UEFA Champions League', 'Jgdo...","[{'Campeonato': 'UEFA Champions League', 'Jgdo...",Sergio Agüero,Manchester City,10,"Mediapunta (Central, Izquierdo)\nDelantero",30 años (02-06-1988),173cm,70kg,Argentina,,https://d2zywfiolv4f83.cloudfront.net/img/play...,3168.0,2480.0
2,"[{'Campeonato': 'Premier League', 'Jgdos': '27...","[{'Campeonato': 'Premier League', 'Jgdos': '27...","[{'Campeonato': 'Premier League', 'Jgdos': '27...","[{'Campeonato': 'Premier League', 'Jgdos': '27...","[{'Campeonato': 'Premier League', 'Jgdos': '29...",Fernandinho,Manchester City,25,Defensa (Derecho)\nMediocentro Central,34 años (04-05-1985),179cm,67kg,Brasil,Fernando Luiz Rosa,https://d2zywfiolv4f83.cloudfront.net/img/play...,3181.0,2382.0
3,"[{'Campeonato': 'Premier League', 'Jgdos': '10...","[{'Campeonato': 'Premier League', 'Jgdos': '10...","[{'Campeonato': 'Premier League', 'Jgdos': '10...","[{'Campeonato': 'Premier League', 'Jgdos': '10...","[{'Campeonato': 'Premier League', 'Jgdos': '10...",Benjamin Mendy,Manchester City,22,Defensa (Izquierdo)\nMediocentro Central\nCent...,24 años (17-07-1994),185cm,85kg,Francia,,https://d2zywfiolv4f83.cloudfront.net/img/play...,1142.0,900.0
4,"[{'Campeonato': 'UEFA Champions League', 'Jgdo...","[{'Campeonato': 'UEFA Champions League', 'Jgdo...","[{'Campeonato': 'UEFA Champions League', 'Jgdo...","[{'Campeonato': 'UEFA Champions League', 'Jgdo...","[{'Campeonato': 'UEFA Champions League', 'Jgdo...",David Silva,Manchester City,21,"Centrocampista (Central, Izquierdo, Derecho)",33 años (08-01-1986),173cm,67kg,España,,https://d2zywfiolv4f83.cloudfront.net/img/play...,3458.0,2412.0
5,"[{'Campeonato': 'UEFA Champions League', 'Jgdo...","[{'Campeonato': 'UEFA Champions League', 'Jgdo...","[{'Campeonato': 'UEFA Champions League', 'Jgdo...","[{'Campeonato': 'UEFA Champions League', 'Jgdo...","[{'Campeonato': 'UEFA Champions League', 'Jgdo...",Bernardo Silva,Manchester City,20,"Mediapunta (Central, Izquierdo, Derecho)",24 años (10-08-1994),173cm,64kg,Portugal,Bernardo Mota Veiga de Carvalho e Silva,https://d2zywfiolv4f83.cloudfront.net/img/play...,3939.0,2853.0
6,"[{'Campeonato': 'UEFA Champions League', 'Jgdo...","[{'Campeonato': 'UEFA Champions League', 'Jgdo...","[{'Campeonato': 'UEFA Champions League', 'Jgdo...","[{'Campeonato': 'UEFA Champions League', 'Jgdo...","[{'Campeonato': 'UEFA Champions League', 'Jgdo...",Leroy Sané,Manchester City,19,"Centrocampista (Central, Izquierdo, Derecho)",23 años (11-01-1996),183cm,75kg,Alemania,,https://d2zywfiolv4f83.cloudfront.net/img/play...,2457.0,1867.0
7,"[{'Campeonato': 'UEFA Champions League', 'Jgdo...","[{'Campeonato': 'UEFA Champions League', 'Jgdo...","[{'Campeonato': 'UEFA Champions League', 'Jgdo...","[{'Campeonato': 'UEFA Champions League', 'Jgdo...","[{'Campeonato': 'UEFA Champions League', 'Jgdo...",Oleksandr Zinchenko,Manchester City,35,"Defensa (Izquierdo)\nCentrocampista (Central, ...",22 años (15-12-1996),175cm,64kg,Ucrania,,https://d2zywfiolv4f83.cloudfront.net/img/play...,1627.0,1153.0
8,"[{'Campeonato': 'Premier League', 'Jgdos': '23...","[{'Campeonato': 'Premier League', 'Jgdos': '23...","[{'Campeonato': 'Premier League', 'Jgdos': '23...","[{'Campeonato': 'Premier League', 'Jgdos': '23...","[{'Campeonato': 'Premier League', 'Jgdos': '31...",Ilkay Gündogan,Manchester City,8,Centrocampista (Central),28 años (24-10-1990),180cm,79kg,Alemania,,https://d2zywfiolv4f83.cloudfront.net/img/play...,2809.0,2136.0
9,"[{'Campeonato': 'Premier League', 'Jgdos': '34...","[{'Campeonato': 'Premier League', 'Jgdos': '34...","[{'Campeonato': 'Premier League', 'Jgdos': '34...","[{'Campeonato': 'Premier League', 'Jgdos': '34...","[{'Campeonato': 'Premier League', 'Jgdos': '35...",Aymeric Laporte,Manchester City,14,"Defensa (Central, Izquierdo)",25 años (27-05-1994),191cm,86kg,Francia,,https://d2zywfiolv4f83.cloudfront.net/img/play...,3939.0,3057.0


In [0]:
df.groupby("Nacionalidad:", as_index=False).agg({"Nombre:": "nunique", "Premier League": "mean"}).sort_values(by="Nombre:", ascending=False)

Unnamed: 0,Nacionalidad:,Nombre:,Premier League
7,Inglaterra,5,1674.4
3,Brasil,4,1907.5
0,Alemania,2,2001.5
2,Argentina,2,1857.0
4,Bélgica,2,1100.5
6,Francia,2,1978.5
1,Argelia,1,1338.0
5,España,1,2412.0
8,Portugal,1,2853.0
9,Ucrania,1,1153.0


In [0]:
#### Cerrar el driver
driver.close()

#### Url de Referencia:

https://selenium-python.readthedocs.io/

___