# Análisis de tendencias SofaScore

En este notebook se realiza un análisis de jugadores de LaLiga a partir de las puntuaciones obtenidas de SofaScore, disponibles para las temporadas 15/16 a 19/20.

Finalmente, se presenta una calculadora de ratings ponderados, asignando pesos a diferentes características derivadas de las puntuaciones de los jugadores.

In [1]:
# Imports
import os
# Numpy, Pandas
import numpy as np
import pandas as pd
from ipywidgets import widgets
# Matplotlib
import matplotlib.cm as cm
import matplotlib.pyplot as plt
import pylab as plot
# Seaborn
import seaborn as sns
import mpldatacursor

# MySQL
from sqlalchemy import create_engine

In [2]:
# zoom-able & resize-able notebook
%matplotlib notebook
sns.set()

## Lectura de base de datos y preprocesamiento de datos

In [3]:
# Credenciales MySQL
MYSQL_USER     = "root"
MYSQL_PASSWORD = "XXXX"
MYSQL_DB       = "mbdd_pfm"

# Conexión a la BBDD
db_connection_str = 'mysql+pymysql://'+MYSQL_USER+':'+MYSQL_PASSWORD+'@localhost/'+MYSQL_DB
db_connection = create_engine(db_connection_str)

In [4]:
# Lectura de tabla a partir de combinación de datos de los proveedores Wyscout (métricas de temporada) y SofaScore
# (puntuaciones del proveedor)
query_puntuaciones = """
SELECT j.id_jugador, j.nombre AS Name, j.posicion_1 AS posicion, j.equipo_actual AS Team1920,
  s.temporada, s.puntuacion,
  w.Partidosjugados AS Pg1920, w.Minutosjugados AS min1920
FROM jugadores j
LEFT JOIN proveedor_sofascore s
  ON j.id_jugador = s.id_jugador
LEFT JOIN proveedor_wyscout w
  ON j.id_jugador = w.id_jugador
  WHERE w.temporada = "19/20"
"""

#df_inicial = pd.read_sql(query_puntuaciones, con=db_connection)
# Lectura de excel con información equivalente de la BBDD
df_inicial = pd.read_excel('input/calculadora_sofascore.xlsx')

# Se dispone de métricas de puntuaciones de SofaScore e información adicional de jugadores y su actuación en la 
# temporada 19/20
print(df_inicial.shape)
df_inicial.head()

(1406, 8)


Unnamed: 0,id_jugador,Name,posicion,Team1920,temporada,puntuacion,Pg1920,min1920
0,1,T. Courtois,GK,Real Madrid,18/19,6.8,24,2289
1,1,T. Courtois,GK,Real Madrid,19/20,7.06,24,2289
2,2,A. Aréola,GK,Real Madrid,15/16,7.06,3,291
3,2,A. Aréola,GK,Real Madrid,19/20,6.43,3,291
4,3,R. Varane,RCB,Real Madrid,15/16,7.02,23,2193


In [5]:
# Mappings de las posiciones de los jugadores para el análisis
mappings_posicion = {'AMF':'M', 'CB':'D', 'CF': 'F', 'DMF': 'M', 'GK': 'G',
            'LAMF': 'M', 'LB': 'D', 'LB5': 'D', 'LCB': 'D', 'LCB3': 'D',
            'LCMF': 'M', 'LCMF3': 'M', 'LDMF': 'M', 'LW': 'M', 'LWB': 'D',
            'LWF': 'F', 'RAMF': 'M', 'RB': 'D', 'RB5': 'D', 'RCB': 'D',
            'RCB3': 'D', 'RCMF': 'M', 'RCMF3': 'M', 'RDMF': 'M', 'RW': 'M',
            'RWB': 'D', 'RWF': 'F', '#N/A': np.nan }

df_inicial['R1920'] = df_inicial['posicion'].replace(mappings_posicion)

# Mapeos de valores de temporada para el pivotaje y procesamiento en la calculadora:
mappings_temporada = { '15/16': 'Sf1516', '16/17': 'Sf1617', '17/18': 'Sf1718', '18/19': 'Sf1819', '19/20': 'Sf1920'}
df_inicial['temporada'] = df_inicial['temporada'].replace(mappings_temporada)

df_inicial.head()

Unnamed: 0,id_jugador,Name,posicion,Team1920,temporada,puntuacion,Pg1920,min1920,R1920
0,1,T. Courtois,GK,Real Madrid,Sf1819,6.8,24,2289,G
1,1,T. Courtois,GK,Real Madrid,Sf1920,7.06,24,2289,G
2,2,A. Aréola,GK,Real Madrid,Sf1516,7.06,3,291,G
3,2,A. Aréola,GK,Real Madrid,Sf1920,6.43,3,291,G
4,3,R. Varane,RCB,Real Madrid,Sf1516,7.02,23,2193,D


In [6]:
# Filtrado de registros en los que no existe rating disponible
sin_rating_temporada = df_inicial['temporada'].isnull()
df_inicial_filtrado = df_inicial[~sin_rating_temporada]

# Se parte de más de 1300 registros sobre los que se aplica un pivotaje sobre los valores de la temporada para 
# obtener la estrucura de DataFrame requerida en la calculadora.
df_inicial_filtrado.shape

(1347, 9)

In [7]:
# Pivotaje para obtener las puntuaciones en columnas
df_puntuaciones = df_inicial_filtrado.pivot(index='id_jugador', columns='temporada', values='puntuacion').reset_index()
df_puntuaciones.head()
#df_puntuaciones.shape # (456,6)

#df_puntuaciones = pd.pivot_table(df_inicial_filtrado, index = "id_jugador", columns = "temporada", values = "puntuacion")
#df_puntuaciones.head()
#df_puntuaciones.shape

temporada,id_jugador,Sf1516,Sf1617,Sf1718,Sf1819,Sf1920
0,1,,,,6.8,7.06
1,2,7.06,,,,6.43
2,3,7.02,7.11,6.99,6.93,7.09
3,4,,,,,6.92
4,5,7.26,7.23,7.3,7.26,7.12


In [8]:
# Descarte de columnas en el DataFrame inicial y eliminación de registros duplicados previo al join con el DataFrame
# de puntuaciones
df_columnas_clave = df_inicial_filtrado[['id_jugador', 'Name', 'posicion', 'R1920', 'Pg1920', 'min1920', 'Team1920']]
#df_columnas_clave.head()
df_columnas_clave_unique = df_columnas_clave.drop_duplicates()
df_columnas_clave_unique.head()
# shape (456,7)

Unnamed: 0,id_jugador,Name,posicion,R1920,Pg1920,min1920,Team1920
0,1,T. Courtois,GK,G,24,2289,Real Madrid
2,2,A. Aréola,GK,G,3,291,Real Madrid
4,3,R. Varane,RCB,D,23,2193,Real Madrid
9,4,Éder Militão,RCB,D,9,682,Real Madrid
10,5,Sergio Ramos,LCB,D,25,2351,Real Madrid


In [9]:
# Unión de los dos anteriores DF para componer uno con el que comenzar el análisis de la calculadora
df = pd.merge(df_columnas_clave_unique, df_puntuaciones, on="id_jugador")

print(df.shape)
df.head()

(456, 12)


Unnamed: 0,id_jugador,Name,posicion,R1920,Pg1920,min1920,Team1920,Sf1516,Sf1617,Sf1718,Sf1819,Sf1920
0,1,T. Courtois,GK,G,24,2289,Real Madrid,,,,6.8,7.06
1,2,A. Aréola,GK,G,3,291,Real Madrid,7.06,,,,6.43
2,3,R. Varane,RCB,D,23,2193,Real Madrid,7.02,7.11,6.99,6.93,7.09
3,4,Éder Militão,RCB,D,9,682,Real Madrid,,,,,6.92
4,5,Sergio Ramos,LCB,D,25,2351,Real Madrid,7.26,7.23,7.3,7.26,7.12


## Procesamiento y anális de datos

In [10]:
# Procesamiento de datos

# No se consideran jugadores que hayan jugado menos de diez partidos en total en la temporada actual
N_MIN_MINUTES = 900
df = df[df['min1920'] > N_MIN_MINUTES]

# Se mantienen los jugadores que hayan jugado al menos en los dos últimos años (se dispone de algún rating)
# o han tenido un rating cero durante la temporada actual
cols_mf = ['Sf1516', 'Sf1617', 'Sf1718', 'Sf1819', 'Sf1920']
idxs_to_remove_last_seasons = df[cols_mf[-2:]].isnull().any(axis=1)   # Sin jugar las últimas dos temporadas

# score 0 durante la última temporada (19/20)
idxs_to_remove_zeros = df[cols_mf[-1]] == 0
idxs_to_remove = idxs_to_remove_last_seasons | idxs_to_remove_zeros
df_updated = df[~idxs_to_remove]

# Set del index con el id del jugador
df_updated.set_index('id_jugador', inplace=True)

# Reemplazo del nombre por el nombre y el equipo para representación en las leyendas de los plots
df_updated.loc[:, 'Name'] = df_updated.loc[:, ['Name', 'Team1920']].apply(lambda x: ' - '.join(x), axis=1)
df_updated.drop('Team1920', inplace=True, axis = 1)

# Preview
df_updated.head(5)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self.obj[item] = s
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  errors=errors,


Unnamed: 0_level_0,Name,posicion,R1920,Pg1920,min1920,Sf1516,Sf1617,Sf1718,Sf1819,Sf1920
id_jugador,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
1,T. Courtois - Real Madrid,GK,G,24,2289,,,,6.8,7.06
3,R. Varane - Real Madrid,RCB,D,23,2193,7.02,7.11,6.99,6.93,7.09
5,Sergio Ramos - Real Madrid,LCB,D,25,2351,7.26,7.23,7.3,7.26,7.12
8,Marcelo - Real Madrid,LB,D,11,995,7.22,6.99,7.14,6.95,7.17
9,Dani Carvajal - Real Madrid,RB,D,22,2100,7.01,6.98,7.16,7.09,7.37


### Jugadores con tendencia positiva constante

In [11]:
COLS_TRENDS = ['Name', 'R1920',
               'Delta1', 'Delta2', 'Delta3', 'Delta4',
               'Sf1516', 'Sf1617', 'Sf1718', 'Sf1819', 'Sf1920']

data_positive_trend = []

for id_player in df_updated.index: # Para cada jugador...
    player = df_updated.loc[id_player]
    # Cálculo de la diferencia de puntuación entre temporadas
    curr_mf = player[cols_mf].dropna()
    curr_deltas = [0] * (5 - len(curr_mf))  # delta == 0 en los valores NaN
    curr_deltas.extend([curr_mf[i+1] - curr_mf[i] \
                        for i in range(len(curr_mf) - 1)])
    # Comprobación de que el jugador solamente tiene diferencias positivas
    n_negative_deltas = sum(np.array(curr_deltas) < 0)
    if n_negative_deltas == 0:
        # En caso de cero deltas negativos se añade al DataFrame
        row = [player['Name']]
        row.extend([player['R1920']])
        row.extend(curr_deltas)
        row.extend(player[cols_mf])
        data_positive_trend.append(row)

# Creación del DataFrame y preview
df_positive_trend = pd.DataFrame(data=data_positive_trend, 
                                 columns=COLS_TRENDS)
print ("Número de jugadores con tendencia positiva constante:", len(df_positive_trend))
df_positive_trend.head()

Número de jugadores con tendencia positiva constante: 33


Unnamed: 0,Name,R1920,Delta1,Delta2,Delta3,Delta4,Sf1516,Sf1617,Sf1718,Sf1819,Sf1920
0,T. Courtois - Real Madrid,G,0,0.0,0.0,0.26,,,,6.8,7.06
1,F. Valverde - Real Madrid,M,0,0.0,0.14,0.18,,,6.64,6.78,6.96
2,Arthur - Barcelona,M,0,0.0,0.0,0.28,,,,6.83,7.11
3,M. Braithwaite - Barcelona,F,0,0.0,0.0,0.05,,,,6.82,6.87
4,M. Diakhaby - Valencia,D,0,0.0,0.0,0.03,,,,6.8,6.83


In [12]:
# Función para los plots de tendencias positivas
# df: DataFrame de entrada
# title: título del plot
# ylabel: etiqueta del eje Y

def plot_tendencias(df, title, ylabel):
    
    X_TICKS = ['15/16', '16/17', '17/18', '18/19', '19/20' ]
    names = []
    
    if len(names) > 0:
        data  = df[df['Name'].isin(names)]
        #data = data.sort_values(['Sf1920'], ascending=False)
        names = data['Name'].values
        data  = data.values[:, 6:]
    else:
        data = df.values[:, 6:]
    
    # Plot
    fig, ax = plt.subplots(figsize=(9,6))
    for i_row, row in enumerate(data):  # para cada jugador...
        if len(names) > 0:
            curr_label = names[i_row]
        else:
            curr_label = df.iloc[i_row, :]['Name']

        ax.plot(row, marker='o',alpha=0.7, label=curr_label)  
    
    # Inicialización de tooltip interactivo
    mpldatacursor.datacursor(formatter='{label}'.format, draggable=True)

    # Título y etiquetas
    plt.xticks(range(len(X_TICKS)), X_TICKS)
    plt.title(title)
    plt.ylabel(ylabel)

    # Ajusta la leyenda
    params = {'legend.fontsize': 8,
              'legend.handlelength': 2}
    plot.rcParams.update(params)

    # Ajusta el color de fondo
    ax.patch.set_facecolor('#ffffff')

    # Ubicación de la leyenda
    box = ax.get_position()
    ax.set_position([box.x0, box.y0, box.width*0.65, box.height])
    legend_x = 1
    legend_y = 0.5
    plt.legend(loc='center left', bbox_to_anchor=(legend_x, legend_y))

#### Porteros con tendencia positiva constante

In [13]:
# Ordenación según el rating descendente de la 19/20
df_positive_trend_G = df_positive_trend[df_positive_trend['R1920'] == "G"] .sort_values(by='Sf1920', ascending=False)    
df_positive_trend_G.head()

Unnamed: 0,Name,R1920,Delta1,Delta2,Delta3,Delta4,Sf1516,Sf1617,Sf1718,Sf1819,Sf1920
20,Aitor Fernández - Levante,G,0,0.0,0.0,0.46,,,,6.9,7.36
0,T. Courtois - Real Madrid,G,0,0.0,0.0,0.26,,,,6.8,7.06
11,Unai Simón - Athletic Club,G,0,0.0,0.0,0.53,,,,6.43,6.96
8,T. Vaclík - Sevilla,G,0,0.0,0.0,0.07,,,,6.75,6.82
32,M. Dmitrović - Eibar,G,0,0.0,0.01,0.02,,,6.67,6.68,6.7


In [14]:
plot_tendencias(df_positive_trend_G, 'Porteros con tendencia positiva constante', 'Rating Sofascore')

<IPython.core.display.Javascript object>

#### Defensas con tendencia positiva constante

In [15]:
# Ordenación según el rating descendente de la 19/20
df_positive_trend_D = df_positive_trend[df_positive_trend['R1920'] == "D"] .sort_values(by='Sf1920', ascending=False) 
df_positive_trend_D.head()

Unnamed: 0,Name,R1920,Delta1,Delta2,Delta3,Delta4,Sf1516,Sf1617,Sf1718,Sf1819,Sf1920
9,Sergio Reguilón - Sevilla,D,0,0.0,0.0,0.03,,,,7.04,7.07
19,L. Olaza - Celta de Vigo,D,0,0.0,0.0,0.06,,,,6.98,7.04
24,Kévin Rodrigues - Leganés,D,0,0.63,0.0,0.09,,6.2,6.83,6.83,6.92
16,D. Suárez - Getafe,D,0,0.14,0.09,0.01,6.65,,6.79,6.88,6.89
6,R. Le Normand - Real Sociedad,D,0,0.0,0.0,0.06,,,,6.78,6.84


In [16]:
plot_tendencias(df_positive_trend_D, 'Defensas con tendencia positiva constante', 'Rating Sofascore')

<IPython.core.display.Javascript object>

#### Mediocentros con tendencia positiva constante

In [17]:
# Ordenación según el rating descendente de la 19/20
df_positive_trend_M = df_positive_trend[df_positive_trend['R1920'] == "M"] .sort_values(by='Sf1920', ascending=False) 
df_positive_trend_M.head()

Unnamed: 0,Name,R1920,Delta1,Delta2,Delta3,Delta4,Sf1516,Sf1617,Sf1718,Sf1819,Sf1920
14,Santi Cazorla - Villarreal,M,0,0.0,0.0,0.17,,,,7.25,7.42
22,José Campaña - Levante,M,0,0.0,0.05,0.04,,,7.03,7.08,7.12
2,Arthur - Barcelona,M,0,0.0,0.0,0.28,,,,6.83,7.11
7,Mikel Merino - Real Sociedad,M,0,0.0,0.0,0.25,,,,6.79,7.04
27,Rubén Alcaraz - Real Valladolid,M,0,0.0,0.0,0.09,,,,6.93,7.02


In [18]:
plot_tendencias(df_positive_trend_M, 'Mediocentros con tendencia positiva constante', 'Rating Sofascore')

<IPython.core.display.Javascript object>

#### Delanteros con tendencia positiva constante

In [19]:
# Ordenación según el rating descendente de la 19/20
df_positive_trend_F = df_positive_trend[df_positive_trend['R1920'] == "F"] .sort_values(by='Sf1920', ascending=False) 
df_positive_trend_F.head()

Unnamed: 0,Name,R1920,Delta1,Delta2,Delta3,Delta4,Sf1516,Sf1617,Sf1718,Sf1819,Sf1920
29,L. Ávila - Osasuna,F,0,0.0,0.0,0.21,,,,6.94,7.15
23,Roger Martí - Levante,F,0,0.16,0.09,0.08,6.6,,6.76,6.85,6.93
28,E. Ünal - Real Valladolid,F,0,0.0,0.02,0.11,,,6.75,6.77,6.88
3,M. Braithwaite - Barcelona,F,0,0.0,0.0,0.05,,,,6.82,6.87


In [20]:
plot_tendencias(df_positive_trend_F, 'Delanteros con tendencia positiva constante', 'Rating Sofascore')

<IPython.core.display.Javascript object>

### Jugadores con tendencia negativa constante

In [21]:
# Jugadores con tendencia negativa constante (misma operativa que en caso anterior)

COLS_TRENDS = ['Name', 'R1920',
               'Delta1', 'Delta2', 'Delta3', 'Delta4',
               'Sf1516', 'Sf1617', 'Sf1718', 'Sf1819', 'Sf1920']
data_negative_trend = []

for id_player in df_updated.index:  # Para cada jugador
    player = df_updated.loc[id_player]
    # Diferencia de puntuación entre temporadas
    curr_mf = player[cols_mf].dropna()
    curr_deltas = [0] * (5 - len(curr_mf))  # delta == 0 para valores missing
    curr_deltas.extend([curr_mf[i+1] - curr_mf[i] \
                        for i in range(len(curr_mf) - 1)])
    
    # Comprobación de que el jugador solo dispone de diferencias negativas
    n_positive_deltas = sum(np.array(curr_deltas) > 0)
    if n_positive_deltas == 0:
        # ...en ese caso se le añade al dataset
        row = [player['Name']]
        row.extend([player['R1920']])
        row.extend(curr_deltas)
        row.extend(player[cols_mf])
        data_negative_trend.append(row)
        
# Create DataFrame and preview it
df_negative_trend = pd.DataFrame(data=data_negative_trend, 
                                 columns=COLS_TRENDS)
print ("Número de jugadores con tendencia negativa constante:", len(df_negative_trend))
df_negative_trend.head()


Número de jugadores con tendencia negativa constante: 46


Unnamed: 0,Name,R1920,Delta1,Delta2,Delta3,Delta4,Sf1516,Sf1617,Sf1718,Sf1819,Sf1920
0,Vinícius Júnior - Real Madrid,F,0.0,0.0,0.0,-0.27,,,,6.92,6.65
1,A. Vidal - Barcelona,M,0.0,0.0,0.0,-0.13,,,,7.02,6.89
2,L. Suárez - Barcelona,F,-0.18,0.0,-0.17,0.0,7.69,7.51,7.51,7.34,7.34
3,Álvaro Morata - Atlético Madrid,F,0.0,0.0,-0.11,-0.16,,7.14,,7.03,6.87
4,G. Kondogbia - Valencia,M,0.0,0.0,-0.11,-0.22,,,7.14,7.03,6.81


#### Porteros con tendencia negativa constante

In [22]:
# Ordenación según el rating descendente de la 19/20
df_negative_trend_G = df_negative_trend[df_negative_trend['R1920'] == "G"] .sort_values(by='Sf1920', ascending=False) 
df_negative_trend_G.head()

Unnamed: 0,Name,R1920,Delta1,Delta2,Delta3,Delta4,Sf1516,Sf1617,Sf1718,Sf1819,Sf1920
24,Fernando Pacheco - Deportivo Alavés,G,0.0,-0.05,0.0,-0.04,,6.93,6.88,6.88,6.84
6,Joel Robles - Real Betis,G,0.0,0.0,0.0,-0.3,,,,7.02,6.72
35,Jordi Masip - Real Valladolid,G,0.0,0.0,0.0,-0.11,,,,6.81,6.7
17,Diego López - Espanyol,G,0.0,0.0,-0.04,-0.21,,6.89,6.89,6.85,6.64
29,Juan Soriano - Leganés,G,0.0,0.0,0.0,-0.7,,,,7.15,6.45


In [23]:
plot_tendencias(df_negative_trend_G, 'Porteros con tendencia negativa constante', 'Rating Sofascore')

<IPython.core.display.Javascript object>

#### Defensas con tendencia negativa constante

In [24]:
# Ordenación según el rating descendente de la 19/20
df_negative_trend_D = df_negative_trend[df_negative_trend['R1920'] == "D"] .sort_values(by='Sf1920', ascending=False) 
df_negative_trend_D.head()

Unnamed: 0,Name,R1920,Delta1,Delta2,Delta3,Delta4,Sf1516,Sf1617,Sf1718,Sf1819,Sf1920
43,José Ángel - Eibar,D,0.0,-0.31,-0.05,-0.1,,7.44,7.13,7.08,6.98
14,N. Araújo - Celta de Vigo,D,0.0,0.0,0.0,-0.04,,,,6.96,6.92
31,K. Omeruo - Leganés,D,0.0,0.0,0.0,-0.1,,,,6.9,6.8
32,J. Silva - Leganés,D,0.0,0.0,0.0,-0.22,,,,6.97,6.75
28,Jorge Miramón - Levante,D,0.0,0.0,0.0,-0.21,,,,6.96,6.75


In [25]:
plot_tendencias(df_negative_trend_D, 'Defensas con tendencia negativa constante', 'Rating Sofascore')

<IPython.core.display.Javascript object>

#### Mediocentros con tendencia negativa constante

In [26]:
# Ordenación según el rating descendente de la 19/20
df_negative_trend_M = df_negative_trend[df_negative_trend['R1920'] == "M"] .sort_values(by='Sf1920', ascending=False) 
df_negative_trend_M.head()

Unnamed: 0,Name,R1920,Delta1,Delta2,Delta3,Delta4,Sf1516,Sf1617,Sf1718,Sf1819,Sf1920
1,A. Vidal - Barcelona,M,0.0,0.0,0.0,-0.13,,,,7.02,6.89
38,Míchel - Real Valladolid,M,0.0,0.0,0.0,-0.13,,,,6.95,6.82
4,G. Kondogbia - Valencia,M,0.0,0.0,-0.11,-0.22,,,7.14,7.03,6.81
15,O. Yokuşlu - Celta de Vigo,M,0.0,0.0,0.0,-0.17,,,,6.94,6.77
40,Óscar Plano - Real Valladolid,M,0.0,0.0,0.0,-0.05,,,,6.82,6.77


In [27]:
plot_tendencias(df_negative_trend_M, 'Mediocentros con tendencia negativa constante', 'Rating Sofascore')

<IPython.core.display.Javascript object>

#### Delanteros con tendencia negativa constante

In [28]:
# Ordenación según el rating descendente de la 19/20
df_negative_trend_F = df_negative_trend[df_negative_trend['R1920'] == "F"] .sort_values(by='Sf1920', ascending=False) 
df_negative_trend_F.head()

Unnamed: 0,Name,R1920,Delta1,Delta2,Delta3,Delta4,Sf1516,Sf1617,Sf1718,Sf1819,Sf1920
2,L. Suárez - Barcelona,F,-0.18,0.0,-0.17,0.0,7.69,7.51,7.51,7.34,7.34
13,Jaime Mata - Getafe,F,0.0,0.0,0.0,-0.12,,,,7.0,6.88
3,Álvaro Morata - Atlético Madrid,F,0.0,0.0,-0.11,-0.16,,7.14,,7.03,6.87
41,Sergi Guardiola - Real Valladolid,F,0.0,0.0,0.0,-0.07,,,,6.84,6.77
34,G. Carrillo - Leganés,F,0.0,0.0,0.0,-0.24,,,,6.99,6.75


In [29]:
plot_tendencias(df_negative_trend_F, 'Delanteros con tendencia negativa constante', 'Rating Sofascore')

<IPython.core.display.Javascript object>

### Deltas - ¿Qué diferencia hay entre el primer y último año en LaLiga?

In [30]:
# Delta de jugadores: diferencias entre la primera y la últma temporada

COLS_MF = ['Sf1516', 'Sf1617', 'Sf1718', 'Sf1819','Sf1920' ]
COLS_DELTAS = ['Name', 'Delta',
               'Sf1516', 'Sf1617', 'Sf1718', 'Sf1819','Sf1920']
data_deltas = []
for id_player in df_updated.index:  # Para cada jugador...
    player = df_updated.loc[id_player]
    # Cálculo del delta
    curr_mf = player[COLS_MF].dropna()
    curr_delta = curr_mf[-1] - curr_mf[0]
    # Se añade al conjunto de datos a representar
    row = [player['Name']]
    row.append(curr_delta)
    #row.append(player['Team1920'])
    row.extend(player[COLS_MF])
    data_deltas.append(row)
    
# Creación del DataFrame
df_deltas = pd.DataFrame(data=data_deltas, columns=COLS_DELTAS)
df_deltas = df_deltas.sort_values(['Delta'])  # Ordenación por la columna 'Delta' en orden ascendente
df_deltas.head()

Unnamed: 0,Name,Delta,Sf1516,Sf1617,Sf1718,Sf1819,Sf1920
10,G. Bale - Real Madrid,-0.98,7.95,7.26,7.52,7.05,6.97
159,Juan Soriano - Leganés,-0.7,,,,7.15,6.45
144,Manu García - Deportivo Alavés,-0.65,,7.01,6.8,6.69,6.36
134,Sergi Darder - Espanyol,-0.64,7.4,,6.94,6.93,6.76
133,David López - Espanyol,-0.62,,7.18,6.94,6.91,6.56


#### Mayores deltas positivos

In [31]:
# Jugadores con los mayores deltas positivos

X_TICKS = ['15/16', '16/17', '17/18', '18/19', '19/20' ]

# Obtención de datos
N = 10 + 1
df_deltas_best = df_deltas.iloc[range(len(df_deltas)-1, len(df_deltas)-N, -1), :]
data = df_deltas_best.sort_values(['Sf1920'], ascending=False)
# Etiquetas de la leyenda
labels = data['Name'].values
data = data.values[:, 3:]
delta_max = df_deltas_best['Delta'].max()

# Plot
fig, ax = plt.subplots(figsize=(9, 6))
for i_row, row in enumerate(data):  # Para cada jugador
    curr_delta = df_deltas_best.iloc[i_row, :]['Delta']
    curr_label = labels[i_row]
    curr_col = cm.hsv(curr_delta / delta_max)
    ax.plot(row, marker='o', 
            c=curr_col, alpha=0.4,
            label=curr_label)
    
# Inicializar tooltip interactivo
mpldatacursor.datacursor(formatter='{label}'.format, draggable=True)

# Título y etiquetas
plt.xticks(range(len(X_TICKS)), X_TICKS)
plt.title('Top 10 jugadores con mejores deltas')
plt.ylabel('Rating Sofascore')

#Ajusta la leyenda
import pylab as plot
params = {'legend.fontsize': 8,
          'legend.handlelength': 2}
plot.rcParams.update(params)

#Ajusta el color de fondo
ax.patch.set_facecolor('#ffffff')


box = ax.get_position()
ax.set_position([box.x0, box.y0, box.width*0.65, box.height])
legend_x = 1
legend_y = 0.5
plt.legend(loc='center left', bbox_to_anchor=(legend_x, legend_y))

<IPython.core.display.Javascript object>

<matplotlib.legend.Legend at 0x219883a9488>

#### Mayores deltas negativos

In [32]:
# Jugadores con los peores deltas

X_TICKS = ['15/16', '16/17', '17/18', '18/19', '19/20' ]

# Obtención de datos
N = 10 + 1
df_deltas_worst = df_deltas.iloc[:N, :]
data = df_deltas_worst.sort_values(['Sf1920'], ascending=False)
labels = data['Name'].values
data = data.values[:, 3:]
delta_min = df_deltas_worst['Delta'].min()

# Plot
fig, ax = plt.subplots(figsize=(9,6))
for i_row, row in enumerate(data):  # para cada jugador...
    curr_delta = df_deltas_worst.iloc[i_row, :]['Delta']
    curr_label = labels[i_row]
    curr_col = cm.hsv(abs(curr_delta / delta_min))
    ax.plot(row, marker='o', 
            c=curr_col, alpha=0.4,
            label=curr_label)
    
# Inicialización de visualización con tooltip interactivo
mpldatacursor.datacursor(formatter='{label}'.format, draggable=True)

# Add title and labels
plt.xticks(range(len(X_TICKS)), X_TICKS)
#Temporada actual frente a la primera disponible
plt.title('Top 10 jugadores con peores deltas')
plt.ylabel('Rating Sofascore')



#Ajusta la leyenda
import pylab as plot
params = {'legend.fontsize': 8,
          'legend.handlelength': 2}
plot.rcParams.update(params)

#Ajusta el color de fondo
ax.patch.set_facecolor('#ffffff')


box = ax.get_position()
ax.set_position([box.x0, box.y0, box.width*0.65, box.height])
legend_x = 1
legend_y = 0.5
plt.legend(loc='center left', bbox_to_anchor=(legend_x, legend_y))

<IPython.core.display.Javascript object>

<matplotlib.legend.Legend at 0x219883a95c8>

## Medias globales de la carrera

In [33]:
# Cálculo de media global
COLS_MF = ['Sf1516', 'Sf1617', 'Sf1718', 'Sf1819', 'Sf1920' ]
COLS_MEANS = ['Name', 'Mean', 'R1920',
               'Sf1516', 'Sf1617', 'Sf1718', 'Sf1819', 'Sf1920']
data_means = []
for id_player in df_updated.index:  # Para cada jugador...
    player = df_updated.loc[id_player]
    # Se calcula la media
    curr_mf = player[COLS_MF].dropna()
    curr_mean = np.mean(curr_mf)
    # y se añade al conjunto considerado
    row = [player['Name']]
    row.append(curr_mean)
    #row.append(player['Team1920'])
    row.append(player['R1920'])
    row.extend(player[COLS_MF])
    data_means.append(row)
    
# Create DataFrame
df_means = pd.DataFrame(data=data_means, columns=COLS_MEANS)
df_means = df_means.sort_values(['Mean'])  # Ordenación por media ascendente
df_means.head()

Unnamed: 0,Name,Mean,R1920,Sf1516,Sf1617,Sf1718,Sf1819,Sf1920
118,Fran Beltrán - Celta de Vigo,6.57,M,,,,6.63,6.51
152,N. Vukčević - Levante,6.57,M,,,,6.52,6.62
180,Toni Suárez - Real Valladolid,6.575,M,,,,6.72,6.43
104,M. Olivera - Getafe,6.6,D,,,6.7,6.59,6.51
129,Adrià Pedrosa - Espanyol,6.605,D,,,,6.72,6.49


### Mejores puntuaciones medias

In [34]:
# Genera un plot con las puntuaciones medias de jugadores
# df: DataFrame de métricas de jugadores
# title: título del plot
# ylabel: etiqueta del eje Y del plot

def plot_puntuaciones_medias(df, title, ylabel):
    #ROLES = ['G', 'D', 'M', 'F']
    X_TICKS = ['15/16', '16/17', '17/18', '18/19', '19/20' ]

    #TOP10
    N = 10 + 1

    df_best = df.iloc[range(len(df)-1, len(df)-N, -1), :]
    data = df_best.sort_values(['Sf1920'], ascending=False)
    labels = data['Name'].values
    data = data.values[:, 4:]
    mean_max = df_best['Mean'].max()

    # Plot
    fig, ax = plt.subplots(figsize=(9, 6))
    for i_row, row in enumerate(data):  # para cada jugador...
        curr_mean = df_best.iloc[i_row, :]['Mean']
        curr_label = labels[i_row]
        curr_col = cm.prism(curr_mean / mean_max)
        ax.plot(row, marker='o', 
                c=curr_col, alpha=0.4,
                label=curr_label)

    # Inicialización del tooltip interactivo
    mpldatacursor.datacursor(formatter='{label}'.format, draggable=True)

    # Título y etiquetas
    plt.xticks(range(len(X_TICKS)), X_TICKS)
    plt.title(title)
    plt.ylabel(ylabel)

    #Ajusta la leyenda
    import pylab as plot
    params = {'legend.fontsize': 8,
              'legend.handlelength': 2}
    plot.rcParams.update(params)

    #Ajusta el color de fondo
    ax.patch.set_facecolor('#ffffff')


    box = ax.get_position()
    ax.set_position([box.x0, box.y0, box.width*0.65, box.height])
    legend_x = 1
    legend_y = 0.5
    plt.legend(loc='center left', bbox_to_anchor=(legend_x, legend_y))

In [35]:
# Mejores puntuaciones medias 15/16 a 19/20
plot_puntuaciones_medias(df_means, 'Top 10 jugadores con mejores puntuaciones medias', 'Rating Sofascore')

<IPython.core.display.Javascript object>

#### Mejores puntuaciones medias de porteros

In [36]:
# Mejores puntuaciones medias 15/16 a 19/20
df_means_role_G = df_means[df_means['R1920'] == 'G']
plot_puntuaciones_medias(df_means_role_G, 'Top 10 porteros con mejores puntuaciones medias', 'Rating Sofascore')

<IPython.core.display.Javascript object>

#### Mejores puntuaciones medias de defensas

In [37]:
# Mejores puntuaciones medias 15/16 a 19/20
df_means_role_D = df_means[df_means['R1920'] == 'D']
plot_puntuaciones_medias(df_means_role_D, 'Top 10 defensas con mejores puntuaciones medias', 'Rating Sofascore')

<IPython.core.display.Javascript object>

#### Mejores puntuaciones medias de mediocentros

In [38]:
# Mejores puntuaciones medias 15/16 a 19/20
df_means_role_M = df_means[df_means['R1920'] == 'M']
plot_puntuaciones_medias(df_means_role_M, 'Top 10 mediocentros con mejores puntuaciones medias', 'Rating Sofascore')

<IPython.core.display.Javascript object>

#### Mejores puntuaciones medias de delanteros

In [39]:
# Mejores puntuaciones medias 15/16 a 19/20
df_means_role_F = df_means[df_means['R1920'] == 'F']
plot_puntuaciones_medias(df_means_role_F, 'Top 10 delanteros con mejores puntuaciones medias', 'Rating Sofascore')

<IPython.core.display.Javascript object>

### Jugadores con las peores puntuaciones medias

In [40]:
# Jugadores con las peores puntuaciones medias

X_TICKS = ['15/16', '16/17', '17/18', '18/19', '19/20' ]

# Obtención de datos
N = 10
df_means_worst = df_means.iloc[:N, :]
data = df_means_worst.sort_values(['Sf1920'], ascending=False)
labels = data['Name'].values
data = data.values[:, 4:]
mean_max = df_means['Mean'].max()

# Plot data
fig, ax = plt.subplots(figsize=(9,6))
for i_row, row in enumerate(data):  # para cada jugador...
    curr_mean = df_means_worst.iloc[i_row, :]['Mean']
    curr_label = labels[i_row]
    curr_col = cm.prism(curr_mean / mean_max)
    ax.plot(row, marker='o', 
            c=curr_col, alpha=0.4,
            label=curr_label)
    
# Tooltip interactivo
mpldatacursor.datacursor(formatter='{label}'.format, draggable=True)

# Add title and labels
plt.xticks(range(len(X_TICKS)), X_TICKS)
plt.title('Top 10 jugadores con peores puntuaciones medias')
plt.ylabel('Rating Sofascore')

#Ajusta la leyenda
import pylab as plot
params = {'legend.fontsize': 8,
          'legend.handlelength': 2}
plot.rcParams.update(params)

#Ajusta el color de fondo
ax.patch.set_facecolor('#ffffff')


box = ax.get_position()
ax.set_position([box.x0, box.y0, box.width*0.65, box.height])
legend_x = 1
legend_y = 0.5
plt.legend(loc='center left', bbox_to_anchor=(legend_x, legend_y))

<IPython.core.display.Javascript object>

<matplotlib.legend.Legend at 0x21988434048>

## Puntuaciones ponderadas

* Peso última temporada: actúa sobre el rating SofaScore de la última temporada (19/20)
* Peso Delta: actúa sobre la diferencia de puntuación entre la primera y la última temporada (19/20).
* Peso Media: actúa sobre su puntuación media en la carrera
* Peso Tendencia: presencia de una tendencia constante positiva o negativa.
* Peso Años: actúa sobre el número de años de un jugador compitiendo en LaLiga.

In [41]:
# Ordena los jugadores en función de una puntuación ponderada

def _sort_players_by_weighted_score(df, w_d, w_m, w_t, w_y, w_l, role=''):
    # Constantes
    COLS_MF = ['Sf1516', 'Sf1617', 'Sf1718', 'Sf1819','Sf1920']
    #COLS_REDUX = ['Name', 'R1920', 'Team1920','Sf1516', 'Sf1617', 'Sf1718', 'Sf1819','Sf1920']
    COLS_REDUX = ['Name', 'R1920', 'Sf1516', 'Sf1617', 'Sf1718', 'Sf1819','Sf1920']
    #COLS_WEIGHTS = ['Name', 'R1920', 'Team1920','Sf1920',
    COLS_WEIGHTS = ['Name', 'R1920', 'Sf1920',
                    'WeightedScore', 'DeltaScore', 'MeanScore', 'TrendScore', 'YearsScore', 'LastScore']

    # DataFrame filtrado
    df_redux = df[COLS_REDUX]
    if len(role) > 0:
        df_redux = df_redux[df_redux['R1920'] == role]
    
    data_weight_score = []
    for id_player in df_redux.index:  # para cada jugador...
        player = df_redux.loc[id_player]
        name = player['Name']

        # Cálculo de la puntuación ponderada
        score_l = w_l * df_redux['Sf1920'].values[0]
        score_d = w_d * df_deltas[df_deltas['Name'] == name]['Delta'].values[0]
        score_m = w_m * df_means[df_means['Name'] == name]['Mean'].values[0]
        score_t = 0
        if name in df_positive_trend['Name'].values:
            score_t = w_t
        curr_mf = player[COLS_MF].dropna()
        score_y = w_y * len(curr_mf)
                     # score temparada, score diferencia, score media, score tendencia, score años que lleva
        score_weighted = score_l + score_d + score_m + score_t + score_y
        # Se añade al dataset
        row = [name]
        row.append(player['R1920'])
        #row.append(player['Team1920'])
        row.append(player['Sf1920'])
        row.append(score_weighted)
        row.extend([score_d, score_m, score_t, score_y, score_l])
        data_weight_score.append(row)
    
    # Creación del DataFrame para retornar
    df_weight_scores = pd.DataFrame(data=data_weight_score, 
                                    columns=COLS_WEIGHTS)
    df_weight_scores = df_weight_scores.sort_values(['WeightedScore'])
    return df_weight_scores

In [43]:
# Calculadora

from IPython.display import clear_output
plt.style.use('ggplot')

# Texts
WIDTH_TEXT = 100
text_last = widgets.FloatText(description="Peso última temporada", 
                          value="2",
                          width=WIDTH_TEXT)
text_delta = widgets.FloatText(description="Peso Delta", 
                          value="1",
                          width=WIDTH_TEXT)
text_mean = widgets.FloatText(description="Peso Media", 
                          value="0.4",
                          width=WIDTH_TEXT)
text_trend = widgets.FloatText(description="Peso Tendencia", 
                          value="3",
                          width=WIDTH_TEXT)
text_years = widgets.FloatText(description="Peso Años", 
                          value="0.2",
                          width=WIDTH_TEXT)
display(text_last)
display(text_delta)
display(text_mean)
display(text_trend)
display(text_years)

# Dropdown
dropdown_role =  widgets.Dropdown(
    options=['G', 'D', 'M', 'F', 'All'],
    value='F',
    description='Posición:',
    disabled=False,
)
display(dropdown_role)

# Creación de un botón (widget)
button_calculate = widgets.Button(description="Calcular")
display(button_calculate)

# Evento click del botón
def on_button_clicked(b):
    # Get values
    w_l = float(text_last.value)
    w_d = float(text_delta.value)
    w_m = float(text_mean.value)
    w_t = float(text_trend.value)
    w_y = float(text_years.value)
    role = dropdown_role.value
    if len(role) != 1:
        role = ''
    # Players with best weighted scores
    #TOP 10
    N = 10 + 1
    df_weighted_scores = _sort_players_by_weighted_score(df_updated, 
                                                         w_d, w_m, w_t, w_y, w_l, role)
    clear_output()
    #print (df_weighted_scores.iloc[range(len(df_weighted_scores)-1, len(df_weighted_scores)-N, -1), :])
    display(df_weighted_scores.iloc[range(len(df_weighted_scores)-1, len(df_weighted_scores)-N, -1), :])
    
# Se añade la función al evento click del widget  
button_calculate.on_click(on_button_clicked)


Unnamed: 0,Name,R1920,Sf1920,WeightedScore,DeltaScore,MeanScore,TrendScore,YearsScore,LastScore
26,Roger Martí - Levante,F,6.93,20.144,0.33,2.714,3.0,0.8,13.3
31,E. Ünal - Real Valladolid,F,6.88,19.75,0.13,2.72,3.0,0.6,13.3
33,L. Ávila - Osasuna,F,7.15,19.728,0.21,2.818,3.0,0.4,13.3
6,M. Braithwaite - Barcelona,F,6.87,19.488,0.05,2.738,3.0,0.4,13.3
4,L. Messi - Barcelona,F,8.34,17.5732,-0.09,3.3632,0.0,1.0,13.3
18,Gerard Moreno - Villarreal,F,7.22,17.5296,0.4,2.8296,0.0,1.0,13.3
14,Joaquín - Real Betis,F,7.03,17.3272,0.24,2.7872,0.0,1.0,13.3
32,Sandro Ramírez - Real Valladolid,F,6.84,17.3032,0.28,2.7232,0.0,1.0,13.3
23,Iago Aspas - Celta de Vigo,F,7.14,17.2268,-0.01,2.9368,0.0,1.0,13.3
8,Rodrigo - Valencia,F,6.91,17.1588,0.07,2.7888,0.0,1.0,13.3


In [44]:
df_updated.head()

Unnamed: 0_level_0,Name,posicion,R1920,Pg1920,min1920,Sf1516,Sf1617,Sf1718,Sf1819,Sf1920
id_jugador,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
1,T. Courtois - Real Madrid,GK,G,24,2289,,,,6.8,7.06
3,R. Varane - Real Madrid,RCB,D,23,2193,7.02,7.11,6.99,6.93,7.09
5,Sergio Ramos - Real Madrid,LCB,D,25,2351,7.26,7.23,7.3,7.26,7.12
8,Marcelo - Real Madrid,LB,D,11,995,7.22,6.99,7.14,6.95,7.17
9,Dani Carvajal - Real Madrid,RB,D,22,2100,7.01,6.98,7.16,7.09,7.37


### Referencias

* Medium One (2018). Using matplotlib in jupyter notebooks — comparing methods and some tips (Python). Medium.com. Recuperado el 30 de mayo de 2020 de https://medium.com/@1522933668924/using-matplotlib-in-jupyter-notebooks-comparing-methods-and-some-tips-python-c38e85b40ba1
* Pathak, M. (2018). Joining DataFrames in Pandas. DataCamp. Recuperado el 30 de mayo de 2020 de https://www.datacamp.com/community/tutorials/joining-dataframes-pandas
* Could pandas use column as index? Stackoverflow. Recuperado el 30 de mayo de 2020 de https://stackoverflow.com/questions/38542419/could-pandas-use-column-as-index
* Show DataFrame as table in iPython Notebook. Stackoverflow. Recuperado el 30 de mayo de 2020 de https://stackoverflow.com/questions/26873127/show-dataframe-as-table-in-ipython-notebook
