# Proyecto ATP-Analisis-Ranking
## Descripción
Este proyecto tiene como objetivo analizar diversas estadísticas de la base de datos de la ATP (Asociación de Tenistas Profesionales) y construir un modelo personalizado de
ranking basado en el rendimiento de los jugadores. Posteriormente, compararemos nuestro ranking con el ranking actual de la ATP para determinar la efectividad de nuestro modelo.

In [1]:
# IMPORT LIBRARIES

import pandas as pd
import numpy as np
import plotly.express as px
import plotly.graph_objects as go
from jupyter_dash import JupyterDash
from dash import dcc, html
import dash
import os

## Read Data

In [2]:
df_serve = pd.read_csv('Serve_ATP.csv')
df_return = pd.read_csv('return_ATP.csv')
df_underpressure = pd.read_csv('Underpressure_ATP.csv')
df_win_loss = pd.read_csv('WinLoss_ATP.csv')
df_ranking = pd.read_csv('ATP_Ranking.csv')

## Data Preprocessing

In [3]:
## DATA PREPROCESSING - df_serve

### Nos quedamos solo con las columnas que nos interesan.

df_serve = df_serve[["ServeRating©2", "_1stServe", "_1stServePointsWon", "_2ndServePointsWon", "_ServiceGamesWon", "Avg\.Aces_Match", "Avg\.DoubleFaults_Match", "Field"]]
df_serve.head()

Unnamed: 0,ServeRating©2,_1stServe,_1stServePointsWon,_2ndServePointsWon,_ServiceGamesWon,Avg\.Aces_Match,Avg\.DoubleFaults_Match,Field
0,Nick Kyrgios,308.6,67.4%,79.4%,57.6%,92.9%,14.8,3.5
1,John Isner,308.5,67.7%,79.8%,52.7%,90.2%,21.1,3.0
2,Hubert Hurkacz,299.7,63.4%,79.2%,54.9%,89.9%,14.0,1.7
3,Matteo Berrettini,292.2,62.5%,79.6%,52.0%,88.5%,11.5,1.9
4,Novak Djokovic,292.1,65.3%,77.2%,57.0%,88.7%,6.0,2.1


In [4]:
### Hacemos un rename en el nombre de las columnas para que sean más intuitivas.

df_serve.rename(columns={"ServeRating©2": "Player", "_1stServe": "Serve Rating", "_1stServePointsWon": "%1stServe", "_2ndServePointsWon": "%1stServePointsWon", "_ServiceGamesWon": "%2ndServePointsWon", "Avg\.Aces_Match": "%ServiceGamesWon", "Avg\.DoubleFaults_Match": "AvgACESMatch", "Field": "AvgDoubleFaultsMatch"}, inplace=True)
df_serve.head()

Unnamed: 0,Player,Serve Rating,%1stServe,%1stServePointsWon,%2ndServePointsWon,%ServiceGamesWon,AvgACESMatch,AvgDoubleFaultsMatch
0,Nick Kyrgios,308.6,67.4%,79.4%,57.6%,92.9%,14.8,3.5
1,John Isner,308.5,67.7%,79.8%,52.7%,90.2%,21.1,3.0
2,Hubert Hurkacz,299.7,63.4%,79.2%,54.9%,89.9%,14.0,1.7
3,Matteo Berrettini,292.2,62.5%,79.6%,52.0%,88.5%,11.5,1.9
4,Novak Djokovic,292.1,65.3%,77.2%,57.0%,88.7%,6.0,2.1


In [5]:
### Vamos a ver que tipo de datos tenemos en cada columna y si hay valores nulos.

df_serve.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 77 entries, 0 to 76
Data columns (total 8 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   Player                77 non-null     object 
 1   Serve Rating          77 non-null     float64
 2   %1stServe             77 non-null     object 
 3   %1stServePointsWon    77 non-null     object 
 4   %2ndServePointsWon    77 non-null     object 
 5   %ServiceGamesWon      77 non-null     object 
 6   AvgACESMatch          77 non-null     float64
 7   AvgDoubleFaultsMatch  77 non-null     float64
dtypes: float64(3), object(5)
memory usage: 4.9+ KB


Como podemos ver, tenemos 5 columnas con datos object y 3 columnas con datos Float64. Además, no tenemos valores nulos en ninguna columna.
Lo que vamos a hacer es cambiar todas las columnas con datos object a tipo float, excepto la primera columna que contiene el nombre del jugador.

In [6]:
# Creamos una funcion que nos sirva para todos los dataframes.

def convert_to_float(df):
    """
    Esta función elimina el símbolo de porcentaje y convierte todos los valores en un DataFrame a tipo 'float',
    dividiendo por 100, excepto la primera columna.

    :param df: DataFrame de entrada
    :return: DataFrame con los valores modificados
    """
    for column in df.columns[1:]:
        df[column] = df[column].apply(lambda x: str(x).replace("%", "") if isinstance(x, str) else x)
        df[column] = pd.to_numeric(df[column], errors='coerce', downcast='float')

    return df


In [7]:
# convertimos todas las columnas a float

df_serve = convert_to_float(df_serve)
df_serve.head()

Unnamed: 0,Player,Serve Rating,%1stServe,%1stServePointsWon,%2ndServePointsWon,%ServiceGamesWon,AvgACESMatch,AvgDoubleFaultsMatch
0,Nick Kyrgios,308.600006,67.400002,79.400002,57.599998,92.900002,14.8,3.5
1,John Isner,308.5,67.699997,79.800003,52.700001,90.199997,21.1,3.0
2,Hubert Hurkacz,299.700012,63.400002,79.199997,54.900002,89.900002,14.0,1.7
3,Matteo Berrettini,292.200012,62.5,79.599998,52.0,88.5,11.5,1.9
4,Novak Djokovic,292.100006,65.300003,77.199997,57.0,88.699997,6.0,2.1


In [8]:
# Comprobamos que los datos se han convertido correctamente.

df_serve.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 77 entries, 0 to 76
Data columns (total 8 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   Player                77 non-null     object 
 1   Serve Rating          77 non-null     float32
 2   %1stServe             77 non-null     float32
 3   %1stServePointsWon    77 non-null     float32
 4   %2ndServePointsWon    77 non-null     float32
 5   %ServiceGamesWon      77 non-null     float32
 6   AvgACESMatch          77 non-null     float32
 7   AvgDoubleFaultsMatch  77 non-null     float32
dtypes: float32(7), object(1)
memory usage: 2.8+ KB


In [9]:
# DATA PREPROCESSING - df_return

### Nos quedamos solo con las columnas que nos interesan.

df_return = df_return[["ReturnRating©2", "_1stServeReturnPointsWon", "_2ndServeReturnPointsWon",  "_ReturnGamesWon", "_BreakPointsConverted", "Field"]]
df_return.head()

Unnamed: 0,ReturnRating©2,_1stServeReturnPointsWon,_2ndServeReturnPointsWon,_ReturnGamesWon,_BreakPointsConverted,Field
0,Bernabe Zapata Miralles,165.3,34.2%,52.3%,31.0%,47.8%
1,Daniil Medvedev,164.6,32.8%,55.2%,30.6%,46.0%
2,Rafael Nadal,160.8,34.4%,51.7%,30.0%,44.7%
3,Carlos Alcaraz,160.6,34.4%,53.5%,31.4%,41.3%
4,Novak Djokovic,160.5,33.5%,55.9%,29.3%,41.8%


In [10]:
### Hacemos un rename en el nombre de las columnas para que sean más intuitivas.

df_return.rename(columns={"ReturnRating©2": "Player", "_1stServeReturnPointsWon": "Return Rating", "_2ndServeReturnPointsWon": "%1st Serve Return Points Won", "_ReturnGamesWon": "%2nd Serve Return Points Won", "_BreakPointsConverted": "%Return Games Won", "Field": "%Breaks Points Converted"}, inplace=True)
df_return.head()

Unnamed: 0,Player,Return Rating,%1st Serve Return Points Won,%2nd Serve Return Points Won,%Return Games Won,%Breaks Points Converted
0,Bernabe Zapata Miralles,165.3,34.2%,52.3%,31.0%,47.8%
1,Daniil Medvedev,164.6,32.8%,55.2%,30.6%,46.0%
2,Rafael Nadal,160.8,34.4%,51.7%,30.0%,44.7%
3,Carlos Alcaraz,160.6,34.4%,53.5%,31.4%,41.3%
4,Novak Djokovic,160.5,33.5%,55.9%,29.3%,41.8%


In [11]:
### Vamos a ver que tipo de datos tenemos en cada columna y si hay valores nulos.

df_return.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 77 entries, 0 to 76
Data columns (total 6 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   Player                        77 non-null     object 
 1   Return Rating                 77 non-null     float64
 2   %1st Serve Return Points Won  77 non-null     object 
 3   %2nd Serve Return Points Won  77 non-null     object 
 4   %Return Games Won             77 non-null     object 
 5   %Breaks Points Converted      77 non-null     object 
dtypes: float64(1), object(5)
memory usage: 3.7+ KB


In [12]:
# convertimos todas las columnas a float

df_return = convert_to_float(df_return)
df_return.head()

Unnamed: 0,Player,Return Rating,%1st Serve Return Points Won,%2nd Serve Return Points Won,%Return Games Won,%Breaks Points Converted
0,Bernabe Zapata Miralles,165.300003,34.200001,52.299999,31.0,47.799999
1,Daniil Medvedev,164.600006,32.799999,55.200001,30.6,46.0
2,Rafael Nadal,160.800003,34.400002,51.700001,30.0,44.700001
3,Carlos Alcaraz,160.600006,34.400002,53.5,31.4,41.299999
4,Novak Djokovic,160.5,33.5,55.900002,29.299999,41.799999


In [13]:
# Comprobamos que los datos se han convertido correctamente.

df_return.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 77 entries, 0 to 76
Data columns (total 6 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   Player                        77 non-null     object 
 1   Return Rating                 77 non-null     float32
 2   %1st Serve Return Points Won  77 non-null     float32
 3   %2nd Serve Return Points Won  77 non-null     float32
 4   %Return Games Won             77 non-null     float32
 5   %Breaks Points Converted      77 non-null     float32
dtypes: float32(5), object(1)
memory usage: 2.2+ KB


In [14]:
# DATA PREPROCESSING - df_underpressure

### Nos quedamos solo con las columnas que nos interesan.

df_underpressure = df_underpressure[["UnderPressureRating©2", "_BreakPointsConverted", "_BreakPointsSaved", "_TieBreaksWon", "_DecidingSetsWon", "Field"]]
df_underpressure.head()

Unnamed: 0,UnderPressureRating©2,_BreakPointsConverted,_BreakPointsSaved,_TieBreaksWon,_DecidingSetsWon,Field
0,Novak Djokovic,249.7,41.8%,64.3%,80.0%,63.6%
1,Nick Kyrgios,249.7,43.4%,74.4%,61.9%,70.0%
2,Jenson Brooksby,246.9,46.3%,58.9%,75.0%,66.7%
3,Jannik Sinner,238.6,43.3%,63.5%,68.2%,63.6%
4,Stefanos Tsitsipas,237.7,41.8%,66.0%,56.8%,73.1%


In [15]:
### Hacemos un rename en el nombre de las columnas para que sean más intuitivas.

df_underpressure.rename(columns={"UnderPressureRating©2": "Player", "_BreakPointsConverted": "Underpressure Rating", "_BreakPointsSaved": "%BreakPointsConverted", "_TieBreaksWon": "%BreaksPointsSaved", "_DecidingSetsWon": "%TieBreaks Won", "Field": "%Deciding Sets Won"}, inplace=True)
df_underpressure.head()

Unnamed: 0,Player,Underpressure Rating,%BreakPointsConverted,%BreaksPointsSaved,%TieBreaks Won,%Deciding Sets Won
0,Novak Djokovic,249.7,41.8%,64.3%,80.0%,63.6%
1,Nick Kyrgios,249.7,43.4%,74.4%,61.9%,70.0%
2,Jenson Brooksby,246.9,46.3%,58.9%,75.0%,66.7%
3,Jannik Sinner,238.6,43.3%,63.5%,68.2%,63.6%
4,Stefanos Tsitsipas,237.7,41.8%,66.0%,56.8%,73.1%


In [16]:
# Vamos a ver que tipo de datos tenemos en cada columna y si hay valores nulos.

df_underpressure.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 77 entries, 0 to 76
Data columns (total 6 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   Player                 77 non-null     object 
 1   Underpressure Rating   77 non-null     float64
 2   %BreakPointsConverted  77 non-null     object 
 3   %BreaksPointsSaved     77 non-null     object 
 4   %TieBreaks Won         77 non-null     object 
 5   %Deciding Sets Won     77 non-null     object 
dtypes: float64(1), object(5)
memory usage: 3.7+ KB


In [17]:
# convertimos todas las columnas a float

df_underpressure = convert_to_float(df_underpressure)
df_underpressure.head()

Unnamed: 0,Player,Underpressure Rating,%BreakPointsConverted,%BreaksPointsSaved,%TieBreaks Won,%Deciding Sets Won
0,Novak Djokovic,249.699997,41.799999,64.300003,80.0,63.599998
1,Nick Kyrgios,249.699997,43.400002,74.400002,61.900002,70.0
2,Jenson Brooksby,246.899994,46.299999,58.900002,75.0,66.699997
3,Jannik Sinner,238.600006,43.299999,63.5,68.199997,63.599998
4,Stefanos Tsitsipas,237.699997,41.799999,66.0,56.799999,73.099998


In [18]:
# Comprobamos que los datos se han convertido correctamente.

df_underpressure.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 77 entries, 0 to 76
Data columns (total 6 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   Player                 77 non-null     object 
 1   Underpressure Rating   77 non-null     float32
 2   %BreakPointsConverted  77 non-null     float32
 3   %BreaksPointsSaved     77 non-null     float32
 4   %TieBreaks Won         77 non-null     float32
 5   %Deciding Sets Won     77 non-null     float32
dtypes: float32(5), object(1)
memory usage: 2.2+ KB


In [19]:
# DATA PREPROCESSING - df_win_loss

### Nos quedamos solo con las columnas que nos interesan.

df_win_loss = df_win_loss[["YTDWin_Loss", "Field"]]
df_win_loss.head()

Unnamed: 0,YTDWin_Loss,Field
0,Novak Djokovic,0.938
1,Carlos Alcaraz,0.933
2,Daniil Medvedev,0.889
3,Cameron Norrie,0.84
4,Nicolas Jarry,0.833


In [20]:
### Hacemos un rename en el nombre de las columnas para que sean más intuitivas.

df_win_loss.rename(columns={"YTDWin_Loss": "Player", "Field": "%AvgWinLoss"}, inplace=True)
df_win_loss.head()

Unnamed: 0,Player,%AvgWinLoss
0,Novak Djokovic,0.938
1,Carlos Alcaraz,0.933
2,Daniil Medvedev,0.889
3,Cameron Norrie,0.84
4,Nicolas Jarry,0.833


In [21]:
# Vamos a ver que tipo de datos tenemos en cada columna y si hay valores nulos.

df_win_loss.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 90 entries, 0 to 89
Data columns (total 2 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Player       90 non-null     object 
 1   %AvgWinLoss  90 non-null     float64
dtypes: float64(1), object(1)
memory usage: 1.5+ KB


In [22]:
# convertimos todas las columnas a float

df_win_loss = convert_to_float(df_win_loss)
df_win_loss.head()

Unnamed: 0,Player,%AvgWinLoss
0,Novak Djokovic,0.938
1,Carlos Alcaraz,0.933
2,Daniil Medvedev,0.889
3,Cameron Norrie,0.84
4,Nicolas Jarry,0.833


In [23]:
# Comprobamos que los datos se han convertido correctamente.

df_win_loss.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 90 entries, 0 to 89
Data columns (total 2 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Player       90 non-null     object 
 1   %AvgWinLoss  90 non-null     float32
dtypes: float32(1), object(1)
memory usage: 1.2+ KB


In [24]:
# DATA PREPROCESSING - df_ranking

### Nos quedamos solo con las columnas que nos interesan.

df_ranking = df_ranking[["Rank", "Player", "Age"]]

df_ranking.head()

Unnamed: 0,Rank,Player,Age
0,\n 1\n,\n Carlos Alcaraz\n...,\n19
1,\n 2\n,\n Novak Djokovic\n...,\n35
2,\n 3\n,\n Stefanos Tsitsip...,\n24
3,\n 4\n,\n Casper Ruud\n ...,\n24
4,\n 5\n,\n Daniil Medvedev\...,\n27


In [25]:
# Vamos a ver que tipo de datos tenemos en cada columna y si hay valores nulos.

df_ranking.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1998 entries, 0 to 1997
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Rank    1998 non-null   object
 1   Player  1992 non-null   object
 2   Age     1992 non-null   object
dtypes: object(3)
memory usage: 47.0+ KB


In [26]:
# Vamos a cambiar el orden de las columnas para que sea más intuitivo.

df_ranking = df_ranking[["Player", "Age", "Rank"]]
df_ranking.head()

Unnamed: 0,Player,Age,Rank
0,\n Carlos Alcaraz\n...,\n19,\n 1\n
1,\n Novak Djokovic\n...,\n35,\n 2\n
2,\n Stefanos Tsitsip...,\n24,\n 3\n
3,\n Casper Ruud\n ...,\n24,\n 4\n
4,\n Daniil Medvedev\...,\n27,\n 5\n


In [27]:
# convertimos todas las columnas a float

df_ranking = convert_to_float(df_ranking)
df_ranking.head()

Unnamed: 0,Player,Age,Rank
0,\n Carlos Alcaraz\n...,19.0,1.0
1,\n Novak Djokovic\n...,35.0,2.0
2,\n Stefanos Tsitsip...,24.0,3.0
3,\n Casper Ruud\n ...,24.0,4.0
4,\n Daniil Medvedev\...,27.0,5.0


In [28]:
# Por ultimo vamos a quitar todas las \n que hay en la columna Player.

df_ranking['Player'] = df_ranking['Player'].apply(lambda x: x.replace('\n', '') if isinstance(x, str) else x)
df_ranking.head()

Unnamed: 0,Player,Age,Rank
0,Carlos Alcaraz ...,19.0,1.0
1,Novak Djokovic ...,35.0,2.0
2,Stefanos Tsitsipas...,24.0,3.0
3,Casper Ruud ...,24.0,4.0
4,Daniil Medvedev ...,27.0,5.0


In [29]:
# Comprobamos que los datos se han convertido correctamente.

df_ranking.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1998 entries, 0 to 1997
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Player  1992 non-null   object 
 1   Age     1980 non-null   float32
 2   Rank    1188 non-null   float32
dtypes: float32(2), object(1)
memory usage: 31.3+ KB


# MERGE DATAFRAMES

## Comenzamos uniendo los 4 dataframes que contienen las estadísticas de los jugadores para crear un único dataframe.

In [30]:
# Vamos a hacer un merge de los 4 dataframes que contienen las estadísticas de los jugadores.
# Usamos la columna Player como clave para hacer el merge.

# Primero la columna Player la pasamos a formato Title para que coincida con el formato de los otros dataframes.
# Eliminamos si tiene espacios al principio o al final.

df_ranking['Player'] = df_ranking['Player'].apply(lambda x: x.title().strip() if isinstance(x, str) else x)
df_ranking.head()

Unnamed: 0,Player,Age,Rank
0,Carlos Alcaraz,19.0,1.0
1,Novak Djokovic,35.0,2.0
2,Stefanos Tsitsipas,24.0,3.0
3,Casper Ruud,24.0,4.0
4,Daniil Medvedev,27.0,5.0


In [31]:
# Hacemos el merge de los 4 dataframes.

df_stats = pd.merge(df_serve, df_return, on='Player')
df_stats = pd.merge(df_stats, df_underpressure, on='Player')
df_stats = pd.merge(df_stats, df_win_loss, on='Player')
df_stats.head()

Unnamed: 0,Player,Serve Rating,%1stServe,%1stServePointsWon,%2ndServePointsWon,%ServiceGamesWon,AvgACESMatch,AvgDoubleFaultsMatch,Return Rating,%1st Serve Return Points Won,%2nd Serve Return Points Won,%Return Games Won,%Breaks Points Converted,Underpressure Rating,%BreakPointsConverted,%BreaksPointsSaved,%TieBreaks Won,%Deciding Sets Won,%AvgWinLoss
0,John Isner,308.5,67.699997,79.800003,52.700001,90.199997,21.1,3.0,93.800003,20.9,40.0,7.1,25.799999,219.100006,25.799999,69.300003,71.099998,52.900002,0.444
1,Hubert Hurkacz,299.700012,63.400002,79.199997,54.900002,89.900002,14.0,1.7,125.300003,27.200001,46.599998,16.5,35.0,226.399994,35.0,67.699997,54.700001,69.0,0.684
2,Matteo Berrettini,292.200012,62.5,79.599998,52.0,88.5,11.5,1.9,129.800003,29.5,45.700001,18.799999,35.799999,210.0,35.799999,67.099998,50.0,57.099998,0.5
3,Novak Djokovic,292.100006,65.300003,77.199997,57.0,88.699997,6.0,2.1,160.5,33.5,55.900002,29.299999,41.799999,249.699997,41.799999,64.300003,80.0,63.599998,0.938
4,Ben Shelton,292.0,60.700001,79.300003,55.900002,89.400002,11.3,4.6,118.5,23.799999,42.099998,13.3,39.299999,209.0,39.299999,70.5,56.299999,42.900002,0.545


In [32]:
# hacemos lo mismo con el dataframe de ranking.

df_stats['Player'] = df_stats['Player'].apply(lambda x: x.title().strip() if isinstance(x, str) else x)
df_stats.head()

Unnamed: 0,Player,Serve Rating,%1stServe,%1stServePointsWon,%2ndServePointsWon,%ServiceGamesWon,AvgACESMatch,AvgDoubleFaultsMatch,Return Rating,%1st Serve Return Points Won,%2nd Serve Return Points Won,%Return Games Won,%Breaks Points Converted,Underpressure Rating,%BreakPointsConverted,%BreaksPointsSaved,%TieBreaks Won,%Deciding Sets Won,%AvgWinLoss
0,John Isner,308.5,67.699997,79.800003,52.700001,90.199997,21.1,3.0,93.800003,20.9,40.0,7.1,25.799999,219.100006,25.799999,69.300003,71.099998,52.900002,0.444
1,Hubert Hurkacz,299.700012,63.400002,79.199997,54.900002,89.900002,14.0,1.7,125.300003,27.200001,46.599998,16.5,35.0,226.399994,35.0,67.699997,54.700001,69.0,0.684
2,Matteo Berrettini,292.200012,62.5,79.599998,52.0,88.5,11.5,1.9,129.800003,29.5,45.700001,18.799999,35.799999,210.0,35.799999,67.099998,50.0,57.099998,0.5
3,Novak Djokovic,292.100006,65.300003,77.199997,57.0,88.699997,6.0,2.1,160.5,33.5,55.900002,29.299999,41.799999,249.699997,41.799999,64.300003,80.0,63.599998,0.938
4,Ben Shelton,292.0,60.700001,79.300003,55.900002,89.400002,11.3,4.6,118.5,23.799999,42.099998,13.3,39.299999,209.0,39.299999,70.5,56.299999,42.900002,0.545


In [33]:
# Hacemos el merge de los 2 dataframes.

df = pd.merge(df_stats, df_ranking, on='Player')
df.head()

Unnamed: 0,Player,Serve Rating,%1stServe,%1stServePointsWon,%2ndServePointsWon,%ServiceGamesWon,AvgACESMatch,AvgDoubleFaultsMatch,Return Rating,%1st Serve Return Points Won,...,%Return Games Won,%Breaks Points Converted,Underpressure Rating,%BreakPointsConverted,%BreaksPointsSaved,%TieBreaks Won,%Deciding Sets Won,%AvgWinLoss,Age,Rank
0,John Isner,308.5,67.699997,79.800003,52.700001,90.199997,21.1,3.0,93.800003,20.9,...,7.1,25.799999,219.100006,25.799999,69.300003,71.099998,52.900002,0.444,37.0,46.0
1,Hubert Hurkacz,299.700012,63.400002,79.199997,54.900002,89.900002,14.0,1.7,125.300003,27.200001,...,16.5,35.0,226.399994,35.0,67.699997,54.700001,69.0,0.684,26.0,9.0
2,Matteo Berrettini,292.200012,62.5,79.599998,52.0,88.5,11.5,1.9,129.800003,29.5,...,18.799999,35.799999,210.0,35.799999,67.099998,50.0,57.099998,0.5,26.0,23.0
3,Novak Djokovic,292.100006,65.300003,77.199997,57.0,88.699997,6.0,2.1,160.5,33.5,...,29.299999,41.799999,249.699997,41.799999,64.300003,80.0,63.599998,0.938,35.0,2.0
4,Ben Shelton,292.0,60.700001,79.300003,55.900002,89.400002,11.3,4.6,118.5,23.799999,...,13.3,39.299999,209.0,39.299999,70.5,56.299999,42.900002,0.545,20.0,39.0


In [34]:
# Hacemos un diccionario del dataframe.

df_dict = df.to_dict('records')
df_dict

[{'Player': 'John Isner',
  'Serve Rating': 308.5,
  '%1stServe': 67.69999694824219,
  '%1stServePointsWon': 79.80000305175781,
  '%2ndServePointsWon': 52.70000076293945,
  '%ServiceGamesWon': 90.19999694824219,
  'AvgACESMatch': 21.100000381469727,
  'AvgDoubleFaultsMatch': 3.0,
  'Return Rating': 93.80000305175781,
  '%1st Serve Return Points Won': 20.899999618530273,
  '%2nd Serve Return Points Won': 40.0,
  '%Return Games Won': 7.099999904632568,
  '%Breaks Points Converted': 25.799999237060547,
  'Underpressure Rating': 219.10000610351562,
  '%BreakPointsConverted': 25.799999237060547,
  '%BreaksPointsSaved': 69.30000305175781,
  '%TieBreaks Won': 71.0999984741211,
  '%Deciding Sets Won': 52.900001525878906,
  '%AvgWinLoss': 0.4440000057220459,
  'Age': 37.0,
  'Rank': 46.0},
 {'Player': 'Hubert Hurkacz',
  'Serve Rating': 299.70001220703125,
  '%1stServe': 63.400001525878906,
  '%1stServePointsWon': 79.19999694824219,
  '%2ndServePointsWon': 54.900001525878906,
  '%ServiceGamesWo

In [35]:
# Hacemos un bucle que recorra todo el diccionario que use como clave el nombre del jugador y como valor el resto de columnas.

for player in df_dict:
    print(player['Player'])
    print(player['%1stServePointsWon'])
    print(player['%2ndServePointsWon'])
    print(player['%BreakPointsConverted'])
    print(player['%BreaksPointsSaved'])
    print(player['%Deciding Sets Won'])
    print(player['%TieBreaks Won'])
    print(player['%AvgWinLoss'])
    print(player['Age'])
    print(player['Rank'])

John Isner
79.80000305175781
52.70000076293945
25.799999237060547
69.30000305175781
52.900001525878906
71.0999984741211
0.4440000057220459
37.0
46.0
Hubert Hurkacz
79.19999694824219
54.900001525878906
35.0
67.69999694824219
69.0
54.70000076293945
0.6840000152587891
26.0
9.0
Matteo Berrettini
79.5999984741211
52.0
35.79999923706055
67.0999984741211
57.099998474121094
50.0
0.5
26.0
23.0
Novak Djokovic
77.19999694824219
57.0
41.79999923706055
64.30000305175781
63.599998474121094
80.0
0.9380000233650208
35.0
2.0
Ben Shelton
79.30000305175781
55.900001525878906
39.29999923706055
70.5
42.900001525878906
56.29999923706055
0.5450000166893005
20.0
39.0
Stefanos Tsitsipas
76.5
55.099998474121094
41.79999923706055
66.0
73.0999984741211
56.79999923706055
0.8130000233650208
24.0
3.0
Maxime Cressy
79.80000305175781
53.099998474121094
39.29999923706055
64.30000305175781
47.599998474121094
35.70000076293945
0.5
25.0
37.0
Felix Auger-Aliassime
77.5
50.599998474121094
37.5
66.5999984741211
66.6999969482

# EDA - Exploratory Data Analysis

### Vamos a averiguar que jugadores tienen un %1stServePointsWon superior a la media.

In [36]:
### Vamos a comenzar analizando la columna %1stServePointsWon por cada Player.

Best1stServePointsWon = df[['Player', '%1stServePointsWon']]
Best1stServePointsWon.head()

Unnamed: 0,Player,%1stServePointsWon
0,John Isner,79.800003
1,Hubert Hurkacz,79.199997
2,Matteo Berrettini,79.599998
3,Novak Djokovic,77.199997
4,Ben Shelton,79.300003


In [37]:
# Vamos a ver la distribución de los datos.

Best1stServePointsWon.describe()

Unnamed: 0,%1stServePointsWon
count,68.0
mean,71.688232
std,4.55135
min,61.799999
25%,68.5
50%,71.850002
75%,75.249998
max,79.800003


In [38]:
# Vamos a ver la distribución de los datos con plotly con forma de linea.

fig = px.line(Best1stServePointsWon, x='Player', y='%1stServePointsWon', title='1stServePointsWon')
fig.show()

In [39]:
# vamos a establecer los cuartiles para ver que jugadores están por encima de la media.

q1 = Best1stServePointsWon['%1stServePointsWon'].quantile(0.25)
q3 = Best1stServePointsWon['%1stServePointsWon'].quantile(0.75)
iqr = q3 - q1 #Interquartile range
fence_low  = q1-1.5*iqr #lower fence. Esto es para ver los valores que están por debajo del primer cuartil.
fence_high = q3+1.5*iqr #upper fence. Esto es para ver los valores que están por encima del tercer cuartil.

print('q1: ', q1)
print('q3: ', q3)
print('iqr: ', iqr)
print('fence_low: ', fence_low)
print('fence_high: ', fence_high)

q1:  68.5
q3:  75.24999809265137
iqr:  6.749998092651367
fence_low:  58.37500286102295
fence_high:  85.37499523162842


In [40]:
### Vamos a ver los jugadores que están por encima de la media.

Best1stServePointsWon = Best1stServePointsWon[Best1stServePointsWon['%1stServePointsWon'] > q3]
Best1stServePointsWon

Unnamed: 0,Player,%1stServePointsWon
0,John Isner,79.800003
1,Hubert Hurkacz,79.199997
2,Matteo Berrettini,79.599998
3,Novak Djokovic,77.199997
4,Ben Shelton,79.300003
5,Stefanos Tsitsipas,76.5
6,Maxime Cressy,79.800003
7,Felix Auger-Aliassime,77.5
8,Taylor Fritz,77.099998
10,Marc-Andrea Huesler,76.0


### Vamos a averiguar que jugadores tienen un %2stServePointsWon superior a la media.

In [41]:
### Hagamos lo mismo %2ndServePointsWon

Best2stServePointsWon = df[['Player', '%2ndServePointsWon']]
Best2stServePointsWon.head()

Unnamed: 0,Player,%2ndServePointsWon
0,John Isner,52.700001
1,Hubert Hurkacz,54.900002
2,Matteo Berrettini,52.0
3,Novak Djokovic,57.0
4,Ben Shelton,55.900002


In [42]:
### Vamos a ver la distribución de los datos.

Best2stServePointsWon.describe()

Unnamed: 0,%2ndServePointsWon
count,68.0
mean,51.483822
std,2.677246
min,44.099998
25%,50.175
50%,51.400002
75%,53.025
max,57.0


In [43]:
### Vamos a ver la distribución de los datos con plotly con forma de linea.

fig = px.line(Best2stServePointsWon, x='Player', y='%2ndServePointsWon', title='2ndServePointsWon')
fig.show()

In [44]:
### vamos a establecer los cuartiles para ver que jugadores están por encima de la media.

q1 = Best2stServePointsWon['%2ndServePointsWon'].quantile(0.25)
q3 = Best2stServePointsWon['%2ndServePointsWon'].quantile(0.75)
iqr = q3 - q1 #Interquartile range
fence_low  = q1-1.5*iqr #lower fence. Esto es para ver los valores que están por debajo del primer cuartil.
fence_high = q3+1.5*iqr #upper fence. Esto es para ver los valores que están por encima del tercer cuartil.

print('q1: ', q1)
print('q3: ', q3)
print('iqr: ', iqr)
print('fence_low: ', fence_low)
print('fence_high: ', fence_high)

q1:  50.17500019073486
q3:  53.02499961853027
iqr:  2.84999942779541
fence_low:  45.90000104904175
fence_high:  57.29999876022339


In [45]:
### Vamos a ver los jugadores que están por encima de la media.

Best2stServePointsWon = Best2stServePointsWon[Best2stServePointsWon['%2ndServePointsWon'] > q3]
Best2stServePointsWon

Unnamed: 0,Player,%2ndServePointsWon
1,Hubert Hurkacz,54.900002
3,Novak Djokovic,57.0
4,Ben Shelton,55.900002
5,Stefanos Tsitsipas,55.099998
6,Maxime Cressy,53.099998
9,Casper Ruud,55.200001
12,Borna Coric,54.5
14,Holger Rune,55.099998
15,Carlos Alcaraz,55.299999
20,Roberto Bautista Agut,55.099998


### Vamos a averiguar que jugadores tienen un AvgACESMatch superior a la media.

In [46]:
### Hagamos lo mismo AvgACESMatch

BestAvgACESMatch = df[['Player', 'AvgACESMatch']]
BestAvgACESMatch.head()

Unnamed: 0,Player,AvgACESMatch
0,John Isner,21.1
1,Hubert Hurkacz,14.0
2,Matteo Berrettini,11.5
3,Novak Djokovic,6.0
4,Ben Shelton,11.3


In [47]:
### Vamos a ver la distribución de los datos.

BestAvgACESMatch.describe()

Unnamed: 0,AvgACESMatch
count,68.0
mean,6.022059
std,3.513082
min,1.0
25%,3.325
50%,5.25
75%,7.8
max,21.1


In [48]:
### Vamos a ver la distribución de los datos con plotly con forma de linea.

fig = px.line(BestAvgACESMatch, x='Player', y='AvgACESMatch', title='AvgACESMatch')
fig.show()

In [49]:
### vamos a establecer los cuartiles para ver que jugadores están por encima de la media.

q1 = BestAvgACESMatch['AvgACESMatch'].quantile(0.25)
q3 = BestAvgACESMatch['AvgACESMatch'].quantile(0.75)
iqr = q3 - q1 #Interquartile range
fence_low  = q1-1.5*iqr #lower fence. Esto es para ver los valores que están por debajo del primer cuartil.
fence_high = q3+1.5*iqr #upper fence. Esto es para ver los valores que están por encima del tercer cuartil.

print('q1: ', q1)
print('q3: ', q3)
print('iqr: ', iqr)
print('fence_low: ', fence_low)
print('fence_high: ', fence_high)

q1:  3.325000047683716
q3:  7.800000190734863
iqr:  4.4750001430511475
fence_low:  -3.3875001668930054
fence_high:  14.512500405311584


In [50]:
### Vamos a ver los jugadores que están por encima de la media.

BestAvgACESMatch = BestAvgACESMatch[BestAvgACESMatch['AvgACESMatch'] > q3]
BestAvgACESMatch

Unnamed: 0,Player,AvgACESMatch
0,John Isner,21.1
1,Hubert Hurkacz,14.0
2,Matteo Berrettini,11.5
4,Ben Shelton,11.3
6,Maxime Cressy,15.2
7,Felix Auger-Aliassime,10.5
8,Taylor Fritz,9.2
10,Marc-Andrea Huesler,8.8
21,Jack Draper,8.1
24,Frances Tiafoe,8.5


In [51]:
### Vamos a comenzar analizando la columna %ServeGamesWon por cada Player.

BestServeGamesWon = df[['Player', '%ServiceGamesWon']]
BestServeGamesWon.head()

Unnamed: 0,Player,%ServiceGamesWon
0,John Isner,90.199997
1,Hubert Hurkacz,89.900002
2,Matteo Berrettini,88.5
3,Novak Djokovic,88.699997
4,Ben Shelton,89.400002


In [52]:
### Vamos a ver la distribución de los datos.

BestServeGamesWon.describe()

Unnamed: 0,%ServiceGamesWon
count,68.0
mean,79.858826
std,5.575459
min,67.5
25%,76.450001
50%,80.650002
75%,83.325003
max,90.199997


In [53]:
### Vamos a ver la distribución de los datos con plotly con forma de linea.

fig = px.line(BestServeGamesWon, x='Player', y='%ServiceGamesWon', title='%ServiceGamesWon')
fig.show()

In [54]:
### vamos a establecer los cuartiles para ver que jugadores están por encima de la media.

q1 = BestServeGamesWon['%ServiceGamesWon'].quantile(0.25)
q3 = BestServeGamesWon['%ServiceGamesWon'].quantile(0.75)
iqr = q3 - q1 #Interquartile range
fence_low  = q1-1.5*iqr #lower fence. Esto es para ver los valores que están por debajo del primer cuartil.
fence_high = q3+1.5*iqr #upper fence. Esto es para ver los valores que están por encima del tercer cuartil.

print('q1: ', q1)
print('q3: ', q3)
print('iqr: ', iqr)
print('fence_low: ', fence_low)
print('fence_high: ', fence_high)

q1:  76.45000076293945
q3:  83.32500267028809
iqr:  6.875001907348633
fence_low:  66.1374979019165
fence_high:  93.63750553131104


In [55]:
### Vamos a ver los jugadores que están por encima de la media.

BestServeGamesWon = BestServeGamesWon[BestServeGamesWon['%ServiceGamesWon'] > q3]
BestServeGamesWon

Unnamed: 0,Player,%ServiceGamesWon
0,John Isner,90.199997
1,Hubert Hurkacz,89.900002
2,Matteo Berrettini,88.5
3,Novak Djokovic,88.699997
4,Ben Shelton,89.400002
5,Stefanos Tsitsipas,86.800003
6,Maxime Cressy,88.599998
7,Felix Auger-Aliassime,86.5
8,Taylor Fritz,85.5
9,Casper Ruud,84.599998


In [56]:
### Vamos a comenzar analizando la columna %AVGDoubleFaultsMatch por cada Player.

BestAVGDoubleFaultsMatch = df[['Player', 'AvgDoubleFaultsMatch']]
BestAVGDoubleFaultsMatch.head()

Unnamed: 0,Player,AvgDoubleFaultsMatch
0,John Isner,3.0
1,Hubert Hurkacz,1.7
2,Matteo Berrettini,1.9
3,Novak Djokovic,2.1
4,Ben Shelton,4.6


In [57]:
### Vamos a ver la distribución de los datos.

BestAVGDoubleFaultsMatch.describe()

Unnamed: 0,AvgDoubleFaultsMatch
count,68.0
mean,2.74853
std,1.238137
min,1.4
25%,1.975
50%,2.5
75%,3.0
max,9.0


In [58]:
### Vamos a ver la distribución de los datos con plotly con forma de linea.

fig = px.line(BestAVGDoubleFaultsMatch, x='Player', y='AvgDoubleFaultsMatch', title='AvgDoubleFaultsMatch')
fig.show()

In [59]:
### vamos a establecer los cuartiles para ver que jugadores están por encima de la media.

q1 = BestAVGDoubleFaultsMatch['AvgDoubleFaultsMatch'].quantile(0.25)
q3 = BestAVGDoubleFaultsMatch['AvgDoubleFaultsMatch'].quantile(0.75)
iqr = q3 - q1 #Interquartile range
fence_low  = q1-1.5*iqr #lower fence. Esto es para ver los valores que están por debajo del primer cuartil.
fence_high = q3+1.5*iqr #upper fence. Esto es para ver los valores que están por encima del tercer cuartil.

print('q1: ', q1)
print('q3: ', q3)
print('iqr: ', iqr)
print('fence_low: ', fence_low)
print('fence_high: ', fence_high)

q1:  1.9749999940395355
q3:  3.0
iqr:  1.0250000059604645
fence_low:  0.4374999850988388
fence_high:  4.537500008940697


In [60]:
### Vamos a ver los jugadores que están por encima de la media.

BestAVGDoubleFaultsMatch = BestAVGDoubleFaultsMatch[BestAVGDoubleFaultsMatch['AvgDoubleFaultsMatch'] < q1]
BestAVGDoubleFaultsMatch

Unnamed: 0,Player,AvgDoubleFaultsMatch
1,Hubert Hurkacz,1.7
2,Matteo Berrettini,1.9
8,Taylor Fritz,1.9
10,Marc-Andrea Huesler,1.9
12,Borna Coric,1.6
13,Lorenzo Sonego,1.7
20,Roberto Bautista Agut,1.8
26,Stan Wawrinka,1.7
28,Adrian Mannarino,1.8
34,Lorenzo Musetti,1.8


In [61]:
### Vamos a comenzar analizando la columna %Return Games Won por cada Player.

BestReturnGamesWon = df[['Player', '%Return Games Won']]
BestReturnGamesWon.head()

Unnamed: 0,Player,%Return Games Won
0,John Isner,7.1
1,Hubert Hurkacz,16.5
2,Matteo Berrettini,18.799999
3,Novak Djokovic,29.299999
4,Ben Shelton,13.3


In [62]:
### Vamos a ver la distribución de los datos.

BestReturnGamesWon.describe()

Unnamed: 0,%Return Games Won
count,68.0
mean,21.985294
std,4.839645
min,7.1
25%,18.95
50%,22.05
75%,25.15
max,31.4


In [63]:
### Vamos a ver la distribución de los datos con plotly con forma de linea.

fig = px.line(BestReturnGamesWon, x='Player', y='%Return Games Won', title='%Return Games Won')
fig.show()

In [64]:
### vamos a establecer los cuartiles para ver que jugadores están por encima de la media.

q1 = BestReturnGamesWon['%Return Games Won'].quantile(0.25)
q3 = BestReturnGamesWon['%Return Games Won'].quantile(0.75)
iqr = q3 - q1 #Interquartile range
fence_low  = q1-1.5*iqr #lower fence. Esto es para ver los valores que están por debajo del primer cuartil.
fence_high = q3+1.5*iqr #upper fence. Esto es para ver los valores que están por encima del tercer cuartil.

print('q1: ', q1)
print('q3: ', q3)
print('iqr: ', iqr)
print('fence_low: ', fence_low)
print('fence_high: ', fence_high)

q1:  18.949999809265137
q3:  25.15000009536743
iqr:  6.200000286102295
fence_low:  9.649999380111694
fence_high:  34.450000524520874


In [65]:
### Vamos a ver los jugadores que están por encima de la media.

BestReturnGamesWon = BestReturnGamesWon[BestReturnGamesWon['%Return Games Won'] > q3]
BestReturnGamesWon

Unnamed: 0,Player,%Return Games Won
3,Novak Djokovic,29.299999
11,Daniil Medvedev,30.6
15,Carlos Alcaraz,31.4
21,Jack Draper,25.4
27,Jannik Sinner,27.700001
31,Cameron Norrie,27.0
34,Lorenzo Musetti,25.4
43,Mackenzie Mcdonald,25.299999
52,Alejandro Davidovich Fokina,27.700001
56,Alex De Minaur,29.4


In [66]:
### Vamos a comenzar analizando la columna %TieBreaks por cada Player.

BestTieBreaks = df[['Player', '%TieBreaks Won']]
BestTieBreaks.head()

Unnamed: 0,Player,%TieBreaks Won
0,John Isner,71.099998
1,Hubert Hurkacz,54.700001
2,Matteo Berrettini,50.0
3,Novak Djokovic,80.0
4,Ben Shelton,56.299999


In [67]:
### Vamos a ver la distribución de los datos.

BestTieBreaks.describe()

Unnamed: 0,%TieBreaks Won
count,68.0
mean,50.148529
std,13.331026
min,10.0
25%,42.700001
50%,51.950001
75%,58.349999
max,80.0


In [68]:
### Vamos a ver la distribución de los datos con plotly con forma de linea.

fig = px.line(BestTieBreaks, x='Player', y='%TieBreaks Won', title='%TieBreaks Won')
fig.show()

In [69]:
### vamos a establecer los cuartiles para ver que jugadores están por encima de la media.

q1 = BestTieBreaks['%TieBreaks Won'].quantile(0.25)
q3 = BestTieBreaks['%TieBreaks Won'].quantile(0.75)
iqr = q3 - q1 #Interquartile range
fence_low  = q1-1.5*iqr #lower fence. Esto es para ver los valores que están por debajo del primer cuartil.
fence_high = q3+1.5*iqr #upper fence. Esto es para ver los valores que están por encima del tercer cuartil.

print('q1: ', q1)
print('q3: ', q3)
print('iqr: ', iqr)
print('fence_low: ', fence_low)
print('fence_high: ', fence_high)

q1:  42.70000076293945
q3:  58.34999942779541
iqr:  15.649998664855957
fence_low:  19.225002765655518
fence_high:  81.82499742507935


In [70]:
### Vamos a ver los jugadores que están por encima de la media.

BestTieBreaks = BestTieBreaks[BestTieBreaks['%TieBreaks Won'] > q3]
BestTieBreaks

Unnamed: 0,Player,%TieBreaks Won
0,John Isner,71.099998
3,Novak Djokovic,80.0
8,Taylor Fritz,58.5
9,Casper Ruud,61.0
12,Borna Coric,66.699997
14,Holger Rune,63.599998
16,Alexander Zverev,78.599998
18,Andrey Rublev,61.5
24,Frances Tiafoe,66.699997
27,Jannik Sinner,68.199997


In [71]:
### Vamos a comenzar analizando la columna %Deciding Set Won por cada Player.

BestDecidingSetWon = df[['Player', '%Deciding Sets Won']]
BestDecidingSetWon.head()

Unnamed: 0,Player,%Deciding Sets Won
0,John Isner,52.900002
1,Hubert Hurkacz,69.0
2,Matteo Berrettini,57.099998
3,Novak Djokovic,63.599998
4,Ben Shelton,42.900002


In [72]:
### Vamos a ver la distribución de los datos.

BestDecidingSetWon.describe()

Unnamed: 0,%Deciding Sets Won
count,68.0
mean,52.380886
std,14.477097
min,6.7
25%,44.025002
50%,52.900002
75%,62.325001
max,83.300003


In [73]:
### Vamos a ver la distribución de los datos con plotly con forma de linea.

fig = px.line(BestDecidingSetWon, x='Player', y='%Deciding Sets Won', title='%Deciding Sets Won')
fig.show()

In [74]:
### vamos a establecer los cuartiles para ver que jugadores están por encima de la media.

q1 = BestDecidingSetWon['%Deciding Sets Won'].quantile(0.25)
q3 = BestDecidingSetWon['%Deciding Sets Won'].quantile(0.75)
iqr = q3 - q1 #Interquartile range
fence_low  = q1-1.5*iqr #lower fence. Esto es para ver los valores que están por debajo del primer cuartil.
fence_high = q3+1.5*iqr #upper fence. Esto es para ver los valores que están por encima del tercer cuartil.

print('q1: ', q1)
print('q3: ', q3)
print('iqr: ', iqr)
print('fence_low: ', fence_low)
print('fence_high: ', fence_high)

q1:  44.025001525878906
q3:  62.32500076293945
iqr:  18.299999237060547
fence_low:  16.575002670288086
fence_high:  89.77499961853027


In [75]:
### Vamos a ver los jugadores que están por encima de la media.

BestDecidingSetWon = BestDecidingSetWon[BestDecidingSetWon['%Deciding Sets Won'] > q3]
BestDecidingSetWon

Unnamed: 0,Player,%Deciding Sets Won
1,Hubert Hurkacz,69.0
3,Novak Djokovic,63.599998
5,Stefanos Tsitsipas,73.099998
7,Felix Auger-Aliassime,66.699997
15,Carlos Alcaraz,73.900002
18,Andrey Rublev,65.199997
22,Karen Khachanov,64.699997
23,Arthur Rinderknech,75.0
27,Jannik Sinner,63.599998
31,Cameron Norrie,71.0


## Ya tenemos los jugadores que tienen un buen rendimiento en cada una de las columnas.

# OBJETIVES:

## 1. Que grupos son las que más correlacion tienen con en el ranking de los jugadores.
## 2. Que jugadores estan en todas las columnas.
## 3. Cuanto influye la edad en el ranking de los jugadores.

### Vamos a ver de los grupos creados que grupos son las que más correlacion tienen con en el ranking de los jugadores.

Best1stServePointsWon

BestReturnGamesWon

BestTieBreaks

BestDecidingSetWon


In [76]:
## 1.1 Vamos a ver la correlación de Best1stServePointsWon con el el ranking de los jugadores de df_ranking.

# Lo primero que hacemos es añadir la columna ranking a Best1stServePointsWon para poder compararla con el ranking de los jugadores.
# El primero tiene que ser el que tenga mayor valor en la columna %1st Serve Points Won.

Best1stServePointsWon = Best1stServePointsWon.reset_index(drop=True)
Best1stServePointsWon['Rank'] = Best1stServePointsWon.index + 1
Best1stServePointsWon

Unnamed: 0,Player,%1stServePointsWon,Rank
0,John Isner,79.800003,1
1,Hubert Hurkacz,79.199997,2
2,Matteo Berrettini,79.599998,3
3,Novak Djokovic,77.199997,4
4,Ben Shelton,79.300003,5
5,Stefanos Tsitsipas,76.5,6
6,Maxime Cressy,79.800003,7
7,Felix Auger-Aliassime,77.5,8
8,Taylor Fritz,77.099998,9
9,Marc-Andrea Huesler,76.0,10


In [77]:
# Vamos a ver la correlación de Best1stServePointsWon con el el ranking de los jugadores de df_ranking viendo si coincide en el ranking de cada jugador en ambos dataframes.

df_ranking = df_ranking.reset_index(drop=True)
df_ranking['Rank'] = df_ranking.index + 1
df_ranking

Unnamed: 0,Player,Age,Rank
0,Carlos Alcaraz,19.0,1
1,Novak Djokovic,35.0,2
2,Stefanos Tsitsipas,24.0,3
3,Casper Ruud,24.0,4
4,Daniil Medvedev,27.0,5
...,...,...,...
1993,Stefan Vujic,24.0,1994
1994,Raffael Schaer,20.0,1995
1995,Biagio Gramaticopolo,20.0,1996
1996,Akram El Sallaly,25.0,1997


In [78]:
# Para ver cuanto % de correlación hay entre las dos columnas vamos a hacer un merge de los dos dataframes.

df_merge = pd.merge(Best1stServePointsWon, df_ranking, on='Player')
df_merge

Unnamed: 0,Player,%1stServePointsWon,Rank_x,Age,Rank_y
0,John Isner,79.800003,1,37.0,46
1,Hubert Hurkacz,79.199997,2,26.0,9
2,Matteo Berrettini,79.599998,3,26.0,23
3,Novak Djokovic,77.199997,4,35.0,2
4,Ben Shelton,79.300003,5,20.0,39
5,Stefanos Tsitsipas,76.5,6,24.0,3
6,Maxime Cressy,79.800003,7,25.0,37
7,Felix Auger-Aliassime,77.5,8,22.0,6
8,Taylor Fritz,77.099998,9,25.0,10
9,Marc-Andrea Huesler,76.0,10,26.0,47


In [79]:
# Nos quedamos solo con aquellos que estan entre los 10 primeros en el df_merge.

Best_players_1st_serve = df_merge[df_merge['Rank_y'] <= 10]
Best_players_1st_serve

Unnamed: 0,Player,%1stServePointsWon,Rank_x,Age,Rank_y
1,Hubert Hurkacz,79.199997,2,26.0,9
3,Novak Djokovic,77.199997,4,35.0,2
5,Stefanos Tsitsipas,76.5,6,24.0,3
7,Felix Auger-Aliassime,77.5,8,22.0,6
8,Taylor Fritz,77.099998,9,25.0,10
10,Daniil Medvedev,75.400002,11,27.0,5
11,Andrey Rublev,76.099998,12,25.0,7


In [80]:
### Ya sabemos cuantos jugadores hay en el top 10 del dataframe Best1stServePointsWon que estan en el top 10 del ranking de los jugadores. Vamos a ver el % de coincidencia.

correlacion_1st_serve_won = Best_players_1st_serve['Rank_x'].corr(Best_players_1st_serve['Rank_y'])
print('La correlación entre el ranking de los jugadores y el %1st Serve Points Won es del: ', correlacion_1st_serve_won)

La correlación entre el ranking de los jugadores y el %1st Serve Points Won es del:  0.1397889227658605


In [81]:
## 1.2 Vamos a ver la correlación de BestReturnGamesWon con el el ranking de los jugadores de df_ranking.

# Lo primero que hacemos es añadir la columna ranking a BestReturnGamesWon para poder compararla con el ranking de los jugadores.

BestReturnGamesWon = BestReturnGamesWon.reset_index(drop=True)
BestReturnGamesWon['Rank'] = BestReturnGamesWon.index + 1
BestReturnGamesWon

Unnamed: 0,Player,%Return Games Won,Rank
0,Novak Djokovic,29.299999,1
1,Daniil Medvedev,30.6,2
2,Carlos Alcaraz,31.4,3
3,Jack Draper,25.4,4
4,Jannik Sinner,27.700001,5
5,Cameron Norrie,27.0,6
6,Lorenzo Musetti,25.4,7
7,Mackenzie Mcdonald,25.299999,8
8,Alejandro Davidovich Fokina,27.700001,9
9,Alex De Minaur,29.4,10


In [82]:
# Vamos a ver la correlación de BestReturnGamesWon con el el ranking de los jugadores de df_ranking viendo si coincide en el ranking de cada jugador en ambos dataframes.

df_ranking = df_ranking.reset_index(drop=True)
df_ranking['Rank'] = df_ranking.index + 1
df_ranking

Unnamed: 0,Player,Age,Rank
0,Carlos Alcaraz,19.0,1
1,Novak Djokovic,35.0,2
2,Stefanos Tsitsipas,24.0,3
3,Casper Ruud,24.0,4
4,Daniil Medvedev,27.0,5
...,...,...,...
1993,Stefan Vujic,24.0,1994
1994,Raffael Schaer,20.0,1995
1995,Biagio Gramaticopolo,20.0,1996
1996,Akram El Sallaly,25.0,1997


In [83]:
# Para ver cuanto % de correlación hay entre las dos columnas vamos a hacer un merge de los dos dataframes.

df_merge = pd.merge(BestReturnGamesWon, df_ranking, on='Player')
df_merge

Unnamed: 0,Player,%Return Games Won,Rank_x,Age,Rank_y
0,Novak Djokovic,29.299999,1,35.0,2
1,Daniil Medvedev,30.6,2,27.0,5
2,Carlos Alcaraz,31.4,3,19.0,1
3,Jack Draper,25.4,4,21.0,43
4,Jannik Sinner,27.700001,5,21.0,11
5,Cameron Norrie,27.0,6,27.0,12
6,Lorenzo Musetti,25.4,7,21.0,21
7,Mackenzie Mcdonald,25.299999,8,27.0,55
8,Alejandro Davidovich Fokina,27.700001,9,23.0,25
9,Alex De Minaur,29.4,10,24.0,18


In [84]:
# Nos quedamos solo con aquellos que estan entre los 10 primeros en el df_merge.

Best_players_return_games_won = df_merge[df_merge['Rank_y'] <= 10]
Best_players_return_games_won

Unnamed: 0,Player,%Return Games Won,Rank_x,Age,Rank_y
0,Novak Djokovic,29.299999,1,35.0,2
1,Daniil Medvedev,30.6,2,27.0,5
2,Carlos Alcaraz,31.4,3,19.0,1


In [85]:
### Ya sabemos cuantos jugadores hay en el top 10 del dataframe BestReturnGamesWon que estan en el top 10 del ranking de los jugadores. Vamos a ver el % de coincidencia.

correlacion_return_games_won = Best_players_return_games_won['Rank_x'].corr(Best_players_return_games_won['Rank_y'])
print('La correlación entre el ranking de los jugadores y el %Return Games Won es del: ', correlacion_return_games_won)

La correlación entre el ranking de los jugadores y el %Return Games Won es del:  -0.2401922307076307


In [86]:
## 1.3 Vamos a ver la correlación de BestTieBreaks con el el ranking de los jugadores de df_ranking.

# Lo primero que hacemos es añadir la columna ranking a BestTieBreaks para poder compararla con el ranking de los jugadores.

BestTieBreaks = BestTieBreaks.reset_index(drop=True)
BestTieBreaks['Rank'] = BestTieBreaks.index + 1
BestTieBreaks

Unnamed: 0,Player,%TieBreaks Won,Rank
0,John Isner,71.099998,1
1,Novak Djokovic,80.0,2
2,Taylor Fritz,58.5,3
3,Casper Ruud,61.0,4
4,Borna Coric,66.699997,5
5,Holger Rune,63.599998,6
6,Alexander Zverev,78.599998,7
7,Andrey Rublev,61.5,8
8,Frances Tiafoe,66.699997,9
9,Jannik Sinner,68.199997,10


In [87]:
### Vamos a ver la correlación de BestTieBreaks con el el ranking de los jugadores de df_ranking viendo si coincide en el ranking de cada jugador en ambos dataframes.

df_ranking = df_ranking.reset_index(drop=True)
df_ranking['Rank'] = df_ranking.index + 1
df_ranking

Unnamed: 0,Player,Age,Rank
0,Carlos Alcaraz,19.0,1
1,Novak Djokovic,35.0,2
2,Stefanos Tsitsipas,24.0,3
3,Casper Ruud,24.0,4
4,Daniil Medvedev,27.0,5
...,...,...,...
1993,Stefan Vujic,24.0,1994
1994,Raffael Schaer,20.0,1995
1995,Biagio Gramaticopolo,20.0,1996
1996,Akram El Sallaly,25.0,1997


In [88]:
### Para ver cuanto % de correlación hay entre las dos columnas vamos a hacer un merge de los dos dataframes.

df_merge = pd.merge(BestTieBreaks, df_ranking, on='Player')
df_merge

Unnamed: 0,Player,%TieBreaks Won,Rank_x,Age,Rank_y
0,John Isner,71.099998,1,37.0,46
1,Novak Djokovic,80.0,2,35.0,2
2,Taylor Fritz,58.5,3,25.0,10
3,Casper Ruud,61.0,4,24.0,4
4,Borna Coric,66.699997,5,26.0,20
5,Holger Rune,63.599998,6,19.0,8
6,Alexander Zverev,78.599998,7,25.0,15
7,Andrey Rublev,61.5,8,25.0,7
8,Frances Tiafoe,66.699997,9,25.0,14
9,Jannik Sinner,68.199997,10,21.0,11


In [89]:
### Nos quedamos solo con aquellos que estan entre los 10 primeros en el df_merge.

Best_players_tie_breaks = df_merge[df_merge['Rank_y'] <= 10]
Best_players_tie_breaks

Unnamed: 0,Player,%TieBreaks Won,Rank_x,Age,Rank_y
1,Novak Djokovic,80.0,2,35.0,2
2,Taylor Fritz,58.5,3,25.0,10
3,Casper Ruud,61.0,4,24.0,4
5,Holger Rune,63.599998,6,19.0,8
7,Andrey Rublev,61.5,8,25.0,7


In [90]:
### Ya sabemos cuantos jugadores hay en el top 10 del dataframe BestTieBreaks que estan en el top 10 del ranking de los jugadores. Vamos a ver el % de coincidencia.

correlacion_tie_breaks = Best_players_tie_breaks['Rank_x'].corr(Best_players_tie_breaks['Rank_y'])
print('La correlación entre el ranking de los jugadores y el %Tie Breaks Won es del: ', correlacion_tie_breaks)

La correlación entre el ranking de los jugadores y el %Tie Breaks Won es del:  0.3705363143382948


In [91]:
## 1.4 Vamos a ver la correlación de BestDecidingSetWon con el el ranking de los jugadores de df_ranking.

# Lo primero que hacemos es añadir la columna ranking a BestDecidingSetWon para poder compararla con el ranking de los jugadores.

BestDecidingSetWon = BestDecidingSetWon.reset_index(drop=True)
BestDecidingSetWon['Rank'] = BestDecidingSetWon.index + 1
BestDecidingSetWon

Unnamed: 0,Player,%Deciding Sets Won,Rank
0,Hubert Hurkacz,69.0,1
1,Novak Djokovic,63.599998,2
2,Stefanos Tsitsipas,73.099998,3
3,Felix Auger-Aliassime,66.699997,4
4,Carlos Alcaraz,73.900002,5
5,Andrey Rublev,65.199997,6
6,Karen Khachanov,64.699997,7
7,Arthur Rinderknech,75.0,8
8,Jannik Sinner,63.599998,9
9,Cameron Norrie,71.0,10


In [92]:
### Vamos a ver la correlación de BestDecidingSetWon con el el ranking de los jugadores de df_ranking viendo si coincide en el ranking de cada jugador en ambos dataframes.

df_ranking = df_ranking.reset_index(drop=True)
df_ranking['Rank'] = df_ranking.index + 1
df_ranking

Unnamed: 0,Player,Age,Rank
0,Carlos Alcaraz,19.0,1
1,Novak Djokovic,35.0,2
2,Stefanos Tsitsipas,24.0,3
3,Casper Ruud,24.0,4
4,Daniil Medvedev,27.0,5
...,...,...,...
1993,Stefan Vujic,24.0,1994
1994,Raffael Schaer,20.0,1995
1995,Biagio Gramaticopolo,20.0,1996
1996,Akram El Sallaly,25.0,1997


In [93]:
### Para ver cuanto % de correlación hay entre las dos columnas vamos a hacer un merge de los dos dataframes.

df_merge = pd.merge(BestDecidingSetWon, df_ranking, on='Player')
df_merge

Unnamed: 0,Player,%Deciding Sets Won,Rank_x,Age,Rank_y
0,Hubert Hurkacz,69.0,1,26.0,9
1,Novak Djokovic,63.599998,2,35.0,2
2,Stefanos Tsitsipas,73.099998,3,24.0,3
3,Felix Auger-Aliassime,66.699997,4,22.0,6
4,Carlos Alcaraz,73.900002,5,19.0,1
5,Andrey Rublev,65.199997,6,25.0,7
6,Karen Khachanov,64.699997,7,26.0,16
7,Arthur Rinderknech,75.0,8,27.0,72
8,Jannik Sinner,63.599998,9,21.0,11
9,Cameron Norrie,71.0,10,27.0,12


In [94]:
### Nos quedamos solo con aquellos que estan entre los 10 primeros en el df_merge.

Best_players_deciding_set_won = df_merge[df_merge['Rank_y'] <= 10]
Best_players_deciding_set_won

Unnamed: 0,Player,%Deciding Sets Won,Rank_x,Age,Rank_y
0,Hubert Hurkacz,69.0,1,26.0,9
1,Novak Djokovic,63.599998,2,35.0,2
2,Stefanos Tsitsipas,73.099998,3,24.0,3
3,Felix Auger-Aliassime,66.699997,4,22.0,6
4,Carlos Alcaraz,73.900002,5,19.0,1
5,Andrey Rublev,65.199997,6,25.0,7


In [95]:
### Ya sabemos cuantos jugadores hay en el top 10 del dataframe BestDecidingSetWon que estan en el top 10 del ranking de los jugadores. Vamos a ver el % de coincidencia.

correlacion_deciding_set_won = Best_players_deciding_set_won['Rank_x'].corr(Best_players_deciding_set_won['Rank_y'])
print('La correlación entre el ranking de los jugadores y el %Deciding Set Won es del: ', correlacion_deciding_set_won)

La correlación entre el ranking de los jugadores y el %Deciding Set Won es del:  -0.17016911869528195


In [96]:
### Vamos a visualizar todas las correlaciones en un mismo gráfico plotly express.

# Todas las correlaciones

correlaciones = [correlacion_1st_serve_won, correlacion_return_games_won, correlacion_tie_breaks, correlacion_deciding_set_won]

# Nombres de las correlaciones

nombres = ['1st Serve Points Won', 'Return Games Won', 'Tie Breaks Won', 'Deciding Set Won']

# Creamos un dataframe con los datos

df_correlaciones = pd.DataFrame({'Correlaciones': correlaciones, 'Nombres': nombres})

# Creamos el gráfico

fig = px.bar(df_correlaciones, x='Nombres', y='Correlaciones', color='Correlaciones', color_continuous_scale='Bluered_r')
fig.show()

In [97]:
## 2. Vamos a ver que jugadores coincide que estan en todas las listas de los mejores jugadores de cada categoría.

# Vamos a ver que jugadores estan en todas las listas de los mejores jugadores de cada categoría.

# Creamos una lista con los nombres de los jugadores de cada dataframe

lista_1st_serve_won = Best1stServePointsWon['Player'].tolist()
lista_return_games_won = BestReturnGamesWon['Player'].tolist()
lista_tie_breaks = BestTieBreaks['Player'].tolist()
lista_deciding_set_won = BestDecidingSetWon['Player'].tolist()

# Creamos una lista con los nombres de los jugadores que estan en todas las listas

lista_jugadores = []

for jugador in lista_1st_serve_won:
    if jugador in lista_return_games_won and jugador in lista_tie_breaks and jugador in lista_deciding_set_won:
        lista_jugadores.append(jugador)

print('Los jugadores que estan en todas las listas son: ', lista_jugadores)

Los jugadores que estan en todas las listas son:  ['Novak Djokovic']


In [98]:
## 3. Vamos a ver cuanto influye la edad en el ranking de los jugadores que correlacion tiene con el ranking de los jugadores.

# Vamos a ver cuanto influye la edad en el ranking de los jugadores que correlacion tiene con el ranking de los jugadores.

edad_ranking = df_ranking[['Player', 'Age', 'Rank']]
edad_ranking

Unnamed: 0,Player,Age,Rank
0,Carlos Alcaraz,19.0,1
1,Novak Djokovic,35.0,2
2,Stefanos Tsitsipas,24.0,3
3,Casper Ruud,24.0,4
4,Daniil Medvedev,27.0,5
...,...,...,...
1993,Stefan Vujic,24.0,1994
1994,Raffael Schaer,20.0,1995
1995,Biagio Gramaticopolo,20.0,1996
1996,Akram El Sallaly,25.0,1997


In [99]:
### Vamos a ver la correlación de la edad con el ranking de los jugadores.

correlacion_edad_ranking = edad_ranking['Age'].corr(edad_ranking['Rank'])
print('La correlación entre la edad y el ranking de los jugadores es del: ', correlacion_edad_ranking)

La correlación entre la edad y el ranking de los jugadores es del:  -0.34703253784632143


In [100]:
### Vamos a ver la correlación de la edad con el ranking de los jugadores en un gráfico plotly.

fig = px.scatter(edad_ranking, x='Age', y='Rank', color='Rank', color_continuous_scale='Bluered_r')
fig.show()

# 3. Conclusiones

## - Feature que mas influye en el ranking de los jugadores es el % Tie Breaks Won con un 38%.

## - El jugador mas completo y que esta en todas las listas es Novak Djokovic.

## - La edad influye en el ranking de los jugadores ya que la correlación es del 34% a favor de los mas jovenes.

# STATS DE LOS JUGADORES:

Hemos creado una app que nos permite seleccionar directamente que estadistica queremos visualizar y que jugador.

In [101]:
# En df_stats tenemos los datos de los jugadores que nos interesan para hacer el analisis.

df_stats = df[['Player', '%1stServePointsWon', '%2ndServePointsWon', '%ServiceGamesWon', '%1st Serve Return Points Won', '%2nd Serve Return Points Won', '%Return Games Won', '%Breaks Points Converted', '%BreaksPointsSaved', '%TieBreaks Won', '%AvgWinLoss']].copy()
df_stats.loc[:, '%AvgWinLoss'] = df_stats['%AvgWinLoss'] * 100
df_stats

Unnamed: 0,Player,%1stServePointsWon,%2ndServePointsWon,%ServiceGamesWon,%1st Serve Return Points Won,%2nd Serve Return Points Won,%Return Games Won,%Breaks Points Converted,%BreaksPointsSaved,%TieBreaks Won,%AvgWinLoss
0,John Isner,79.800003,52.700001,90.199997,20.900000,40.000000,7.100000,25.799999,69.300003,71.099998,44.400002
1,Hubert Hurkacz,79.199997,54.900002,89.900002,27.200001,46.599998,16.500000,35.000000,67.699997,54.700001,68.400002
2,Matteo Berrettini,79.599998,52.000000,88.500000,29.500000,45.700001,18.799999,35.799999,67.099998,50.000000,50.000000
3,Novak Djokovic,77.199997,57.000000,88.699997,33.500000,55.900002,29.299999,41.799999,64.300003,80.000000,93.800003
4,Ben Shelton,79.300003,55.900002,89.400002,23.799999,42.099998,13.300000,39.299999,70.500000,56.299999,54.500000
...,...,...,...,...,...,...,...,...,...,...,...
63,Joao Sousa,67.199997,47.200001,71.500000,29.900000,48.200001,19.799999,34.599998,56.000000,26.700001,20.000000
64,Federico Coria,63.099998,48.900002,67.800003,34.099998,50.799999,28.299999,43.599998,52.500000,22.200001,36.399998
65,Jaume Munar,66.900002,44.599998,69.300003,33.799999,47.700001,25.400000,41.500000,54.700001,33.299999,36.399998
66,Bernabe Zapata Miralles,63.500000,48.000000,67.900002,34.200001,52.299999,31.000000,47.799999,52.799999,10.000000,53.799999


In [102]:

app = JupyterDash(__name__)

app.layout = html.Div([
    dcc.Dropdown(
        id='dropdown-stat',
        options=[{'label': i, 'value': i} for i in df_stats.columns],
        value='%1stServePointsWon'
    ),
    dcc.Dropdown(
        id='dropdown-player',
        options=[{'label': player, 'value': player} for player in df_stats['Player'].unique()],
        value=None,
        multi=True
    ),
    dcc.Graph(id='graph')
])

@app.callback(
    dash.dependencies.Output('graph', 'figure'),
    [dash.dependencies.Input('dropdown-stat', 'value'),
     dash.dependencies.Input('dropdown-player', 'value')])
def update_graph(dropdown_stat_value, dropdown_player_value):
    dff = df_stats

    if dropdown_player_value:
        dff = dff[dff['Player'].isin(dropdown_player_value)]

    return px.scatter(dff, x='Player', y=dropdown_stat_value, color=dropdown_stat_value, size=dropdown_stat_value, hover_data=['Player', dropdown_stat_value])

app.run_server(mode='inline')

Dash is running on http://127.0.0.1:8050/



In [103]:
# Dicccionario con los datos de los jugadores para uso AIRTable.

jugadores = {}

for jugador in df_stats['Player'].unique():
    jugadores[jugador] = {}
    for stat in df_stats.columns[1:]:
        jugadores[jugador][stat] = df_stats[df_stats['Player'] == jugador][stat].values[0]
jugadores

{'John Isner': {'%1stServePointsWon': 79.8,
  '%2ndServePointsWon': 52.7,
  '%ServiceGamesWon': 90.2,
  '%1st Serve Return Points Won': 20.9,
  '%2nd Serve Return Points Won': 40.0,
  '%Return Games Won': 7.1,
  '%Breaks Points Converted': 25.8,
  '%BreaksPointsSaved': 69.3,
  '%TieBreaks Won': 71.1,
  '%AvgWinLoss': 44.4},
 'Hubert Hurkacz': {'%1stServePointsWon': 79.2,
  '%2ndServePointsWon': 54.9,
  '%ServiceGamesWon': 89.9,
  '%1st Serve Return Points Won': 27.2,
  '%2nd Serve Return Points Won': 46.6,
  '%Return Games Won': 16.5,
  '%Breaks Points Converted': 35.0,
  '%BreaksPointsSaved': 67.7,
  '%TieBreaks Won': 54.7,
  '%AvgWinLoss': 68.4},
 'Matteo Berrettini': {'%1stServePointsWon': 79.6,
  '%2ndServePointsWon': 52.0,
  '%ServiceGamesWon': 88.5,
  '%1st Serve Return Points Won': 29.5,
  '%2nd Serve Return Points Won': 45.7,
  '%Return Games Won': 18.8,
  '%Breaks Points Converted': 35.8,
  '%BreaksPointsSaved': 67.1,
  '%TieBreaks Won': 50.0,
  '%AvgWinLoss': 50.0},
 'Novak D

In [104]:
## Creamos una funcion que nos de todas las estadisticas de un jugador en concreto en un grafico plotly express con forma radial.

def grafico_estadisticas(df_stats, jugador):
    df_stats_jugador = df_stats[df_stats['Player'] == jugador]
    df_stats_jugador = df_stats_jugador.drop(['Player'], axis=1)
    df_stats_jugador = df_stats_jugador.transpose()
    df_stats_jugador = df_stats_jugador.reset_index()
    df_stats_jugador.columns = ['Estadisticas', 'Valor']
    fig = px.line_polar(df_stats_jugador, r='Valor', theta='Estadisticas', line_close=True)
    fig.show()

In [105]:
grafico_estadisticas(df_stats, 'Carlos Alcaraz')

# EXPORTACION DE DATAFRAMES A CSV

In [106]:
# Crear el directorio 'data' si aún no existe
data_directory = 'data'
if not os.path.exists(data_directory):
    os.makedirs(data_directory)

# Guardar el DataFrame 'df' como un archivo CSV en el directorio 'data'
csv_filename1 = 'mi_dataframe.csv'
csv_filepath1 = os.path.join(data_directory, csv_filename1)
df.to_csv(csv_filepath1, index=False)

# Guardar el DataFrame 'df_stats' como un archivo CSV en el directorio 'data'
csv_filename2 = 'mi_dataframe_stats.csv'
csv_filepath2 = os.path.join(data_directory, csv_filename2)
df_stats.to_csv(csv_filepath2, index=False)

print(f'El DataFrame "df" ha sido guardado como un archivo CSV en: {csv_filepath1}')
print(f'El DataFrame "df_stats" ha sido guardado como un archivo CSV en: {csv_filepath2}')

El DataFrame "df" ha sido guardado como un archivo CSV en: data/mi_dataframe.csv
El DataFrame "df_stats" ha sido guardado como un archivo CSV en: data/mi_dataframe_stats.csv


In [107]:
from pprint import pprint

df1 = pd.read_csv("data/jugadores_stats.csv")

datos_json = [{"fields" : df1.iloc[i, :].to_dict()} for i in range(df1.shape[0])]

pprint(datos_json)

[{'fields': {'%1st Serve Return Points Won': 20.9,
             '%1stServePointsWon': 79.8,
             '%2nd Serve Return Points Won': 40.0,
             '%2ndServePointsWon': 52.7,
             '%AvgWinLoss': 44.4,
             '%Breaks Points Converted': 25.8,
             '%BreaksPointsSaved': 69.3,
             '%Return Games Won': 7.1,
             '%ServiceGamesWon': 90.2,
             '%TieBreaks Won': 71.1,
             'Player': 'John Isner'}},
 {'fields': {'%1st Serve Return Points Won': 27.2,
             '%1stServePointsWon': 79.2,
             '%2nd Serve Return Points Won': 46.6,
             '%2ndServePointsWon': 54.9,
             '%AvgWinLoss': 68.4,
             '%Breaks Points Converted': 35.0,
             '%BreaksPointsSaved': 67.7,
             '%Return Games Won': 16.5,
             '%ServiceGamesWon': 89.9,
             '%TieBreaks Won': 54.7,
             'Player': 'Hubert Hurkacz'}},
 {'fields': {'%1st Serve Return Points Won': 29.5,
             '%1stServeP

# AIRTABLE

In [108]:
## Aquí subimos el CSV de "Jugadores_Stats" al AirTable

import pandas as pd
import requests
from time import sleep

api_key = 'keyYi4pqtDY1i4WKF'
base_id = 'appsQqpaUzcR1S1Fh'
table_id = 'tblf65891zddbPvVq'  # Reemplaza los espacios con %20 para la URL
files = ['jugadores_stats.csv']

headers = {"Authorization": f"Bearer {api_key}",
           "Content-Type" : "application/json"}

def subir_datos_a_airtable(files, base_id, table_id, headers):

    endpoint = f"https://api.airtable.com/v0/{base_id}/{table_id}"

    for file_name in files:

        df = pd.read_csv('data/' + file_name)

        datos_json = [{"fields" : df.iloc[i, :].to_dict()} for i in range(df.shape[0])]

        # Divide los registros en lotes y los sube a Airtable
        batch_size = 10
        
        for i in range(0, df.shape[0], batch_size):
    
            data = {"records" : datos_json[i : i + batch_size]}
            
            response = requests.post(url = endpoint, json = data, headers = headers) # POST

            print(response.status_code)  # Comprobamos que está correcto. Si sale 200 
            
            sleep(0.5)


# Llama a la función para subir los datos a Airtable
subir_datos_a_airtable(files = files, base_id = base_id, table_id = table_id, headers = headers)





200
200
200
200
200
200
200


In [109]:
## Con este código conseguimos descargar los datos de cien en cien de Airtable y posteriormente unirlos y convertirlos a DataFrame

params = {"offset" : None}

df_airtable = pd.DataFrame()

endpoint = f"https://api.airtable.com/v0/{base_id}/{table_id}"

while params.get("offset") != None or df_airtable.shape[0] == 0:
    
    response = requests.get(url = endpoint, headers = headers, params = params)
    
    print(response.url)
    
    print(f"response: {response.status_code}") # Comprobamos que está todo correcto. Si sale 200.
    
    params["offset"] = response.json().get("offset")
    
    print(params.get("offset"))
    
    df_airtable = pd.concat([df_airtable, pd.json_normalize(response.json()["records"])], ignore_index = True)
    
    sleep(0.5)
    
df_airtable.shape[0]

https://api.airtable.com/v0/appsQqpaUzcR1S1Fh/tblf65891zddbPvVq
response: 200
itr3yOO3ADCB0lXMu/recjKu2MTt8y3sa2M
https://api.airtable.com/v0/appsQqpaUzcR1S1Fh/tblf65891zddbPvVq?offset=itr3yOO3ADCB0lXMu%2FrecjKu2MTt8y3sa2M
response: 200
None


136

In [110]:
## Aquí lo convertimos a DataFrame

df_airtable.columns = [x.split(".")[1] if "." in x else x for x in df_airtable.columns]

df_airtable

Unnamed: 0,id,createdTime,Player,%1stServePointsWon,%2ndServePointsWon,%ServiceGamesWon,%1st Serve Return Points Won,%Return Games Won,%Breaks Points Converted,%BreaksPointsSaved,%TieBreaks Won,%AvgWinLoss,%2nd Serve Return Points Won
0,rec0AvOBbLtrxxbZr,2023-04-09T10:00:30.000Z,Diego Schwartzman,61.8,47.7,67.5,33.2,27.7,41.8,58.7,36.8,22.200000,52.4
1,rec0NJMUmdocIXwgv,2023-04-09T09:51:00.000Z,Holger Rune,72.6,55.1,85.1,29.6,23.1,40.9,65.9,63.6,66.700000,50.7
2,rec1FhhjDw2b8jUSM,2023-04-09T09:51:01.000Z,Adrian Mannarino,71.4,55.7,80.8,28.0,20.4,37.7,54.7,50.0,56.300003,50.8
3,rec1iXnLhXKD8Wn6l,2023-04-09T10:00:26.000Z,Laslo Djere,72.6,51.2,81.8,27.2,21.0,40.1,65.7,29.6,56.300003,48.0
4,rec1jQHk7qb2Om2kW,2023-04-09T10:00:24.000Z,Daniil Medvedev,75.4,51.4,86.0,32.8,30.6,46.0,68.5,56.0,88.900000,55.2
...,...,...,...,...,...,...,...,...,...,...,...,...,...
131,recxPv190Vv7a6uf7,2023-04-09T10:00:23.000Z,Matteo Berrettini,79.6,52.0,88.5,29.5,18.8,35.8,67.1,50.0,50.000000,45.7
132,recyyZwam6zxFDKVD,2023-04-09T09:51:04.000Z,Alex De Minaur,69.7,50.8,77.6,33.7,29.4,43.3,61.3,52.6,70.600000,53.0
133,reczMaEhJWpquRbps,2023-04-09T09:51:05.000Z,Joao Sousa,67.2,47.2,71.5,29.9,19.8,34.6,56.0,26.7,20.000000,48.2
134,reczMfr5ABjcZIlvV,2023-04-09T09:51:04.000Z,Richard Gasquet,71.3,50.7,78.0,28.7,22.8,40.2,60.3,50.0,53.800000,51.1
