In [1]:
import pandas as pd
import os
from funciones_auxiliares import *
import warnings
warnings.filterwarnings('ignore')

# 3.1 *Estadisticas totales*

Las *estadisticas totales*, también conocidas como estadísticas acumuladas, es la información que representa las estadísticas obtenidas durante un jugador en un periodo de tiempo como puede ser un número de partidos específicos, una temporada o varias. En este notebook se buscará dar explicación de manera entendible y visualizada a todo el procesamiento realizado para la construcción de estas estadísticas a través de los siguientes puntos:
* **1. Base teórica de la construcción de las estadísticas.** Se realizará la explicación teórica de los pasos realizados para la construcción de este tipo de estadísticas.
* **2. Procesamiento de los datos.** Se realizará la explicación guiada del procesamiento de los datos para la construcción de las estadísticas totales.

A través de esos puntos se realizará la comprensión y entendimiento del trabajo realizado para la construcción de las *estadísticas totales*.

## 1. Base teórica de la construcción de las estadísticas

Como se ha comentado al inicio de este notebook, las *estadísticas totales*, es el tipo de información que representa las estadísticas obtenidas por un jugador a lo largo de un periodo de tiempo. Como ha sido explicado en el notebook [Descarga de *Box Score*.](2.3%20Box%20Score), han sido descargados todos los *Box Scores* de los partidos disputados entre las temporadas *2019-2020*, *2020-2021*, *2021-2022* y *2022-2023* siendo este el motivo que para la construcción de las *estadísticas totales* sean utilizado estos datos.

Para la construcción de este tipo de estadísticas, se realizará el sumatorio de todos los apartados estadísticos descargados para cada jugador en una temporada y un equipo específico teniendo así todas las estadísticas obtenidas por un jugador durante cada una de las temporadas dependiendo del equipo en el que hayan participado en la competición. Para la creación de este tipo de estadística ha sido desarrollado el código [03_Procesamiento_PBP](03_Procesamiento_PBP.py) que permite el procesamiento de cada uno de los *Box Score* descargados.

# 2. Procesamiento de los datos

Para poder comprender el procesamiento realizado sobre los datos, se pasa a realizar la carga de todas las estadísticas obtenidas por el jugador *Sergio Llull* durante la temporada *2022-2023* en el equipo *Real Madrid*:

In [2]:
# Ruta para acceder a la información del Real Madrid en la temporada 2022
ruta_equipo = 'E:/TFM/02. Datos/ACB/EQUIPOS/2022/Real Madrid'

# Ruta para acceder al fichero de estadísticas totales del Real Madrid y sus rivales
fichero_total_2022 = 'E:/TFM/02. Datos/ACB/ESTADISTICAS/2022/Real Madrid/01_ESTADISTICAS_TOTALES_EQUIPO.csv'
fichero_total_rival_2022 = 'E:/TFM/02. Datos/ACB/ESTADISTICAS/2022/Real Madrid/01_ESTADISTICAS_TOTALES_RIVAL.csv'

# Ruta de estadísticas
ruta_estadisticas = 'E:/TFM/02. Datos/ACB/ESTADISTICAS'

df_jugador = pd.DataFrame()
l_partidos = os.listdir(ruta_equipo)
equipo = 'Real Madrid'
jugador = 'S. Llull'

for partido in l_partidos:
    ruta_dir_partido = ruta_equipo + '/' + partido
    l_elementos = os.listdir(ruta_dir_partido)
    
    # Se realiza la selección de los ficheros y la carga de ellos
    nombre_fichero_equipo = [elem for elem in l_elementos if equipo in elem and 'VS' not in elem and 'CARTA_TIRO' not in elem][0]
    nombre_fichero_rival = [elem for elem in l_elementos if equipo not in elem and 'VS' not in elem and 'CARTA_TIRO' not in elem][0]
    
    df_fichero_equipo = pd.read_csv(ruta_dir_partido + '/' + nombre_fichero_equipo, sep=';')
    df_fichero_rival = pd.read_csv(ruta_dir_partido + '/' + nombre_fichero_rival, sep=';')
    
    # Se realiza la selección del registro del jugador y del equipo rival
    df_fichero_jugador = df_fichero_equipo[df_fichero_equipo['JUGADOR'] == jugador]
    df_jugador = pd.concat([df_jugador,df_fichero_jugador])

print("################################################################################")
print("# ESTADISTICAS EN CADA PARTIDO JUGADO DE SERGIO LULL EN LA TEMPORADA 2022-2023")
print("################################################################################") 
print("Nº de columnas:", len(df_jugador.columns))
print("Nº de registros:", len(df_jugador))
print("\n",df_jugador.to_string(index=False, col_space=4))    

################################################################################
# ESTADISTICAS EN CADA PARTIDO JUGADO DE SERGIO LULL EN LA TEMPORADA 2022-2023
################################################################################
Nº de columnas: 24
Nº de registros: 27

 Unnamed: 0  NO.  JUGADOR   MIN  PTS   T2  T2%   T3  T3%    TL  TL%   RO   RD   RT   AS  PÉR  REC  TAP   TR  MAT   FP   FR    +-  VAL
       NaN 23.0 S. Llull 22:37   11  1/1 100%  3/7  42%   0/0   0%    0    1    1    7    1    0    0    1    0    1    0  17.0 12.0
       NaN 23.0 S. Llull 16:11    5  1/1 100%  1/3  33%   0/0   0%    0    2    2    4    0    0    0    0    0    2    0   4.0  7.0
       NaN 23.0 S. Llull 13:01    4  1/2  50%  0/1   0%   2/2 100%    0    2    2    2    2    1    0    0    0    4    1  -8.0  2.0
       NaN 23.0 S. Llull 19:48    4  1/4  25%  0/0   0%   2/3  66%    1    2    3    6    0    1    0    0    0    1    3   5.0 12.0
       NaN 23.0 S. Llull 16:30    5  1/5  20%  1/3  3

Como puede observarse, y como se vío en la explicación de la información descargada, existe el campo *Unnamed:0* el cual se encuentra vacío además de contar con campos como *MIN*, *T2*, *T2%*, *T3*, *T3%*, *TL* y *TL%* que se encuentran en formato que no permite el sumatorio de estos directamente. Es por este motivo que ha sido realizado un procesamineto de los datos el cual cosiste en la eliminación de la columna *Unnamed: 0*, la conversión del campo *MIN* únicamente a minutos, la eliminación de los campos que representan los porcentajes de tiro y la división en tiros lanzados y tiros anotados de cada uno de los campos de tiro. Teniendo esto presente, y tras realizar el procesamiento, los datos quedan de la siguiente manera:

In [3]:
print("################################################################################")
print("# PROCESAMIENTO DE ESTADISTICAS DE SERGIO LULL EN LA TEMPORADA 2022-2023")
print("################################################################################") 
df_jugador_precesado = procesar_BS(df_jugador)
print("Nº de columnas:", len(df_jugador_precesado.columns))
print("Nº de registros:", len(df_jugador_precesado))
print("\n",df_jugador_precesado.to_string(index=False, col_space=4)) 

################################################################################
# PROCESAMIENTO DE ESTADISTICAS DE SERGIO LULL EN LA TEMPORADA 2022-2023
################################################################################
Nº de columnas: 23
Nº de registros: 27

  NO.  JUGADOR  MIN  PTS   RO   RD   RT   AS  PER  REC  TAP   TR  MAT   FP   FR    +-  VAL  T2A  T2L  T3A  T3L  TLA  TLL
  23 S. Llull   23   11    0    1    1    7    1    0    0    1    0    1    0  17.0 12.0    1    1    3    7    0    0
  23 S. Llull   16    5    0    2    2    4    0    0    0    0    0    2    0   4.0  7.0    1    1    1    3    0    0
  23 S. Llull   13    4    0    2    2    2    2    1    0    0    0    4    1  -8.0  2.0    1    2    0    1    2    2
  23 S. Llull   20    4    1    2    3    6    0    1    0    0    0    1    3   5.0 12.0    1    4    0    0    2    3
  23 S. Llull   17    5    0    1    1    2    0    0    0    0    0    0    1 -17.0  3.0    1    5    1    3    0    0
  23

Como puede observarse, han sido añadiddas las columnas *T2A*, *T2L*, *T3A*, *T3L*, *TLA* y *TLL* además de eliminar la columna con elementos vacíos y convertir la variable *MIN*. A través de esta información se pasa a construir las estadísticas totales del jugador a lo largo de la temporada mediante el sumatorio de cada uno de los registros:

In [4]:
print("################################################################################")
print("# SUMATORIO DE ESTADISTICAS DE SERGIO LULL EN LA TEMPORADA 2022-2023")
print("################################################################################")
df_jugador_agrupado = df_jugador_precesado.groupby(by=['NO.','JUGADOR']).sum().reset_index() 
print("Nº de columnas:", len(df_jugador_agrupado.columns))
print("Nº de registros:", len(df_jugador_agrupado))
print("\n",df_jugador_agrupado.to_string(index=False, col_space=4)) 

################################################################################
# SUMATORIO DE ESTADISTICAS DE SERGIO LULL EN LA TEMPORADA 2022-2023
################################################################################
Nº de columnas: 23
Nº de registros: 1

  NO.  JUGADOR  MIN  PTS   RO   RD   RT   AS  PER  REC  TAP   TR  MAT   FP   FR   +-   VAL  T2A  T2L  T3A  T3L  TLA  TLL
  23 S. Llull  416  166    6   36   42   72   27   15    1    5    0   29   46 80.0 174.0   23   61   27   87   39   48


Como puede observarse, tras la aplicación del sumatorio, se obtienen la estadísticas del jugador a lo largo de la temporada. Además de las estadísticas totales de cada jugador, también han sido construidas las estadísticas totales de cada uno de los equipos y de sus rivales las cuales serán utilizadas para la construcción de futuras estadísticas:

In [5]:
# Se realiza la carga de los ficheros de estadísticas totales
df_totales_2022 = pd.read_csv(fichero_total_2022, sep = ';')
df_totales_rival_2022 = pd.read_csv(fichero_total_rival_2022, sep = ';')

print("##################################################################################")
print("# ESTADISTICAS TOTALES DE LOS JUGADORES DEL REAL MADRID EN LA TEMPORADA 2022-2023")
print("##################################################################################")
print("Nº de columnas:", len(df_totales_2022.columns))
print("Nº de registros:", len(df_totales_2022))
print("\n",df_totales_2022.to_string(index=False, col_space=4)) 

print("\n##################################################################################")
print("# ESTADISTICAS TOTALES DE LOS RIVALES DEL REAL MADRID EN LA TEMPORADA 2022-2023")
print("##################################################################################")
print("Nº de columnas:", len(df_totales_rival_2022.columns))
print("Nº de registros:", len(df_totales_rival_2022))
print("\n",df_totales_rival_2022.to_string(index=False, col_space=4)) 

##################################################################################
# ESTADISTICAS TOTALES DE LOS JUGADORES DEL REAL MADRID EN LA TEMPORADA 2022-2023
##################################################################################
Nº de columnas: 23
Nº de registros: 19

  NO.         JUGADOR  MIN  PTS   RO   RD   RT   AS  PER  REC  TAP   TR  MAT   FP   FR    +-   VAL  T2A  T2L  T3A  T3L  TLA  TLL
   0 N.Williams-Goss  370  137    6   35   41   63   23   16    5    5    0   39   13 154.0 144.0   42   79   16   41    5    7
   1      F. Causeur  562  238    7   48   55   47   32   25    4   10    0   52   47 167.0 201.0   49   94   37  102   29   40
  11      M. Hezonja  570  282   11  114  125   40   44   23    8    4    8   59   49 126.0 301.0   51   92   46  116   42   50
  13    S. Rodríguez  447  156    4   45   49  101   42   12    0    2    0   37   36  49.0 204.0   23   48   30   71   20   23
  14         G. Deck  473  209   31   79  110   37   23   16    2    7 