In [1]:
import pandas as pd
import os
import matplotlib.pyplot as plt
from funciones_auxiliares import *
import warnings
import numpy as np
warnings.filterwarnings('ignore')

# 5.1 Construcción de tablón de estadísticas

A través de este notebook se dará explicación a la creación del *Tablón de estadísticas* que se será el conjunto de datos en el que se almacenen las estadísticas de los jugadores de baloncesto a lo largo de una temporada que se han cosiderado interesantes para su utilización en los análisis. Es por este motivo que, en este notebook, se inclurá los siguientes apartados:
* **1. Selección de información.** Tras la descarga y análisis de la información estadistica de los jugadores de baloncesto, se realizará la selección de las variables más interesantes para el estudio.
* **2. Filtrado de variables.** Tras el análisis de la información se realizará el filtrado del conjunto de datos con el fin de obtener únicamente la información de jugadores que sea validable.
* **3. Construcción de variables.** Se realizará la construcción de las nuevas variables que se han considerado interesantes.
* **4. Creación del tablón de estadísticas.** Se realizará la creación y guardado del tablón de estadísticas que será utilizado para los análisis.

A través de estos puntos se espera dar explicación a los motivos de la creación del conjunto de datos además de obtener un tablón que será utilizado en los análisis posteriores.

## 1. Selección de información

Como se ha comentado al inicio de este notebook, el *Tablón de estadísticas*, es el conjunto de datos en el que se almacena la información estadística de los jugadores de baloncesto durante diversas temporadas de la ACB y que será utilizada en los futuros análisis de este Trabajo de Fin de Máster. Es por este motivo, que para la selección de las variables, se pasa a realizar la carga de las *Estadísticas totales individuales*, *Estadísticas totales de tiro* y *Estadísticas avanzadas individuales* junto al tablón de información de jugadores para la selección de variables. Antes de la carga, y como se observo durante los análisis realizados sobre las *Estadísticas totales de tiro* ha sido decidido no seleccionar la información referente a la temporada *2019-2020+ debido a su falta de consistencia en este tipo de estadística. Dicho esto, se pasa a realizar la carga de los ficheros para realizar la selección de variables:

In [2]:
# Ruta de estadísticas
ruta_estadisticas = 'E:/TFM/02. Datos/ACB/ESTADISTICAS'

# Se realiza la inicialización del tablon de estadísticas
df_estadisticas_totales_liga = pd.DataFrame()
df_cartas_tiro_liga = pd.DataFrame()
df_estadisticas_avanzadas_liga = pd.DataFrame()
df_tabla_control_liga = pd.DataFrame()
# Se extrae el listado de directorios de temporadas
l_dir_temporadas = ['2020', '2021', '2022']

for temporada in l_dir_temporadas:
    # Se extrae el listado de directorios de equipos
    ruta_dir_temporada = ruta_estadisticas + '/' + temporada
    l_dir_equipos = os.listdir(ruta_dir_temporada)
    
    for equipo in l_dir_equipos:
        # Se inicializa la ruta de estadísticas de un equipo
        ruta_dir_estadisticas_equipo = ruta_dir_temporada + '/' + equipo
        
        # Se realiza la carga de ficheros de estadísticas de jugadores
        df_estadisticas_totales = pd.read_csv(ruta_dir_estadisticas_equipo + '/01_ESTADISTICAS_TOTALES_EQUIPO.csv', sep = ';')
        df_cartas_tiro = pd.read_csv(ruta_dir_estadisticas_equipo + '/02_ESTADISTICAS_CARTA_TIRO_EQUIPO.csv', sep = ';')
        df_estadisticas_avanzadas = pd.read_csv(ruta_dir_estadisticas_equipo + '/04_ESTADISTICAS_AVANZADAS.csv', sep = ';')
        df_tabla_control = pd.read_csv(ruta_dir_estadisticas_equipo + '/05_INFORMACION_JUGADORES.csv', sep = ';')
        
        # Se realiza el ajuste de las tablas para su cruce
        df_estadisticas_totales = df_estadisticas_totales.rename(columns={'NO.':'DORSAL','JUGADOR':'JUGADOR_BS'})
        df_cartas_tiro = df_cartas_tiro.rename(columns={'D':'DORSAL','NOMBRE':'JUGADOR_CT'})
        df_estadisticas_avanzadas = df_estadisticas_avanzadas.rename(columns={'NO.':'DORSAL','JUGADOR':'JUGADOR_BS'})
        df_tabla_control = df_tabla_control[['DORSAL','JUGADOR','JUGADOR_BS','JUGADOR_CT']]

        # Se incluye la temporada y el equipo a cada uno de los conjuntos de datos
        df_estadisticas_totales['EQUIPO'] = equipo
        df_cartas_tiro['EQUIPO'] = equipo
        df_estadisticas_avanzadas['EQUIPO'] = equipo
        df_tabla_control['EQUIPO'] = equipo
        df_estadisticas_totales['TEMPORADA'] = temporada
        df_cartas_tiro['TEMPORADA'] = temporada
        df_estadisticas_avanzadas['TEMPORADA'] = temporada
        df_tabla_control['TEMPORADA'] = temporada

        # Se añaden las tablas cargas del equipo al tablón de la liga
        df_estadisticas_totales_liga = pd.concat([df_estadisticas_totales_liga,df_estadisticas_totales])
        df_cartas_tiro_liga = pd.concat([df_cartas_tiro_liga,df_cartas_tiro])
        df_estadisticas_avanzadas_liga = pd.concat([df_estadisticas_avanzadas_liga,df_estadisticas_avanzadas])
        df_tabla_control_liga = pd.concat([df_tabla_control_liga,df_tabla_control])

print("#############################################################")
print("# ESTADÍSTICAS TOTALES DE JUGADORES")
print("#############################################################")
print("Nº de registros:",df_estadisticas_totales_liga.shape[0])
print("Nº de columnas:",df_estadisticas_totales_liga.shape[1])
print(df_estadisticas_totales_liga.head().to_string(index=False, col_space=4))

print("\n#############################################################")
print("# ESTADÍSTICAS DE TIRO DE JUGADORES")
print("#############################################################")
print("Nº de registros:",df_cartas_tiro_liga.shape[0])
print("Nº de columnas:",df_cartas_tiro_liga.shape[1])
print(df_cartas_tiro_liga.head().to_string(index=False, col_space=1))

print("\n#############################################################")
print("# ESTADÍSTICAS AVANZADAS DE JUGADORES")
print("#############################################################")
print("Nº de registros:",df_estadisticas_avanzadas_liga.shape[0])
print("Nº de columnas:",df_estadisticas_avanzadas_liga.shape[1])
print(df_estadisticas_avanzadas_liga.head().to_string(index=False, col_space=4))

print("\n#############################################################")
print("# TABLA DE CONTROL DE JUGADORES")
print("#############################################################")
print("Nº de registros:",df_tabla_control_liga.shape[0])
print("Nº de columnas:",df_tabla_control_liga.shape[1])
print(df_tabla_control_liga.head().to_string(index=False, col_space=4))

#############################################################
# ESTADÍSTICAS TOTALES DE JUGADORES
#############################################################
Nº de registros: 1030
Nº de columnas: 25
 DORSAL  JUGADOR_BS  MIN  PTS   RO   RD   RT   AS  PER  REC  TAP   TR  MAT   FP   FR     +-   VAL  T2A  T2L  T3A  T3L  TLA  TLL     EQUIPO TEMPORADA
      0  B. Francis  240   73    5   11   16    7   23   10    2    1    0 28.0   10  -96.0   2.0   16   49   10   37   11   15 Acunsa GBC      2020
      1      J. Dee  747  382   11   57   68   41   52   29    1    6    0 83.0   56 -187.0 238.0   38  100   86  214   48   56 Acunsa GBC      2020
     11 W. Magarity  442  163   19   51   70   15   20    8   10    4    7 43.0   26 -144.0 130.0   33   66   25   83   22   26 Acunsa GBC      2020
     14 J. Olaizola  272   49   32   23   55    9   18   10    2    2    0 60.0   14  -89.0  23.0   19   35    2    9    5   18 Acunsa GBC      2020
     19    P. Tomàs  867  274   54  111  165   33   29

Como puede observaser, se ha cargado la información de las temporadas *2020-2021*, *2021-2022*, y *2022-2023* en cuantro conjuntos de datos diferentes. Se pasa a continuación a la contrucción de la tabla auxiliar en la que serán anexionadas todas las estadísticas para cada uno de los jugadores con el fin de tener la información en un primer conjunto de datos. Para ello, utilizando la tabla de control como referencia, se irán anexionando los conjuntos de estadísticas a esta tabla a partir de las variables *TEMPORADA*, *EQUIPO*, *DORSAL* y *JUGADOR*:

In [3]:
# Se realiza la unión entre la tabla de control con las estadísticas
df_tablon_estadisticas = df_tabla_control_liga.merge(df_estadisticas_totales_liga, on = ['TEMPORADA', 'EQUIPO', 'DORSAL', 'JUGADOR_BS'], how = 'left')
df_tablon_estadisticas = df_tablon_estadisticas.merge(df_estadisticas_avanzadas_liga, on = ['TEMPORADA', 'EQUIPO', 'DORSAL', 'JUGADOR_BS'], how = 'left')
df_tablon_estadisticas = df_tablon_estadisticas.merge(df_cartas_tiro_liga, on = ['TEMPORADA', 'EQUIPO', 'DORSAL', 'JUGADOR_CT'], how = 'left')


# Se solventan los problemas generados de la unión al no existir información de los jugadores
df_tablon_estadisticas = df_tablon_estadisticas.replace(float('inf'), 0)

print("#######################################")
print("# RESUMEN DEL TABLÓN DE ESTADISTICAS")
print("#######################################")
print("Nº de registros:",df_tablon_estadisticas.shape[0])
print("Nº de columnas:",df_tablon_estadisticas.shape[1])
print("Columnas de identificadores:", (' | ').join(df_tablon_estadisticas.columns[0:6]))
print("Columnas de estadísticas totales:", (' | ').join(df_tablon_estadisticas.columns[6:27]))
print("Columnas de estadísticas avanzadas:", (' | ').join(df_tablon_estadisticas.columns[27:38]))
print("Columnas de cartas de tiro:", (' | ').join(df_tablon_estadisticas.columns[38:]))
print("\n",df_tablon_estadisticas.head().to_string(index=False, col_space=4))

#######################################
# RESUMEN DEL TABLÓN DE ESTADISTICAS
#######################################
Nº de registros: 1012
Nº de columnas: 61
Columnas de identificadores: DORSAL | JUGADOR | JUGADOR_BS | JUGADOR_CT | EQUIPO | TEMPORADA
Columnas de estadísticas totales: MIN | PTS | RO | RD | RT | AS | PER | REC | TAP | TR | MAT | FP | FR | +- | VAL | T2A | T2L | T3A | T3L | TLA | TLL
Columnas de estadísticas avanzadas: eFG% | 3Pr | FTr | ORB% | DRB% | STL% | BLK% | TOV% | AST% | USG% | STOP%
Columnas de cartas de tiro: GRUPO 1_IN | GRUPO 1_OUT | GRUPO 10_IN | GRUPO 10_OUT | GRUPO 11_IN | GRUPO 11_OUT | GRUPO 2_IN | GRUPO 2_OUT | GRUPO 3_IN | GRUPO 3_OUT | GRUPO 4_IN | GRUPO 4_OUT | GRUPO 5_IN | GRUPO 5_OUT | GRUPO 6_IN | GRUPO 6_OUT | GRUPO 7_IN | GRUPO 7_OUT | GRUPO 8_IN | GRUPO 8_OUT | GRUPO 9_IN | GRUPO 9_OUT | Fuera de límites_OUT

  DORSAL        JUGADOR  JUGADOR_BS  JUGADOR_CT     EQUIPO TEMPORADA  MIN  PTS   RO   RD   RT   AS  PER  REC  TAP   TR  MAT   FP   FR     

Tras la unión de las distintos conjuntos de datos, ha sido generado un tablón en el que se representa la información de 1012 jugadores distintos en 61 variables estadísticas a lo largo de las temporadas *2020-2021*, *2021-2022* y *2022-2023+. Este cojunto de datos será utilizado para el resto de acciones que permitan la construcción del *Tablón de estadísticas*.

## 2. Filtrado de variables.

Con respecto al filtrado de variables, durante los análisis exploratorios de los distintos tipos de estadísticas, se puedieron observar los siguientes puntos de interes:
* *Variable *MIN*.* Dentro del tablón de *estadísticas totales individuales* se observó como existía un pequeño volumen de jugadores que no llegaban a los 92 minutos jugados. Es por este motivo que para contar con un conjunto de datos coherente, se seleccionarán únicamnete las estadísticas que aquellos jugadores que hayan participado como mínimo un total de 92 minutos.
* *Variables de *Estadísticas de tiro*.* Dentro del tablón de *estadísticas totales de tiro* se observó un gran número de jugadores que no había realizado ningún tiro desde ninguna posición en los partidos descargados. Es por este motivo que los jugadores que se encuentren en esta situación será eliminados del conjunto de datos.
* *Variable *eFG%*.* Dentro del tablón de *estadísticas avanzadas individuales* se observó como había jugadores que su eficiencia en el tiro tomaba un valor superior al 100%, esto se debe a que la muestra con la que cuentan estos jugaores no es suficientes para tomar una valor real y por lo tanto serán eliminados.
* *Variable *ORB%*.* Dentro del tablón de *estadísticas avanzadas individuales* se observó como había jugadores que su porcentaje de rebotes ofensivos tomaba un valor superior al 100%, esto se debe a que la muestra con la que cuentan estos jugaores no es suficientes para tomar una valor real y por lo tanto serán eliminados.

Por lo tanto, se pasa a realizar los filtros comentados sobre el conjunto de datos:

In [4]:
# Eliminación de jugadores que hayan jugado menos de 100 minutos
df_tablon_estadisticas = df_tablon_estadisticas[df_tablon_estadisticas['MIN'] > 100]

# Eliminación de jugadores de los que no se tenga información en tiros de campo
df_tablon_estadisticas = df_tablon_estadisticas[~df_tablon_estadisticas['GRUPO 1_IN'].isna()]

# Eliminación de jugadores que tengan valores incoherentes en la variable eFG%
df_tablon_estadisticas = df_tablon_estadisticas[(df_tablon_estadisticas['eFG%'] > 0) & (df_tablon_estadisticas['eFG%'] <= 1)]

# Eliminación de jugadores que tengan valores incoherentes en la variable ORB%
df_tablon_estadisticas = df_tablon_estadisticas[(df_tablon_estadisticas['ORB%'] > 0) & (df_tablon_estadisticas['ORB%'] <= 1)]

# Eliminación de jugadores que tengan valores incoherentes en la variable FTr
df_tablon_estadisticas = df_tablon_estadisticas[(df_tablon_estadisticas['FTr'] > 0) & (df_tablon_estadisticas['FTr'] <= 1)]

print("#######################################")
print("# RESUMEN DEL TABLÓN DE ESTADISTICAS")
print("#######################################")
print("Nº de registros:",df_tablon_estadisticas.shape[0])
print("Nº de columnas:",df_tablon_estadisticas.shape[1])
print("Columnas de identificadores:", (' | ').join(df_tablon_estadisticas.columns[0:6]))
print("Columnas de estadísticas totales:", (' | ').join(df_tablon_estadisticas.columns[6:27]))
print("Columnas de estadísticas avanzadas:", (' | ').join(df_tablon_estadisticas.columns[27:38]))
print("Columnas de cartas de tiro:", (' | ').join(df_tablon_estadisticas.columns[38:]))
print("\n",df_tablon_estadisticas.head().to_string(index=False, col_space=4))

#######################################
# RESUMEN DEL TABLÓN DE ESTADISTICAS
#######################################
Nº de registros: 752
Nº de columnas: 61
Columnas de identificadores: DORSAL | JUGADOR | JUGADOR_BS | JUGADOR_CT | EQUIPO | TEMPORADA
Columnas de estadísticas totales: MIN | PTS | RO | RD | RT | AS | PER | REC | TAP | TR | MAT | FP | FR | +- | VAL | T2A | T2L | T3A | T3L | TLA | TLL
Columnas de estadísticas avanzadas: eFG% | 3Pr | FTr | ORB% | DRB% | STL% | BLK% | TOV% | AST% | USG% | STOP%
Columnas de cartas de tiro: GRUPO 1_IN | GRUPO 1_OUT | GRUPO 10_IN | GRUPO 10_OUT | GRUPO 11_IN | GRUPO 11_OUT | GRUPO 2_IN | GRUPO 2_OUT | GRUPO 3_IN | GRUPO 3_OUT | GRUPO 4_IN | GRUPO 4_OUT | GRUPO 5_IN | GRUPO 5_OUT | GRUPO 6_IN | GRUPO 6_OUT | GRUPO 7_IN | GRUPO 7_OUT | GRUPO 8_IN | GRUPO 8_OUT | GRUPO 9_IN | GRUPO 9_OUT | Fuera de límites_OUT

  DORSAL        JUGADOR  JUGADOR_BS  JUGADOR_CT     EQUIPO TEMPORADA  MIN  PTS   RO   RD   RT   AS  PER  REC  TAP   TR  MAT   FP   FR     +

Como puede observarse, tras la aplicación de los filtros, el número de jugadores para los que se tiene información es de **752**. 

## 3. Construcción de variables.

Adicionalmente a las variables a las variables ya definidas en el resto de estadísticas, se ha visto la necesidad de crear 9 variables adicionales con respecto a las estadísticas de tiro que permitan representar cual es la zona de tiro preferida por el jugador y cual es la zona de tiro en la que el jugador tengan una mayor eficiencia. Es por este motivo que estas nuevas variables pueden dividirse en:
* Volumetrías de zonas tiro:
    * Volumen de tiro en *Pintura*. Representa los tiros realizados por el jugador dentro del grupo 1 con respecto al total de tiros realizados.
    * Volumen de tiro en *Media distancia*. Representa los tiros realizados por el jugador desde el grupo 2, 3, 4 y 6 con respecto al total de tiros realizados.
    * Volumen de tiro en *Triple frontal* . Representa los tiros realizados por el jugadores desde el grupo 8, 9 y 10 con respecto al total de tiros realizados.
    * Volumen de tiro en *Triple desde las esquinas*. Representa los tiros realizados por el jugadores desde el grupo 7 y 11 con respecto al total de tiros realizados.
* Porcentaje por zonas tiro:
    * Porcentaje de acierto en *Pintura*. Representa el porcentaje de acierto del jugador en el grupo 1. 
    * Porcentaje de acierto en *Media distancia*. Representa el porcentaje de acierto del jugador en los grupos 2, 3, 4 y 6.
    * Porcentaje de acierto en *Triple frontal*. Representa el porcentaje de acierto del jugador en los grupos 8, 9 y 10.
    * Porcentaje de acierto en *Triple desde las esquinas*. Representa el porcentaje de acierto del jugador en los grupos 7 y 11.
    * Porcentaje de acierto en *Tiro Libre*. Representa el porcentaje de acierto del jugador en el tiro libre.
 
Es por esto que se pasa a la creación de estas estadísticas y se pasa a mostras el resultado final del conjunto de datos:

In [5]:
# Se realiza el sumatorio de los tiros totales de cada uno de los jugadores
tiros_totales = (df_tablon_estadisticas['GRUPO 1_OUT'] + df_tablon_estadisticas['GRUPO 1_IN']) + (df_tablon_estadisticas['GRUPO 2_OUT'] + df_tablon_estadisticas['GRUPO 2_IN']) + (df_tablon_estadisticas['GRUPO 3_OUT'] + df_tablon_estadisticas['GRUPO 3_IN']) + (df_tablon_estadisticas['GRUPO 4_OUT'] + df_tablon_estadisticas['GRUPO 4_IN']) + (df_tablon_estadisticas['GRUPO 5_OUT'] + df_tablon_estadisticas['GRUPO 5_IN']) + (df_tablon_estadisticas['GRUPO 6_OUT'] + df_tablon_estadisticas['GRUPO 6_IN']) +(df_tablon_estadisticas['GRUPO 7_OUT'] + df_tablon_estadisticas['GRUPO 7_IN']) + (df_tablon_estadisticas['GRUPO 8_OUT'] + df_tablon_estadisticas['GRUPO 8_IN']) + (df_tablon_estadisticas['GRUPO 9_OUT'] + df_tablon_estadisticas['GRUPO 9_IN']) + (df_tablon_estadisticas['GRUPO 10_OUT'] + df_tablon_estadisticas['GRUPO 10_IN']) +(df_tablon_estadisticas['GRUPO 11_OUT'] + df_tablon_estadisticas['GRUPO 11_IN'])

# Se realiza la creación de los volumenes de tiro por zona 
df_tablon_estadisticas['PINTURA_p'] = df_tablon_estadisticas['GRUPO 1_IN'] / (df_tablon_estadisticas['GRUPO 1_OUT'] + df_tablon_estadisticas['GRUPO 1_IN'])
df_tablon_estadisticas['MID_RANGE_p'] = (df_tablon_estadisticas['GRUPO 2_IN'] + df_tablon_estadisticas['GRUPO 3_IN'] + df_tablon_estadisticas['GRUPO 4_IN'] + df_tablon_estadisticas['GRUPO 5_IN'] + df_tablon_estadisticas['GRUPO 6_IN']) / ((df_tablon_estadisticas['GRUPO 2_OUT'] + df_tablon_estadisticas['GRUPO 2_IN']) + (df_tablon_estadisticas['GRUPO 3_OUT'] + df_tablon_estadisticas['GRUPO 3_IN']) + (df_tablon_estadisticas['GRUPO 4_OUT'] + df_tablon_estadisticas['GRUPO 4_IN']) + (df_tablon_estadisticas['GRUPO 5_OUT'] + df_tablon_estadisticas['GRUPO 5_IN']) + (df_tablon_estadisticas['GRUPO 6_OUT'] + df_tablon_estadisticas['GRUPO 6_IN']))
df_tablon_estadisticas['3FRONT_p'] = (df_tablon_estadisticas['GRUPO 8_IN'] + df_tablon_estadisticas['GRUPO 9_IN'] + df_tablon_estadisticas['GRUPO 10_IN'])/ ((df_tablon_estadisticas['GRUPO 8_OUT'] + df_tablon_estadisticas['GRUPO 8_IN']) + (df_tablon_estadisticas['GRUPO 9_OUT'] + df_tablon_estadisticas['GRUPO 9_IN']) + (df_tablon_estadisticas['GRUPO 10_OUT'] + df_tablon_estadisticas['GRUPO 10_IN']))
df_tablon_estadisticas['3CORNER_p'] = (df_tablon_estadisticas['GRUPO 7_IN'] + df_tablon_estadisticas['GRUPO 11_IN'])/ ((df_tablon_estadisticas['GRUPO 7_OUT'] + df_tablon_estadisticas['GRUPO 7_IN']) + (df_tablon_estadisticas['GRUPO 11_OUT'] + df_tablon_estadisticas['GRUPO 11_IN']))

# Se realiza la creación de los porcentaje de acierto por zona 
df_tablon_estadisticas['PINTURA_v'] = (df_tablon_estadisticas['GRUPO 1_OUT'] + df_tablon_estadisticas['GRUPO 1_IN']) / tiros_totales
df_tablon_estadisticas['3CORNER_v'] = ((df_tablon_estadisticas['GRUPO 7_OUT'] + df_tablon_estadisticas['GRUPO 7_IN']) + (df_tablon_estadisticas['GRUPO 11_OUT'] + df_tablon_estadisticas['GRUPO 11_IN'])) / tiros_totales
df_tablon_estadisticas['3FRONT_v'] = ((df_tablon_estadisticas['GRUPO 8_OUT'] + df_tablon_estadisticas['GRUPO 8_IN']) + (df_tablon_estadisticas['GRUPO 9_OUT'] + df_tablon_estadisticas['GRUPO 9_IN']) + (df_tablon_estadisticas['GRUPO 10_OUT'] + df_tablon_estadisticas['GRUPO 10_IN'])) / tiros_totales
df_tablon_estadisticas['MID_RANGE_v'] = ((df_tablon_estadisticas['GRUPO 2_OUT'] + df_tablon_estadisticas['GRUPO 2_IN']) + (df_tablon_estadisticas['GRUPO 3_OUT'] + df_tablon_estadisticas['GRUPO 3_IN']) + (df_tablon_estadisticas['GRUPO 4_OUT'] + df_tablon_estadisticas['GRUPO 4_IN']) + (df_tablon_estadisticas['GRUPO 5_OUT'] + df_tablon_estadisticas['GRUPO 5_IN']) + (df_tablon_estadisticas['GRUPO 6_OUT'] + df_tablon_estadisticas['GRUPO 6_IN'])) / tiros_totales

# Se realiza el cálculo del porcentaje de acierto desde la línea de tiros libres
df_tablon_estadisticas['TL%'] = df_tablon_estadisticas['TLA'] / df_tablon_estadisticas['TLL']
df_tablon_estadisticas = df_tablon_estadisticas.fillna(0.00)

print("#######################################")
print("# RESUMEN DEL TABLÓN DE ESTADISTICAS")
print("#######################################")
print("Nº de registros:",df_tablon_estadisticas.shape[0])
print("Nº de columnas:",df_tablon_estadisticas.shape[1])
print("Columnas de identificadores:", (' | ').join(df_tablon_estadisticas.columns[0:6]))
print("Columnas de estadísticas totales:", (' | ').join(df_tablon_estadisticas.columns[6:27]))
print("Columnas de estadísticas avanzadas:", (' | ').join(df_tablon_estadisticas.columns[27:38]))
print("Columnas de cartas de tiro:", (' | ').join(df_tablon_estadisticas.columns[38:]))
print("\n",df_tablon_estadisticas.head().to_string(index=False, col_space=4))

#######################################
# RESUMEN DEL TABLÓN DE ESTADISTICAS
#######################################
Nº de registros: 752
Nº de columnas: 70
Columnas de identificadores: DORSAL | JUGADOR | JUGADOR_BS | JUGADOR_CT | EQUIPO | TEMPORADA
Columnas de estadísticas totales: MIN | PTS | RO | RD | RT | AS | PER | REC | TAP | TR | MAT | FP | FR | +- | VAL | T2A | T2L | T3A | T3L | TLA | TLL
Columnas de estadísticas avanzadas: eFG% | 3Pr | FTr | ORB% | DRB% | STL% | BLK% | TOV% | AST% | USG% | STOP%
Columnas de cartas de tiro: GRUPO 1_IN | GRUPO 1_OUT | GRUPO 10_IN | GRUPO 10_OUT | GRUPO 11_IN | GRUPO 11_OUT | GRUPO 2_IN | GRUPO 2_OUT | GRUPO 3_IN | GRUPO 3_OUT | GRUPO 4_IN | GRUPO 4_OUT | GRUPO 5_IN | GRUPO 5_OUT | GRUPO 6_IN | GRUPO 6_OUT | GRUPO 7_IN | GRUPO 7_OUT | GRUPO 8_IN | GRUPO 8_OUT | GRUPO 9_IN | GRUPO 9_OUT | Fuera de límites_OUT | PINTURA_p | MID_RANGE_p | 3FRONT_p | 3CORNER_p | PINTURA_v | 3CORNER_v | 3FRONT_v | MID_RANGE_v | TL%

  DORSAL        JUGADOR  JUGADOR_BS

Como puede observarse, tras la creación de las nueve estadísticas, el conjunto de datos cuenta con **70** variables.

## 4. Creación del tablón de estadísticas

Tras la realización de los pasos anteriores, se pasa a realizar la construcción del *Tablon de estadísticas* en el cual será representado cada jugador a partir de diferentes variables estadísticas que permitan conocer el desempeño de este durante los partidos de baloncesto. Es por este motivo que, las variables que han sido seleccionadas son las siguientes:
* *ORB%*. Se selecciona el porcentaje de rebote ofensivo capturado por un jugador debido a que esta variable permite poner el valor del RO en el contexto de cuantos rebotes había disponibles.
* *DRB%*. Se selecciona el porcentaje de rebote defensivo capturado por un jugador debido a que esta variable permite poner el valor del RD en el contexto de cuantos rebotes había disponibles.
* *STL%*. Se selecciona el porcentaje de pérdidas realizadas debido a que esta variable permite conocer el volumen de perdidas realizadas por un jugador en función de su contexto.
* *BLK%*. Se selecciona el porcentaje de tapones realizadas debido a que esta variable permite conocer el volumen de tapones realizadas por un jugador en función de su contexto.
* *TOV%*. Se selecciona el porcentaje de pérdidas realizadas debido a que esta variable permite conocer el volumen de acciones que finalizó el jugador y que acabaron en pérdida.
* *AST%*. Se selecciona el porcentaje de asistencias realizadas debido a que esta variable permite conocer el volumen de asistencias realizadas por un jugador en función de su contexto.
* *FTr*. Se selecciona el volumen de tiros libres debido a que esta variable permite conocer la verticalidad que tiene un jugador de baloncesto.
* *Volumen y porcentajes de zonas de tiro.* Se seleccionan las variables construidas con respecto a las zonas de tiro para conocer las preferencias de los jugadores y zonas en los que estos son más efectivos.

Se pasa a la construcción y guardado del *Tablon de estadísticas* el cual contará con 16 variables y estadísticas y 4 variables identificadoras para dar información a 756 registros:

In [6]:
# Se realiza la selección de las variables
df_tablon_estadísticas_final = df_tablon_estadisticas[['TEMPORADA', 'EQUIPO', 'DORSAL', 'JUGADOR_BS','ORB%','DRB%', 'STL%', 'BLK%', 'TOV%', 'AST%','FTr','TL%', 'PINTURA_p', 'PINTURA_v', 'MID_RANGE_p', 'MID_RANGE_v','3FRONT_p', '3FRONT_v', '3CORNER_p', '3CORNER_v']]

# Se realiza el guardado de las variables
ruta_tablon = 'E:/TFM/02. Datos/ACB/TABLON ESTADÍSTICAS'
df_tablon_estadísticas_final.to_csv(ruta_tablon + "/" + "TABLON_ESTADISTICAS_FINAL.csv", sep = ';', index=False)

print("#######################################")
print("# RESUMEN DEL TABLÓN DE ESTADISTICAS")
print("#######################################")
print("Nº de registros:",df_tablon_estadísticas_final.shape[0])
print("Nº de columnas:",df_tablon_estadísticas_final.shape[1])
print("Columnas de identificadores:", (' | ').join(df_tablon_estadísticas_final.columns[0:4]))
print("Columnas de estadísticas:", (' | ').join(df_tablon_estadísticas_final.columns[6:]))
print("\n",df_tablon_estadísticas_final.head().to_string(index=False, col_space=4))

#######################################
# RESUMEN DEL TABLÓN DE ESTADISTICAS
#######################################
Nº de registros: 752
Nº de columnas: 20
Columnas de identificadores: TEMPORADA | EQUIPO | DORSAL | JUGADOR_BS
Columnas de estadísticas: STL% | BLK% | TOV% | AST% | FTr | TL% | PINTURA_p | PINTURA_v | MID_RANGE_p | MID_RANGE_v | 3FRONT_p | 3FRONT_v | 3CORNER_p | 3CORNER_v

 TEMPORADA     EQUIPO  DORSAL  JUGADOR_BS   ORB%   DRB%   STL%   BLK%   TOV%   AST%    FTr      TL%  PINTURA_p  PINTURA_v  MID_RANGE_p  MID_RANGE_v  3FRONT_p  3FRONT_v  3CORNER_p  3CORNER_v
     2020 Acunsa GBC       1      J. Dee 0.0164 0.1055 0.0210 0.0014 0.1343 0.0445 0.1783 0.857143   0.483333   0.192308     0.212766     0.150641  0.390863  0.631410      0.875   0.025641
     2020 Acunsa GBC       2    V. Okouo 0.1013 0.2618 0.0157 0.0180 0.1886 0.0105 0.3776 0.592593   0.538760   0.911661     0.217391     0.081272  0.000000  0.007067      0.000   0.000000
     2020 Acunsa GBC       3 L. Faggiano 0