In [1]:
import pandas as pd
import os
from funciones_auxiliares import *
import warnings
warnings.filterwarnings('ignore')

# 2.5 Descarga de las *Cartas de tiro*

Las *Cartas de tiro* es representación visual que se realiza en los partidos de baloncesto para representar las zonas en las que los jugadores de baloncestoa han realizado sus tiros. A través de este notebook se buscará dar explicación del lugar de donde ha sido extraida la informació como a que información ha sido descargada. Para ello, se estructurará el notebook en los siguiente puntos:

* **1. Descripción del portal web.** Se hará una revisión de la información que es almacenada dentro del portal y se explicará el método de descarga de cada uno de las cartas de tiro realizadas por los equipos y jugadores.
* **2. Revisión de información y estructura de los ficheros.** Tras la descarga de la información, se hará una revisión de la información individualizada de los ficheros descargados y la revisión conjunta de los ficheros descargados.

A través de esos puntos se realizará la comprensión y entendimiento del trabajo realizado para la descarga de los ficheros referentes al box score.

## 1. Descripción del portal web y método de descarga

Para la descarga de las *Cartas de tiro* de cada uno de los partidos ha sido utilizado la página web https://jv.acb.com/es/ que como se ha comentado en la sección de la creación del *Diccionario de partidos* es la página web en la que los aficionados puede ver los resultados y estadísticas de los partidos disputados. Como se mostró durante la creación del diccionario, cada partido disputado tiene una url la cual permite al usuario acceder a las estadísticas del partido. Esta url, está compuesta por el enlace a la página oficial de la jornada virtual de la liga junto a un identificador numérico del partido y la sección que se quiere visitar. Es por este motivo, que para poder acceder a las *Cartas de tiro* de cualquier partido la url debe estar compuesta por la url (https://jv.acb.com/es/), el identificador del partido y la sección *cartadetiro*.

Teniendo esto presente, se muestra a continuación el partido disputado en la temporada *2022-2023* entre el Básquet Girona y el Real Madrid durante la primera jornada de la temporada a la que se puede tener acceso mediante el enlace https://jv.acb.com/es/103350/cartadetiro. Dentro de la página web del partido, podemos encontras dos secciones, la primera de ellas es la siguiente:

![imagen](imagenes/ACB_MENU_CARTA_TIRO.png)

En esta primera sección podemos encontrar los equipos participantes en el encuentro, la fecha y el resultado del partido junto al tanteo por cuartos. Además, se puede observar como la *Carta de tiro* se encuentra dentro del apartado *Estadísticas* en su sección de *Carta de Tiro*.

Por otro lado, la segunda sección de la página web es en la que se muestra la *Carta de tiro* de los equipos. En esta sección se muestra lo siguiente:

![imagen](imagenes/ACB_CARTA_TIRO.png)

Como puede observar, en la imagen, se puede dividir en tres apartados:
* *Pista central.* Es la parte centrla de la sección y en ella se muestran los tiros realizados por el equipo local (a la drecha) y el equipo visitante (a la izquierda).
* *Botenes de equipo y jugadores.* A ambos lados de la pista central, se encuentra los botones que permiten seleccionar que tiros de los jugadores quieren visualizarse en la pista central.
* *Botones de tiros y periodos.* Encima de la pista central, pueden seleccionarse los tipos de tiros que quieren visualizarse y el periodo en el que se quieren visualizar esos tiro.

A través del *Diccionario de partidos* y técnicas de web scrapping que permite la interacción con el navegador y la descargar del código fuente de partidos, han sido descargados todas las *Cartas de tiro* de los partidos recogidos dentro del diccionario. Para esta descarga, ha sido desarrolla el script de código [05_Descargar_Carta_Tiro](05_Descargar_Carta_Tiro.py) que permite la descarga y almacenamiento de las *Cartas de tiro* de ambos equipos en las rutas establecidas.

## 2. Revisión de información y estructura de los ficheros

Como ha sido comentado durante el apartado anterior, se ha realizado la descarga de todas las *Cartas de tiro* de los partidos almacenados en el *Diccionario de partidos*. Es por este motivo que para entender y explicar que información ha sido descargada, se pasa a realizar la carga del primer partido disputado en cada temporada en la primera jornada:

In [2]:
# Ruta para acceder a la información de las jornas de cada una de las temporadas
ruta_jornadas = 'E:/TFM/02. Datos/ACB/JORNADAS'

# Ruta al primer partido de cada temporada
partido_2019 = 'E:/TFM/02. Datos/ACB/JORNADAS/2019/Jornada 1/20190924_Montakit Fuenlabrada_VS_San Pablo Burgos/Montakit Fuenlabrada_CARTA_TIRO.csv'
partido_2020 = 'E:/TFM/02. Datos/ACB/JORNADAS/2020/Jornada 1/20200919_Acunsa GBC_VS_Real Madrid/Acunsa GBC_CARTA_TIRO.csv'
partido_2021 = 'E:/TFM/02. Datos/ACB/JORNADAS/2021/Jornada 1/20210918_Coosur Real Betis_VS_MoraBanc Andorra/Coosur Real Betis_CARTA_TIRO.csv'
partido_2022 = 'E:/TFM/02. Datos/ACB/JORNADAS/2022/Jornada 1/20220928_Bàsquet Girona_VS_Real Madrid/Bàsquet Girona_CARTA_TIRO.csv'

# Lectura de un partido de muestra cada temporada
df_partido_2019 = pd.read_csv(partido_2019, sep=';')
df_partido_2020 = pd.read_csv(partido_2020, sep=';')
df_partido_2021 = pd.read_csv(partido_2021, sep=';')
df_partido_2022 = pd.read_csv(partido_2022, sep=';')

Tras realizar la carga de los cuatro partidos, se pasa a mostrar que información ha sido cargada de cada una de las *Cartas de tiro*:

In [3]:
print("###############################################")
print("# COLUMNAS DE LA CARTA DE TIRO EN CADA TEMPORADA")
print("###############################################")
l_col_2019 = [col for col in df_partido_2019.columns]
print("TEMPORADA 2019:",' | '.join(l_col_2019))
l_col_2020 = [col for col in df_partido_2020.columns]
print("TEMPORADA 2020:",' | '.join(l_col_2020))
l_col_2021 = [col for col in df_partido_2021.columns]
print("TEMPORADA 2021:",' | '.join(l_col_2021))
l_col_2022 = [col for col in df_partido_2022.columns]
print("TEMPORADA 2022:",' | '.join(l_col_2022))

###############################################
# COLUMNAS DE LA CARTA DE TIRO EN CADA TEMPORADA
###############################################
TEMPORADA 2019: D | NOMBRE | href | x | y
TEMPORADA 2020: D | NOMBRE | href | x | y
TEMPORADA 2021: D | NOMBRE | href | x | y
TEMPORADA 2022: D | NOMBRE | href | x | y


Como se puede observar, en las cuatro temporadas, todos las tablas de *Cartas de tiro* cuentan con la siguiente información:
* D. Hace referencia al dorsal del jugador.
* NOMBRE. Hace referencia al nombre del jugador.
* href. Hace referencia a la etique que indica se ha sido anotado o fallado el tiro.
* x. Hace referencia a la posición espacial dentro del eje de la x.
* y. Hace referencia a la posición espacial dentro del eje de la y.


Se pasa a continuación a mostrar la información almacenada en el primer partido de la temporada *2022-2023*:

In [4]:
print("###############################################")
print("# ANÁLISIS DE LA CARTA DE TIRO 2022")
print("###############################################")

print("Nº de columnas:", len(df_partido_2022.columns))
print("Nº de registros:", len(df_partido_2022))
print("Valores posible en href:",' | '.join(df_partido_2022['href'].unique()))
print("Box Score 2022:")
print(df_partido_2022.to_string(index=False, col_space=8))

###############################################
# ANÁLISIS DE LA CARTA DE TIRO 2022
###############################################
Nº de columnas: 5
Nº de registros: 66
Valores posible en href: #local-out | #local-in | #local-dunk
Box Score 2022:
       D       NOMBRE        href          x          y
      33     M. Gasol  #local-out  27.072800 206.316667
      33     M. Gasol   #local-in 356.610738 107.283333
      33     M. Gasol   #local-in 151.417550 107.716667
      33     M. Gasol   #local-in  60.285099  85.366667
      33     M. Gasol  #local-out 113.653311 124.750000
      33     M. Gasol  #local-out  30.856717 208.316667
      33     M. Gasol  #local-out  34.584437 128.850000
      33     M. Gasol   #local-in 158.760596 158.300000
       5    K. Taylor   #local-in  24.750000 158.733333
       5    K. Taylor  #local-out 135.326537 141.866667
       5    K. Taylor   #local-in  24.750000 255.066667
       5    K. Taylor   #local-in  83.138458  86.650000
       5    K. Taylor  #

Como se puede observar, el dataframe cargado está compuesto por 66 registros que dan información a 5 variables. Dentro de cada una de las 5 variables a las que se da información se pueden encontrar los siguientes puntos interes:
* href. La variable href toma los valores posibles de #local-out cuando se produce un fallo del equipo local, #local-in cuando se produce un acierto del equipo local y #local-dunk cuando un jugador del equipo local realiza un mate.
* x e y. Toman valores numéricos representativo al eje que representan.

Analizada la información descargada, se pasa a realizar el análisis de volumetrías con respecto a los datos descargados para poder saber el volumen de información con la que se trabajará:

In [5]:
# Se seleccionan los directorios de las jornadas
l_dir_temporada = os.listdir(ruta_jornadas)

# Se inicializan los contadores para el estudio
contador_vacios = 0
contador_nulos = 0 
contador_registros = 0
contador_ficheros = 0
contador_partidos = 0
l_x = []
l_y = []

for dir_temporada in l_dir_temporada:
    ruta_temporada = ruta_jornadas + '/' + dir_temporada
    l_dir_jornadas = os.listdir(ruta_temporada)
    
    for dir_jornada in l_dir_jornadas:
        ruta_jornada = ruta_temporada + '/' + dir_jornada
        l_dir_partido = os.listdir(ruta_jornada)
        
        for dir_partido in l_dir_partido:
            
            # Se extraen los elemenos del partido
            ruta_partido = ruta_jornada + '/' + dir_partido
            l_elementos_partido = os.listdir(ruta_partido)
            
            # Se selecciona el nombre de los equipos del partido
            equipo_1 = dir_partido.split('_VS_')[0].split('_')[1]
            equipo_2 = dir_partido.split('_VS_')[1]
            
            # Se seleccionan los ficheros a cargar y se realizar su carga
            ct_equipo_1 = [elem for elem in l_elementos_partido if equipo_1 in elem and 'CARTA_TIRO' in elem and 'VS' not in elem][0]
            ct_equipo_2 = [elem for elem in l_elementos_partido if equipo_2 in elem and 'CARTA_TIRO' in elem and 'VS' not in elem][0]
            df_equipo_1 = pd.read_csv(ruta_partido + '/' + ct_equipo_1, sep=';')
            df_equipo_2 = pd.read_csv(ruta_partido + '/' + ct_equipo_2, sep=';')
                        
            contador_vacios = contador_vacios + df_equipo_1.isna().sum().sum() + df_equipo_2.isna().sum().sum()
            contador_registros = contador_registros + len(df_equipo_1) + len(df_equipo_2)
            contador_ficheros = contador_ficheros + 2
            contador_nulos = contador_nulos + (df_equipo_1 == '').sum().sum() + (df_equipo_2 == '').sum().sum()
            contador_partidos = contador_partidos + 1
            l_x.extend(df_equipo_1.x.unique())
            l_x.extend(df_equipo_2.x.unique())
            l_y.extend(df_equipo_1.y.unique())
            l_y.extend(df_equipo_2.y.unique())
            
print("###############################################")
print("# ANÁLISIS DE CONSISTENCIA EN LOS BOX SCORE")
print("###############################################")            
print("El número de partidos descargados es:", contador_partidos)
print("El número de ficheros de box score descargados es:",contador_ficheros)
print("El número de registros de box score descargados es:",contador_registros)
print("El número de valores vacíos dentro del dataframe es:",contador_vacios)
print("El número de valores nulos ('') dentro del dataframe es:",contador_nulos)
print("El eje de la X tiene como mínimo el valor",str(min(l_x)), "y como máximo", str(max(l_x)))
print("El eje de la Y tiene como mínimo el valor",str(min(l_y)), "y como máximo", str(max(l_y)))

###############################################
# ANÁLISIS DE CONSISTENCIA EN LOS BOX SCORE
###############################################
El número de partidos descargados es: 1192
El número de ficheros de box score descargados es: 2384
El número de registros de box score descargados es: 151768
El número de valores vacíos dentro del dataframe es: 0
El número de valores nulos ('') dentro del dataframe es: 0
El eje de la X tiene como mínimo el valor 6.017738883632944 y como máximo 501.1675969725639
El eje de la Y tiene como mínimo el valor 16.25 y como máximo 266.25


Como se puede observar, el número de partidos para los que se ha descargado información es de 1.192 en los cuales se almacena información de 2.384 box scores y dentro de las tablas de información donde se almacenan las cartas de tiro no se encuentran valores vacíos. Por otro lado, con respecto a los ejex, se puede observar como eje de la x tiene como cota inferior 6 y como cota superior 501 mientras que el eje de la y tiene como cota inferior 16 y como cota superiro 266.