# Análisis de los datos del dataset (tomando 2020-2024)

Se toman los datos desde 2020 hasta 2024 para realizar el análisis.

---

## Obtención de los datos

In [None]:
exec(open('../src/csv_manager.py').read())

df_combined = append_csv('statcast_raw_data', 2023, 2024)

Datos leídos desde: ../data/statcast_raw_data/statcast_2023.csv con 771057 filas y 118 columnas
Datos leídos desde: ../data/statcast_raw_data/statcast_2024.csv con 757714 filas y 118 columnas
Datos combinados: 1528771 filas y 118 columnas en total


---

## Vista general de los datos

In [None]:
import pandas as pd
pd.set_option('display.max_rows', None)

print("=== Vista previa de los datos 2024 ===")
filas, columnas = df_combined.shape
print(f"\nDatos totales: {filas:,} filas y {columnas} columnas")

print("\nTipos de datos:")
print(df_combined.dtypes)

=== Vista previa de los datos 2024 ===

Datos totales: 1,528,771 filas y 118 columnas

Tipos de datos:
pitch_type                                   object
game_date                                    object
release_speed                               float64
release_pos_x                               float64
release_pos_z                               float64
player_name                                  object
batter                                        int64
pitcher                                       int64
events                                       object
description                                  object
spin_dir                                    float64
spin_rate_deprecated                        float64
break_angle_deprecated                      float64
break_length_deprecated                     float64
zone                                        float64
des                                          object
game_type                                    object
stand        

---

## Espacio ocupado por el dataframe

In [3]:
memory_usage = df_combined.memory_usage(deep=True).sum()
print(f"\nEl dataframe combinado ocupa {memory_usage / (1024 ** 2):.2f} MB en memoria.")


El dataframe combinado ocupa 2498.63 MB en memoria.


---

## Análisis de los datos

### Cantidad de duplicados

In [4]:
duplicados = df_combined.duplicated().sum()
print(f"\nNúmero de filas duplicadas: {duplicados}")


Número de filas duplicadas: 0


### Valores faltantes por columna

In [5]:
print("Valores faltantes por columna:")
valores_faltantes = df_combined.isnull().sum()
print(valores_faltantes)

Valores faltantes por columna:
pitch_type                                    30105
game_date                                         0
release_speed                                 31312
release_pos_x                                 31310
release_pos_z                                 31310
player_name                                       0
batter                                            0
pitcher                                           0
events                                      1129875
description                                       0
spin_dir                                    1528771
spin_rate_deprecated                        1528771
break_angle_deprecated                      1528771
break_length_deprecated                     1528771
zone                                          31310
des                                               0
game_type                                         0
stand                                             0
p_throws                         

### Porcentaje de valores completos por columna

In [6]:
print("\nPorcentaje de valores completos por columna:")
porcentaje_completos = (1 - (valores_faltantes / filas)) * 100
porcentaje_completos = porcentaje_completos.sort_values(ascending=False)
print(porcentaje_completos.round(2))


Porcentaje de valores completos por columna:
game_date                                   100.00
player_name                                 100.00
away_team                                   100.00
description                                 100.00
pitcher                                     100.00
batter                                      100.00
type                                        100.00
home_team                                   100.00
game_type                                   100.00
des                                         100.00
p_throws                                    100.00
stand                                       100.00
balls                                       100.00
strikes                                     100.00
inning                                      100.00
game_year                                   100.00
outs_when_up                                100.00
inning_topbot                               100.00
fielder_2                           

### Completitud de columnas con base en tramos (10%)

In [8]:
for i in range(0, 100, 10):
    inicio = i
    fin = i + 10
    columnas_tramo = porcentaje_completos[(porcentaje_completos >= inicio) & (porcentaje_completos <= fin)]
    if not columnas_tramo.empty:
        print(f"\nColumnas con {inicio}% a {fin}% de datos completos:")
        print(columnas_tramo)


Columnas con 0% a 10% de datos completos:
on_3b                      9.532755
umpire                     0.000000
tfs_zulu_deprecated        0.000000
tfs_deprecated             0.000000
sv_id                      0.000000
break_length_deprecated    0.000000
break_angle_deprecated     0.000000
spin_rate_deprecated       0.000000
spin_dir                   0.000000
dtype: float64

Columnas con 10% a 20% de datos completos:
on_2b                             18.910942
bb_type                           17.659349
hc_x                              17.652219
hc_y                              17.652219
launch_speed_angle                16.972195
estimated_ba_using_speedangle     16.972195
estimated_slg_using_speedangle    16.972195
dtype: float64

Columnas con 20% a 30% de datos completos:
iso_value                          26.092593
babip_value                        26.092593
woba_value                         26.092593
events                             26.092593
woba_denom                 

### Mostrar todos los valores diferentes en cada columna con valores faltantes

In [10]:
# Explorar valores únicos en columnas con valores faltantes incluyendo NaN
columnas_con_faltantes = valores_faltantes[valores_faltantes > 0].index
for columna in columnas_con_faltantes:
    valores_unicos = df_combined[columna].unique()
    num_valores_unicos = len(valores_unicos)
    print(f"\nColumna '{columna}' tiene {num_valores_unicos} valores únicos (incluyendo NaN):")
    print(valores_unicos)


Columna 'pitch_type' tiene 18 valores únicos (incluyendo NaN):
['CU' 'FF' 'ST' 'SL' 'SI' 'KC' 'CH' 'FC' 'FS' 'PO' 'SV' 'KN' 'EP' 'FA' nan
 'FO' 'CS' 'SC']

Columna 'release_speed' tiene 707 valores únicos (incluyendo NaN):
[ 84.9  96.6  84.5  95.4  95.6  83.9  86.3  96.3  85.6  84.7  94.9  92.8
  92.1  85.2  85.   91.8  85.5  92.5  85.8  91.7  93.3  92.   85.1  92.9
  93.   91.6  90.9  88.   97.7  88.5  97.   96.8  87.2  87.8  86.6  94.4
  94.8  94.7  86.   88.9  95.2  89.7  95.8  95.5  88.8  96.   88.4  97.1
  97.5  88.7  95.9  87.3  96.1  90.   90.8 100.8  99.5  99.4 100.  100.1
 101.2 100.2  99.2  99.   99.7  97.4  86.7  96.4  87.   92.3  87.1  93.7
  82.8  82.6  94.2  81.3  81.5  82.3  85.9  91.5  76.2  88.6  91.4  93.9
  94.5  87.7  82.4  94.3  89.3  92.7  80.8  92.6  76.6  89.6  91.1  96.2
  76.4  91.   95.3  95.1  86.2  85.3  90.3  82.5  93.4  93.2  86.4  93.5
  89.1  94.6  82.9  87.9  93.6  82.   74.6  87.4  88.1  92.4  77.5  77.6
  76.7  91.2  93.1  90.1  90.2  76.9  86.8  81