# 📊 Análisis EDA - training_dataset.csv

## Prerequisito: Valido esquema antes de analizar

In [None]:
import pandas as pd
import os
from validators.validation_schema import validate_training_dataset
import dotenv
dotenv.load_dotenv()

TRANING_DATA_PATH = os.getenv("TRAINING_DATA_PATH")

if not TRANING_DATA_PATH:
    raise ValueError("La variable de entorno 'TRAINING_DATA_PATH' no está definida.")

if not os.path.exists(TRANING_DATA_PATH):
    raise FileNotFoundError(f"La ruta especificada '{TRANING_DATA_PATH}' no existe.")

# Cargar dataset
df = pd.read_csv(TRANING_DATA_PATH)

# Validar estructura y contenido
df = validate_training_dataset(df)
print("✅ Dataset validado correctamente con pandera.")


## Seleccionar partidas de un determinado jugador

In [None]:

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Cargar dataset
df = pd.read_csv('/app/src/data/training_dataset.csv')
#df.head()

df.describe()


Unnamed: 0,move_number,material_balance,material_total,num_pieces,branching_factor,self_mobility,opponent_mobility,player_color,has_castling_rights,move_number_global,is_repetition,is_low_mobility,tags,score_diff
count,94.0,94.0,94.0,94.0,94.0,94.0,94.0,94.0,94.0,94.0,94.0,94.0,0.0,0.0
mean,13.978723,-0.888298,71.771277,12.340426,63.968085,31.819149,32.148936,0.510638,0.585106,27.446809,0.0,0.06383,,
std,9.190901,1.806357,7.886089,1.920759,13.131635,10.240089,10.103717,0.502567,0.495346,18.376947,0.0,0.24576,,
min,1.0,-9.25,52.25,8.0,27.0,3.0,3.0,0.0,0.0,1.0,0.0,0.0,,
25%,6.25,-1.25,66.5,11.0,59.0,29.0,30.0,0.0,0.0,12.25,0.0,0.0,,
50%,12.0,-0.5,73.75,13.0,67.0,33.0,33.5,1.0,1.0,24.0,0.0,0.0,,
75%,21.0,0.0,79.0,14.0,71.75,37.0,37.0,1.0,1.0,41.75,0.0,0.0,,
max,33.0,2.25,79.0,14.0,95.0,51.0,51.0,1.0,1.0,65.0,0.0,1.0,,


## 1. Distribución de etiquetas de error

In [None]:

df['error_label'].value_counts().plot(kind='bar', color='skyblue')
plt.title("Distribución de etiquetas de error")
plt.xlabel("Etiqueta")
plt.ylabel("Cantidad")
plt.grid(True)
plt.show()


## 2. Correlaciones entre variables estratégicas y errores

In [None]:

variables = ['branching_factor', 'self_mobility', 'opponent_mobility', 'material_total']
correlation_matrix = df[variables + ['error_label']].corr(numeric_only=True)
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm')
plt.title("Matriz de correlación")
plt.show()


## 3. Análisis por control del centro vs errores

In [None]:

pd.crosstab(df['is_center_controlled'], df['error_label']).plot(kind='bar', stacked=True)
plt.title("Errores según control del centro")
plt.xlabel("¿Controla el centro?")
plt.ylabel("Cantidad")
plt.grid(True)
plt.show()


## 4. Fase de juego vs tipo de error

In [None]:

pd.crosstab(df['phase'], df['error_label']).plot(kind='bar', stacked=True)
plt.title("Errores por fase de juego")
plt.xlabel("Fase")
plt.ylabel("Cantidad")
plt.grid(True)
plt.show()


## 5. Boxplot de movilidad vs error

In [None]:

sns.boxplot(data=df, x='error_label', y='self_mobility')
plt.title("Movilidad propia según tipo de error")
plt.grid(True)
plt.show()


## 6. Error promedio en baja movilidad

In [None]:
sns.barplot(data=df, x="is_low_mobility", y="score_diff", hue="classification")
plt.title("score_diff en posiciones con baja movilidad")
plt.tight_layout()
plt.show()

## 7. Correlaciones numéricas

In [None]:
corr = df.corr(numeric_only=True)
sns.heatmap(corr, annot=True, cmap="coolwarm")
plt.title("Mapa de calor de correlaciones")
plt.tight_layout()
plt.show()

## 8. Conclusiones preliminares

- Las jugadas con baja movilidad muestran mayor score_diff promedio (peores resultados).
- Existen correlaciones entre movilidad propia, balance de material y score_diff.
- La distribución de errores es más frecuente en fases medias y finales con menos opciones legales.