In [9]:
# =============================================
# 1. CONFIGURACI√ìN INICIAL
# =============================================

import pandas as pd
import numpy as np
import sqlite3
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error

# Ruta al DW
db_path = "C:/Users/Nico/Desktop/DATA SCIENCE/PP- VOLUNTAREADO/chivas-ml/data/external/chivas_dw.sqlite"

# Conexi√≥n
conn = sqlite3.connect(db_path)

# Cargar la vista combinada
df = pd.read_sql_query("SELECT * FROM vw_predicciones_diarias_extendida", conn)
# Cerrar conexi√≥n
conn.close()

print(f"Registros cargados: {len(df)}")
df.head()


Registros cargados: 2163


Unnamed: 0,id_jugador,Fecha,microciclo_next,tipo_dia_next,Tipo_Dia,Edad,Peso_kg,Estatura_cm,Posicion,Linea,...,Carga_Regenerativa,Distancia_total,HMLD_m,HSR_abs_m,Sprints_cantidad,Acc_3,Dec_3,Player_Load,RPE,Sprints_vel_max_kmh
0,25,2025-05-23,1,,ENTRENO,26,70.0,176.0,Delantero,Extremo,...,1562.0,3294,170,0,0,7,1,49,4,18.3
1,25,2025-05-24,1,,ENTRENO,26,70.0,176.0,Delantero,Extremo,...,1528.5,3707,512,138,0,8,6,60,5,22.1
2,25,2025-05-26,2,,ENTRENO,26,70.0,176.0,Delantero,Extremo,...,998.5,2281,284,0,0,39,22,31,0,20.5
3,25,2025-05-27,2,,ENTRENO,26,70.0,176.0,Delantero,Extremo,...,2020.5,4821,638,142,1,36,27,49,0,25.5
4,25,2025-05-28,2,,ENTRENO,26,70.0,176.0,Delantero,Extremo,...,1808.5,4523,741,165,3,54,30,70,0,26.7


In [10]:
# Primero, como hicimos en todos los dataset a entrenar, excluimos todos los jugadores 
# que no proporcionan valor, al igual que los microciclos donde no se compiti√≥:

# =============================================
# 2.1 FILTRO DE JUGADORES Y MICRO-CICLOS
# =============================================

print(f"Registros cargados pre filtrado: {len(df)}\n")

# Jugadores que deben excluirse
jugadores_excluir = [1, 2, 3, 12, 30]

# Filtrar jugadores no v√°lidos
df = df[~df["id_jugador"].isin(jugadores_excluir)]

# fFiltramos los d√≠as nulos o no validos (elimina microciclos fuera de competencia):
df = df[df['tipo_dia_next'].notnull()]


print(f"Registros cargados post filtrado: {len(df)}\n")
# Distribuci√≥n de la etiqueta
print("\nDistribuci√≥n de tipo_semana_next:")
print(df['tipo_semana_next'].value_counts(normalize=True) * 100)


Registros cargados pre filtrado: 2163

Registros cargados post filtrado: 1357


Distribuci√≥n de tipo_semana_next:
tipo_semana_next
media    50.257922
alta     33.971997
baja     15.770081
Name: proportion, dtype: float64


In [11]:
print(df['tipo_semana_next'].value_counts(normalize=True) * 100)
print(df['tipo_dia_next'].value_counts())


tipo_semana_next
media    50.257922
alta     33.971997
baja     15.770081
Name: proportion, dtype: float64
tipo_dia_next
-1.0    418
 1.0    301
-2.0    255
 2.0    249
 3.0    134
Name: count, dtype: int64


In [12]:
features = [
    'tipo_dia_next', 'tipo_semana_next',
    'CT_total_actual', 'CE_total_actual', 'CS_total_actual', 'CR_total_actual',
    'riesgo_suavizado_3d_actual',
    'entrenos_total_next', 'descansos_total_next', 'partidos_total_next',
    'entrenos_pre_partido_next', 'entrenos_post_partido_next', 'Carga_Explosiva','Carga_Sostenida',
    'Distancia_total'

]
target = 'Sprints_vel_max_kmh'


In [13]:
from sklearn.preprocessing import StandardScaler, LabelEncoder

le = LabelEncoder()
df['tipo_semana_next'] = le.fit_transform(df['tipo_semana_next'])

X = df[features]
y = df[target]

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)


In [14]:
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import r2_score, mean_absolute_error

X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

rf = RandomForestRegressor(n_estimators=200, random_state=42)
rf.fit(X_train, y_train)

y_pred = rf.predict(X_test)
print("R¬≤:", r2_score(y_test, y_pred))
print("MAE:", mean_absolute_error(y_test, y_pred))


R¬≤: 0.6497725568872847
MAE: 1.6834595588235306


In [15]:
from scipy.stats import spearmanr
corr, _ = spearmanr(y_test, y_pred)
print(f"üìà Correlaci√≥n de rangos (Spearman): {corr:.3f}")


üìà Correlaci√≥n de rangos (Spearman): 0.730


### El modelo predijo, con algunos detlles que se pueden corregir. En esta etapa se evalu√≥ sin tener en cuenta al jugador ni su pocisi√≥n: Vamos agergar esos datos junto con un perfil fisiol√≥gico para darle m√°s contexto al modelo de aprender con mayor especificidad .

In [16]:
# ============================================
# üß† CONTEXTO FISIOL√ìGICO: jugador + posici√≥n
# ============================================
import pandas as pd

# 1Ô∏è‚É£ Reemplazar nulos en posici√≥n y l√≠nea por "Desconocido" (si los hay)
df['Posicion'] = df['Posicion'].fillna('Desconocido')
df['Linea'] = df['Linea'].fillna('Desconocido')

# 2Ô∏è‚É£ Calcular medias hist√≥ricas por jugador
player_mean = df.groupby('id_jugador').agg({
    'Distancia_total': 'mean',
    'Player_Load': 'mean',
    'Acc_3': 'mean',
    'Dec_3': 'mean'
}).rename(columns={
    'Distancia_total': 'jugador_mean_dist',
    'Player_Load': 'jugador_mean_load',
    'Acc_3': 'jugador_mean_acc',
    'Dec_3': 'jugador_mean_dec'
}).reset_index()

# Unir las medias al dataframe principal
df = df.merge(player_mean, on='id_jugador', how='left')

# 3Ô∏è‚É£ Codificar posici√≥n y l√≠nea (one-hot encoding)
df = pd.get_dummies(df, columns=['Posicion', 'Linea'], prefix=['Pos', 'Lin'])

# 4Ô∏è‚É£ Confirmar que se agregaron bien las nuevas columnas
print("‚úÖ Nuevas columnas a√±adidas:", [c for c in df.columns if 'Pos_' in c or 'Lin_' in c])
print(df[['id_jugador', 'jugador_mean_dist', 'jugador_mean_load', 'jugador_mean_acc', 'jugador_mean_dec']].head())
df.columns.tolist()

‚úÖ Nuevas columnas a√±adidas: ['Pos_Defensor', 'Pos_Delantero', 'Pos_Mediocampista', 'Lin_Defensa Central', 'Lin_Defensa Lateral', 'Lin_Delantera', 'Lin_Extremo', 'Lin_Medio Defensivo', 'Lin_Medio Ofensivo']
   id_jugador  jugador_mean_dist  jugador_mean_load  jugador_mean_acc  \
0          25        3854.093023          52.697674         28.325581   
1          25        3854.093023          52.697674         28.325581   
2          25        3854.093023          52.697674         28.325581   
3          25        3854.093023          52.697674         28.325581   
4          25        3854.093023          52.697674         28.325581   

   jugador_mean_dec  
0          27.44186  
1          27.44186  
2          27.44186  
3          27.44186  
4          27.44186  


['id_jugador',
 'Fecha',
 'microciclo_next',
 'tipo_dia_next',
 'Tipo_Dia',
 'Edad',
 'Peso_kg',
 'Estatura_cm',
 'CT_total_actual',
 'CE_total_actual',
 'CS_total_actual',
 'CR_total_actual',
 'riesgo_suavizado_3d_actual',
 'entrenos_total_next',
 'descansos_total_next',
 'partidos_total_next',
 'descansos_pre_partido_next',
 'entrenos_pre_partido_next',
 'entrenos_post_partido_next',
 'tipo_semana_next',
 'Carga_Explosiva',
 'Carga_Sostenida',
 'Carga_Regenerativa',
 'Distancia_total',
 'HMLD_m',
 'HSR_abs_m',
 'Sprints_cantidad',
 'Acc_3',
 'Dec_3',
 'Player_Load',
 'RPE',
 'Sprints_vel_max_kmh',
 'jugador_mean_dist',
 'jugador_mean_load',
 'jugador_mean_acc',
 'jugador_mean_dec',
 'Pos_Defensor',
 'Pos_Delantero',
 'Pos_Mediocampista',
 'Lin_Defensa Central',
 'Lin_Defensa Lateral',
 'Lin_Delantera',
 'Lin_Extremo',
 'Lin_Medio Defensivo',
 'Lin_Medio Ofensivo']

In [17]:
# ============================================
# ‚öôÔ∏è SELECCI√ìN DE FEATURES Y TARGET
# ============================================

features = [
    # Contexto planificado (semana y d√≠a, cargas)
    'tipo_semana_next', 'tipo_dia_next', 'Carga_Explosiva','Carga_Sostenida', "Distancia_total",

    # Carga y estado actual
    'CT_total_actual', 'CE_total_actual', 'CS_total_actual', 'CR_total_actual',
    'riesgo_suavizado_3d_actual',

    # Estructura de la pr√≥xima semana
    'entrenos_total_next', 'descansos_total_next', 'partidos_total_next',
    'entrenos_pre_partido_next', 'entrenos_post_partido_next',

    # Contexto fisiol√≥gico del jugador
    'jugador_mean_dist', 'jugador_mean_load', 'jugador_mean_acc', 'jugador_mean_dec'
] + [c for c in df.columns if c.startswith('Pos_') or c.startswith('Lin_')]

target = 'Sprints_vel_max_kmh'

print("üìä Total de features:", len(features))


üìä Total de features: 28


In [18]:
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.metrics import mean_absolute_error, r2_score
from scipy.stats import spearmanr

# Codificar tipo de semana y tipo de d√≠a
le_semana = LabelEncoder()
le_dia = LabelEncoder()

df['tipo_semana_next'] = le_semana.fit_transform(df['tipo_semana_next'])
df['tipo_dia_next'] = le_dia.fit_transform(df['tipo_dia_next'].astype(str))

# Separar features y target
X = df[features]
y = df[target]

# Escalado
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Split
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

# Modelo
rf = RandomForestRegressor(n_estimators=300, max_depth=12, random_state=42)
rf.fit(X_train, y_train)

# Predicciones
y_pred = rf.predict(X_test)

# Evaluaciones
r2 = r2_score(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)
spearman_corr, _ = spearmanr(y_test, y_pred)

print("Valores previos (sin CE, CS, Distancia_Total):")
print("üìà R¬≤: 0.172")
print("üìä MAE: 2.56")
print("üîó Correlaci√≥n de rangos (Spearman): 0.46")

print("üìà R¬≤:", round(r2, 3))
print("üìä MAE:", round(mae, 2))
print("üîó Correlaci√≥n de rangos (Spearman):", round(spearman_corr, 3))


Valores previos (sin CE, CS, Distancia_Total):
üìà R¬≤: 0.172
üìä MAE: 2.56
üîó Correlaci√≥n de rangos (Spearman): 0.46
üìà R¬≤: 0.642
üìä MAE: 1.73
üîó Correlaci√≥n de rangos (Spearman): 0.72


In [19]:
import joblib, os

output_dir = "C:/Users/Nico/Desktop/DATA SCIENCE/PP- VOLUNTAREADO/chivas-ml/src/chivas_ml/ml/registry/modelo_clas_Sprints_vel_max_kmh"
os.makedirs(output_dir, exist_ok=True)

# Guardar modelo y objetos asociados
joblib.dump(rf, os.path.join(output_dir, "model_rf_sprints_vel_tendencias.pkl"))
joblib.dump(scaler, os.path.join(output_dir, "scaler_sprints_vel.pkl"))

print("‚úÖ Modelo, scaler y label encoders guardados correctamente.")


‚úÖ Modelo, scaler y label encoders guardados correctamente.


# üèÉ‚Äç‚ôÇÔ∏è Modelo de Predicci√≥n de Velocidad M√°xima (Sprint_vel_max)

## üéØ Objetivo
Desarrollar un modelo de Machine Learning capaz de **predecir la velocidad m√°xima alcanzada por un jugador (Sprint_vel_max)** en funci√≥n de su contexto de entrenamiento, fisiolog√≠a y planificaci√≥n semanal.

El objetivo principal no es predecir valores exactos, sino **captar las tendencias de intensidad y esfuerzo explosivo** en funci√≥n del tipo de semana y las cargas previstas.

---

## ‚öôÔ∏è Implementaciones de mejora

### 1Ô∏è‚É£ Incorporaci√≥n de variables fisiol√≥gicas clave
En la versi√≥n inicial, el modelo utilizaba √∫nicamente variables estructurales y contextuales (tipo de semana, tipo de d√≠a, m√©tricas de carga hist√≥rica, etc.).

En esta nueva versi√≥n se agregaron tres variables de alto impacto fisiol√≥gico:

- `Distancia_total` ‚Üí **Distancia Total**
- `CE` ‚Üí **Carga Explosiva**
- `CS` ‚Üí **Carga Sostenida**

Estas m√©tricas provienen de modelos previos y sintetizan la intensidad total del jugador durante la semana.  
Al incorporarlas, el modelo obtiene informaci√≥n global del estado del jugador y la exigencia del microciclo.

---

### 2Ô∏è‚É£ Enfoque en aprendizaje de tendencias
El modelo se entren√≥ con la premisa de **aprender el patr√≥n de respuesta fisiol√≥gica** ante diferentes contextos semanales, m√°s que predecir valores absolutos.  
Por eso se evalu√≥ tambi√©n la **correlaci√≥n de rangos (Spearman)**, una m√©trica ideal para medir la consistencia entre el orden de los valores reales y predichos.

---

### 3Ô∏è‚É£ Modelo y configuraci√≥n
- **Algoritmo:** `RandomForestRegressor`
- **Par√°metros principales:**
  ```python
  n_estimators=250,
  max_depth=12,
  random_state=42

  Escalador: StandardScaler

  Divisi√≥n de datos: 80% entrenamiento / 20% validaci√≥n


### üìä Resultados comparativos

| M√©trica         | Versi√≥n sin CE/CS | Versi√≥n con CE/CS | Mejora   |
|-----------------|-------------------|-------------------|----------|
| **R¬≤**          | 0.172             | **0.642**         | +0.47    |
| **MAE**         | 2.56              | **1.73**          | ‚Üì 32%    |
| **œÅ (Spearman)**| 0.46              | **0.72**          | +0.26    |


### üß† Interpretaci√≥n

El modelo mejor√≥ notablemente su capacidad explicativa al incorporar CE, CS y Distancia Total.

La disminuci√≥n del error absoluto (MAE) muestra que ahora predice valores m√°s cercanos a los reales.

La correlaci√≥n de rangos (œÅ = 0.72) indica que el modelo captura correctamente la progresi√≥n y la din√°mica explosiva seg√∫n el contexto del jugador.

Este cambio refleja una comprensi√≥n m√°s coherente de las demandas f√≠sicas de los microciclos, lo que permite simular con mayor realismo los efectos de diferentes tipos de semanas de entrenamiento.

### üß© Conclusiones

Las cargas principales (CE, CS y Distancia Total) funcionan como resumen fisiol√≥gico global, aportando contexto para modelos m√°s espec√≠ficos.

El modelo ahora entiende cu√°ndo un jugador tender√° a alcanzar velocidades m√°s altas (por ejemplo, en semanas ‚Äúaltas‚Äù o tras microciclos explosivos).

Este enfoque jer√°rquico permite mantener coherencia entre los distintos niveles del sistema de predicci√≥n:

Tipo de Semana ‚Üí Cargas Globales (CE, CS, Distancia Total) ‚Üí M√©tricas Espec√≠ficas (Sprints, HSR, ACC, DEC, etc.)


De esta manera, el flujo de predicci√≥n se alinea con la l√≥gica del cuerpo t√©cnico: primero planificar, luego ajustar la intensidad, y finalmente cuantificar el esfuerzo diario.

### üíæ Archivos generados

model_rf_sprint_vel_tendencias.pkl

scaler_sprint_vel.pkl

Ubicaci√≥n:

src/chivas_ml/ml/registry/modelos_tendencias/sprints_vel/

### üìò Pr√≥ximos pasos

Incorporar las predicciones de CE y CS como inputs est√°ndar para todos los modelos de m√©tricas.

Evaluar si agregar la posici√≥n del jugador (Defensa, Medio, Delantero) mejora la precisi√≥n sin introducir sobreajuste.

Analizar la distribuci√≥n de errores por tipo de semana (baja, media, alta) para ajustar la sensibilidad contextual del modelo.

Explorar modelos alternativos (XGBoost, CatBoost) y t√©cnicas de feature importance para refinar la interpretaci√≥n fisiol√≥gica.

üìà Con esta mejora, el modelo de Sprints alcanza su mejor versi√≥n hasta el momento, consolidando el enfoque jer√°rquico de predicci√≥n fisiol√≥gica dentro del ecosistema Chivas-ML.



