# Predicción del MVP de la NBA - Aprendizaje Automático

Este notebook implementa modelos de aprendizaje automático para predecir los porcentajes de votación del MVP (Most Valuable Player) de la NBA basándose en las estadísticas de jugadores y equipos que se han recopilado anteriormente.

## Objetivos:
1. Construir modelos predictivos usando Ridge Regression y Random Forest
2. Evaluar modelos usando métricas personalizadas enfocadas en la precisión del ranking
3. Realizar backtesting a través de múltiples temporadas para asegurar robustez
4. Diseñar características para tener en cuenta las diferencias de era en el juego de la NBA
5. Identificar qué estadísticas son más predictivas de la votación del MVP

## Enfoque:
- **Variable Objetivo**: Share del MVP (porcentaje de votación, escala 0-1)
- **Métrica de Evaluación**: Top-7 Average Precision (se enfoca en clasificar correctamente a los candidatos al MVP)
- **Validación**: Backtesting temporal (entrenar en años pasados, predecir años futuros)
- **Ingeniería de Características**: Estadísticas normalizadas por año para manejar diferencias de era

In [320]:
# Importar bibliotecas necesarias
import pandas as pd
from sklearn.linear_model import Ridge
from sklearn.metrics import mean_squared_error
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestRegressor

## 1. Importar Bibliotecas y Cargar Datos

In [321]:
# Cargar el conjunto de datos limpio y combinado
stats = pd.read_csv("../data cleaning/combined_stats_master.csv")

In [322]:
# Eliminar la columna de índice sin nombre
del stats["Unnamed: 0"]
stats

Unnamed: 0,Player,Age,Team,Pos,G,GS,MP,FG,FGA,FG%,...,Pts Won,Pts Max,Share,W,L,W/L%,GB,PS/G,PA/G,SRS
0,Doc Rivers,29,Atlanta Hawks,PG,79,79,32.7,5.6,12.9,0.435,...,0.0,0.0,0.00,43,39,0.524,18.0,109.8,109.0,0.72
1,Dominique Wilkins,31,Atlanta Hawks,SF,81,81,38.0,9.5,20.2,0.470,...,29.0,960.0,0.03,43,39,0.524,18.0,109.8,109.0,0.72
2,Duane Ferrell,25,Atlanta Hawks,SF,78,2,14.9,2.2,4.6,0.489,...,0.0,0.0,0.00,43,39,0.524,18.0,109.8,109.0,0.72
3,Gary Leonard,23,Atlanta Hawks,C,4,0,2.3,0.0,0.0,0.000,...,0.0,0.0,0.00,43,39,0.524,18.0,109.8,109.0,0.72
4,John Battle,28,Atlanta Hawks,SG,79,2,23.6,5.0,10.9,0.461,...,0.0,0.0,0.00,43,39,0.524,18.0,109.8,109.0,0.72
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
15803,Marvin Bagley III,24,Washington Wizards,C,50,25,21.1,4.8,8.2,0.586,...,0.0,0.0,0.00,15,67,0.183,32.0,113.7,123.0,-9.29
15804,Patrick Baldwin Jr.,21,Washington Wizards,SF,38,7,13.0,1.6,4.1,0.381,...,0.0,0.0,0.00,15,67,0.183,32.0,113.7,123.0,-9.29
15805,Richaun Holmes,30,Washington Wizards,C,40,10,13.9,2.1,3.7,0.558,...,0.0,0.0,0.00,15,67,0.183,32.0,113.7,123.0,-9.29
15806,Tristan Vukcevic,20,Washington Wizards,C,10,4,15.3,2.9,6.7,0.433,...,0.0,0.0,0.00,15,67,0.183,32.0,113.7,123.0,-9.29


In [323]:
# Mostrar todas las columnas disponibles
stats.columns

Index(['Player', 'Age', 'Team', 'Pos', 'G', 'GS', 'MP', 'FG', 'FGA', 'FG%',
       '3P', '3PA', '3P%', '2P', '2PA', '2P%', 'eFG%', 'FT', 'FTA', 'FT%',
       'ORB', 'DRB', 'TRB', 'AST', 'STL', 'BLK', 'TOV', 'PF', 'PTS', 'Year',
       'Pts Won', 'Pts Max', 'Share', 'W', 'L', 'W/L%', 'GB', 'PS/G', 'PA/G',
       'SRS'],
      dtype='object')

## 2. Selección de Características

Seleccionar las características que se utilizarán para predecir el Share del MVP.

In [324]:
# Definir características predictoras (todas las columnas numéricas excepto variables objetivo)
# Excluye: 'Pts Won', 'Pts Max', 'Share' (estos son resultados de votación del MVP que queremos predecir)
# Incluye: Estadísticas de jugadores (anotación, tiros, rebotes, asistencias, etc.) y rendimiento del equipo

predictor_features = ['Age','G', 'GS', 'MP', 'FG', 'FGA', 'FG%',
       '3P', '3PA', '3P%', '2P', '2PA', '2P%', 'eFG%', 'FT', 'FTA', 'FT%',
       'ORB', 'DRB', 'TRB', 'AST', 'STL', 'BLK', 'TOV', 'PF', 'PTS', 'Year',
        'W', 'L', 'W/L%', 'GB', 'PS/G', 'PA/G', 'SRS']

## 3. Entrenamiento Inicial del Modelo - Ridge Regression

Construir y evaluar un modelo de Ridge Regression en un solo año de prueba (2024).

In [325]:
# Crear conjunto de entrenamiento: todos los datos antes de 2024
# Estos datos se usarán para entrenar el modelo
train_data = stats[stats["Year"] < 2024]

In [326]:
# Crear conjunto de prueba: solo temporada 2024
# Estos datos se usarán para evaluar el rendimiento del modelo
test_data = stats[stats["Year"] == 2024]

In [327]:
# Inicializar modelo Ridge Regression
# alpha=0.1: parámetro de regularización para prevenir sobreajuste
ridge_model = Ridge(alpha=0.1)

In [328]:
# Entrenar el modelo con datos históricos
# X (características): predictor_features
# y (objetivo): Share (porcentaje de votación del MVP)
ridge_model.fit(train_data[predictor_features], train_data["Share"])

In [329]:
# Generar predicciones para la temporada 2024
predictions_2024 = ridge_model.predict(test_data[predictor_features])

In [330]:
# Convertir predicciones a DataFrame con indexación apropiada
predictions_df = pd.DataFrame(predictions_2024, columns=["Predicted"], index=test_data.index)
predictions_df

Unnamed: 0,Predicted
524,-0.025309
525,0.004664
526,-0.003725
527,0.008457
528,-0.002275
...,...
15803,-0.001254
15804,-0.008072
15805,-0.027929
15806,0.009920


In [331]:
# Crear DataFrame de comparación con shares reales y predichos del MVP
comparison_df = pd.concat([test_data[["Player","Share"]], predictions_df], axis=1)
comparison_df

Unnamed: 0,Player,Share,Predicted
524,AJ Griffin,0.0,-0.025309
525,Bogdan Bogdanovic,0.0,0.004664
526,Bruno Fernando,0.0,-0.003725
527,Clint Capela,0.0,0.008457
528,De'Andre Hunter,0.0,-0.002275
...,...,...,...
15803,Marvin Bagley III,0.0,-0.001254
15804,Patrick Baldwin Jr.,0.0,-0.008072
15805,Richaun Holmes,0.0,-0.027929
15806,Tristan Vukcevic,0.0,0.009920


In [332]:
# Mostrar los 20 mejores jugadores por Share real del MVP
# Comparar resultados reales de votación del MVP 2024 con predicciones del modelo
comparison_df.sort_values(by="Share", ascending=False).head(20)

Unnamed: 0,Player,Share,Predicted
3970,Nikola Jokic,0.935,0.172834
10697,Shai Gilgeous-Alexander,0.646,0.168547
3434,Luka Doncic,0.572,0.188416
8656,Giannis Antetokounmpo,0.194,0.212369
10413,Jalen Brunson,0.143,0.09901
1067,Jayson Tatum,0.087,0.113581
9169,Anthony Edwards,0.018,0.088173
13338,Domantas Sabonis,0.003,0.09725
12295,Kevin Durant,0.001,0.102027
10680,Aaron Wiggins,0.0,-0.002419


In [333]:
# Calcular Error Cuadrático Medio (solo como referencia)
# Nota: MSE no es ideal para este problema - nos importa más el ranking que los valores exactos
mean_squared_error(comparison_df["Share"], comparison_df["Predicted"])

0.00247370958842746

In [334]:
# Examinar distribución de valores de Share del MVP
# Muestra cuántos jugadores recibieron cada valor de share (la mayoría son 0)
comparison_df["Share"].value_counts()

Share
0.000    563
0.087      1
0.572      1
0.935      1
0.194      1
0.018      1
0.143      1
0.646      1
0.001      1
0.003      1
Name: count, dtype: int64

### Métricas de Evaluación

Necesitamos una métrica mejor que MSE (Error Cuadrático Medio) porque:
- La mayoría de los jugadores tienen Share = 0 (no recibieron votos para MVP)
- Lo que importa es identificar correctamente a los principales candidatos al MVP
- La precisión del ranking es más importante que el porcentaje exacto de votos

In [335]:
# Añadir ranking basado en Share real del MVP
ranked_by_actual = comparison_df.sort_values("Share", ascending=False)
ranked_by_actual["Rank"] = list(range(1, ranked_by_actual.shape[0] + 1))
ranked_by_actual

Unnamed: 0,Player,Share,Predicted,Rank
3970,Nikola Jokic,0.935,0.172834,1
10697,Shai Gilgeous-Alexander,0.646,0.168547,2
3434,Luka Doncic,0.572,0.188416,3
8656,Giannis Antetokounmpo,0.194,0.212369,4
10413,Jalen Brunson,0.143,0.099010,5
...,...,...,...,...
5571,Dillon Brooks,0.000,-0.030686,568
5572,Fred VanVleet,0.000,0.032116,569
5573,Jabari Smith Jr.,0.000,0.000765,570
5574,Jae'Sean Tate,0.000,-0.022537,571


In [336]:
# Añadir ranking predicho basado en predicciones del modelo
ranked_by_actual = ranked_by_actual.sort_values("Predicted", ascending=False)
ranked_by_actual["Predicted Rank"] = list(range(1, ranked_by_actual.shape[0] + 1))
ranked_by_actual

Unnamed: 0,Player,Share,Predicted,Rank,Predicted Rank
8656,Giannis Antetokounmpo,0.194,0.212369,4,1
11770,Joel Embiid,0.000,0.206445,55,2
3434,Luka Doncic,0.572,0.188416,3,3
3970,Nikola Jokic,0.935,0.172834,1,4
10697,Shai Gilgeous-Alexander,0.646,0.168547,2,5
...,...,...,...,...,...
7582,Trey Jemison,0.000,-0.044483,476,568
1795,Nathan Mensah,0.000,-0.044536,409,569
4484,Isaiah Livers,0.000,-0.045315,526,570
14626,Malik Williams,0.000,-0.045343,155,571


### Métrica Personalizada: Top-7 Average Precision

Esta métrica mide qué tan bien el modelo clasifica a los 7 principales candidatos al MVP, que es lo que más importa.

In [337]:
# Definir métrica personalizada de Average Precision para los 7 principales candidatos al MVP
def calculate_top7_average_precision(comparison):
    # Obtener los 7 candidatos reales al MVP del top
    actual_top_7 = comparison.sort_values("Share", ascending=False).head(7)
    
    # Ordenar predicciones por share predicho (mayor primero)
    predicted_ranking = comparison.sort_values("Predicted", ascending=False)
    
    precision_scores = []
    correct_found = 0
    players_seen = 1
    
    # Recorrer predicciones en orden
    for index, row in predicted_ranking.iterrows():
        # Verificar si este jugador está realmente en el top 7
        if row["Player"] in actual_top_7["Player"].values:
            correct_found += 1
            # Precisión = (correctos encontrados hasta ahora) / (total vistos hasta ahora)
            precision_scores.append(correct_found / players_seen)
        players_seen += 1
    
    # Devolver promedio de todas las puntuaciones de precisión
    return sum(precision_scores) / len(precision_scores)

In [338]:
# Calcular Average Precision para predicciones de 2024
calculate_top7_average_precision(comparison_df)

0.67906162464986

## 4. Marco de Backtesting

Probar el modelo a través de múltiples años para asegurar que funciona consistentemente a través de diferentes eras.

In [339]:
# Definir el rango de años disponibles en nuestro conjunto de datos
years_range = list(range(1991, 2025))

In [340]:
# Bucle simple de backtesting (será reemplazado por función más adelante)
# Probar modelo en múltiples años entrenando con datos pasados y prediciendo cada año
# Saltar los primeros 5 años para asegurar suficientes datos de entrenamiento

average_precisions = []
all_year_predictions = []

for year in years_range[5:]:
    # Entrenamiento: todos los años antes del año actual
    train_data = stats[stats["Year"] < year]
    # Prueba: solo el año actual
    test_data = stats[stats["Year"] == year]
    
    # Entrenar modelo
    ridge_model.fit(train_data[predictor_features], train_data["Share"])
    
    # Hacer predicciones
    year_predictions = ridge_model.predict(test_data[predictor_features])
    
    # Crear DataFrame de comparación
    predictions_df = pd.DataFrame(year_predictions, columns=["Predicted"], index=test_data.index)
    comparison_df = pd.concat([test_data[["Player","Share"]], predictions_df], axis=1)
    
    # Almacenar resultados
    all_year_predictions.append(comparison_df)
    average_precisions.append(calculate_top7_average_precision(comparison_df))

In [341]:
# Mostrar Average Precision para cada año probado
average_precisions

[0.5359307359307359,
 0.5022012578616352,
 0.7980769230769231,
 0.624829931972789,
 0.7780612244897959,
 1.0,
 0.7641287284144428,
 0.9480519480519481,
 0.7406015037593985,
 0.6257936507936508,
 0.6025910364145659,
 0.6269841269841269,
 0.9821428571428571,
 0.7139455782312926,
 0.7931122448979592,
 0.9093537414965985,
 0.6577380952380951,
 0.7806122448979591,
 0.6061086596800883,
 0.831547619047619,
 0.7555555555555555,
 0.7947278911564626,
 0.9123376623376623,
 0.6826229326229326,
 0.8784013605442177,
 0.7922077922077921,
 0.7696555545295042,
 0.6875258799171843,
 0.67906162464986]

In [342]:
# Calcular Mean Average Precision general a través de todos los años probados
sum(average_precisions) / len(average_precisions)

0.7508244262725399

### Funciones Auxiliares para Análisis

In [343]:
# Función para añadir columnas de ranking y calcular diferencias
def add_ranking_columns(comparison):
    # Ordenar por Share real y asignar ranks
    ranked_comparison = comparison.sort_values("Share", ascending=False)
    ranked_comparison["Rank"] = list(range(1, ranked_comparison.shape[0] + 1))
    
    # Ordenar por Share Predicho y asignar ranks predichos
    ranked_comparison = ranked_comparison.sort_values("Predicted", ascending=False)
    ranked_comparison["Predicted Rank"] = list(range(1, ranked_comparison.shape[0] + 1))
    
    # Calcular diferencia (positivo = subvalorado, negativo = sobrevalorado)
    ranked_comparison["Difference"] = ranked_comparison["Rank"] - ranked_comparison["Predicted Rank"]
    
    return ranked_comparison

In [344]:
# Analizar predicciones de un año específico (ejemplo: índice 1 = 1997)
# Mostrar los 7 principales candidatos reales al MVP ordenados por diferencia de predicción
year_ranking = add_ranking_columns(all_year_predictions[1])
year_ranking[year_ranking["Rank"] <= 7].sort_values("Difference", ascending=False)

Unnamed: 0,Player,Share,Predicted,Rank,Predicted Rank,Difference
5140,Hakeem Olajuwon,0.083,0.136375,7,4,3
14730,Karl Malone,0.857,0.19232,1,2,-1
1895,Michael Jordan,0.832,0.167613,2,3,-1
4063,Grant Hill,0.327,0.128629,3,6,-3
13975,Gary Payton,0.091,0.093414,6,10,-4
7684,Tim Hardaway,0.207,0.05996,4,20,-16
1546,Glen Rice,0.117,0.033096,5,53,-48


In [345]:
# Función integral de backtesting
def backtest_model(stats, model, years, features):
    average_precisions = []
    all_predictions = []

    # Saltar los primeros 5 años para tener suficientes datos de entrenamiento
    for year in years[5:]:
        # Dividir datos: entrenar con el pasado, probar con el año actual
        train_data = stats[stats["Year"] < year]
        test_data = stats[stats["Year"] == year]
        
        # Entrenar modelo y hacer predicciones
        model.fit(train_data[features], train_data["Share"])
        year_predictions = model.predict(test_data[features])
        
        # Crear DataFrame de comparación con rankings
        predictions_df = pd.DataFrame(year_predictions, columns=["Predicted"], index=test_data.index)
        comparison = pd.concat([test_data[["Player","Share"]], predictions_df], axis=1)
        comparison = add_ranking_columns(comparison)
        
        # Almacenar resultados y calcular precisión
        all_predictions.append(comparison)
        average_precisions.append(calculate_top7_average_precision(comparison))
        
    # Calcular promedio general
    mean_ap = sum(average_precisions) / len(average_precisions)
    
    return mean_ap, average_precisions, pd.concat(all_predictions)

In [346]:
# Ejecutar backtesting integral con modelo Ridge
mean_avg_precision, avg_precisions_list, all_predictions = backtest_model(stats, ridge_model, years_range, predictor_features)
mean_avg_precision

0.7508244262725399

In [347]:
# Mostrar los 7 principales candidatos con mayores diferencias de predicción
# Ayuda a identificar qué jugadores el modelo consistentemente sobre/subvalora
year_ranking[year_ranking["Rank"] <= 7].sort_values("Difference", ascending=False)

Unnamed: 0,Player,Share,Predicted,Rank,Predicted Rank,Difference
5140,Hakeem Olajuwon,0.083,0.136375,7,4,3
14730,Karl Malone,0.857,0.19232,1,2,-1
1895,Michael Jordan,0.832,0.167613,2,3,-1
4063,Grant Hill,0.327,0.128629,3,6,-3
13975,Gary Payton,0.091,0.093414,6,10,-4
7684,Tim Hardaway,0.207,0.05996,4,20,-16
1546,Glen Rice,0.117,0.033096,5,53,-48


## 5. Ingeniería de Características

### Estadísticas Normalizadas por Año

El juego de la NBA ha evolucionado significativamente a lo largo de las décadas. Necesitamos normalizar las estadísticas para tener en cuenta:
- Diferente ritmo de juego (los partidos son más rápidos ahora)
- Revolución del triple (más triples intentados en la era moderna)
- Cambios de reglas que afectan la anotación

Solución: Dividir cada estadística por el promedio anual para crear características de ratio.

In [348]:
# Mostrar importancia de características de Ridge regression
# Los coeficientes muestran qué características tienen el impacto positivo/negativo más fuerte
feature_importance = pd.concat([pd.Series(ridge_model.coef_), pd.Series(predictor_features)], axis=1)
feature_importance.sort_values(0, ascending=False)

Unnamed: 0,0,1
13,0.123132,eFG%
29,0.031146,W/L%
18,0.029929,DRB
17,0.016409,ORB
10,0.015186,2P
21,0.012398,STL
12,0.010999,2P%
15,0.010338,FTA
22,0.010228,BLK
25,0.007551,PTS


In [349]:
# Calcular ratios normalizados por año para estadísticas clave
# Cada estadística se divide por el promedio del año para tener en cuenta diferencias de era

normalized_stats = stats.groupby("Year")[["PTS", "AST", "STL", "BLK", "3P"]].apply(
    lambda x: x / x.mean(), include_groups=False
)

In [350]:
# Añadir columnas de ratio normalizadas al conjunto de datos
normalized_stats = normalized_stats.reset_index(level=0, drop=True)
stats[["PTS_R", "AST_R", "STL_R", "BLK_R", "3P_R"]] = normalized_stats[["PTS", "AST", "STL", "BLK", "3P"]]

In [351]:
# Verificar que se añadieron nuevas columnas
stats.head()

Unnamed: 0,Player,Age,Team,Pos,G,GS,MP,FG,FGA,FG%,...,W/L%,GB,PS/G,PA/G,SRS,PTS_R,AST_R,STL_R,BLK_R,3P_R
0,Doc Rivers,29,Atlanta Hawks,PG,79,79,32.7,5.6,12.9,0.435,...,0.524,18.0,109.8,109.0,0.72,1.692601,2.010078,2.608773,1.346939,5.594452
1,Dominique Wilkins,31,Atlanta Hawks,SF,81,81,38.0,9.5,20.2,0.47,...,0.524,18.0,109.8,109.0,0.72,2.884104,1.542618,2.059558,1.795918,5.085865
2,Duane Ferrell,25,Atlanta Hawks,SF,78,2,14.9,2.2,4.6,0.489,...,0.524,18.0,109.8,109.0,0.72,0.679268,0.327222,0.549215,0.673469,0.0
3,Gary Leonard,23,Atlanta Hawks,C,4,0,2.3,0.0,0.0,0.0,...,0.524,18.0,109.8,109.0,0.72,0.055678,0.0,0.0,0.673469,0.0
4,John Battle,28,Atlanta Hawks,SG,79,2,23.6,5.0,10.9,0.461,...,0.524,18.0,109.8,109.0,0.72,1.514433,1.262142,0.823823,0.22449,1.017173


In [352]:
# Añadir características de ratio normalizadas a la lista de predictores
predictor_features += ["PTS_R", "AST_R", "STL_R", "BLK_R", "3P_R"]

In [353]:
# Probar rendimiento del modelo con características normalizadas añadidas
# Se espera mejora debido a mejor ajuste de era
mean_avg_precision, avg_precisions_list, all_predictions = backtest_model(stats, ridge_model, years_range, predictor_features)
mean_avg_precision

0.7575530849588599

### Características Categóricas (Experimental)

Codificar posición y equipo como categorías numéricas para posible uso futuro.

In [354]:
# Codificar variables categóricas como códigos numéricos
# Posición (PG, SG, SF, PF, C) y nombres de equipos se convierten en enteros
stats["Position_Encoded"] = stats["Pos"].astype("category").cat.codes
stats["Team_Encoded"] = stats["Team"].astype("category").cat.codes

In [355]:
# Inicializar StandardScaler para posible escalado de características
scaler = StandardScaler()

## 6. Comparación de Modelos - Random Forest

Probar un modelo alternativo para ver si los enfoques no lineales mejoran las predicciones.

In [356]:
# Inicializar Random Forest Regressor
# Alternativa a Ridge - puede capturar relaciones no lineales

random_forest_model = RandomForestRegressor(n_estimators=400, random_state=1, min_samples_split=5)

In [357]:
# Comparar rendimiento de Random Forest regression solo en años recientes (2019-2024)
mean_avg_precision_rf, avg_precisions_rf, all_predictions_rf = backtest_model(
    stats, random_forest_model, years_range[28:], predictor_features
)
mean_avg_precision_rf

0.9379251700680271

In [358]:
# Comparar rendimiento de Ridge regression solo en años recientes (2019-2024)
mean_avg_precision_ridge, avg_precisions_ridge, all_predictions_ridge = backtest_model(
    stats, ridge_model, years_range[28:], predictor_features
)
mean_avg_precision_ridge

0.6900793650793651