# Importaciones

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_error

In [2]:
%load_ext kedro.ipython

# Carga de DataSet

In [3]:
data = catalog.load("data_final")

In [4]:
# Check the columns and shape of the data
print("Dataset shape:", data.shape)
print("\nAvailable columns:")
print(data.columns.tolist())
print("\nFirst few rows:")
data.head()

Dataset shape: (200873, 33)

Available columns:
['dateid', 'platform', 'gamemode', 'mapname', 'matchid', 'roundnumber', 'objectivelocation', 'winrole', 'endroundreason', 'roundduration', 'clearancelevel', 'skillrank', 'role', 'team', 'haswon', 'operator', 'nbkills', 'isdead', 'primaryweapon', 'primaryweapontype', 'primarysight', 'primarygrip', 'primaryunderbarrel', 'primarybarrel', 'secondaryweapon', 'secondaryweapontype', 'secondarysight', 'secondarygrip', 'secondaryunderbarrel', 'secondarybarrel', 'secondarygadget', 'kill_death_ratio', 'impact_score']

First few rows:


Unnamed: 0,dateid,platform,gamemode,mapname,matchid,roundnumber,objectivelocation,winrole,endroundreason,roundduration,...,primarybarrel,secondaryweapon,secondaryweapontype,secondarysight,secondarygrip,secondaryunderbarrel,secondarybarrel,secondarygadget,kill_death_ratio,impact_score
0,20170212,1,0,13,1522488121,4,48,0,6,120,...,3,3,0,3,0,1,3,3,0.0,0
1,20170212,1,2,8,1522741281,1,33,0,6,128,...,3,4,0,3,0,1,3,1,2.0,2
2,20170212,1,2,8,1522741281,2,33,0,6,169,...,3,4,0,3,0,1,3,2,0.0,0
3,20170212,1,0,12,1523152401,1,82,1,1,153,...,3,3,0,3,0,1,3,1,1.0,0
4,20170212,2,2,13,1523847781,7,107,0,6,186,...,3,4,0,3,0,1,3,0,0.0,0


# Entrenamiento del modelo

In [None]:
# Preprocess data
X = data[[    
    'gamemode',        # tipo de partida
    'winrole',         # atacante o defensor
    'endroundreason',  # cómo terminó la ronda
    'roundduration',   # cuánto duró
    'isdead',          # si el jugador murió
    'nbkills',         # número de bajas
]]
y = data['impact_score']
# Split data into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Crear y entrenar el modelo
model = LinearRegression()
model.fit(X_train, y_train)

# 🔹 Evaluación del modelo
y_pred = model.predict(X_test)

r2 = r2_score(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)
rmse = mse ** 0.5  # Calcular RMSE manualmente

mae = mean_absolute_error(y_test, y_pred)

print(f" Regresión Múltiple: impact_score ~ multiple features")
print(f"=" * 50)
print(f"Mean Squared Error (MSE): {mse:.4f}")
print(f"Mean Absolute Error (MAE): {mae:.4f}")
print(f"Root Mean Squared Error (RMSE): {rmse:.4f}")
print(f"R² Score: {r2:.4f}")
print(f"=" * 50)

# Mostrar los coeficientes de la regresión múltiple
print("\nCoeficientes del modelo:")
feature_names = ['gamemode', 'winrole', 'endroundreason', 'roundduration', 'isdead', 'nbkills']
for i, coef in enumerate(model.coef_):
    print(f"  {feature_names[i]}: {coef:.4f}")
print(f"  Intercepto: {model.intercept_:.4f}")

# Interpretación del R²
if r2 > 0.7:
    print("\n Modelo con buen ajuste (R² > 0.7)")
elif r2 > 0.5:
    print("\n Modelo con ajuste moderado (R² > 0.5)")
else:
    print("\n Modelo con ajuste pobre (R² < 0.5)")

📊 Regresión Múltiple: impact_score ~ multiple features
Mean Squared Error (MSE): 0.1896
Mean Absolute Error (MAE): 0.2969
Root Mean Squared Error (RMSE): 0.4354
R² Score: 0.6895

Coeficientes del modelo:
  gamemode: 0.0050
  winrole: -0.0571
  endroundreason: -0.0085
  roundduration: 0.0003
  isdead: -0.4478
  nbkills: 0.6549
  Intercepto: 0.3420

⚠️ Modelo con ajuste moderado (R² > 0.5)


# GridSearchCV

In [6]:
from sklearn.model_selection import GridSearchCV

# Definir el modelo base
reg = LinearRegression()

# Definir el grid de hiperparámetros (para LinearRegression hay pocos, pero se puede ajustar 'fit_intercept' y 'normalize')
param_grid = {
    'fit_intercept': [True, False],
    'positive': [True, False]
}

# Configurar GridSearchCV
grid_search = GridSearchCV(
    estimator=reg,
    param_grid=param_grid,
    scoring='neg_mean_squared_error',
    cv=5,
    n_jobs=-1
)

# Ajustar el grid search a los datos de entrenamiento
grid_search.fit(X_train, y_train)

# resultados del mejor modelo con mae mse rmse r2
best_model = grid_search.best_estimator_
y_pred_best = best_model.predict(X_test)
mse_best = mean_squared_error(y_test, y_pred_best)
rmse_best = mse_best ** 0.5
mae_best = mean_absolute_error(y_test, y_pred_best)
r2_best = r2_score(y_test, y_pred_best)



In [7]:
# Imprimir resultados
print("Resultados del mejor modelo:")
print("MAE:", mae_best)
print("MSE:", mse_best)
print("RMSE:", rmse_best)
print("R2:", r2_best)

Resultados del mejor modelo:
MAE: 0.29692593710184095
MSE: 0.18958826085438774
RMSE: 0.43541734101249085
R2: 0.689499560281974


# Conclusiones

## Evaluación General
R² = 0.6895 → Modelo con ajuste moderado-mejorado

Explica el 68.95% de la variabilidad del impact_score

Mejora significativa vs modelo simple (R²: 0.6334 → 0.6895)

## Relaciones Identificadas
Factores más influyentes:
nbkills (0.6549): Mayor impacto positivo - cada kill suma ~0.65 puntos

isdead (-0.4478): Fuerte impacto negativo - morir reduce ~0.45 puntos

winrole (-0.0571): Rol (atacante/defensor) afecta moderadamente

Factores menores:
gamemode (0.0050): Tipo de partida influye poco

endroundreason (-0.0085): Razón fin ronda impacto mínimo

roundduration (0.0003): Duración casi irrelevante

## Precisión del Modelo
Error promedio (MAE): 0.297 puntos

Error típico (RMSE): 0.435 puntos

Mejora en errores vs modelo simple (RMSE: 0.473 → 0.435)

## Interpretación 
Kills siguen siendo el predictor más fuerte (coeficiente 0.6549)

Morir tiene gran impacto negativo en el score

Variables contextuales (modo, rol) aportan poco valor predictivo

Modelo más completo pero aún con 31% de variabilidad sin explicar