<h4>"AJUSTE DE HIPERPARAMETROS"</h4>
<p>En este notebook se muestra cómo ajustar los hiperparámetros de un modelo de machine learning utilizando la librería <code>scikit-learn</code>.</p>


In [1]:
import pandas as pd
from sklearn.ensemble import RandomForestRegressor  # Cambié el clasificador por el regressor
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error  # Importé MAE
import numpy as np

In [2]:

df_train = pd.read_csv('../data/train_spotify_tracks.csv')
df_test = pd.read_csv('../data/test_spotify_tracks.csv')
y_test = pd.read_csv('../data/y_test.csv')
if y_test.shape[1] == 1:
	y_test = y_test.iloc[:, 0] # Solo tiene una columna


In [3]:
X_train = df_train.drop('popularity', axis=1)  # Datos de entrada
y_train = df_train['popularity']               # Etiquetas (nivel de popularidad)

X_test = df_test.copy()                        # Datos de prueba


In [4]:
# 2.5. Crear y entrenar el modelo de Random Forest con hiperparámetros óptimos
# {'n_estimators': 200, 'min_samples_split': 5, 'min_samples_leaf': 2}
# -> el indicado {'n_estimators': 200, 'min_samples_split': 5, 'min_samples_leaf': 1, 'max_depth': 20}
modelo = RandomForestRegressor(
    n_estimators=200,
    min_samples_split=5,
    min_samples_leaf=1,
    max_depth=20,
    random_state=42
)

modelo.fit(X_train, y_train)


# 2.6. Generar predicciones con el modelo entrenado
y_pred = modelo.predict(X_test)  # Predicciones de popularidad

# 2.7. Crear dataframe con resultados
df_resultados = X_test.copy()
df_resultados['Predicted_popularity'] = y_pred  # Agregar las predicciones al dataframe

# 2.8. Calcular el error de cada predicción
# El error es la diferencia entre la predicción y el valor real
df_resultados['Error'] = df_resultados['Predicted_popularity'] - y_test.values

# 2.9. Redondear los valores a enteros (sin decimales)
df_resultados['Predicted_popularity'] = df_resultados['Predicted_popularity'].round(0).astype(int)
df_resultados['Error'] = df_resultados['Error'].round(0).astype(int)

# 2.7. Calcular métricas generales de evaluación
mse  = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
mae  = mean_absolute_error(y_test, y_pred)
r2   = r2_score(y_test, y_pred)

# Imprimir las métricas generales
print(f"MSE (Mean Squared Error):  {mse:.2f}")
print(f"RMSE (Root Mean Squared Error): {rmse:.2f}")
print(f"MAE (Mean Absolute Error):  {mae:.2f}")
print(f"R² (R squared):   {r2:.2f}")


MSE (Mean Squared Error):  247.42
RMSE (Root Mean Squared Error): 15.73
MAE (Mean Absolute Error):  11.88
R² (R squared):   0.30
