# Ridge Regression

El objetivo es intentar predecir el 'track_popularity' de cualquier canción.

Para ello entrenaremos modelos de Regresión Ridge para las distintas versiones del dataset:
- Datos escalados,
- PCA de 6 componentes (sólo *musical features*),
- PCA de 9 componentes *(incluye dummies de 'genre').*

La mejor regresión de Ridge para cada conjunto de datos será utilizada como benchmark de referencia contra el que hacer luego las comparaciones, por tratarse de uno de los modelos más sencillos que se pueden aplicar.


In [1]:
# imports
import pandas as pd
import pickle
import time
from sklearn.metrics import (mean_absolute_error, r2_score,
                             root_mean_squared_error, 
                             mean_absolute_percentage_error)

from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import Ridge

## Scaled dataset

In [2]:
df = pd.read_csv('datasets/df_scaled.csv')

### Preparación

In [3]:
y = df['track_popularity']
X = df.drop(columns=['track_popularity','track_id'])

Separamos el dataset en sets de entrenamiento y testeo.

In [4]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

### Entrenamiento

Realizamos una búsqueda de los mejores parámetros de Support Vector Regressor para nuestro dataset.

In [5]:
# Se crea un modelo Ridge
ridge_hitters = Ridge()

#### Grid Search

Se realiza una búsqueda de grilla para encontrar el parámetro óptimo de alpha.

In [6]:
start_time = time.time() # Inicia medición de tiempo de ejecución

grid_ridge = GridSearchCV(ridge_hitters,
                    {"alpha": np.linspace(0, 20, 1000)},
                    refit=True,
                    cv=5,
                    scoring='neg_mean_absolute_error')
grid_ridge.fit(X_train,y_train)

end_time = time.time() # Finaliza medición de tiempo de ejecución

# Calcula tiempo de ejecución
total_time = end_time - start_time
print(f"Tiempo de ejecución: {total_time}\n")

Tiempo de ejecución: 43.18820905685425



In [7]:
# Guardar los mejores parámetros de la búsqueda
best_model = grid_ridge.best_estimator_

# Exportación del modelo
if best_model is not None:
    model_save_path = "models/ridge_scaled.pkl"
    with open(model_save_path, 'wb') as f:
        pickle.dump(best_model, f)
    print(f"Mejor modelo: {best_model}")
    print(f"Guardado como '{model_save_path}'")

Mejor modelo: Ridge(alpha=0.0)
Guardado como 'models/ridge_scaled.pkl'


### Estudio de métricas

In [8]:
ridge_hitters = grid_ridge.best_estimator_

y_pred = ridge_hitters.predict(X_test)
y_pred_ridge = y_pred

mae = mean_absolute_error(y_test, y_pred)
rmse = root_mean_squared_error(y_test, y_pred)
mape = mean_absolute_percentage_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"MAE de testeo fue: {mae}")
print(f"RMSE de testeo fue: {rmse}")
print(f"MAPE de testeo fue: {mape}")
print(f"R2 de testeo fue: {r2}")

MAE de testeo fue: 0.1528584508433987
RMSE de testeo fue: 0.18614300092165012
MAPE de testeo fue: 10824012387177.076
R2 de testeo fue: 0.10833310045571798


## PCA 6 componentes

In [9]:
df = pd.read_csv('datasets/df_pca6.csv')

### Preparación

In [10]:
y = df['track_popularity']
X = df.drop(columns=['track_popularity','track_id'])

Separamos el dataset en sets de entrenamiento y testeo.

In [11]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

### Entrenamiento

Realizamos una búsqueda de los mejores parámetros de Support Vector Regressor para nuestro dataset.

In [12]:
# Se crea un modelo Ridge
ridge_hitters = Ridge()

#### Grid Search

Se realiza una búsqueda de grilla para encontrar el parámetro óptimo de alpha.

In [13]:
start_time = time.time() # Inicia medición de tiempo de ejecución

grid_ridge = GridSearchCV(ridge_hitters,
                    {"alpha": np.linspace(0, 20, 1000)},
                    refit=True,
                    cv=5,
                    scoring='neg_mean_absolute_error')
grid_ridge.fit(X_train,y_train)

end_time = time.time() # Finaliza medición de tiempo de ejecución

# Calcula tiempo de ejecución
total_time = end_time - start_time
print(f"Tiempo de ejecución: {total_time}\n")

Tiempo de ejecución: 28.6592960357666



In [14]:
# Guardar los mejores parámetros de la búsqueda
best_model = grid_ridge.best_estimator_

# Exportación del modelo
if best_model is not None:
    model_save_path = "models/ridge_pca6.pkl"
    with open(model_save_path, 'wb') as f:
        pickle.dump(best_model, f)
    print(f"Mejor modelo: {best_model}")
    print(f"Guardado como '{model_save_path}'")

Mejor modelo: Ridge(alpha=20.0)
Guardado como 'models/ridge_pca6.pkl'


### Estudio de métricas

In [15]:
ridge_hitters = grid_ridge.best_estimator_

y_pred = ridge_hitters.predict(X_test)
y_pred_ridge = y_pred

mae = mean_absolute_error(y_test, y_pred)
rmse = root_mean_squared_error(y_test, y_pred)
mape = mean_absolute_percentage_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"MAE de testeo fue: {mae}")
print(f"RMSE de testeo fue: {rmse}")
print(f"MAPE de testeo fue: {mape}")
print(f"R2 de testeo fue: {r2}")

MAE de testeo fue: 0.1613493145950062
RMSE de testeo fue: 0.19428495851749936
MAPE de testeo fue: 11000354431233.164
R2 de testeo fue: 0.028623526703989377


## PCA 9 componentes

In [16]:
df = pd.read_csv('datasets/df_pca9.csv')

### Preparación

In [17]:
y = df['track_popularity']
X = df.drop(columns=['track_popularity','track_id'])

Separamos el dataset en sets de entrenamiento y testeo.

In [18]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

### Entrenamiento

Realizamos una búsqueda de los mejores parámetros de Support Vector Regressor para nuestro dataset.

In [19]:
# Se crea un modelo Ridge
ridge_hitters = Ridge()

#### Grid Search

Se realiza una búsqueda de grilla para encontrar el parámetro óptimo de alpha.

In [20]:
start_time = time.time() # Inicia medición de tiempo de ejecución

grid_ridge = GridSearchCV(ridge_hitters,
                    {"alpha": np.linspace(0, 20, 1000)},
                    refit=True,
                    cv=5,
                    scoring='neg_mean_absolute_error')
grid_ridge.fit(X_train,y_train)

end_time = time.time() # Finaliza medición de tiempo de ejecución

# Calcula tiempo de ejecución
total_time = end_time - start_time
print(f"Tiempo de ejecución: {total_time}\n")

Tiempo de ejecución: 28.856944799423218



In [21]:
# Guardar los mejores parámetros de la búsqueda
best_model = grid_ridge.best_estimator_

# Exportación del modelo
if best_model is not None:
    model_save_path = "models/ridge_pca9.pkl"
    with open(model_save_path, 'wb') as f:
        pickle.dump(best_model, f)
    print(f"Mejor modelo: {best_model}")
    print(f"Guardado como '{model_save_path}'")

Mejor modelo: Ridge(alpha=0.0)
Guardado como 'models/ridge_pca9.pkl'


### Estudio de métricas

In [22]:
ridge_hitters = grid_ridge.best_estimator_

y_pred = ridge_hitters.predict(X_test)
y_pred_ridge = y_pred

mae = mean_absolute_error(y_test, y_pred)
rmse = root_mean_squared_error(y_test, y_pred)
mape = mean_absolute_percentage_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"MAE de testeo fue: {mae}")
print(f"RMSE de testeo fue: {rmse}")
print(f"MAPE de testeo fue: {mape}")
print(f"R2 de testeo fue: {r2}")

MAE de testeo fue: 0.15929968290218816
RMSE de testeo fue: 0.19202122403906738
MAPE de testeo fue: 10918061186771.465
R2 de testeo fue: 0.051127871184242446
