![image info](https://raw.githubusercontent.com/davidzarruk/MIAD_ML_NLP_2023/main/images/banner_1.png)

# Proyecto 1 - Predicción de popularidad en canción

En este proyecto podrán poner en práctica sus conocimientos sobre modelos predictivos basados en árboles y ensambles, y sobre la disponibilización de modelos. Para su desarrollo tengan en cuenta las instrucciones dadas en la "Guía del proyecto 1: Predicción de popularidad en canción".

**Entrega**: La entrega del proyecto deberán realizarla durante la semana 4. Sin embargo, es importante que avancen en la semana 3 en el modelado del problema y en parte del informe, tal y como se les indicó en la guía.

Para hacer la entrega, deberán adjuntar el informe autocontenido en PDF a la actividad de entrega del proyecto que encontrarán en la semana 4, y subir el archivo de predicciones a la [competencia de Kaggle](https://www.kaggle.com/competitions/miad-2025-12-prediccion-popularidad-en-cancion).

## Datos para la predicción de popularidad en cancion

En este proyecto se usará el conjunto de datos de datos de popularidad en canciones, donde cada observación representa una canción y se tienen variables como: duración de la canción, acusticidad y tempo, entre otras. El objetivo es predecir qué tan popular es la canción. Para más detalles puede visitar el siguiente enlace: [datos](https://huggingface.co/datasets/maharshipandya/spotify-tracks-dataset).

## Ejemplo predicción conjunto de test para envío a Kaggle

En esta sección encontrarán el formato en el que deben guardar los resultados de la predicción para que puedan subirlos a la competencia en Kaggle.

In [1]:
import warnings
warnings.filterwarnings('ignore')

In [2]:
# Importación librerías
import pandas as pd
import numpy as np

In [3]:
# Carga de datos de archivo .csv
dataTraining = pd.read_csv('https://raw.githubusercontent.com/davidzarruk/MIAD_ML_NLP_2025/main/datasets/dataTrain_Spotify.csv')
dataTesting = pd.read_csv('https://raw.githubusercontent.com/davidzarruk/MIAD_ML_NLP_2025/main/datasets/dataTest_Spotify.csv', index_col=0)

In [4]:
# Visualización datos de entrenamiento
dataTraining.head()

Unnamed: 0.1,Unnamed: 0,track_id,artists,album_name,track_name,duration_ms,explicit,danceability,energy,key,...,mode,speechiness,acousticness,instrumentalness,liveness,valence,tempo,time_signature,track_genre,popularity
0,0,7hUhmkALyQ8SX9mJs5XI3D,Love and Rockets,Love and Rockets,Motorcycle,211533,False,0.305,0.849,9,...,1,0.0549,5.8e-05,0.0567,0.464,0.32,141.793,4,goth,22
1,1,5x59U89ZnjZXuNAAlc8X1u,Filippa Giordano,Filippa Giordano,"Addio del passato - From ""La traviata""",196000,False,0.287,0.19,7,...,0,0.037,0.93,0.000356,0.0834,0.133,83.685,4,opera,22
2,2,70Vng5jLzoJLmeLu3ayBQq,Susumu Yokota,Symbol,Purple Rose Minuet,216506,False,0.583,0.509,1,...,1,0.0362,0.777,0.202,0.115,0.544,90.459,3,idm,37
3,3,1cRfzLJapgtwJ61xszs37b,Franz Liszt;YUNDI,Relajación y siestas,"Liebeslied (Widmung), S. 566",218346,False,0.163,0.0368,8,...,1,0.0472,0.991,0.899,0.107,0.0387,69.442,3,classical,0
4,4,47d5lYjbiMy0EdMRV8lRou,Scooter,Scooter Forever,The Darkside,173160,False,0.647,0.921,2,...,1,0.185,0.000939,0.371,0.131,0.171,137.981,4,techno,27


In [5]:
# Visualización datos de test
dataTesting.head()

Unnamed: 0,track_id,artists,album_name,track_name,duration_ms,explicit,danceability,energy,key,loudness,mode,speechiness,acousticness,instrumentalness,liveness,valence,tempo,time_signature,track_genre
0,6KwkVtXm8OUp2XffN5k7lY,Hillsong Worship,No Other Name,No Other Name,440247,False,0.369,0.598,7,-6.984,1,0.0304,0.00511,0.0,0.176,0.0466,148.014,4,world-music
1,2dp5I5MJ8bQQHDoFaNRFtX,Internal Rot,Grieving Birth,Failed Organum,93933,False,0.171,0.997,7,-3.586,1,0.118,0.00521,0.801,0.42,0.0294,122.223,4,grindcore
2,5avw06usmFkFrPjX8NxC40,Zhoobin Askarieh;Ali Sasha,Noise A Noise 20.4-1,"Save the Trees, Pt. 1",213578,False,0.173,0.803,9,-10.071,0,0.144,0.613,0.00191,0.195,0.0887,75.564,3,iranian
3,75hT0hvlESnDJstem0JgyR,Bryan Adams,All I Want For Christmas Is You,Merry Christmas,151387,False,0.683,0.511,6,-5.598,1,0.0279,0.406,0.000197,0.111,0.598,109.991,3,rock
4,4bY2oZGA5Br3pTE1Jd1IfY,Nogizaka46,バレッタ TypeD,月の大きさ,236293,False,0.555,0.941,9,-3.294,0,0.0481,0.484,0.0,0.266,0.813,92.487,4,j-idol


In [6]:
# Predicción del conjunto de test - acá se genera un número aleatorio como ejemplo
np.random.seed(42)
y_pred = pd.DataFrame(np.random.rand(dataTesting.shape[0]) * 100, index=dataTesting.index, columns=['Popularity'])

In [7]:
# Guardar predicciones en formato exigido en la competencia de kaggle
y_pred.to_csv('test_submission_file.csv', index_label='ID')
y_pred.head()

Unnamed: 0,Popularity
0,37.454012
1,95.071431
2,73.199394
3,59.865848
4,15.601864


### Entrenamiento del modelo

In [8]:
# Seleccionar las columnas requeridas del DataFrame de entrenamiento
columnas_seleccionadas = ['duration_ms', 'explicit', 'popularity']
data_entrenamiento_subset = dataTraining[columnas_seleccionadas].copy()

# Preprocesar los datos
# Convertir la columna 'explicit' (booleana) a numérica (0 o 1)
data_entrenamiento_subset['explicit'] = data_entrenamiento_subset['explicit'].astype(int)


# Separar las características (variables independientes X) y la variable objetivo (y)
X = data_entrenamiento_subset.drop('popularity', axis=1)
y = data_entrenamiento_subset['popularity']

# Importar las clases y funciones necesarias
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import cross_val_score, KFold
import numpy as np # Necesario para calcular la media y desviación estándar

# Crear una instancia del modelo
modelo_popularidad = LinearRegression()

# Definir la estrategia de validación cruzada (K-Fold con 5 divisiones)
# shuffle=True asegura que los datos se mezclen antes de dividirlos
# random_state asegura la reproducibilidad de la mezcla
cv = KFold(n_splits=5, shuffle=True, random_state=42)

# Realizar la validación cruzada
# Usamos 'neg_mean_squared_error' como métrica. Scikit-learn maximiza, por eso usamos el negativo del MSE.
# También podríamos usar 'r2' para el coeficiente de determinación.
scores_mse = cross_val_score(modelo_popularidad, X, y, cv=cv, scoring='neg_mean_squared_error')

# Convertir los scores negativos de MSE a positivos y calcular la raíz (RMSE) para mejor interpretación
scores_rmse = np.sqrt(-scores_mse)

# Imprimir los resultados de la validación cruzada
print(f"Resultados de la Validación Cruzada (RMSE para cada fold): {scores_rmse}")
print(f"RMSE Promedio: {scores_rmse.mean():.4f}")
print(f"Desviación Estándar del RMSE: {scores_rmse.std():.4f}")

# --- Entrenamiento final del modelo en TODO el conjunto de entrenamiento ---
# Después de evaluar el rendimiento con validación cruzada, entrenamos el modelo final
# con todos los datos de entrenamiento disponibles (X, y) para hacer predicciones futuras.
print("\nEntrenando el modelo final con todos los datos de entrenamiento...")
modelo_popularidad.fit(X, y)

# El objeto 'modelo_popularidad' ahora contiene el modelo entrenado con todos los datos.
print("Modelo final para predecir 'popularity' entrenado con las columnas 'duration_ms', 'explicit' y 'track_genre'.")

# Opcional: ver el intercepto o los coeficientes del modelo final entrenado
print(f"Intercepto del modelo final: {modelo_popularidad.intercept_}")
print(f"Número de coeficientes del modelo final: {len(modelo_popularidad.coef_)}")


Resultados de la Validación Cruzada (RMSE para cada fold): [22.2167528  22.37016576 22.26925383 22.36043186 22.33100541]
RMSE Promedio: 22.3095
Desviación Estándar del RMSE: 0.0582

Entrenando el modelo final con todos los datos de entrenamiento...
Modelo final para predecir 'popularity' entrenado con las columnas 'duration_ms', 'explicit' y 'track_genre'.
Intercepto del modelo final: 33.24792128293453
Número de coeficientes del modelo final: 2


In [None]:
# 1. Seleccionar las mismas columnas de dataTesting que se usaron para entrenar
columnas_requeridas_test = ['duration_ms', 'explicit']
# Asegurarse de que las columnas existen en dataTesting antes de seleccionarlas
columnas_existentes_test = [col for col in columnas_requeridas_test if col in dataTesting.columns]
# Verificar si dataTesting existe y tiene las columnas antes de proceder
if 'dataTesting' in locals() and all(col in dataTesting.columns for col in columnas_existentes_test):
    data_testing_subset = dataTesting[columnas_existentes_test].copy()

    # 2. Preprocesar dataTesting de la misma manera que dataTraining
    # Convertir 'explicit' a numérica (si existe)
    if 'explicit' in data_testing_subset.columns:
        # Asegurarse de que 'explicit' no contenga valores no convertibles (como NaN) antes de convertir
        # Podríamos rellenar NaNs o eliminar filas si es necesario, aquí asumimos que está limpio o la conversión maneja errores
        try:
            data_testing_subset['explicit'] = data_testing_subset['explicit'].fillna(0).astype(int) # Rellenar NaN con 0 como ejemplo
        except Exception as e:
            print(f"Error al convertir 'explicit' a int: {e}")
            # Considerar cómo manejar este error, por ejemplo, deteniendo la ejecución o usando un valor por defecto

    # Aplicar One-Hot Encoding a 'track_genre' (si existe)
    if 'track_genre' in data_testing_subset.columns:
        # Asegurarse de que 'track_genre' no tenga NaNs si get_dummies no los maneja como se desea
        data_testing_subset['track_genre'] = data_testing_subset['track_genre'].fillna('unknown') # Rellenar NaN con 'unknown' como ejemplo
        data_testing_subset_processed = pd.get_dummies(data_testing_subset, columns=['track_genre'], drop_first=True)
    else:
        data_testing_subset_processed = data_testing_subset # Si no hay 'track_genre', usar el subset tal cual

    # 3. Alinear las columnas de dataTesting preprocesado con las columnas usadas en el entrenamiento (X.columns)
    # Esto asegura que el DataFrame para predicción tenga exactamente las mismas columnas,
    # en el mismo orden, que las usadas para entrenar el modelo.
    # Las columnas que falten en dataTesting (porque ciertos géneros no estaban presentes) se añadirán con valor 0.
    # Las columnas presentes en dataTesting pero no en el entrenamiento (si las hubiera) se eliminarán.
    # Asegurarse de que 'X' existe y tiene las columnas esperadas
    if 'X' in locals() and hasattr(X, 'columns'):
        data_testing_subset_aligned = data_testing_subset_processed.reindex(columns=X.columns, fill_value=0)

        # 4. Realizar predicciones usando el modelo entrenado 'modelo_popularidad'
        # Asegurarse de que 'modelo_popularidad' existe y está entrenado
        if 'modelo_popularidad' in locals():
            predicciones_popularidad = modelo_popularidad.predict(data_testing_subset_aligned)

            # 5. Crear un DataFrame para almacenar las predicciones
            # Es buena práctica usar el índice original de dataTesting para facilitar la correspondencia
            predicciones_df = pd.DataFrame(predicciones_popularidad, index=dataTesting.index, columns=['Popularity']) # Cambiado nombre de columna para coincidir con output celda 11

            # 6. Mostrar las primeras filas de las predicciones
            print("Predicciones de popularidad para el conjunto de prueba (dataTesting):")
            print(predicciones_df.head())

            # Opcional: Si deseas guardar estas predicciones en un nuevo archivo CSV
            # Comentado para evitar PermissionError observado en la salida de la celda 13
            try:
                predicciones_df.to_csv('test_submission_linear_model_V2.csv', index_label='ID')
                print("Predicciones guardadas en 'test_submission_linear_model_V2.csv'")
            except PermissionError as e:
                print(f"Error de permiso al guardar el archivo CSV: {e}")
                print("Asegúrate de tener permisos de escritura en el directorio actual o especifica una ruta diferente.")
            except Exception as e:
                print(f"Ocurrió un error inesperado al guardar el archivo CSV: {e}")
        else:
            print("Error: El modelo 'modelo_popularidad' no está definido o entrenado.")
    else:
        print("Error: El DataFrame de entrenamiento 'X' no está definido o no tiene columnas.")
else:
    print("Error: El DataFrame 'dataTesting' no está definido o no contiene las columnas requeridas.")


### Test de ejecución en notebook

In [9]:
duration_ms = 250505
explicit = 0

# Crear un DataFrame con los datos de entrada
input_data = pd.DataFrame({
    'duration_ms': [duration_ms],
    'explicit': [explicit],
})

# Realizar la predicción con el modelo usando los tres datos
prediccion_popularidad = modelo_popularidad.predict(input_data)

print("Predicción de popularidad para la canción:")
print(prediccion_popularidad)

Predicción de popularidad para la canción:
[32.94328768]


### Guardamos el modelo en archivo pkl

In [10]:
import os  # Importar el módulo os para manejar rutas y directorios
import joblib  # Usaremos joblib para guardar el modelo y las columnas

# Definir el directorio donde se guardarán los archivos
directorio_destino = 'model_deployment'
# Definir los nombres de los archivos
nombre_archivo_modelo = 'modelo_popularidad.pkl'
# Construir las rutas completas a los archivos
ruta_completa_modelo = os.path.join(directorio_destino, nombre_archivo_modelo)

# Asegurarse de que el directorio de destino exista, si no, crearlo
os.makedirs(directorio_destino, exist_ok=True)

# Guardar el modelo en el archivo especificado usando joblib
joblib.dump(modelo_popularidad, ruta_completa_modelo)

print(f"Modelo guardado exitosamente en {ruta_completa_modelo}")


Modelo guardado exitosamente en model_deployment\modelo_popularidad.pkl


### Prueba del modelo llamando el archivo pkl

In [11]:
# Importar modelo y predicción
from model_deployment.m02_model_deployment import predict_popu

duration_ms = 210000
explicit = 0

predict_popu(duration_ms,explicit)

array([32.99254492])

### Disponibilizar modelo con Flask

In [12]:
# Importación librerías
from flask import Flask
from flask_restx import Api, Resource, fields

In [13]:
app = Flask(__name__)

# Definición API Flask
api = Api(
    app, 
    version='1.0', 
    title='API - prediccion de popularidad de canciones',
    description='API que predice la pularidad de una cancion con base en su duracion y si es explicita o no')

ns = api.namespace('predict', 
     description='Popularidad')

# Definición argumentos o parámetros de la API
parser = ns.parser()
parser.add_argument(
    'duration_ms', 
    type=int, 
    required=True, 
    help='Duración de la canción en milisegundos', 
    location='args'
)
parser.add_argument(
    'explicit', 
    type=int, 
    required=True, 
    help='Indica si la canción es explícita (0 = No, 1 = Sí)', 
    location='args'
)

resource_fields = api.model('Resource', {
    'result': fields.String,
})

In [14]:
# Definición de la clase para disponibilización
@ns.route('/')
class PopularidadApi(Resource):

    @ns.doc(parser=parser)
    @ns.marshal_with(resource_fields)
    def get(self):
        args = parser.parse_args()
        duration_ms = args['duration_ms']
        explicit = args['explicit']
        
        # Importar la función de predicción desde el módulo correspondiente
        from model_deployment.m02_model_deployment import predict_popu

        resultado = predict_popu(duration_ms, explicit)
        return {
            "result": str(resultado)
        }, 200

In [15]:
# Ejecución de la aplicación que disponibiliza el modelo de manera local en el puerto 5000
app.run(debug=True, use_reloader=False, host='0.0.0.0', port=5000)

 * Serving Flask app '__main__'
 * Debug mode: on


 * Running on all addresses (0.0.0.0)
 * Running on http://127.0.0.1:5000
 * Running on http://192.168.0.15:5000
Press CTRL+C to quit
127.0.0.1 - - [26/Apr/2025 23:51:00] "GET / HTTP/1.1" 200 -
127.0.0.1 - - [26/Apr/2025 23:51:00] "GET /swaggerui/droid-sans.css HTTP/1.1" 200 -
127.0.0.1 - - [26/Apr/2025 23:51:00] "GET /swaggerui/swagger-ui.css HTTP/1.1" 200 -
127.0.0.1 - - [26/Apr/2025 23:51:00] "GET /swaggerui/swagger-ui-bundle.js HTTP/1.1" 200 -
127.0.0.1 - - [26/Apr/2025 23:51:00] "GET /swaggerui/swagger-ui-standalone-preset.js HTTP/1.1" 200 -
127.0.0.1 - - [26/Apr/2025 23:51:01] "GET /swagger.json HTTP/1.1" 200 -
127.0.0.1 - - [26/Apr/2025 23:51:12] "GET /predict/?duration_ms=200000&explicit=0 HTTP/1.1" 200 -
127.0.0.1 - - [26/Apr/2025 23:51:23] "GET /predict/?duration_ms=210000&explicit=0 HTTP/1.1" 200 -
