In [1]:
from functions import *

# Descargar stopwords de NLTK si no las tienes
print("Descargando stopwords de NLTK...")
nltk.download('stopwords')

# Cargar la base de datos
print("Cargando la base de datos...")
df = pd.read_csv('datasets/tcc_ceds_music.csv')

print("Mostrando las primeras filas del dataset:")
print(df.head())  # Para verificar que los datos se cargaron correctamente

# Limpiar las letras
print("Limpiando las letras...")
df['cleaned_lyrics'] = df['lyrics'].apply(limpiar_texto)

# Vectorización usando TF-IDF
print("Vectorizando las letras con TF-IDF...")
tfidf = TfidfVectorizer(max_features=5000)
X = tfidf.fit_transform(df['cleaned_lyrics']).toarray()

print("Mostrando la forma del conjunto de características (X):", X.shape)

# Etiquetas de género
print("Extrayendo las etiquetas de género...")
y = df['genre']

# Dividir el dataset en entrenamiento y prueba
print("Dividiendo el conjunto de datos en entrenamiento y prueba...")
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print("Conjunto de entrenamiento y prueba preparado.")

Descargando stopwords de NLTK...
Cargando la base de datos...


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\diego\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Mostrando las primeras filas del dataset:
   Unnamed: 0           artist_name            track_name  release_date genre  \
0           0                mukesh  mohabbat bhi jhoothi          1950   pop   
1           4         frankie laine             i believe          1950   pop   
2           6           johnnie ray                   cry          1950   pop   
3          10           pérez prado              patricia          1950   pop   
4          12  giorgos papadopoulos    apopse eida oneiro          1950   pop   

                                              lyrics  len    dating  violence  \
0  hold time feel break feel untrue convince spea...   95  0.000598  0.063746   
1  believe drop rain fall grow believe darkest ni...   51  0.035537  0.096777   
2  sweetheart send letter goodbye secret feel bet...   24  0.002770  0.002770   
3  kiss lips want stroll charm mambo chacha merin...   54  0.048249  0.001548   
4  till darling till matter know till dream live ...   48  0.00135

# Training Models

In [2]:
# Crear el modelo Naive Bayes
modelo_nb = MultinomialNB()
modelo_nb.fit(X_train, y_train)
y_pred = modelo_nb.predict(X_test)
print("Modelo NB:")
print(classification_report(y_test, y_pred))

# Crear un modelo de red neuronal con ajustes
modelo_mlp_mejorado = MLPClassifier(hidden_layer_sizes=(256, 128, 64), activation='relu', solver='adam', max_iter=1000, random_state=42)
modelo_mlp_mejorado.fit(X_train, y_train)
y_pred_mlp_mejorado = modelo_mlp_mejorado.predict(X_test)
print("MLPClassifier Mejorado:")
print(classification_report(y_test, y_pred_mlp_mejorado))

# Crear un modelo de Random Forest
modelo_rf = RandomForestClassifier(n_estimators=100, random_state=42)
modelo_rf.fit(X_train, y_train)
y_pred_rf = modelo_rf.predict(X_test)
print("Random Forest Classifier:")
print(classification_report(y_test, y_pred_rf))

# Crear un modelo de regresión logística
modelo_lr = LogisticRegression(max_iter=1000)
modelo_lr.fit(X_train, y_train)
y_pred_lr = modelo_lr.predict(X_test)
print("Logistic Regression:")
print(classification_report(y_test, y_pred_lr))

# Crear un modelo de SVM
modelo_svm = SVC(kernel='linear')
modelo_svm.fit(X_train, y_train)
y_pred_svm = modelo_svm.predict(X_test)
print("Support Vector Machine (SVM):")
print(classification_report(y_test, y_pred_svm))

# Crear un modelo de Gradient Boosting
modelo_gb = GradientBoostingClassifier(n_estimators=100, random_state=42)
modelo_gb.fit(X_train, y_train)
y_pred_gb = modelo_gb.predict(X_test)
print("Gradient Boosting Classifier:")
print(classification_report(y_test, y_pred_gb))

joblib.dump(modelo_nb, 'models/modelo_naive_bayes.pkl')
joblib.dump(modelo_mlp_mejorado, 'models/modelo_mlp_mejorado.pkl')
joblib.dump(modelo_rf, 'models/modelo_rf.pkl')
joblib.dump(modelo_lr, 'models/modelo_lr.pkl')
joblib.dump(modelo_svm, 'models/modelo_svm.pkl')
joblib.dump(modelo_gb, 'models/modelo_gb.pkl')
joblib.dump(tfidf, 'models/tfidf.pkl')

              precision    recall  f1-score   support

       blues       0.32      0.11      0.16       926
     country       0.46      0.54      0.50      1123
     hip hop       0.53      0.20      0.29       198
        jazz       0.48      0.13      0.20       731
         pop       0.31      0.71      0.43      1398
      reggae       0.69      0.21      0.32       515
        rock       0.33      0.15      0.21       784

    accuracy                           0.36      5675
   macro avg       0.44      0.29      0.30      5675
weighted avg       0.41      0.36      0.32      5675



# Training models V2

In [None]:
# Naive Bayes con suavizado (alpha ajustado)
modelo_nb_v2 = MultinomialNB(alpha=0.5)  # Ajusta alpha para suavizado
modelo_nb_v2.fit(X_train, y_train)
y_pred_nb_v2 = modelo_nb_v2.predict(X_test)
print("Naive Bayes Mejorado:")
print(classification_report(y_test, y_pred_nb_v2))


# Red neuronal con más capas y ajuste de learning rate
modelo_mlp_mejorado_v2 = MLPClassifier(hidden_layer_sizes=(512, 256, 128, 64),
                                       activation='relu',
                                       solver='adam',
                                       learning_rate='adaptive',
                                       max_iter=1500,
                                       random_state=42)

modelo_mlp_mejorado_v2.fit(X_train, y_train)
y_pred_mlp_mejorado_v2 = modelo_mlp_mejorado_v2.predict(X_test)
print("MLPClassifier Mejorado V2:")
print(classification_report(y_test, y_pred_mlp_mejorado_v2))


# Random Forest con más estimadores y mayor profundidad
modelo_rf_v2 = RandomForestClassifier(n_estimators=300, max_depth=20, random_state=42)
modelo_rf_v2.fit(X_train, y_train)
y_pred_rf_v2 = modelo_rf_v2.predict(X_test)
print("Random Forest Classifier V2:")
print(classification_report(y_test, y_pred_rf_v2))


# Regresión logística con regularización ajustada
modelo_lr_v2 = LogisticRegression(max_iter=1500, C=0.5)  # C más bajo aplica más regularización
modelo_lr_v2.fit(X_train, y_train)
y_pred_lr_v2 = modelo_lr_v2.predict(X_test)
print("Logistic Regression V2:")
print(classification_report(y_test, y_pred_lr_v2))


# SVM con kernel no lineal
modelo_svm_v2 = SVC(kernel='rbf', C=1.0)  # Kernel rbf es no lineal
modelo_svm_v2.fit(X_train, y_train)
y_pred_svm_v2 = modelo_svm_v2.predict(X_test)
print("Support Vector Machine V2:")
print(classification_report(y_test, y_pred_svm_v2))


# Gradient Boosting con más estimadores y mayor profundidad
modelo_gb_v2 = GradientBoostingClassifier(n_estimators=300, max_depth=5, random_state=42)
modelo_gb_v2.fit(X_train, y_train)
y_pred_gb_v2 = modelo_gb_v2.predict(X_test)
print("Gradient Boosting Classifier V2:")
print(classification_report(y_test, y_pred_gb_v2))

# Guardar los modelos mejorados
joblib.dump(modelo_nb_v2, 'models/modelo_naive_bayes_v2.pkl')
joblib.dump(modelo_mlp_mejorado_v2, 'models/modelo_mlp_mejorado_v2.pkl')
joblib.dump(modelo_rf_v2, 'models/modelo_rf_v2.pkl')
joblib.dump(modelo_lr_v2, 'models/modelo_lr_v2.pkl')
joblib.dump(modelo_svm_v2, 'models/modelo_svm_v2.pkl')
joblib.dump(modelo_gb_v2, 'models/modelo_gb_v2.pkl')

Naive Bayes Mejorado:
              precision    recall  f1-score   support

       blues       0.32      0.13      0.19       926
     country       0.46      0.56      0.50      1123
     hip hop       0.41      0.40      0.40       198
        jazz       0.46      0.16      0.24       731
         pop       0.33      0.64      0.43      1398
      reggae       0.63      0.28      0.39       515
        rock       0.33      0.20      0.25       784

    accuracy                           0.38      5675
   macro avg       0.42      0.34      0.34      5675
weighted avg       0.40      0.38      0.35      5675

