In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import classification_report
import nltk
import string
from nltk.corpus import stopwords

# Descargar stopwords de NLTK si no las tienes
print("Descargando stopwords de NLTK...")
nltk.download('stopwords')

# Función para limpiar las letras
def limpiar_texto(text):
    text = text.lower()  # Convertir a minúsculas
    text = ''.join([char for char in text if char not in string.punctuation])  # Quitar puntuación
    tokens = text.split()  # Tokenización
    text = ' '.join([word for word in tokens if word not in stopwords.words('english')])  # Quitar stopwords
    return text

# Cargar la base de datos
print("Cargando la base de datos...")
df = pd.read_csv('tcc_ceds_music.csv')

# Tomar una muestra del 10% del dataset
# print("Tomando una muestra del 10% del dataset...")
# df_sample = df.sample(frac=0.1, random_state=42)

print("Mostrando las primeras filas del dataset:")
print(df.head())  # Para verificar que los datos se cargaron correctamente

# Limpiar las letras
print("Limpiando las letras...")
df['cleaned_lyrics'] = df['lyrics'].apply(limpiar_texto)

# Vectorización usando TF-IDF
print("Vectorizando las letras con TF-IDF...")
tfidf = TfidfVectorizer(max_features=5000)
X = tfidf.fit_transform(df['cleaned_lyrics']).toarray()

print("Mostrando la forma del conjunto de características (X):", X.shape)

# Etiquetas de género
print("Extrayendo las etiquetas de género...")
y = df['genre']

# Dividir el dataset en entrenamiento y prueba
print("Dividiendo el conjunto de datos en entrenamiento y prueba...")
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print("Conjunto de entrenamiento y prueba preparado.")

In [15]:
# Crear el modelo Naive Bayes
modelo_nb = MultinomialNB()

# Entrenar el modelo
modelo_nb.fit(X_train, y_train)

# Realizar predicciones
y_pred = modelo_nb.predict(X_test)

# Evaluar el modelo
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

       blues       0.32      0.11      0.16       926
     country       0.46      0.54      0.50      1123
     hip hop       0.53      0.20      0.29       198
        jazz       0.48      0.13      0.20       731
         pop       0.31      0.71      0.43      1398
      reggae       0.69      0.21      0.32       515
        rock       0.33      0.15      0.21       784

    accuracy                           0.36      5675
   macro avg       0.44      0.29      0.30      5675
weighted avg       0.41      0.36      0.32      5675



In [None]:
from sklearn.neural_network import MLPClassifier

# Crear un modelo de red neuronal con ajustes
modelo_mlp_mejorado = MLPClassifier(hidden_layer_sizes=(256, 128, 64), activation='relu', solver='adam', max_iter=1000, random_state=42)

# Entrenar el modelo
modelo_mlp_mejorado.fit(X_train, y_train)

# Realizar predicciones
y_pred_mlp_mejorado = modelo_mlp_mejorado.predict(X_test)

# Evaluar el modelo
print("MLPClassifier Mejorado:")
print(classification_report(y_test, y_pred_mlp_mejorado))

In [None]:
from sklearn.ensemble import RandomForestClassifier

# Crear un modelo de Random Forest
modelo_rf = RandomForestClassifier(n_estimators=100, random_state=42)

# Entrenar el modelo
modelo_rf.fit(X_train, y_train)

# Realizar predicciones
y_pred_rf = modelo_rf.predict(X_test)

# Evaluar el modelo
print("Random Forest Classifier:")
print(classification_report(y_test, y_pred_rf))

In [None]:
from sklearn.linear_model import LogisticRegression

# Crear un modelo de regresión logística
modelo_lr = LogisticRegression(max_iter=1000)

# Entrenar el modelo
modelo_lr.fit(X_train, y_train)

# Realizar predicciones
y_pred_lr = modelo_lr.predict(X_test)

# Evaluar el modelo
print("Logistic Regression:")
print(classification_report(y_test, y_pred_lr))

In [None]:
from sklearn.svm import SVC

# Crear un modelo de SVM
modelo_svm = SVC(kernel='linear')

# Entrenar el modelo
modelo_svm.fit(X_train, y_train)

# Realizar predicciones
y_pred_svm = modelo_svm.predict(X_test)

# Evaluar el modelo
print("Support Vector Machine (SVM):")
print(classification_report(y_test, y_pred_svm))

In [None]:
from sklearn.ensemble import GradientBoostingClassifier

# Crear un modelo de Gradient Boosting
modelo_gb = GradientBoostingClassifier(n_estimators=100, random_state=42)

# Entrenar el modelo
modelo_gb.fit(X_train, y_train)

# Realizar predicciones
y_pred_gb = modelo_gb.predict(X_test)

# Evaluar el modelo
print("Gradient Boosting Classifier:")
print(classification_report(y_test, y_pred_gb))

In [17]:
def predecir_genero(nuevas_letras):
    nuevas_letras_limpias = limpiar_texto(nuevas_letras)
    letras_vectorizadas = tfidf.transform([nuevas_letras_limpias]).toarray()
    prediccion = modelo_nb.predict(letras_vectorizadas)
    return prediccion[0]

# Ejemplo de uso
nueva_lyrics = "Here goes the lyrics of the new song"
print(predecir_genero(nueva_lyrics))

country


In [18]:
import joblib

# Guardar el modelo entrenado
joblib.dump(modelo_nb, 'modelo_naive_bayes.pkl')

# Guardar el modelo entrenado
joblib.dump(modelo_nb, 'modelo_mlp.pkl')

# Guardar el vectorizador TF-IDF
joblib.dump(tfidf, 'vectorizer_tfidf.pkl')

['vectorizer_tfidf.pkl']