In [2]:
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

from sklearn.metrics import (
    accuracy_score, 
    f1_score, 
    classification_report, 
    confusion_matrix, 
    roc_auc_score, 
    precision_score, 
    recall_score,
)
from scikitplot.metrics import plot_roc
from scikitplot.metrics import plot_precision_recall

In [3]:
df = pd.read_csv("../our_analyses/dataset_prepared.csv")
df_test= pd.read_csv("../our_analyses/dataset_test_prepared.csv")

In [4]:
genre_groups = {
    '1': {
        'j-dance': 0, 'techno': 0, 'mandopop': 0, 'idm': 0, 'chicago-house': 0, 'breakbeat': 0, 
        'black-metal': 1, 
        'bluegrass': 2, 
        'j-idol': 3, 'spanish': 3, 'disney': 3, 'brazil': 3, 
        'iranian': 4, 'afrobeat': 4, 'indian': 4, 'forro': 4, 
        'happy': 5, 'sleep': 5, 'study': 5, 
        'industrial': 6
    },
    '2': {
        'black-metal': 0, 'industrial': 0, 
        'breakbeat': 1, 'techno': 1, 'chicago-house': 1, 
        'afrobeat': 2, 'brazil': 2, 'forro': 2, 'iranian': 2, 'spanish': 2, 
        'j-dance': 3, 'j-idol': 3, 'mandopop': 3, 
        'bluegrass': 4, 
        'study': 5, 'sleep': 5, 
        'idm': 6, 'disney': 6, 'happy': 6, 
        'indian': 7
    },
    '3': {
        'j-dance': 0, 'techno': 0, 'mandopop': 0, 'idm': 0, 'chicago-house': 0, 'breakbeat': 0, 
        'black-metal': 1, 
        'bluegrass': 2, 
        'brazil': 3, 'spanish': 3, 'forro': 3, 
        'disney': 4, 
        'happy': 5, 'sleep': 5, 'study': 5, 
        'indian': 6, 'iranian': 6, 
        'industrial': 7, 
        'j-idol': 8
    },
    '4': {
        'j-dance': 0, 'techno': 0, 'breakbeat': 0, 'forro': 0, 
        'black-metal': 1, 'industrial': 1, 
        'bluegrass': 2, 'brazil': 2, 'spanish': 2, 
        'mandopop': 3, 'disney': 3, 'j-idol': 3, 
        'happy': 4, 'sleep': 4, 'study': 4, 
        'indian': 5, 'iranian': 5, 'afrobeat': 5, 
        'idm': 6, 'chicago-house': 6
    },
    '5': {
        'j-dance': 0, 'techno': 0, 'idm': 0, 'chicago-house': 0, 'breakbeat': 0, 'mandopop': 0, 
        'black-metal': 1, 
        'bluegrass': 2, 
        'brazil': 3, 'spanish': 3, 'forro': 3, 
        'disney': 4, 
        'happy': 5, 'sleep': 5, 'study': 5, 
        'indian': 6, 'iranian': 6, 'j-idol': 6, 
        'industrial': 7
    },
    '6': {
        'j-dance': 0, 'techno': 0, 'idm': 0, 'chicago-house': 0, 'breakbeat': 0, 
        'black-metal': 1, 'industrial': 1, 
        'happy': 2, 'sleep': 2, 'study': 2, 
        'bluegrass': 3, 'forro': 3, 
        'j-idol': 4, 'spanish': 4, 'disney': 4, 'mandopop': 4, 'afrobeat': 4, 
        'iranian': 5, 'indian': 5, 'brazil': 5
    },
    '7': {
        'j-dance': 0, 'mandopop': 0, 'j-idol': 0, 
        'brazil': 1, 'spanish': 1, 'forro': 1, 
        'afrobeat': 2, 'iranian': 2, 'indian': 2, 
        'techno': 3, 'idm': 3, 'chicago-house': 3, 'breakbeat': 3, 
        'bluegrass': 4, 
        'black-metal': 5, 'industrial': 5, 
        'happy': 6, 'sleep': 6, 'study': 6, 
        'disney': 7
    },
    '8': {
        'j-dance': 0, 'techno': 0, 'chicago-house': 0, 'breakbeat': 0, 
        'happy': 1, 'sleep': 1, 'study': 1, 'disney': 1, 
        'bluegrass': 2, 'forro': 2, 'mandopop': 2, 'iranian': 2, 'indian': 2, 'brazil': 2, 
        'black-metal': 3, 'industrial': 3, 
        'j-idol': 4, 'spanish': 4, 'afrobeat': 4, 
        'idm': 5
    },
    '9': {
        'j-dance': 0, 'techno': 0, 'breakbeat': 0, 
        'happy': 1, 'sleep': 1, 'study': 1, 
        'bluegrass': 2, 'forro': 2, 'disney': 2, 
        'black-metal': 3, 'industrial': 3, 
        'iranian': 4, 'indian': 4, 'brazil': 4, 'afrobeat': 4, 
        'j-idol': 5, 'spanish': 5, 'mandopop': 5, 
        'chicago-house': 6, 'idm': 6
    },
    '10': {
        'idm': 0, 'chicago-house': 0, 'breakbeat': 0, 'industrial': 0,
        'j-dance': 1, 'techno': 1,
        'bluegrass': 2, 'forro': 2, 'Mandopop': 2,
        'j-idol': 3, 'spanish': 3, 'disney': 3, 'afrobeat': 3,
        'iranian': 4, 'indian': 4, 'brazil': 4,
        'happy': 5, 'sleep': 5, 'study': 5,
        'black-metal': 6

    },
    '11': {
        'idm': 0, 'chicago-house': 0, 'breakbeat': 0, 'industrial': 0,'Mandopop': 0, 'j-dance': 0, 'techno': 0,
        'bluegrass': 2, 'forro': 2,
        'j-idol': 3, 'spanish': 3, 'disney': 3, 'afrobeat': 3,
        'iranian': 4, 'indian': 4, 'brazil': 4,
        'happy': 5, 'sleep': 5, 'study': 5,
        'black-metal': 6

    }
}


from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.neighbors import KNeighborsClassifier

# Carica il dataset una volta all'inizio
original_df = pd.read_csv("../our_analyses/dataset_prepared.csv")
original_df_test = pd.read_csv("../our_analyses/dataset_test_prepared.csv")

# Rimuovi le colonne che non saranno utilizzate nella modellazione
original_df = original_df.drop(['name', 'artists', 'album_name'], axis=1)
original_df_test = original_df_test.drop(['name', 'artists', 'album_name'], axis=1)

# Inizializza LabelEncoder fuori dal ciclo
le = LabelEncoder()

for key, genre_group in genre_groups.items():
    # Clona il dataset originale per ogni iterazione
    # Clona il dataset originale per ogni iterazione
    df = original_df.copy()
    df_test = original_df_test.copy()
    
    # Pulizia: Rimuovi o sostituisci i valori NaN/infiniti prima della mappatura
    df['genre'] = df['genre'].fillna('Unknown')  # Sostituisci NaN con 'Unknown'
    df_test['genre'] = df_test['genre'].fillna('Unknown')

    # Mappatura dei generi ai gruppi
    df['genre_group'] = df['genre'].map(genre_group).fillna(-1).astype(int)  # Sostituisci NaN con -1 dopo la mappatura
    df_test['genre_group'] = df_test['genre'].map(genre_group).fillna(-1).astype(int)


    # Codifica della colonna 'explicit'
    df['explicit'] = le.fit_transform(df['explicit'])
    df_test['explicit'] = le.transform(df_test['explicit'])
    
    # Separazione delle features e dei target
    X_train = df.drop(['genre_group', 'genre'], axis=1)
    y_train = df['genre_group'].values
    X_test = df_test.drop(['genre_group', 'genre'], axis=1)
    y_test = df_test['genre_group'].values
    
    # Standardizzazione delle features
    scaler = StandardScaler()
    X_train_norm = scaler.fit_transform(X_train)
    X_test_norm = scaler.transform(X_test)

    # Addestramento e valutazione del classificatore KNN
    clf = KNeighborsClassifier(n_neighbors=14, metric="cityblock", weights="uniform")
    clf.fit(X_train_norm, y_train)

    y_train_pred = clf.predict(X_train_norm)
    y_test_pred = clf.predict(X_test_norm)

    # Stampa i risultati
    print(f"Raggruppamento: {key}")
    print("Accuracy sul set di addestramento:", accuracy_score(y_train, y_train_pred))
    print("Accuracy sul set di test:", accuracy_score(y_test, y_test_pred))
    print("\n")  # Aggiunge una linea vuota tra i risultati per chiarezza
    

Raggruppamento: 1
Accuracy sul set di addestramento: 0.6603333333333333
Accuracy sul set di test: 0.579


Raggruppamento: 2
Accuracy sul set di addestramento: 0.6568
Accuracy sul set di test: 0.5956


Raggruppamento: 3
Accuracy sul set di addestramento: 0.6528
Accuracy sul set di test: 0.5766


Raggruppamento: 4
Accuracy sul set di addestramento: 0.6318666666666667
Accuracy sul set di test: 0.554


Raggruppamento: 5
Accuracy sul set di addestramento: 0.6532666666666667
Accuracy sul set di test: 0.5788


Raggruppamento: 6
Accuracy sul set di addestramento: 0.6838
Accuracy sul set di test: 0.6196


Raggruppamento: 7
Accuracy sul set di addestramento: 0.6489333333333334
Accuracy sul set di test: 0.5838


Raggruppamento: 8
Accuracy sul set di addestramento: 0.6970666666666666
Accuracy sul set di test: 0.6442


Raggruppamento: 9
Accuracy sul set di addestramento: 0.6526666666666666
Accuracy sul set di test: 0.5894


Raggruppamento: 10
Accuracy sul set di addestramento: 0.653
Accuracy sul se