In [1]:
import pandas as pd

import oversampling_binary
from oversampling_binary import split_dataset, apply_smote
from sklearn.metrics import confusion_matrix
import seaborn as sns
from sklearn.preprocessing import LabelEncoder
import matplotlib.pyplot as plt


# CLASSIFICAZIONE BINARIA

Carica e prepara i dati

In [2]:
X_train_imputed, X_val_imputed, X_test_imputed, y_train_encoded_filtered, y_val_encoded, y_test_encoded, subclasses_train, class_encoder = split_dataset('audio_features.csv')

## SMOTE

In [3]:
X_train_resampled, y_train_resampled = apply_smote(X_train_imputed, y_train_encoded_filtered, subclasses_train)

In [4]:
# Imposta pandas per visualizzare tutto il contenuto
pd.set_option('display.max_rows', None)  # Rimuove la limitazione del numero massimo di righe visualizzate
pd.set_option('display.max_columns', None)  # Mostra tutte le colonne

In [5]:
# Converti i dati in DataFrame
X_train_df = pd.DataFrame(X_train_resampled)
X_val_df = pd.DataFrame(X_val_imputed)
X_test_df = pd.DataFrame(X_test_imputed)

In [6]:
# Aggiungi le etichette per il target
X_train_df['Class'] = y_train_resampled
X_val_df['Class'] = y_val_encoded
X_test_df['Class'] = y_test_encoded

Train set: 

In [None]:
print("Dati di addestramento dopo SMOTE:")
display(X_train_df)

Validation set :

In [None]:
print("Dati di validazione:")
display(X_val_df)

Test set :

In [None]:
print("Dati di test:")
display(X_test_df)

## Distribuzione delle classi nel set di addestramento dopo SMOTE

In [None]:
y_train_resampled_df = pd.DataFrame(y_train_resampled, columns=['Class'])
print("Distribuzione delle classi nel set di training dopo SMOTE:")
display(y_train_resampled_df['Class'].value_counts())

# ESPERIMENTO 0

Esperimento effettuato prendendo come riferimento alcune features numeriche da "Malfante et al."

## ADDESTRAMENTO RANDOM FOREST

In [7]:
# Converte i DataFrame in ndarray
X_train_resampled_array = X_train_resampled  # Supponendo che sia già un ndarray
X_val_imputed_array = X_val_imputed.values  # Converti il DataFrame in ndarray
X_test_imputed_array = X_test_imputed.values  # Converti il DataFrame in ndarray

In [None]:
# Addestra il modello Random Forest
random_forest_model = oversampling_binary.train_random_forest(
    X_train_resampled_array,
    y_train_resampled,
    X_val_imputed_array,
    y_val_encoded,
    X_test_imputed_array,
    y_test_encoded
)

In [None]:
# 1. Effettua le predizioni sul set di convalida
y_pred = random_forest_model.predict(X_val_imputed_array)

# 2. Calcola la matrice di confusione
cm = confusion_matrix(y_val_encoded, y_pred)

# 3. Visualizza la matrice di confusione
plt.figure(figsize=(8, 6))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', xticklabels=['Classe 0', 'Classe 1'], yticklabels=['Classe 0', 'Classe 1'])
plt.xlabel('Predizioni')
plt.ylabel('Label')
plt.title('Matrice di Confusione')
plt.show()

# ADDESTRAMENTO SVM

In [8]:
import oversampling_binary

In [None]:
svm_model = oversampling_binary.train_svm(X_train_resampled_array, y_train_resampled, X_val_imputed_array, y_val_encoded, X_test_imputed_array, y_test_encoded)

In [None]:
# 1. Effettua le predizioni sul set di convalida
y_pred_svm = svm_model.predict(X_val_imputed_array)

# 2. Calcola la matrice di confusione
cm_svm = confusion_matrix(y_val_encoded, y_pred_svm)

# 3. Visualizza la matrice di confusione
plt.figure(figsize=(8, 6))
sns.heatmap(cm_svm, annot=True, fmt='d', cmap='Blues', xticklabels=['Classe 0', 'Classe 1'], yticklabels=['Classe 0', 'Classe 1'])
plt.xlabel('Predizioni')
plt.ylabel('Vero')
plt.title('Matrice di Confusione - Modello SVM')
plt.show()

# ADDESTRAMENTO LIGHT GBM

In [None]:
import os
os.environ["LOKY_MAX_CPU_COUNT"] = "4"  # Adatta questo valore al numero di core che desideri utilizzare

In [None]:
lightgbm_model = oversampling_binary.train_lightgbm(X_train_resampled_array, y_train_resampled, X_val_imputed_array, y_val_encoded, X_test_imputed_array, y_test_encoded, 10)

In [None]:
# 1. Effettua le predizioni sul set di convalida
y_pred_lightgbm = lightgbm_model.predict(X_val_imputed)

# Se il modello restituisce probabilità, ottieni le etichette predette
y_pred_lightgbm = (y_pred_lightgbm > 0.5).astype(int)  # Usa la soglia di 0.5 per classificazione binaria

# 2. Calcola la matrice di confusione
cm_lightgbm = confusion_matrix(y_val_encoded, y_pred_lightgbm)

# 3. Visualizza la matrice di confusione
plt.figure(figsize=(8, 6))
sns.heatmap(cm_lightgbm, annot=True, fmt='d', cmap='Blues', xticklabels=['Classe 0', 'Classe 1'], yticklabels=['Classe 0', 'Classe 1'])
plt.xlabel('Predizioni')
plt.ylabel('Label')
plt.title('Matrice di Confusione - Modello LightGBM')
plt.show()

# Esperimento 1

Esperimento effettuato prendendo come riferimento alcune features numeriche da "BirdNet"

In [None]:
#SPLIT
X_train_imputed_exp1, X_val_imputed_exp1, X_test_imputed_exp1, y_train_encoded_filtered_exp1, y_val_encoded_exp1, y_test_encoded_exp1, subclasses_train, class_encoder_exp1 = split_dataset(
    'exp1_audio_features.csv')

In [None]:
import os
os.environ["LOKY_MAX_CPU_COUNT"] = "4"  # Adatta questo valore al numero di core che desideri utilizzare

In [None]:
#SMOTE
X_train_resampled_exp1, y_train_resampled_exp1 = apply_smote(X_train_imputed_exp1, y_train_encoded_filtered_exp1, subclasses_train)

In [None]:
y_train_resampled_df_exp1 = pd.DataFrame(y_train_resampled_exp1, columns=['Class'])
print("Distribuzione delle classi nel set di training dopo SMOTE:")
display(y_train_resampled_df_exp1['Class'].value_counts())

In [None]:
#TRAIN
random_forest_model_exp1 = oversampling_binary.train_random_forest(X_train_resampled_exp1, y_train_resampled_exp1, X_val_imputed_exp1, y_val_encoded_exp1, X_test_imputed_exp1, y_test_encoded_exp1)

In [None]:
# 1. Effettua le predizioni sul set di convalida
y_pred_exp1 = random_forest_model_exp1.predict(X_val_imputed_exp1)

# 2. Calcola la matrice di confusione
cm_exp1 = confusion_matrix(y_val_encoded_exp1, y_pred_exp1)

# 3. Visualizza la matrice di confusione
plt.figure(figsize=(8, 6))
sns.heatmap(cm_exp1, annot=True, fmt='d', cmap='Blues', xticklabels=['Classe 0', 'Classe 1'], yticklabels=['Classe 0', 'Classe 1'])
plt.xlabel('Predizioni')
plt.ylabel('Label')
plt.title('Matrice di Confusione - Modello Random Forest Esperimento 1')
plt.show()

In [None]:
svm_model_exp1 = oversampling_binary.train_svm(X_train_resampled_exp1, y_train_resampled_exp1, X_val_imputed_exp1, y_val_encoded_exp1, X_test_imputed_exp1, y_test_encoded_exp1)

In [None]:
# 1. Effettua le predizioni sul set di convalida
y_pred_exp1_svm = svm_model_exp1.predict(X_val_imputed_exp1)

# 2. Calcola la matrice di confusione
cm_exp1_svm = confusion_matrix(y_val_encoded_exp1, y_pred_exp1_svm)

# 3. Visualizza la matrice di confusione
plt.figure(figsize=(8, 6))
sns.heatmap(cm_exp1_svm, annot=True, fmt='d', cmap='Blues', xticklabels=['Classe 0', 'Classe 1'], yticklabels=['Classe 0', 'Classe 1'])
plt.xlabel('Predizioni')
plt.ylabel('Vero')
plt.title('Matrice di Confusione - Modello SVM Esperimento 1')
plt.show()

In [None]:
lightgbm_model_exp1 = oversampling_binary.train_lightgbm(X_train_resampled_exp1, y_train_resampled_exp1, X_val_imputed_exp1, y_val_encoded_exp1, X_val_imputed_exp1, y_test_encoded_exp1)

In [None]:
# 1. Effettua le predizioni sul set di convalida
y_pred_exp1_lightgbm = lightgbm_model_exp1.predict(X_val_imputed_exp1)

# Se il modello restituisce probabilità, ottieni le etichette predette
y_pred_exp1_lightgbm = (y_pred_exp1_lightgbm > 0.5).astype(int)  # Usa la soglia di 0.5 per la classificazione binaria

# 2. Calcola la matrice di confusione
cm_exp1_lightgbm = confusion_matrix(y_val_encoded_exp1, y_pred_exp1_lightgbm)

# 3. Visualizza la matrice di confusione
plt.figure(figsize=(8, 6))
sns.heatmap(cm_exp1_lightgbm, annot=True, fmt='d', cmap='Blues', xticklabels=['Classe 0', 'Classe 1'], yticklabels=['Classe 0', 'Classe 1'])
plt.xlabel('Predizioni')
plt.ylabel('Label')
plt.title('Matrice di Confusione - Modello LightGBM Esperimento 1')
plt.show()

# ESPERIMENTO 2

Esperimento effettuato prendendo come riferimento features numeriche da "A Survey on Audio Feature Extraction for Automatic Music Genre Classification" di Dhamodaran et al.

In [None]:
#SPLIT
X_train_imputed_exp2, X_val_imputed_exp2, X_test_imputed_exp2, y_train_encoded_filtered_exp2, y_val_encoded_exp2, y_test_encoded_exp2 = split_dataset(
    'exp2_audio_features.csv')

In [None]:
#SMOTE
X_train_resampled_exp2, y_train_resampled_exp2 = apply_smote(X_train_imputed_exp2, y_train_encoded_filtered_exp2, subclasses_train)

pd.set_option('display.max_rows', None)  # Rimuove la limitazione del numero massimo di righe visualizzate
pd.set_option('display.max_columns', None)  # Mostra tutte le colonne

In [None]:
# Converti i dati in DataFrame
X_train_df_exp2 = pd.DataFrame(X_train_resampled_exp2)
X_val_df_exp2 = pd.DataFrame(X_val_imputed_exp2)
X_test_df_exp2 = pd.DataFrame(X_test_imputed_exp2)
# Aggiungi le etichette per il target
X_train_df_exp2['Class'] = y_train_resampled_exp2
X_val_df_exp2['Class'] = y_val_encoded_exp2
X_test_df_exp2['Class'] = y_test_encoded_exp2

In [None]:
y_train_resampled_df_exp2 = pd.DataFrame(y_train_resampled_exp2, columns=['Class'])
print("Distribuzione delle classi nel set di training dopo SMOTE:")
display(y_train_resampled_df_exp2['Class'].value_counts())

In [None]:
#TRAIN
random_forest_model_exp2 = oversampling_binary.train_random_forest(X_train_resampled_exp2, y_train_resampled_exp2,
                                                                 X_val_imputed_exp2, y_val_encoded_exp2, X_val_imputed_exp2, y_test_encoded_exp2)

In [None]:
# 1. Effettua le predizioni sul set di convalida
y_pred_exp2 = random_forest_model_exp2.predict(X_val_imputed_exp2)

# 2. Calcola la matrice di confusione
cm_exp2 = confusion_matrix(y_val_encoded_exp2, y_pred_exp2)

# 3. Visualizza la matrice di confusione
plt.figure(figsize=(8, 6))
sns.heatmap(cm_exp2, annot=True, fmt='d', cmap='Blues', xticklabels=['Classe 0', 'Classe 1'], yticklabels=['Classe 0', 'Classe 1'])
plt.xlabel('Predizioni')
plt.ylabel('Label')
plt.title('Matrice di Confusione - Modello Random Forest Esperimento 2')
plt.show()

In [None]:
svm_model_exp2 = oversampling_binary.train_svm(X_train_resampled_exp2, y_train_resampled_exp2, X_val_imputed_exp2, y_val_encoded_exp2, X_test_imputed_exp2, y_test_encoded_exp2)

In [None]:
# 1. Effettua le predizioni sul set di convalida
y_pred_exp2_svm = svm_model_exp2.predict(X_val_imputed_exp2)

# 2. Calcola la matrice di confusione
cm_exp2_svm = confusion_matrix(y_val_encoded_exp2, y_pred_exp2_svm)

# 3. Visualizza la matrice di confusione
plt.figure(figsize=(8, 6))
sns.heatmap(cm_exp2_svm, annot=True, fmt='d', cmap='Blues', xticklabels=['Classe 0', 'Classe 1'], yticklabels=['Classe 0', 'Classe 1'])
plt.xlabel('Predizioni')
plt.ylabel('Label')
plt.title('Matrice di Confusione - Modello SVM Esperimento 2')
plt.show()

In [None]:
lightgbm_model_exp2 = oversampling_binary.train_lightgbm(X_train_resampled_exp2, y_train_resampled_exp2, X_val_imputed_exp2, y_val_encoded_exp2, X_val_imputed_exp2, y_val_encoded_exp2)

In [None]:
# 1. Effettua le predizioni sul set di convalida
y_pred_exp2_lightgbm = lightgbm_model_exp2.predict(X_val_imputed_exp2)

# Se il modello restituisce probabilità, ottieni le etichette predette
y_pred_exp2_lightgbm = (y_pred_exp2_lightgbm > 0.5).astype(int)  # Usa la soglia di 0.5 per la classificazione binaria

# 2. Calcola la matrice di confusione
cm_exp2_lightgbm = confusion_matrix(y_val_encoded_exp2, y_pred_exp2_lightgbm)

# 3. Visualizza la matrice di confusione
plt.figure(figsize=(8, 6))
sns.heatmap(cm_exp2_lightgbm, annot=True, fmt='d', cmap='Blues', xticklabels=['Classe 0', 'Classe 1'], yticklabels=['Classe 0', 'Classe 1'])
plt.xlabel('Predizioni')
plt.ylabel('Label')
plt.title('Matrice di Confusione - Modello LightGBM Esperimento 2')
plt.show()