# HAR Data Fusion Based Algorithm Analysis #

In [11]:
import os
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [12]:
# Definisci la directory principale
main_directory = 'ConfusionMatrixComplexFusionBayesian'

k_master_values = range(10,51,10)
k_slave_values = range(10,51,10)
threshold = np.round(np.arange(0.6, 1.1, 0.1),2)

risultati_configurazione = {}

for k_master in k_master_values:
    for k_slave in k_slave_values:
        
        risultati_soglia = {}
        
        for t in threshold:
            df_combined = pd.DataFrame()  # Inizializza df_combined per ogni combinazione
            user_path = os.path.join(main_directory, f'{k_master}_{k_slave}', str(t), 'Csv', 'Global')
            #print(user_path)
                
            # Assicurati che sia una directory CSV
            if os.path.isdir(user_path):
                # Itera attraverso tutti i file CSV nella directory CSV
                for csv_file in os.listdir(user_path):
                    if csv_file.startswith('ConfusionMatrixComplexFusionBayesian') and csv_file.endswith('.csv'):
                        # Prova a leggere il file CSV
                        file_path = os.path.join(user_path, csv_file)
                        #print(file_path)
                        df = pd.read_csv(file_path)
                        df_combined = pd.concat([df_combined, df], ignore_index=True)
                    
                    risultati_soglia[t] = df_combined.copy()
                risultati_configurazione[k_master, k_slave] = risultati_soglia

In [13]:
for (k_master,k_slave), risultati_soglia in risultati_configurazione.items():
    print(f"Configurazione: {k_master}_{k_slave}_{t}")
    for t, df_combined in risultati_soglia.items():
        print(f"Soglia: {t}")
        print(df_combined)
        print(df_combined.shape)

Configurazione: 10_10_1.1
Soglia: 0.6
  Unnamed: 0  Accuracy  Macro_Precision  Macro_Recall  Macro_F1  NumPredTot  \
0     Values         0                0             0         0       17626   
1     Values         0                0             0         0       17626   
2     Values         0                0             0         0       17626   
3     Values         0                0             0         0       17626   
4     Values         0                0             0         0       17626   
5     Values         0                0             0         0       17626   
6     Values         0                0             0         0       17626   
7     Values         0                0             0         0       17626   
8     Values         0                0             0         0       17626   
9     Values         0                0             0         0       17626   

   NumPredMagSoglia  NumPredMinSoglia  PercentageErr  PercentageSucc  
0              9875  

In [14]:
average_input_directory = 'BestConfigComplexFusionBayesian'

# Assicurati che la directory di input esista
if not os.path.exists(average_input_directory):
    print(f"La directory {average_input_directory} non esiste.")
    exit()

colonne = ['Accuracy', 'Macro_Precision', 'Macro_F1', 'NumPredMagSoglia', 'NumPredMinSoglia', "PercentageErr", "PercentageSucc"]

# Crea la directory di output (BestAverageMaster) se non esiste
best_average_output_directory = 'BestConfigComplexFusionBayesian/Global/Average'
os.makedirs(best_average_output_directory, exist_ok=True)

class_means_dict = {}  
    
for (k_master,k_slave), risultati_soglia in risultati_configurazione.items():
    
    means_threshold = {}
    
    for t, df_combined in risultati_soglia.items():
    
        # Calcola la media per ciascun valore unico nella colonna 'Class'
        means = df_combined[colonne].mean()  

        means_threshold[t] = means
    
    class_means_dict[k_master, k_slave] = means_threshold

In [None]:
# Liste per memorizzare tutti i valori delle metriche per ciascuna chiave di configurazione
metrics_values = {'Accuracy': [], 'Macro_F1': [], 'Macro_Precision': [], 'NumPredMagSoglia': [], 'NumPredMinSoglia':[], 'PercentageErr': [], 'PercentageSucc': []}

metric_chiave_dict = {}

# Loop attraverso i valori delle chiavi di configurazione
for (k_master, k_slave), means_threshold in class_means_dict.items():
    
    metric_dict = {}
    
    for t, means in means_threshold.items():
        # Calcola e memorizza la media di ciascuna metrica per la configurazione corrente
        for metric in metrics_values:
            metric_mean = means[metric]
            metrics_values[metric].append(metric_mean)
            
        metric_dict[t] = metrics_values
    metric_chiave_dict[k_master,k_slave] = metric_dict

In [8]:
for (k_master,k_slave), metric_dict in metric_chiave_dict.items():
    print(f"Chiave: {k_master}_{k_slave}")
    for t, metrics_values in metric_dict.items():
        print(f"Soglia: {t}")
        print(metrics_values)

Chiave: 10_10
Soglia: 0.6
{'Accuracy': [0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.8318999999999999, 0.7211000000000001, 0.7378999999999999, 0.7726000000000001, 0.0, 0.8487, 0.8049000000000002, 0.8017999999999998, 0.8368, 0.0, 0.8700000000000001, 0.8989, 0.883, 0.9263, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.806, 0.8440999999999999, 0.8023, 0.7316, 0.0, 0.8389999999999999, 0.8444999999999998, 0.8197999999999999, 0.8371999999999999, 0.0, 0.8710000000000001, 0.8988000000000002, 0.9229, 0.9388, 1.0, 0.8811, 0.9067000000000001, 0.9128999999999999, 0.9461, 1.0, 0.7803, 0.7633000000000001, 0.7742, 0.8741999999999999, 1.0, 0.852, 0.8515, 0.8789999999999999, 0.8929, 1.0, 0.8685, 0.8935000000000001, 0.9113999999999999, 0.9451999999999998, 0.0, 0.8801000000000002, 0.9122, 0.9341000000000002, 0.9699, 1.0, 0.8972, 0.9242000000000001, 0.9511, 0.9753999999999999, 0.0, 0.7845000000000001, 0.7629, 0.7845000000000001, 0.8464, 0.0, 0.8501, 0.8562999999999998, 0.8901, 0.9522999999999999, 0.0, 0.87200000

In [7]:
# Nuovo dizionario per memorizzare i valori delle metriche per ciascuna soglia
metrics_by_threshold = {}

# Loop attraverso i valori delle chiavi di configurazione
for (k_master, k_slave), means_threshold in class_means_dict.items():
    
    for t, means in means_threshold.items():
        
        # Crea una chiave per la soglia se non esiste ancora nel nuovo dizionario
        if t not in metrics_by_threshold:
            metrics_by_threshold[t] = {}
        
        # Per ogni chiave di configurazione, memorizza le metriche per la soglia corrente
        if (k_master, k_slave) not in metrics_by_threshold[t]:
            metrics_by_threshold[t][(k_master, k_slave)] = {}
        
        # Memorizza le metriche per la configurazione corrente e la soglia corrente
        for metric in metrics_values:
            metric_mean = means[metric]
            metrics_by_threshold[t][(k_master, k_slave)][metric] = metric_mean

# Ora metrics_by_threshold conterrà le metriche organizzate per soglia e configurazione

In [8]:
# Lista per memorizzare i dati per ogni soglia
data_by_threshold = []

# Stampa le metriche e crea il dataset per ciascuna soglia
for threshold, config_metrics in metrics_by_threshold.items():
    # Lista per memorizzare i dati per una soglia specifica
    data_for_threshold = []
    
    for (k_master, k_slave), metrics in config_metrics.items():
        # Aggiungi la colonna 'Soglia' ai dati della configurazione
        config_data = {'Soglia': threshold, 'k_master': k_master, 'k_slave': k_slave, **metrics}
        
        # Aggiungi i dati della configurazione alla lista
        data_for_threshold.append(config_data)
    
    # Aggiungi i dati della soglia alla lista principale
    data_by_threshold.extend(data_for_threshold)

    # Crea un DataFrame per la soglia corrente
    df_for_threshold = pd.DataFrame(data_for_threshold)

# Crea un DataFrame complessivo
df = pd.DataFrame(data_by_threshold)
df.to_csv('DatiComplessiviComplexBayesianFusion.csv')
print("DataFrame complessivo:")
print(df)

DataFrame complessivo:
     Soglia  k_master  k_slave  Accuracy  Macro_F1  Macro_Precision  \
0       0.6        10       10    0.0000    0.0000           0.0000   
1       0.6        10       20    0.0000    0.0000           0.0000   
2       0.6        10       30    0.8319    0.8256           0.8388   
3       0.6        10       40    0.8487    0.8451           0.8471   
4       0.6        10       50    0.8700    0.8686           0.8701   
..      ...       ...      ...       ...       ...              ...   
120     1.0        50       10    0.0000    0.0000           0.0000   
121     1.0        50       20    0.0000    0.0000           0.0000   
122     1.0        50       30    1.0000    1.0000           1.0000   
123     1.0        50       40    1.0000    1.0000           1.0000   
124     1.0        50       50    1.0000    1.0000           1.0000   

     NumPredMagSoglia  NumPredMinSoglia  PercentageErr  PercentageSucc  
0              9924.2            7701.8       0.436

# Plot dei Grafici 3D #

In [None]:
# Specifica la cartella di output
best_average_output_directory = 'BestConfigComplexFusionBayesian/Global/3DPlot'

# Assicurati che la cartella di output esista, altrimenti creala
if not os.path.exists(best_average_output_directory):
    os.makedirs(best_average_output_directory)

# Definisci gli indici che vuoi mostrare
index_values_k_master = np.arange(10, 51, 10)
index_values_k_slave = np.arange(10, 51, 10)

# Ciclo attraverso le soglie nel DataFrame
for threshold in df['Soglia'].unique():
    # Filtra il DataFrame per la soglia corrente
    subset_df = df[df['Soglia'] == threshold]

    # Estrai i valori esatti di k_master e k_slave
    k_master_vals = np.unique(subset_df['k_master'])
    k_slave_vals = np.unique(subset_df['k_slave'])

    # Creazione di una matrice per ogni metrica
    metrics = subset_df.columns.difference(['Soglia', 'k_master', 'k_slave'])

    for metric in metrics:
        fig = plt.figure(figsize=(15, 15))
        ax = fig.add_subplot(111, projection='3d')

        # Creazione di una griglia per i valori di k_master e k_slave
        k_master_grid, k_slave_grid = np.meshgrid(k_master_vals, k_slave_vals)

        # Creazione di un array 2D per la metrica corrente
        metric_grid = subset_df.pivot('k_master', 'k_slave', metric).values

        # Plot della superficie 3D
        surface = ax.plot_surface(k_master_grid, k_slave_grid, metric_grid, cmap='viridis', edgecolor='k')

        # Etichette degli assi
        ax.set_xlabel('k_master')
        ax.set_ylabel('k_slave')
        ax.set_zlabel(metric)
        #ax.set_title(f'Superficie 3D per Soglia {threshold} - {metric}')

        # Inverti l'asse x
        ax.invert_xaxis()

        # Imposta gli indici personalizzati sull'asse x
        ax.set_xticks(index_values_k_master)
        ax.set_xticklabels(index_values_k_master)

        # Imposta gli indici personalizzati sull'asse y
        ax.set_yticks(index_values_k_slave)
        ax.set_yticklabels(index_values_k_slave)
        
         # Aggiungi la legenda
        fig.colorbar(surface, ax=ax, shrink=0.5, aspect=10)

        # Salva il grafico nella cartella di output
        output_filename = os.path.join(best_average_output_directory, f'3d_plot_soglia_{threshold}_{metric}.pdf')
        plt.savefig(output_filename)
        plt.show()

# Plot delle Heatmaps #

In [None]:
# Specifica la cartella di output
best_average_output_directory = 'BestConfigComplexFusionBayesian/Global/Heatmap'

# Assicurati che la cartella di output esista, altrimenti creala
if not os.path.exists(best_average_output_directory):
    os.makedirs(best_average_output_directory)

# Ciclo attraverso le soglie nel DataFrame
for threshold in df['Soglia'].unique():
    # Filtra il DataFrame per la soglia corrente
    subset_df = df[df['Soglia'] == threshold]

    # Estrai i valori esatti di k_master e k_slave
    k_master_vals = np.unique(subset_df['k_master'])
    k_slave_vals = np.unique(subset_df['k_slave'])

    # Creazione di una matrice per ogni metrica
    metrics = subset_df.columns.difference(['Soglia', 'k_master', 'k_slave'])
    
    for metric in metrics:
        matrix_data = subset_df.pivot('k_master', 'k_slave', metric).values

        # Creazione di un heatmap per ogni metrica
        plt.figure(figsize=(15, 10))
        sns.heatmap(matrix_data, annot=True, fmt=".4f", cmap='viridis', cbar=True, xticklabels=k_slave_vals, yticklabels=k_master_vals)
        plt.xlabel('k_slave')
        plt.ylabel('k_master')
        plt.title(f'Heatmap per Soglia {threshold} - {metric}')

        # Salva il grafico nella cartella di output
        output_filename = os.path.join(best_average_output_directory, f'heatmap_soglia_{threshold}_{metric}.pdf')
        plt.savefig(output_filename)
        plt.show()

# Best Configurazione #

In [11]:
# Calcola la media tra Accuracy e PercentageSucc solo per le righe con Accuracy > 90%
df['Mean_Accuracy_PercentageSucc'] = (df[df['Accuracy'] > 0.9]['Accuracy'] + df[df['Accuracy'] > 0.9]['PercentageSucc']) / 2

if not df[df['Accuracy'] > 0.9].empty:
    # Trova l'indice della riga con la media più alta
    best_config_idx = df['Mean_Accuracy_PercentageSucc'].idxmax()

    # Estrai la tripla corrispondente
    best_config = df.loc[best_config_idx, ['k_master', 'k_slave', 'Soglia', 'Accuracy', 'PercentageSucc', 'PercentageErr']]

    # Stampa la tripla
    print("Migliore configurazione con la media più elevata tra Accuracy e PercentageSucc (con Accuracy > 90%):")
    print(best_config)
else:
    print("Nessuna riga soddisfa le condizioni specificate.")

Migliore configurazione con la media più elevata tra Accuracy e PercentageSucc (con Accuracy > 90%):
k_master          50.000000
k_slave           50.000000
Soglia             0.600000
Accuracy           0.903500
PercentageSucc     0.816873
PercentageErr      0.183127
Name: 24, dtype: float64
