In [8]:
import pandas as pd
from sklearn.metrics import silhouette_score, silhouette_samples
import numpy as np

def silhouette_score_wtime(file):

    df = pd.read_csv(file)

    # Assicurati che le colonne siano nel formato corretto
    df['time'] = df['time'].astype(int)  # Assicurati che 'time' sia numerico

    # Usa solo le colonne delle coordinate e del cluster ID
    X = df[["x", "y"]].values  # Array con coordinate x e y
    labels = df["cluster_id"].values  # Array con l'ID del cluster
    time_values = df["time"].values  # Array con i valori di time

    # Crea una lista per memorizzare i silhouette score medi per ciascun time
    silhouette_avg_per_time = []

    # Crea una lista per visualizzare il silhouette score per ogni punto
    silhouette_values = silhouette_samples(X, labels)

    # Calcola il silhouette score per ogni valore di time
    unique_times = np.unique(time_values)  # Trova i tempi unici
    for time in unique_times:
        # Seleziona i dati corrispondenti a questo time
        # https://www.educative.io/answers/what-is-boolean-masking-on-numpy-arrays-in-python
        time_mask = time_values == time
        X_time = X[time_mask]
        labels_time = labels[time_mask]

        # Calcola il silhouette score per questo time
        silhouette_avg = silhouette_score(X_time, labels_time)
        silhouette_avg_per_time.append(silhouette_avg)
        print(f"Silhouette Score per il time {time}: {silhouette_avg}")

    # Calcola il silhouette score medio per l'intero dataset
    silhouette_avg_overall = np.mean(silhouette_avg_per_time)
    print(f"Silhouette Score medio complessivo: {silhouette_avg_overall}")
    
    return silhouette_avg_overall

In [11]:
silhouette_score_wtime("/home/robivad/Git/CPP-S-RASTER/data_output/n100_p500/mu1_tau1.csv")

Silhouette Score per il time 0: 0.9999786325255239
Silhouette Score per il time 1: 0.9999524315890196
Silhouette Score per il time 2: 0.9999753202322729
Silhouette Score per il time 3: 0.9999769382290872
Silhouette Score per il time 4: 0.9999601173856647
Silhouette Score per il time 5: 0.9999700424172562
Silhouette Score per il time 6: 0.9999747336333821
Silhouette Score per il time 7: 0.999943634593724
Silhouette Score per il time 8: 0.9999692273507685
Silhouette Score per il time 9: 0.9999664763503516
Silhouette Score medio complessivo: 0.999966755430705


np.float64(0.999966755430705)

In [13]:
import os
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

# Funzione principale per generare la matrice e la heatmap
def process_files_and_plot_heatmap(input_path, mu_range, tau_range):
    """
    Processa i file CSV e genera una heatmap con silhouette scores.
    Parametri:
        input_path (str): Cartella contenente i file CSV.
        mu_range (range): Range dei valori di mu.
        tau_range (range): Range dei valori di tau.
        n_clusters (int): Numero di cluster per silhouette score.
    """
    # Matrice per salvare i risultati
    silhouette_matrix = np.zeros((len(tau_range), len(mu_range)))

    # Itera sui valori di mu e tau
    for i, tau in enumerate(tau_range):
        for j, mu in enumerate(mu_range):
            # Costruisci il nome del file
            file_name = f"mu{mu}_tau{tau}.csv"
            file_path = os.path.join(input_path, file_name)
            
            if os.path.isfile(file_path):
                # Calcola il silhouette score
                score = silhouette_score_wtime(file_path)
                if score is not None:
                    silhouette_matrix[i, j] = score
                else:
                    silhouette_matrix[i, j] = np.nan  # Se errore, assegna NaN
            else:
                print(f"File non trovato: {file_path}")
                silhouette_matrix[i, j] = np.nan

    # Visualizza la matrice come heatmap
    plt.figure(figsize=(10, 8))
    sns.heatmap(silhouette_matrix, annot=True, fmt=".3f", cmap="viridis", 
                xticklabels=mu_range, yticklabels=tau_range)
    plt.title("Silhouette Score Heatmap")
    plt.xlabel("Mu")
    plt.ylabel("Tau")
    plt.show()

# Parametri
input_path = "/home/robivad/Git/CPP-S-RASTER/data_output/n1000_p5000"  # Sostituisci con il percorso corretto
mu_range = range(1, 11)  # Mu da 1 a 10
tau_range = range(1, 11)  # Tau da 1 a 10

# Esegui lo script
process_files_and_plot_heatmap(input_path, mu_range, tau_range)


Silhouette Score per il time 0: 0.9998488564101582
Silhouette Score per il time 1: 0.9998658130652616
Silhouette Score per il time 2: 0.9998668595319383
Silhouette Score per il time 3: 0.9998482430630623
Silhouette Score per il time 4: 0.9998087250880958
Silhouette Score per il time 5: 0.9998513877920088
Silhouette Score per il time 6: 0.9998801714941011
Silhouette Score per il time 7: 0.9998913562519653
Silhouette Score per il time 8: 0.9998589453094415
Silhouette Score per il time 9: 0.9998164720295428
Silhouette Score medio complessivo: 0.9998536830035576
Silhouette Score per il time 0: 0.9998488564101582
Silhouette Score per il time 1: 0.9998658130652616
Silhouette Score per il time 2: 0.9998668595319383
Silhouette Score per il time 3: 0.9998482430630623
Silhouette Score per il time 4: 0.9998087250880958
Silhouette Score per il time 5: 0.9998513877920088
Silhouette Score per il time 6: 0.9998801714941011
Silhouette Score per il time 7: 0.9998913562519653
Silhouette Score per il tim

KeyboardInterrupt: 