In [None]:
import gc
import json
import numpy as np
import pandas as pd
import spacy
import string
from scipy.cluster.hierarchy import cophenet
from itertools import product
from scipy.spatial.distance import pdist
from sklearn.metrics import silhouette_score, davies_bouldin_score, calinski_harabasz_score
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.cluster import KMeans, AgglomerativeClustering
from scipy.cluster.hierarchy import dendrogram, linkage, fcluster
from sklearn.manifold import TSNE
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
import umap
import matplotlib.pyplot as plt
import os
from collections import defaultdict
from scipy.spatial.distance import squareform
from hdbscan import HDBSCAN

os.environ["TOKENIZERS_PARALLELISM"] = "true"

# Funzione per salvare i risultati dei cluster in formato JSON
def save_clusters_to_json(documents, labels, filename):
    clusters = defaultdict(list)
    for doc, label in zip(documents, labels):
        clusters[str(label)].append(doc)
    
    os.makedirs(os.path.dirname(filename), exist_ok=True)
    with open(filename, 'w') as file:
        json.dump(clusters, file, indent=4)
    print(f"Risultati dei cluster salvati in {filename}")

# Funzione per visualizzare il dendrogramma
def plot_clusters(data, labels=None, title="Plot dei Cluster", plot_type="scatter", original_n_components=2):
    plt.figure(figsize=(10, 7))
    
    if plot_type == "scatter":
        # Riduci a 2 dimensioni solo per il plotting se n_components > 2
        if original_n_components > 2:
            print(f"Avviso: n_components è {original_n_components}, quindi riduco a 2 dimensioni per il plotting.")
            data = PCA(n_components=2).fit_transform(data)
        
        scatter = plt.scatter(data[:, 0], data[:, 1], c=labels, cmap='viridis', s=50, alpha=0.7)
        plt.colorbar(scatter, label='Cluster Labels')
        plt.xlabel("Component 1")
        plt.ylabel("Component 2")
    
    elif plot_type == "dendrogram":
        # Assume che 'data' sia la linkage matrix
        dendrogram(data, truncate_mode='level', p=10)
        plt.xlabel("Numero di campioni")
        plt.ylabel("Distanza")
    
    else:
        raise ValueError("plot_type deve essere 'scatter' o 'dendrogram'")
    
    plt.title(title)
    plt.show()

# Funzione per riduzione dimensionale con UMAP o t-SNE, con opzione di parallelizzazione
def reduce_dimensions(data, method='umap', n_components=2, use_umap=True, parallelize=True):
    if use_umap:
        if parallelize:
            reducer = umap.UMAP(n_components=n_components, verbose=0)  # Senza random_state per parallelismo
        else:
            reducer = umap.UMAP(n_components=n_components, random_state=42, verbose=0)  # Con random_state per riproducibilità
    else:
        reducer = TSNE(n_components=n_components, random_state=42)
    
    reduced_data = reducer.fit_transform(data)
    print(f"Riduzione dimensionale completata usando {'UMAP' if use_umap else 't-SNE'} con {'parallelizzazione' if parallelize else 'riproducibilità'}")
    return reduced_data

# Funzione per il clustering KMeans con Calinski-Harabasz Index
def kmeans_clustering(data, n_clusters):
    print("Avvio del clustering KMeans...")
    kmeans = KMeans(n_clusters=n_clusters, random_state=42, n_init=2, verbose=0)
    # Adatta il modello ai dati e predice le etichette
    labels = kmeans.fit_predict(data)
    # Calcola il coefficiente di silhouette
    silhouette_avg = silhouette_score(data, labels)
    # Calcola il Davies-Bouldin Index
    davies_bouldin = davies_bouldin_score(data, labels)
    # Calcola il Calinski-Harabasz Index
    calinski_harabasz = calinski_harabasz_score(data, labels)
    
    print("Coefficiente di silhouette medio per KMeans:", silhouette_avg)
    print("Davies-Bouldin Index per KMeans:", davies_bouldin)
    print("Calinski-Harabasz Index per KMeans:", calinski_harabasz)
    
    return labels, silhouette_avg, davies_bouldin, calinski_harabasz

# Funzione per il clustering Agglomerativo con Calinski-Harabasz Index
def agglomerative_clustering(data, n_clusters, method_clustering):
    print("Avvio del clustering Agglomerativo con metodo di linkage:", method_clustering)
    agglomerative = AgglomerativeClustering(n_clusters=n_clusters, metric='euclidean', linkage=method_clustering)
    # Predice le etichette di clustering
    labels = agglomerative.fit_predict(data)
    # Calcola il coefficiente di silhouette
    silhouette_avg = silhouette_score(data, labels)
    # Calcola il Davies-Bouldin Index
    davies_bouldin = davies_bouldin_score(data, labels)
    # Calcola il Calinski-Harabasz Index
    calinski_harabasz = calinski_harabasz_score(data, labels)
    
    print("Coefficiente di silhouette medio per Agglomerativo:", silhouette_avg)
    print("Davies-Bouldin Index per Agglomerativo:", davies_bouldin)
    print("Calinski-Harabasz Index per Agglomerativo:", calinski_harabasz)
    
    return labels, silhouette_avg, davies_bouldin, calinski_harabasz

# Funzione per il clustering Gerarchico
def hierarchical_clustering(data, n_clusters, method_clustering):
    print("Avvio del clustering Gerarchico con metodo di linkage:", method_clustering)
    # Calcola la matrice di distanza coseno
    cosine_distances = 1 - cosine_similarity(data)
    cosine_distances = np.maximum(cosine_distances, 0)
    # Converte la matrice di distanza quadrata in forma condensata
    condensed_distances = squareform(cosine_distances, checks=False)
    # Calcola il clustering gerarchico
    linkage_matrix = linkage(condensed_distances, method=method_clustering)
    # Genera le etichette di clustering
    labels = fcluster(linkage_matrix, t=n_clusters, criterion='maxclust')
    # Calcola il coefficiente di silhouette
    silhouette_avg = silhouette_score(data, labels)
    # Calcola il Cophenetic Correlation Coefficient
    coph_corr, _ = cophenet(linkage_matrix, pdist(data))
    # Calcola il Davies-Bouldin Index
    davies_bouldin = davies_bouldin_score(data, labels)
    
    print("Coefficiente di silhouette medio per clustering Gerarchico:", silhouette_avg)
    print("Cophenetic Correlation Coefficient per clustering Gerarchico:", coph_corr)
    print("Davies-Bouldin Index per clustering Gerarchico:", davies_bouldin)
    
    return labels, silhouette_avg, linkage_matrix, coph_corr, davies_bouldin

# Funzione per il clustering con UMAP e HDBSCAN
def hdbscan_clustering_with_umap(data, min_cluster_size=5, min_samples=None, n_components=2):
    print("Avvio del clustering HDBSCAN con riduzione dimensionale UMAP...")
    # Riduzione dimensionale con UMAP
    reduced_data = reduce_dimensions(data, method='umap', n_components=n_components, use_umap=True, parallelize=True)
    
    # Clustering HDBSCAN
    hdbscan = HDBSCAN(min_cluster_size=min_cluster_size, min_samples=min_samples)
    labels = hdbscan.fit_predict(reduced_data)
    
    # Rimuove i punti rumorosi per il calcolo delle metriche
    core_samples = reduced_data[labels != -1]
    core_labels = labels[labels != -1]
    
    # Calcola le metriche di clustering solo sui punti assegnati ai cluster
    if len(set(core_labels)) > 1:
        silhouette_avg = silhouette_score(core_samples, core_labels)
        davies_bouldin = davies_bouldin_score(core_samples, core_labels)
        calinski_harabasz = calinski_harabasz_score(core_samples, core_labels)
    else:
        silhouette_avg = davies_bouldin = calinski_harabasz = None
        print("HDBSCAN ha generato solo un cluster (o rumore) - non calcolo le metriche di qualità.")
    
    print("Coefficiente di silhouette medio per HDBSCAN:", silhouette_avg)
    print("Davies-Bouldin Index per HDBSCAN:", davies_bouldin)
    print("Calinski-Harabasz Index per HDBSCAN:", calinski_harabasz)
    
    return labels, silhouette_avg, davies_bouldin, calinski_harabasz, reduced_data

# Funzione aggiornata per trovare i parametri ottimali e tenere traccia del miglior punteggio per ogni metodo
def find_optimal_clustering_params(documents, embeddings, param_grid):
    for params in product(*param_grid.values()):
        param_dict = dict(zip(param_grid.keys(), params))
        print(f"Provo i parametri: {param_dict}")
        
        labels, score = clustering_with_dimensionality_reduction(
            documents,
            embeddings,
            n_clusters=param_dict['n_clusters'],
            method=param_dict['dimensionality_reduction_method'],
            clustering_method=param_dict['clustering_method'],
            n_components=param_dict['n_components'],
            use_umap=param_dict['use_umap'],
            method_clustering=param_dict['method_clustering'],
            plot_results=False  # Disabilita il plotting durante il grid search
        )
        
        # Aggiorna i migliori parametri e punteggi per il metodo di clustering corrente
        clustering_method = param_dict['clustering_method']
        if score is not None and score > best_params_per_method[clustering_method]['score']:
            best_params_per_method[clustering_method]['score'] = score
            best_params_per_method[clustering_method]['params'] = param_dict
            print(f"Aggiornato miglior punteggio per {clustering_method}: {score:.4f}")

    return best_params_per_method

def clustering_with_dimensionality_reduction(documents, embeddings, n_clusters=None, method='umap', clustering_method='kmeans', n_components=2, use_umap=True, method_clustering='ward', min_cluster_size=5, min_samples=None, plot_results=True):
    scaler = StandardScaler()
    embeddings_scaled = scaler.fit_transform(embeddings)
    reduced_data = reduce_dimensions(embeddings_scaled, method=method, n_components=n_components, use_umap=use_umap, parallelize=True)

    if clustering_method == 'kmeans':
        labels, score, davies_bouldin, calinski_harabasz = kmeans_clustering(reduced_data, n_clusters)
        gc.collect()
        if plot_results:
            plot_clusters(reduced_data, labels=labels, title="Cluster Plot per KMeans", plot_type="scatter", original_n_components=n_components)
        
    elif clustering_method == 'agglomerative':
        labels, score, davies_bouldin, calinski_harabasz = agglomerative_clustering(reduced_data, n_clusters, method_clustering)
        gc.collect()
        if plot_results:
            plot_clusters(reduced_data, labels=labels, title="Cluster Plot per Agglomerative Clustering", plot_type="scatter", original_n_components=n_components)
        
    elif clustering_method == 'hierarchical':
        labels, score, linkage_matrix, coph_corr, davies_bouldin = hierarchical_clustering(reduced_data, n_clusters, method_clustering)
        gc.collect()
        if plot_results:
            plot_clusters(linkage_matrix, title="Dendrogramma del Clustering Gerarchico", plot_type="dendrogram")
        
    elif clustering_method == 'hdbscan':
        # Call hdbscan_clustering_with_umap without `original_n_components`
        labels, score, davies_bouldin, calinski_harabasz, reduced_data = hdbscan_clustering_with_umap(
            embeddings_scaled, min_cluster_size=min_cluster_size, min_samples=min_samples, n_components=n_components
        )
        gc.collect()
        if plot_results:
            plot_clusters(reduced_data, labels=labels, title="Cluster Plot per HDBSCAN", plot_type="scatter", original_n_components=n_components)
    
    save_clusters_to_json(documents, labels, f"cluster/{clustering_method}_cluster_results.json")
    return labels, score

# Dizionario per memorizzare i migliori parametri e punteggi per ogni metodo di clustering
best_params_per_method = {
    'kmeans': {'params': None, 'score': -1},
    'agglomerative': {'params': None, 'score': -1},
    'hierarchical': {'params': None, 'score': -1},
    'hdbscan': {'params': None, 'score': -1}
}

# Modifica il grid search per includere HDBSCAN
param_grid = {
    'dimensionality_reduction_method': ['umap', 'tsne'],
    #'clustering_method': ['agglomerative', 'hierarchical', 'hdbscan', 'kmeans'],
    'clustering_method': ['hdbscan'],
    'method_clustering': ['ward', 'average', 'single' ,'complete'],
    'n_components': [1,2,3,4,5,6,7,8,9,10,11,12,13,14,15],
    'n_clusters': [3,5,7,10,13,15,17,20,23,25,27,30,33,35,37,40,43,45,47,50,52,55,57,60,62,65,67,70,72,75,77,80,82,85,87,90,92,95,97,100],
    #'min_cluster_size': [5, 10, 15, 20, 25],  # Aggiunto per HDBSCAN
    #'min_samples': [None, 1, 5, 10, 15],  # Aggiunto per HDBSCAN
    #'use_umap': [True, False],
    'use_umap': [True]
}

# Parametri di ricerca su griglia
'''param_grid = {
    'dimensionality_reduction_method': ['umap', 'tsne'],
    'clustering_method': ['agglomerative'],
    'method_clustering': ['ward', 'average', 'single', 'complete'],
    'n_components': [2, 5, 7, 10, 13, 15, 17, 20],
    'n_clusters': [5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100],
    'min_cluster_size': [5, 10, 15, 20, 25],  # Aggiunto per HDBSCAN
    'min_samples': [None, 1, 5, 10, 15],  # Aggiunto per HDBSCAN
    'use_umap': [True]
}'''

# Caricamento del dataset
with open('stereoset_with_multivectors_for_clustering.json', 'r') as file:
    data = json.load(file)

type = 2

# Filtra i dati in base al tipo scelto e alla presenza della stringa "BLANK" nel testo
filtered_data = [
    item for item in data 
    if item["Frase filtrata"]["Frase completa"]["Tipo"] == type and "BLANK" not in item["Frase filtrata"]["Frase completa"]["Testo"]
]

# Estrazione del "Multivettore" e del "Testo" per ogni elemento filtrato
documents = [item["Frase filtrata"]["Frase completa"]["Testo"] for item in filtered_data]
multivectors = np.array([item["Frase filtrata"]["Frase completa"]["Multivettore"] for item in filtered_data])

# Ricerca dei parametri ottimali
print("Ricerca dei parametri ottimali per il clustering...")
best_params_per_method = find_optimal_clustering_params(documents, multivectors, param_grid)

# Clustering finale per ogni metodo utilizzando i migliori parametri trovati
for method, best in best_params_per_method.items():
    if best['params'] is not None:  # Verifica che esista un set di parametri validi per il metodo
        print(f"\nEseguo il clustering {method} con i parametri ottimali...")
        labels, score = clustering_with_dimensionality_reduction(
            documents,
            multivectors,
            n_clusters=best['params']['n_clusters'],
            method=best['params']['dimensionality_reduction_method'],
            clustering_method=method,
            n_components=best['params']['n_components'],
            use_umap=best['params']['use_umap'],
            plot_results=True  # Abilita il plotting per il clustering finale
        )
        print(f"Clustering {method} completato con Silhouette Score: {score:.4f}")
        print(f"Migliori parametri: {best['params']}")
        print("***************************************************")
