### L'algoritmo

Il clustering gerarchico è una tecnica di machine learning non supervisionato utilizzata per raggruppare dati in gruppi (cluster) basati sulla similarità tra loro. A differenza del clustering "flat" come il K-means, che suddivide i dati in un numero predefinito di cluster, il clustering gerarchico costruisce una struttura ad albero (dendrogramma) che rappresenta le relazioni gerarchiche tra i dati. Si divide in due approcci principali:

1. Clustering agglomerativo: Parte trattando ciascun punto dati come un cluster individuale e li unisce gradualmente, in base alla loro similarità, fino a formare un unico cluster che include tutti i punti. È quindi un processo di bottom-up.
2. Clustering divisivo: Parte da un unico cluster che contiene tutti i dati e divide progressivamente i cluster in gruppi più piccoli, fino ad arrivare ai singoli punti dati. Questo è un processo di top-down.

### Clustering Agglomerativo

Nel clustering agglomerativo, vengono seguiti questi passaggi:

1. Calcolare le distanze tra ogni coppia di punti (usando metriche come la distanza euclidea o quella di Manhattan).
2. Unire i due punti o cluster più simili per creare un nuovo cluster.
3. Aggiornare la matrice delle distanze, calcolando le distanze tra il nuovo cluster e gli altri cluster esistenti.
4. Ripetere il processo fino a che non rimanga un solo cluster contenente tutti i dati.

### Metriche di similarità

Le metriche di similarità sono fondamentali per il clustering gerarchico perché determinano il modo in cui vengono uniti i cluster durante il processo. Ogni metrica ha i suoi punti di forza e debolezze, quindi la scelta migliore dipende dal tipo di dati, dalla distribuzione e dall'obiettivo del clustering.

1. Single Linkage (Distanza Minima)
La distanza tra due cluster è definita come la distanza minima tra i punti dei due cluster. In altre parole, due cluster vengono uniti se il punto più vicino di un cluster è molto vicino a un punto dell'altro cluster.

    Vantaggi:

    - Conserva la connessione tra i dati: Single linkage è utile quando vogliamo che anche le connessioni più deboli (cioè i punti più vicini tra cluster) siano prese in considerazione.
    - Adatto a dati di tipo connettivo: Può identificare cluster di forma irregolare o allungata, il che è utile quando i cluster sono distribuiti in modo non sferico.

    Svantaggi:

    - Fenomeno dell’“effetto chaining”: Tendendo a formare cluster allungati, può includere troppi punti in un cluster.
    - Sensibile al rumore: I punti outlier o lontani possono distorcere la struttura del cluster.

    Quando usarlo:

    Se si desidera trovare cluster "a catena" o molto estesi, come nei dati di tipo geografico o nei grafi sociali, dove le connessioni sono fondamentali.

2. Complete Linkage (Distanza Massima)
La distanza tra due cluster è data dalla distanza massima tra i punti dei due cluster. Quindi, la fusione di due cluster è determinata dalla distanza tra i punti più distanti dei due cluster.

    Vantaggi:

    - Cluster più compatti e omogenei: I cluster risultanti tendono ad avere un’alta similarità interna, con meno estensioni verso l'esterno.
    - Meno influenzato dall’effetto chaining: Rispetto al single linkage, tende a creare cluster più rotondi e compatti.

    Svantaggi:

    - Non adatto per cluster di forme allungate: Poiché si concentra sulla distanza massima, penalizza i cluster estesi, creando più cluster piccoli e compatti.
    - Computazionalmente più complesso rispetto ad altre metriche.

    Quando usarlo:

    Quando si vogliono ottenere cluster ben separati e compatti, come nell’analisi dei segmenti di clienti o nelle analisi delle immagini.

3. Average Linkage (Distanza Media)
La distanza tra due cluster è data dalla media di tutte le distanze tra i punti dei due cluster. Questa metrica rappresenta un compromesso tra le distanze minime e massime.

    Vantaggi:

    - Compromesso bilanciato: Media i pro e i contro delle altre metriche, producendo cluster né troppo compatti né troppo estesi.
    - Robusto rispetto a dati rumorosi: Non è influenzato dai singoli outlier come nel caso del single linkage.

    Svantaggi:

    - Calcoli intensivi: La necessità di calcolare tutte le distanze può essere computazionalmente impegnativo per dataset grandi.

    Quando usarlo:

    Quando si cerca un bilanciamento tra compattezza e flessibilità, come per dati complessi o distribuiti in modo variabile.

4. Centroid Linkage (Distanza tra i Centroidi)
In questo caso, la distanza tra due cluster è definita come la distanza tra i centroidi (media aritmetica dei punti) di ciascun cluster.

    Vantaggi:

    - Mantiene il centro del cluster come riferimento: I cluster sono modellati attorno ai loro centroidi, producendo una struttura più stabile e ben definita.
    - Efficienza nei calcoli: Calcolare un singolo centroide è computazionalmente meno intenso.

    Svantaggi:

    - Rischio di distorsione: È sensibile a cluster di dimensioni o densità molto diverse.
    - Non adatto a cluster non convessi: Tende a funzionare meglio quando i dati sono distribuiti in modo più simmetrico o rotondo.

    Quando usarlo:

    Nei dati con una distribuzione ben definita e simmetrica, come nei casi di cluster sferici o quando si conosce la presenza di centroidi ben definiti.

5. Metodo di ward
Strategia specifica per il clustering gerarchico agglomerativo, progettata per minimizzare la varianza all'interno dei cluster risultanti. La sua caratteristica distintiva è che, a ogni passo del processo di clustering, vengono uniti i cluster che causano il minor incremento possibile nella sommatoria delle deviazioni quadratiche (varianza) rispetto ai punti centrali dei cluster.

    Nel clustering agglomerativo, ogni coppia di cluster viene valutata per vedere quale fusione causerebbe il minor aumento nella somma delle distanze quadratiche di ciascun punto dati dal centroide del cluster. In pratica:

    1. Si calcolano le somme delle deviazioni quadratiche di ciascun punto dati rispetto al centroide per ogni coppia di cluster.

    2. Si fonde la coppia di cluster che minimizza questa somma, così da mantenere la varianza interna al cluster il più bassa possibile.

    A differenza di altri metodi di linkage (come il single, complete o average linkage), il metodo di Ward considera la varianza, rendendolo particolarmente efficace quando si cerca di creare cluster più omogenei. Per questo, i cluster risultanti tendono ad avere dimensioni più simili e distribuzioni più equilibrate.

    Vantaggi:

    - Omogeneità: Crea cluster con varianza interna bassa, quindi i punti all'interno di ogni cluster sono molto simili.
    - Bilanciamento: Evita la formazione di cluster troppo sbilanciati o di dimensioni molto diverse.
    - Adatto a dati continui: È particolarmente adatto per dati con variabili numeriche, in cui è importante la distanza euclidea o la similarità tra valori continui.

    Svantaggi:

    - Computazionalmente costoso: Richiede una grande quantità di calcoli di varianza, specialmente per grandi dataset.

    - Sensibile ai valori anomali: Gli outlier possono influenzare negativamente la varianza interna dei cluster, portando a risultati meno accurati.

    Il metodo di Ward è ampiamente utilizzato per applicazioni in cui è essenziale avere cluster compatti e ben distinti, come nelle analisi di segmentazione dei clienti, bioinformatica e analisi di mercato.

### Features "supportate"


Il clustering gerarchico è versatile e può essere applicato a diversi tipi di features (caratteristiche), come numeriche, categoriali, binarie e testuali. Tuttavia, richiede spesso una fase di preprocessing per garantire che le metriche di similarità utilizzate siano appropriate e che i risultati siano significativi.

1. Features Numeriche
Le features numeriche sono quelle più comunemente usate per il clustering gerarchico. Le metriche di distanza, come la distanza euclidea o quella di Manhattan, si applicano direttamente a questo tipo di dati.

    Preprocessing consigliato:

    - Standardizzazione (Z-score scaling): Portare i dati numerici su una scala comune con media 0 e deviazione standard 1, utile se i dati hanno unità diverse o differenze di scala. La standardizzazione riduce il peso sproporzionato delle variabili con varianze maggiori.
    - Normalizzazione (Min-Max scaling): Ridimensiona i dati in un intervallo, ad esempio [0, 1]. È utile se si desidera che ogni variabile numerica contribuisca equamente.
    
    Quando usare: Se i valori numerici rappresentano grandezze fisiche o variabili continue. Questo preprocessing è particolarmente utile per il metodo di Ward o per metriche di distanza come la distanza euclidea.

2. Features Categoriali
Le features categoriali rappresentano informazioni in formato qualitativo, come il colore o la tipologia di un oggetto. I valori sono in genere non numerici (ad esempio, "rosso", "blu", "giallo") e non hanno un ordine intrinseco.

    Preprocessing consigliato:

    - Codifica One-Hot (dummy variables): Trasforma ogni categoria in una variabile binaria, rappresentando ogni livello con un valore di 0 o 1. Questo permette di utilizzare metriche di similarità che richiedono dati numerici.
    - Codifica Ordinale: Assegna valori numerici ordinati ai livelli di una variabile categorica solo se c'è un ordine naturale tra le categorie (come le taglie: S, M, L, XL).
    
    Quando usare: Se i dati includono variabili categoriche e si desidera misurare la distanza tra punti anche in base a queste categorie. È utile per settori come il retail, dove variabili come la categoria del prodotto o la fascia d’età dei clienti possono influenzare i cluster.

3. Features Binarie
Le features binarie contengono solo due valori (ad esempio, 0 e 1, o vero e falso). Sono comuni nei dataset che rappresentano la presenza o assenza di certe caratteristiche.

    Preprocessing consigliato:

    - Codifica binaria: Normalmente, i dati binari non richiedono ulteriori preprocessamenti poiché 0 e 1 sono già interpretabili. Tuttavia, è importante considerare l'interpretazione dei valori binari.
    - Metriche di similarità specifiche: Per dati binari, possono essere usate metriche specifiche, come il coefficiente di Jaccard o la distanza di Hamming. Queste metriche funzionano direttamente sui dati binari senza trasformazioni aggiuntive.
    
    Quando usare: È adatto per dati come le risposte a questionari (ad esempio, "sì" o "no") e in dataset di presenza/assenza di caratteristiche (ad esempio, sintomi di una malattia). Queste metriche di similarità possono aiutare a trovare gruppi di utenti o campioni simili.

4. Features Testuali
Le features testuali sono non strutturate e richiedono un trattamento particolare per trasformare i dati in una forma numerica.

    Preprocessing consigliato:

    - Bag-of-Words (BOW): Rappresenta ogni documento come un vettore di conteggi delle parole. Questa trasformazione produce vettori numerici che rappresentano la frequenza delle parole.
    - Term Frequency-Inverse Document Frequency (TF-IDF): Trasforma il testo in rappresentazioni numeriche ponderando le parole in base alla loro frequenza e alla rilevanza. La TF-IDF è utile per ridurre il peso delle parole comuni e aumentare l’importanza di parole chiave.
    - Word Embeddings (come Word2Vec o BERT): Forniscono rappresentazioni dense e continue delle parole o delle frasi in uno spazio numerico. Questi vettori sono spesso più efficaci per catturare il significato semantico.
    
    Quando usare: Se il dataset è basato su testo, come recensioni, descrizioni di prodotti o articoli. Con metriche di similarità come la distanza coseno, il clustering può rivelare gruppi di documenti o frasi con contenuti simili.

5. Features Temporali
Le features temporali (come data e ora) possono essere trattate in vari modi, a seconda del tipo di analisi che si desidera fare.

    Preprocessing consigliato:

    - Trasformazioni di data e ora: Le variabili di data e ora possono essere decomposte in componenti significative, come l'ora del giorno, il giorno della settimana o il mese, a seconda della granularità temporale desiderata.
    - Differenze temporali: Calcolare differenze di tempo tra eventi (ad esempio, giorni trascorsi) può essere utile per trasformare le variabili temporali in rappresentazioni numeriche.
    - Fourier Transform: Se si tratta di dati ciclici o con pattern periodici, la decomposizione tramite Fourier può aiutare a identificare i pattern ricorrenti.
    
    Quando usare: Se si vuole scoprire pattern o cluster basati su variazioni temporali (ad esempio, abitudini di acquisto nel corso della settimana). Tali dati sono comuni nei dati di accesso a siti web, nelle vendite di e-commerce e nei dati di traffico.

### Clustering agglomerativo in Scikit-Learn

L'algoritmo AgglomerativeClustering in scikit-learn offre una serie di parametri configurabili che consentono di personalizzare il processo di clustering gerarchico in base alle caratteristiche del dataset e agli obiettivi dell’analisi. Ecco una panoramica completa dei parametri disponibili:

1. n_clusters
- Descrizione: Numero di cluster finali desiderato.
- Tipo: int, opzionale.
- Valore di default: 2.
- Note: Se n_clusters è impostato, il clustering continuerà fino a ottenere il numero specificato di cluster. Se invece viene impostato distance_threshold, questo parametro viene ignorato.

2. distance_threshold
- Descrizione: Distanza massima per fermare il processo di fusione dei cluster.
- Tipo: float, opzionale.
- Valore di default: None.
- Note: Definisce la soglia a cui viene tagliato il dendrogramma per determinare il numero di cluster. Se impostato, n_clusters deve essere None. È utile se si desidera che il numero di cluster sia determinato in base a una distanza di soglia.

3. affinity
- Descrizione: Metrica di distanza per calcolare le somiglianze tra i punti.
- Tipo: str, opzioni: 'euclidean', 'l1', 'l2', 'manhattan', 'cosine', oppure una funzione callable.
- Valore di default: 'euclidean'.
- Note: La scelta di affinity determina la metrica con cui viene calcolata la distanza tra i punti durante la fusione dei cluster. Se si usa linkage='ward', l’unica opzione disponibile è 'euclidean'.

4. linkage
- Descrizione: Metodo di linkage utilizzato per calcolare la distanza tra cluster.
- Tipo: str, opzioni: 'ward', 'complete', 'average', 'single'.
- Valore di default: 'ward'.
- Note:
    - 'ward': Minimizza la varianza interna dei cluster (richiede affinity='euclidean').
    - 'complete': Utilizza la distanza massima tra i punti dei cluster (produce cluster più compatti).
    - 'average': Usa la distanza media tra i punti di due cluster.
    - 'single': Usa la distanza minima tra i punti di due cluster (tende a formare cluster allungati).

5. compute_full_tree
- Descrizione: Indica se calcolare o meno l'intero albero di clustering.
- Tipo: bool o 'auto'.
- Valore di default: 'auto'.
- Note:
    - Se n_clusters è piccolo rispetto al numero totale di campioni, è possibile impostarlo su False per aumentare la velocità di calcolo.
    'auto': Disattiva il calcolo dell’intero albero solo se n_clusters è inferiore a una certa soglia.
    - Impostare su True se si vuole ottenere il dendrogramma completo per visualizzare l'intera gerarchia.

6. connectivity
- Descrizione: Matrice di connettività per definire le connessioni tra punti.
- Tipo: array, sparse matrix o None.
- Valore di default: None.
- Note: La matrice di connettività limita il clustering a specifiche connessioni tra punti, utilissima per dati strutturati spazialmente (es. griglie o grafi). In pratica, indica quali punti possono essere uniti direttamente.

7. compute_distances
- Descrizione: Se impostato su True, memorizza le distanze tra cluster durante le fusioni.
- Tipo: bool, opzionale.
- Valore di default: False.
- Note: Utile per visualizzare o analizzare le distanze di linkage nel dendrogramma. Se True, i valori di distanza saranno accessibili nell'attributo distances_.

### Clustering divisivo

Il processo del clustering divisivo può essere riassunto in questi passaggi:

1. Inizializzazione: Si parte da un cluster che contiene tutti i dati.
2. Suddivisione iterativa: Si sceglie il cluster da suddividere in due sottogruppi, selezionando il criterio che massimizza la separazione tra i nuovi cluster. Questo può essere fatto utilizzando algoritmi di partizione come il K-means (impostato per creare due cluster) o altre tecniche di suddivisione.
3. Ripetizione del processo: Ogni sottocluster viene successivamente diviso in cluster più piccoli, seguendo lo stesso criterio, fino a che non si raggiunge il livello di granularità desiderato o fino a che ogni cluster contenga un singolo punto.


Caratteristiche del Clustering Gerarchico Divisivo
- Struttura gerarchica: Il risultato è una struttura ad albero, chiamata dendrogramma, che mostra come i cluster sono stati divisi nel tempo.
- Scelta della divisione: Ogni divisione è fatta in modo da massimizzare la dissimilarità tra i cluster generati. Si cerca di ottenere cluster ben distinti, spesso usando tecniche che minimizzano la varianza interna o massimizzano la distanza tra i cluster.
- Computazionalmente costoso: Rispetto al clustering agglomerativo, il clustering divisivo è spesso più impegnativo in termini di calcoli, perché richiede il ricalcolo delle divisioni ottimali a ogni passaggio.

Approcci per la Divisione

Diversi approcci possono essere utilizzati per dividere i cluster:

- K-means (con K=2): Per dividere un cluster in due, è comune applicare il K-means per trovare i due sottogruppi che massimizzano la differenza. Tuttavia, l'uso del K-means può essere costoso per grandi cluster.
- Massimizzazione della distanza: Se i dati sono rappresentati in uno spazio di distanza, si possono identificare due punti lontani e costruire cluster attorno a essi.
- Minimizzazione della varianza interna: Simile al metodo di Ward, si cerca di creare cluster in modo che la varianza dei punti all'interno di ogni sottocluster sia minima.

Vantaggi del Clustering Divisivo

- Maggiore controllo sulle divisioni: Si può scegliere a ogni passaggio quale cluster dividere, rendendo possibile una segmentazione più fine dei dati.
- Ben definiti quando i cluster principali sono pochi: Se i dati contengono pochi cluster principali con sottostrutture interne, il clustering divisivo può essere più preciso rispetto all’approccio agglomerativo.

Svantaggi del Clustering Divisivo
- Computazionalmente intensivo: Il clustering divisivo è spesso più costoso rispetto all'agglomerativo, poiché a ogni passo si deve calcolare la divisione ottimale.
- Suscettibile a errori iniziali: Le prime divisioni influenzano notevolmente i cluster finali. Se la prima suddivisione non è buona, i risultati possono risentirne.
- Meno usato rispetto all'agglomerativo: Data la complessità computazionale e la difficoltà di implementazione, il clustering divisivo è meno utilizzato rispetto all’approccio agglomerativo.

### features "supportate"

1. Features Numeriche
Per il clustering divisivo, le features numeriche sono ideali poiché le metriche di distanza (come la distanza euclidea) e gli algoritmi di partizione (come il K-means) si applicano direttamente.

    Preprocessing consigliato:

    - Standardizzazione (Z-score scaling): Come nel clustering agglomerativo, è consigliata la standardizzazione per portare tutte le variabili su una scala comune, soprattutto se si utilizza il K-means per dividere i cluster.
    - Normalizzazione (Min-Max scaling): È utile se si vuole che le variabili numeriche abbiano un contributo equo, evitando che variabili con range più grandi dominino la suddivisione.
    Considerazioni aggiuntive:

    Nel clustering divisivo, le prime divisioni sono cruciali, quindi una buona standardizzazione è particolarmente importante per evitare cluster iniziali squilibrati che influenzerebbero la qualità delle suddivisioni successive.

2. Features Categoriali
Le features categoriali possono essere gestite anche nel clustering divisivo, ma richiedono una trasformazione in formato numerico per permettere il calcolo delle distanze.

    Preprocessing consigliato:

    - Codifica One-Hot: Rappresenta ogni livello della variabile categoriale come una variabile binaria separata. La codifica One-Hot è utile per applicare tecniche di partizione come il K-means, trasformando ogni categoria in un valore numerico.
    - Codifica Ordinale: Usare questa codifica solo per categorie con un ordine naturale, in modo da rispettare le distanze tra le categorie.
    Considerazioni aggiuntive:

    Se si utilizza una tecnica di partizione come il K-means per le divisioni, bisogna considerare che la codifica categoriale può portare a cluster sbilanciati, a meno che le categorie non siano ben bilanciate nel dataset.

3. Features Binarie
Le features binarie, già in formato numerico, sono adatte sia al clustering agglomerativo che a quello divisivo, soprattutto se si utilizzano metriche di distanza specifiche per dati binari.

    Preprocessing consigliato:

    - Codifica binaria: Non richiede trasformazioni aggiuntive poiché 0 e 1 sono già interpretabili.
    - Metriche di similarità specifiche: Utilizzare metriche come la distanza di Hamming o il coefficiente di Jaccard per calcolare la similarità tra cluster binari.
    
    Considerazioni aggiuntive:

    Nel clustering divisivo, l’uso di metriche specifiche come la distanza di Hamming può aiutare a garantire che le prime divisioni siano ben rappresentative della struttura interna dei dati.

4. Features Testuali
Per le features testuali, è necessario trasformare i dati in vettori numerici per calcolare le distanze tra i punti e dividere correttamente i cluster.

    Preprocessing consigliato:

    - Bag-of-Words (BOW): Convertire i testi in vettori di conteggi delle parole, permettendo al clustering di suddividere i dati in base alla presenza o assenza di parole comuni.
    - Term Frequency-Inverse Document Frequency (TF-IDF): Ponderare le parole per frequenza e rilevanza, utile per differenziare i cluster in base alle parole chiave.
    - Word Embeddings: Per un clustering più accurato, gli embeddings (come Word2Vec o BERT) sono ideali per rappresentare significati semantici, facilitando la divisione dei cluster.
    
    Considerazioni aggiuntive:

    La scelta tra BOW, TF-IDF o embeddings dipende dalla granularità delle divisioni desiderate. Gli embeddings, ad esempio, possono fornire cluster semantici ben definiti nelle prime suddivisioni.

5. Features Temporali
    Le features temporali, come data e ora, possono essere trasformate in variabili numeriche o cicliche prima del clustering divisivo, esattamente come per il clustering agglomerativo.

    Preprocessing consigliato:

    - Trasformazioni di data e ora: Scomporre i dati temporali in componenti significative (es. giorno della settimana, ora del giorno) o calcolare differenze temporali (es. giorni tra eventi).
    - Fourier Transform: Utile per identificare periodicità e pattern ciclici, che potrebbero essere rilevanti nelle divisioni iniziali.
    
    Considerazioni aggiuntive:

    Per il clustering divisivo, è importante scegliere attentamente le caratteristiche temporali più rilevanti, in modo che le prime divisioni rispecchino accuratamente il comportamento temporale del dataset.

### Differenze nel Preprocessing tra Clustering Divisivo e Agglomerativo
Il preprocessing per il clustering divisivo è in gran parte simile a quello agglomerativo, ma ci sono alcune differenze:

- Importanza delle prime divisioni: Nel clustering divisivo, le prime divisioni influenzano in modo significativo la struttura finale, quindi è essenziale un preprocessing che enfatizzi le caratteristiche più rilevanti, garantendo una rappresentazione coerente.
- Bilanciamento delle features: Poiché ogni divisione successiva si basa su quella precedente, è importante bilanciare le features in modo che ogni variabile contribuisca adeguatamente, riducendo il rischio che le prime divisioni siano dominate da variabili con grande varianza.

### Interpretazione tramite Dendrogramma
Il risultato del clustering gerarchico viene rappresentato tramite un dendrogramma, un grafico ad albero che visualizza i livelli di fusione dei cluster. Ogni biforcazione nel dendrogramma rappresenta una fusione, e l’altezza della biforcazione indica la distanza o dissimilarità tra i cluster uniti.

### Vantaggi e Svantaggi

Vantaggi:

- Non richiede di specificare il numero di cluster in anticipo.
- Crea una struttura gerarchica, utile per visualizzare relazioni multi-livello tra dati.

Svantaggi:

Computazionalmente intenso per grandi dataset.
- Sensibile alle scelte delle metriche di similarità e linkage, che possono influenzare i risultati.

### MST

Nel clustering divisivo, l'albero di copertura minimo (MST) può essere utilizzato per facilitare la divisione dei dati in cluster in modo efficiente, sfruttando la struttura del grafo dei punti dati. Il MST aiuta a identificare i collegamenti essenziali tra i punti che riducono la complessità della struttura a connessioni essenziali senza cicli, consentendo di individuare le aree di maggiore separazione.

Come Funziona l’MST nel Clustering Divisivo

1. Costruzione del Grafo: Si rappresentano i punti dati come nodi di un grafo e si calcolano le distanze tra ciascuna coppia di punti. Questo grafo è ponderato, poiché a ciascun arco viene assegnato un peso corrispondente alla distanza tra i punti connessi.

2. Calcolo dell'MST: Si applica un algoritmo di Minimum Spanning Tree (come Kruskal o Prim) per trovare un albero di copertura minimo. L'MST copre tutti i nodi del grafo usando il minor numero di archi e minimizzando il peso complessivo degli archi, formando così una struttura senza cicli.

3. Identificazione delle Divisioni: Per suddividere i cluster, si individuano gli archi più “deboli” (quelli con peso maggiore) nell'MST e si rimuovono. Questo taglio divide il grafo in sottoalberi, che rappresentano cluster separati. Gli archi di peso maggiore solitamente indicano separazioni naturali nei dati, quindi il taglio di questi archi tende a creare cluster più distinti.

4. Ripetizione del Processo: Ogni sottoalbero (cluster) può essere ulteriormente diviso applicando lo stesso processo, cioè calcolando l'MST per i punti rimanenti nel sottocluster e tagliando gli archi di maggiore peso fino a ottenere la granularità desiderata.

Vantaggi dell’Uso dell’MST nel Clustering Divisivo:

- Identificazione naturale delle separazioni: Gli archi di maggiore lunghezza nel MST spesso indicano le maggiori separazioni tra gruppi di punti, rendendo il taglio dell’MST un approccio naturale per suddividere i cluster.
- Riduzione della complessità: L’MST rappresenta solo le connessioni essenziali, semplificando il grafo e rendendo il calcolo delle divisioni più efficiente.
- Adattabile a cluster di forma irregolare: Poiché non si basa su centroidi (come il K-means), l'MST è utile per identificare cluster di forma non sferica o con strutture complesse.

### Issues nel clustering gerarchico

1. Scelta della Metodologia: Agglomerativo vs. Divisivo

- Agglomerativo: Inizia unendo punti singoli, e quindi gli errori nelle fusioni iniziali possono propagarsi, influenzando negativamente la qualità dei cluster finali. Inoltre, il clustering agglomerativo può essere computazionalmente meno oneroso del divisivo, ma comunque intensivo per dataset molto grandi.
- Divisivo: Parte da un singolo cluster e divide progressivamente, con il rischio che le prime divisioni determinino una struttura meno ottimale. È meno usato rispetto all’agglomerativo, principalmente a causa dell’elevato costo computazionale, quindi è più adatto a dataset di dimensioni contenute o altamente strutturati.

2. Scelta della Metodica di Linkage

La metrica di linkage influenza fortemente la forma e la struttura dei cluster:

- Single Linkage (distanza minima): Tende a creare cluster allungati, adatti a cluster di forma irregolare. Tuttavia, soffre dell’effetto chaining, in cui i punti vicini possono "allungare" eccessivamente un cluster.
- Complete Linkage (distanza massima): Crea cluster più compatti, ma può non rilevare correttamente cluster allungati o di forma irregolare.
- Average Linkage (distanza media): Offre un compromesso tra complete e single linkage, ma può essere computazionalmente più oneroso.
- Ward: Minimizza la varianza interna e produce cluster compatti, ma può richiedere elevati calcoli e non gestisce bene cluster non sferici o di dimensioni molto diverse.

3. Scelta della Metrica di Distanza
- Distanza Euclidea: È la metrica più comune per dati numerici, ma è sensibile alla scala dei dati. Le variabili con varianza maggiore possono influenzare eccessivamente i risultati.
- Distanza di Manhattan: Migliore per dati con componenti sparse o distribuzioni rettilinee.
- Metriche specializzate: Ad esempio, la distanza di Hamming o il coefficiente di Jaccard, per dati binari o categorici.

    È fondamentale scegliere la metrica di distanza appropriata in base alla natura dei dati e assicurarsi di standardizzarli quando le unità di misura differiscono o quando una variabile ha un range molto più ampio rispetto alle altre.

4. Preprocessing dei Dati
- Standardizzazione: Per le variabili numeriche, la standardizzazione o normalizzazione è essenziale se le variabili hanno scale diverse. La mancata standardizzazione può causare la predominanza di una variabile sui risultati.
- Codifica delle variabili categoriche: Le variabili categoriche devono essere trasformate in valori numerici utilizzabili nelle metriche di distanza. La codifica One-Hot è comune per il clustering gerarchico.
- Rimozione di Outlier: Gli outlier possono distorcere i cluster, soprattutto con metodi di linkage come single o complete. La rimozione preventiva o il trattamento di questi valori è cruciale per risultati più accurati.

5. Sensibilità alla Dimensione del Dataset
Il clustering gerarchico è computazionalmente intensivo, con una complessità quadratica rispetto al numero di punti dati O(n^2). Per dataset di grandi dimensioni, ciò può essere proibitivo:

- Ottimizzazione: Per dataset di grandi dimensioni, è possibile utilizzare campionamenti, calcolare l’MST come pre-processing o considerare metodi alternativi per ridurre i calcoli.
- Algoritmi approssimati: Alcune versioni approssimate del clustering gerarchico sono state sviluppate per lavorare su grandi dataset, ma potrebbero non produrre la stessa qualità di clustering.

6. Scelta del Cut-Off del Dendrogramma

- Il dendrogramma rappresenta visivamente la gerarchia dei cluster, ma determinare dove "tagliare" il dendrogramma per definire i cluster finali non è sempre ovvio. Un cut-off troppo alto riduce il numero di cluster, mentre un cut-off troppo basso li moltiplica eccessivamente.
- Visualizzazione del dendrogramma: Un metodo comune è visualizzare il dendrogramma e cercare "salti" significativi nell’altezza, che indicano possibili separazioni naturali nei dati.
- Calcolo di indici di qualità del clustering: Come l’indice di Silhouette, può aiutare a valutare la qualità del clustering in relazione al numero di cluster, sebbene il dendrogramma stesso rimanga uno strumento visivo primario.

### Cluster Validity

Vedi k-means

### Agglomerative clustering

In [12]:
import pandas as pd
import matplotlib.pyplot as plt
from datasets import load_dataset

In [13]:
dataset = load_dataset('csv', data_files='../dataset/merged_FE_no_outliers.csv')

df = dataset['train'].to_pandas()

In [14]:
import scipy.cluster.hierarchy as sch
from sklearn.cluster import AgglomerativeClustering
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler

columns = ['BMI','race_difficulty','team_avg_strength','consistency_score', 'PWR', 'climb_efficiency','prestige_weighted_delta']
df_reduced = df[columns]

# Standardize data
scaler = StandardScaler()
X_scaled = scaler.fit_transform(df_reduced.select_dtypes(include=['float64', 'int64']))

# Applicazione della PCA
pca = PCA()
pca_result = pca.fit_transform(X_scaled)

# Calcoliamo la varianza spiegata per ciascuna componente principale
explained_variance_ratio = pca.explained_variance_ratio_

# Mostriamo la varianza spiegata cumulativa
explained_variance_cumulative = explained_variance_ratio.cumsum()

# Creazione di un DataFrame per mostrare i risultati
pca_summary = pd.DataFrame({
    'Component': [f'PC{i+1}' for i in range(len(explained_variance_ratio))],
    'Explained Variance Ratio': explained_variance_ratio,
    'Cumulative Explained Variance': explained_variance_cumulative
})

pca_summary

In [None]:
pca = PCA(n_components=2) 
pca_result = pca.fit_transform(X_scaled)

pca_selected_components = pca_result[:30000, -3:-1]

plt.figure(figsize=(10, 7))
dendrogram = sch.dendrogram(sch.linkage(pca_selected_components, method='ward'))
plt.title('Dendrogram')
plt.xlabel('Samples')
plt.ylabel('Euclidean distances')
plt.show()

In [None]:
hierarchical_clustering = AgglomerativeClustering(n_clusters=3)
df_reduced['hierarchical_cluster_ward'] = hierarchical_clustering.fit_predict(pca_selected_components)

In [None]:
plt.figure(figsize=(10, 7))
dendrogram_complete = sch.dendrogram(sch.linkage(pca_selected_components, method='complete'))
plt.title('Dendrogram (Complete Linkage)')
plt.xlabel('Samples')
plt.ylabel('Euclidean distances')
plt.show()

In [None]:
hierarchical_clustering = AgglomerativeClustering(n_clusters=3)
df_reduced['hierarchical_cluster_complete'] = hierarchical_clustering.fit_predict(pca_selected_components)

In [None]:
plt.figure(figsize=(10, 7))
dendrogram_average = sch.dendrogram(sch.linkage(pca_selected_components, method='average'))
plt.title('Dendrogram (Average Linkage)')
plt.xlabel('Samples')
plt.ylabel('Euclidean distances')
plt.show()

In [None]:
hierarchical_clustering = AgglomerativeClustering(n_clusters=3)
df_reduced['hierarchical_cluster_average'] = hierarchical_clustering.fit_predict(pca_selected_components)