# Clustering

Consente di raggruppare elementi simili in gruppi chiamati cluster. Per poter raggrupparli è necessario che ci sia un'alta similiarità tra gli elementi della stessa classe e una basse similiarità tra gli elementi di classi diverse.

In fase di design è necessario scegliere le feature su cui fare clustering e la funzione di similiarità.

La similiarità deve soddifare le seguenti proprietà:
- Simmetria D(A, B) = D(B, A)
- Costanza della similiarità D(A, A) = 0
- Positività D(A, B) = 0 se e solo se A = B
- Disuguaglianza triangolare D(A, B) ≤ D(A, C) + D(B, C)

Utilizzando il piano euclideo, la distanza euclidea è a tutti gli effetti una misura della similiarità.

There are two types of Clustering
Partitional algorithms: Construct various partitions and then evaluate them by
some criterion
Hierarchical algorithms: Create a hierarchical decomposition of the set of objects
using some criterion


Per fare clustering ci sono due strategie:
- Partizionale: tipo di clustering iterativo in cui si costruiscono varie partizioni e poi si valutano con un criterio in modo gerarchico. Viene costruito un albero di merge o split.
- Gerarchico: in un unico step divide già tutti gli elementi nei gruppi, creandoa una decomposizione gerarchica dell'insieme di oggetti usando un criterio.

Qualunque sia la modalità di clustering le proprietà richieste a un algoritmo di clustering sono:
- Scalabilità
- Capacità di gestire di dati diversi
- Cercare di avere minima conoscenza del dominio possibile (come prerequisito dovrei sapere il meno possibile dei dati che sto trattando)
- Deve essere in grado di gestire il rumore e gli outlier, cioè i dati che non appartengono a nessun cluster
- Non devono dipendere dall'ordine in cui si presentano i dati
- Devono poter incorporare dei vincoli
- Deve essere interpretabile

---

# Hierarchical Clustering

Dal momento che non possiamo testare tutti gli alberi possibili dobbiamo fare una ricerca euristica di tutti gli alberi possibili. Possiamo farlo in due modi:
- ***Bottom-Up*** (agglomerativo): partendo da ogni elemento in un proprio cluster, trova la migliore coppia da unire in un nuovo cluster. Ripeti fino a quando tutti i cluster sono uniti. 
- ***Top-Down*** (divisivo): partendo da tutti i dati in un unico cluster, considera ogni possibile modo di dividere il cluster in due. Scegli la migliore divisione e operare ricorsivamente su entrambi i lati.

![07_Hierarchical_Clustering_Kmeans_Spectral_Clustering1](images/07_Hierarchical_Clustering_Kmeans_Spectral_Clustering1.png)

Se due elementi sono connessi alla stessa riga, allora appartengono allo stesso gruppo.

Una volta costrutito l'albero o ***dendogramma***, per ottenere i cluster bisogna tagliare l'albero in un certo punto. Per fare ciò bisogna scegliere un valore di soglia.

---

# Start with a Distance or Similarity

Per aggregare gli elementi in fase iniziale, si costruisce una matrice in cui nelle righe e nelle colonne ci sono gli elementi, mentre nella casella in corrispondenza di due elementi c'è la distanza o la similarità tra quegli elementi.

![07_Hierarchical_Clustering_Kmeans_Spectral_Clustering2](images/07_Hierarchical_Clustering_Kmeans_Spectral_Clustering2.png)

---



# Bottom-Up (agglomerativo)

All'inizio parto con tutti gli elementi disgiunti e con una misura di distanza/similiarità tra gli elementi.

Per tutte le possibili coppie dei miei elementi misuro la loro distanza e unisco i due elementi che hanno la distanza minore.

### Tecniche di Linkage: strategie per il calcolo della distanza tra due cluster

- **Single Linkage** (nearest neighbor): la distanza tra due cluster è determinata dalla distanza tra i due oggetti più vicini nei due cluster diversi (crea cluster molto elungati)
- **Complete Linkage** (furthest neighbor): la distanza tra due cluster è determinata dalla distanza tra i due oggetti più lontani nei due cluster diversi (crea cluster molto compatti)
- **Group Average Linkage**: la distanza tra due cluster è determinata dalla media delle distanze tra tutti gli oggetti nei due cluster diversi
- **Wards Linkage**: (è la media diviso la varianza per la distanza e media per la varianza per la similiarità) &rarr; si cerca di minimizzare la varianza dei cluster uniti

![07_Hierarchical_Clustering_Kmeans_Spectral_Clustering3](images/07_Hierarchical_Clustering_Kmeans_Spectral_Clustering3.png)

Smetto di aggregare quando la distanza elemento-gruppo o gruppo-gruppo è sopra una certa soglia.

Quindi il clustering gerarchico è accompagnato da due iperparametri:
- la strategia di aggregazione
- la soglia oltre la quale devo smettere di aggregare

---

# Riassumendo: hierarchical clustering

- Non devo stabilire a priori il numero di cluster, però devo definire la soglia
- La natura gerarchica è intuitiva per l'uomo &rarr; il dendogramma è facile da interpretare
- Non scala bene: perché ogni volta devo calcolare la distanze con tutti gli altri elementi &rarr; $O(n^2)$, dove $n$ è il numero totale di elementi
- Come tutti gli algoritmi di ricerca euristica, i locali ottimi sono un problema &rarr; non è detto che un determinato partizionamento sia il migliore a livello globale
- L'interpretazione dei risultati è soggettiva

---


# Partial clustering

Nongerarchica, ogni istanza è inserita in uno dei K cluster non sovrapposti.

Dal momento che viene restituito un solo insieme di cluster, l'utente deve normalmente inserire il numero desiderato di cluster K.

Quindi è necessario avere il numero di cluster desiderati.

# K-means

Algoritmo di clustering che utilizza la funzione <span style="color:gold;">Squared Error</span>

Dato un set di punti ($x_1, x_2, ..., x_n$) e $k$ insiemi $S = \{S_1, S_2, S_3, ..., S_k\}$.

La funzione obiettivo è:

### $argmin_S \sum_{i=1}^k \sum_{x \in S_i} ||x - \mu_i||^2$

dove $\mu_i$ è la media dei punti in $S_i$.

&rarr; ***Quindi cerco di minimizzare la distanza tra i punti e il centro del cluster.***

La funzione obiettivo sopra è uguale a:

### $argmin_S \sum_{i=1}^k \frac{1}{|S_i|} Var(S_i)$

Questo è equivalente a:

### $argmin_S \sum_{i=1}^k \sum_{x,y \in S_i} ||x - y||^2$

# Proof

![07_Hierarchical_Clustering_Kmeans_Spectral_Clustering4](images/07_Hierarchical_Clustering_Kmeans_Spectral_Clustering4.png)

Quindi voglio trovare le distanze minime per cui sommando tutte le distanze dal centro dei cluster rossi in figura ottengo la distanza minima.

![07_Hierarchical_Clustering_Kmeans_Spectral_Clustering5](images/07_Hierarchical_Clustering_Kmeans_Spectral_Clustering5.png)

---

# Algoritmo K-means Naive procedure


Inizializza $k$ cluster centers randomici

***while*** i centri non sono aggiornati o il numero massimo di iterazioni è stato raggiunto:

- Assegna ogni punto al centro più vicino
- Calcola per ogni cluster la media dei punti assegnati
- $\mu^{new}_{S_i} = \Sigma{x \in S_i} \frac{x}{|S_i|}$
- $\mu_{S_i} = \mu^{new}_{S_i}$

***end***

*A ogni update, aggiorno la posizione del centro cluster e il nuovo centro diventa la media delle coordinate (feature) dei punti che sono stati assegnati a quel cluster.*

#### Iterazione 1: fase di assegnamento dei punti

![07_Hierarchical_Clustering_Kmeans_Spectral_Clustering6](images/07_Hierarchical_Clustering_Kmeans_Spectral_Clustering6.png)

#### Iterazione 2: assengno i punti al centro più vicino

![07_Hierarchical_Clustering_Kmeans_Spectral_Clustering7](images/07_Hierarchical_Clustering_Kmeans_Spectral_Clustering7.png)

#### Iterazione 3: il centro si sposta perché è uguale alla media di tutte le coordinate dei punti assegnati al cluster

![07_Hierarchical_Clustering_Kmeans_Spectral_Clustering8](images/07_Hierarchical_Clustering_Kmeans_Spectral_Clustering8.png)

#### Iterazione 4: nuova fase di asegnamento + update

![07_Hierarchical_Clustering_Kmeans_Spectral_Clustering9](images/07_Hierarchical_Clustering_Kmeans_Spectral_Clustering9.png)

Non è detto che scegliere i centi iniziali a caso portino sempre alla stessa soluzione! È bene sceglierli casualmente ma cercando di ricoprire tutto lo spazio (range min-max di ogni feature).

Un'altra soluzione potrebbe essere lanciare tante volte l'algoritmo e scegliere la soluzione migliore, ovvero quelle che coinvolgono partizionamenti che capitano più spesso.

---

# Comments on kmeans

Pro:
- Relativamente efficiente: $O(tkn)$, dove $n$ è il numero di oggetti, $k$ è il numero di cluster e $t$ è il numero di iterazioni. Normalmente $k$ e $t$ sono molto più piccoli di $n$.
- Spesso termina in un ottimo locale. L'ottimo globale può essere trovato utilizzando tecniche come il *deterministic annealing* e gli *algoritmi genetici*

Contro:
- **<u>Applicabile solo quando la media è definita, quindi cosa succede con i dati categorici?</u>** &rarr; non posso usare la media per i quei dati che possono essere solo booleani, ad esempio.
- Bisogna specificare $k$, il numero di cluster, in anticipo
- Non è in grado di gestire dati rumorosi e outlier
- Non è adatto per scoprire cluster con forme non convesse

---

# Partitioning Around Medoids

Per ovviare al problema del K-Means quando non posso fare la media.

Se al posto di creare dei nuovi punti (la media) utilizzo dei punti che sono già all'interno del mio dataset, sono sicuro di rimanere nel "dominio" di questo problema.

Trova gli oggetti rappresentativi, chiamati medoids, nei cluster.
- PAM (Partitioning Around Medoids, 1987)
- Parte da un set iniziale di medoidi e iterativamente sostituisce uno dei medoids con uno dei non-medoidi se migliora la distanza totale del clustering risultante
- PAM funziona efficacemente per piccoli set di dati, ma non scala bene per grandi set di dati

Algoritmo:
1. Seleziona $k$ punti a caso del mio dataset e ogni elemento è assegnato al centro più vicino
2. Il centro di un cluster è il punto che ha distanza minima da tutti gli altri punti del cluster &rarr; questo è il nuovo centro
3. Reitero a convergenza come nel K-means

---

Se ho delle superfici di separazioni che sono degli sferoidi, il K-means non funziona bene perché non è in grado di gestire superfici non convesse.

![07_Hierarchical_Clustering_Kmeans_Spectral_Clustering10](images/07_Hierarchical_Clustering_Kmeans_Spectral_Clustering10.png)

