# Clustering

Consente di raggruppare elementi simili in gruppi chiamati cluster. Per poter raggrupparli è necessario che ci sia un'alta similiarità tra gli elementi della stessa classe e una basse similiarità tra gli elementi di classi diverse.

In fase di design è necessario scegliere le feature su cui fare clustering e la funzione di similiarità.

La similiarità deve soddifare le seguenti proprietà:
- Simmetria D(A, B) = D(B, A)
- Costanza della similiarità D(A, A) = 0
- Positività D(A, B) = 0 se e solo se A = B
- Disuguaglianza triangolare D(A, B) ≤ D(A, C) + D(B, C)

Utilizzando il piano euclideo, la distanza euclidea è a tutti gli effetti una misura della similiarità.

There are two types of Clustering
Partitional algorithms: Construct various partitions and then evaluate them by
some criterion
Hierarchical algorithms: Create a hierarchical decomposition of the set of objects
using some criterion


Per fare clustering ci sono due strategie:
- Partizionale: tipo di clustering iterativo in cui si costruiscono varie partizioni e poi si valutano con un criterio in modo gerarchico. Viene costruito un albero di merge o split.
- Gerarchico: in un unico step divide già tutti gli elementi nei gruppi, creandoa una decomposizione gerarchica dell'insieme di oggetti usando un criterio.

Qualunque sia la modalità di clustering le proprietà richieste a un algoritmo di clustering sono:
- Scalabilità
- Capacità di gestire di dati diversi
- Cercare di avere minima conoscenza del dominio possibile (come prerequisito dovrei sapere il meno possibile dei dati che sto trattando)
- Deve essere in grado di gestire il rumore e gli outlier, cioè i dati che non appartengono a nessun cluster
- Non devono dipendere dall'ordine in cui si presentano i dati
- Devono poter incorporare dei vincoli
- Deve essere interpretabile

---

# Hierarchical Clustering

Dal momento che non possiamo testare tutti gli alberi possibili dobbiamo fare una ricerca euristica di tutti gli alberi possibili. Possiamo farlo in due modi:
- ***Bottom-Up*** (agglomerativo): partendo da ogni elemento in un proprio cluster, trova la migliore coppia da unire in un nuovo cluster. Ripeti fino a quando tutti i cluster sono uniti. 
- ***Top-Down*** (divisivo): partendo da tutti i dati in un unico cluster, considera ogni possibile modo di dividere il cluster in due. Scegli la migliore divisione e operare ricorsivamente su entrambi i lati.

![07_Hierarchical_Clustering_Kmeans_Spectral_Clustering1](images/07_Hierarchical_Clustering_Kmeans_Spectral_Clustering1.png)

Se due elementi sono connessi alla stessa riga, allora appartengono allo stesso gruppo.

Una volta costrutito l'albero o ***dendogramma***, per ottenere i cluster bisogna tagliare l'albero in un certo punto. Per fare ciò bisogna scegliere un valore di soglia.

---

# Start with a Distance or Similarity

Per aggregare gli elementi in fase iniziale, si costruisce una matrice in cui nelle righe e nelle colonne ci sono gli elementi, mentre nella casella in corrispondenza di due elementi c'è la distanza o la similarità tra quegli elementi.

![07_Hierarchical_Clustering_Kmeans_Spectral_Clustering2](images/07_Hierarchical_Clustering_Kmeans_Spectral_Clustering2.png)

---



# Bottom-Up (agglomerativo)

All'inizio parto con tutti gli elementi disgiunti e con una misura di distanza/similiarità tra gli elementi.

Per tutte le possibili coppie dei miei elementi misuro la loro distanza e unisco i due elementi che hanno la distanza minore.

### Tecniche di Linkage: strategie per il calcolo della distanza tra due cluster

- **Single Linkage** (nearest neighbor): la distanza tra due cluster è determinata dalla distanza tra i due oggetti più vicini nei due cluster diversi (crea cluster molto elungati)
- **Complete Linkage** (furthest neighbor): la distanza tra due cluster è determinata dalla distanza tra i due oggetti più lontani nei due cluster diversi (crea cluster molto compatti)
- **Group Average Linkage**: la distanza tra due cluster è determinata dalla media delle distanze tra tutti gli oggetti nei due cluster diversi
- **Wards Linkage**: (è la media diviso la varianza per la distanza e media per la varianza per la similiarità) &rarr; si cerca di minimizzare la varianza dei cluster uniti

![07_Hierarchical_Clustering_Kmeans_Spectral_Clustering3](images/07_Hierarchical_Clustering_Kmeans_Spectral_Clustering3.png)

Smetto di aggregare quando la distanza elemento-gruppo o gruppo-gruppo è sopra una certa soglia.

Quindi il clustering gerarchico è accompagnato da due iperparametri:
- la strategia di aggregazione
- la soglia oltre la quale devo smettere di aggregare