# Clustering

Gli algoritmi di clustering si occupano della selezione e del raggruppamento di un insieme di dati in sottoinsiemi caratterizzati da 
* omogeneita' all'interno di ciascun sottoinsieme
* diversita' da un sottoinsieme all'altro.

Omogeneita' e diversita' sono concetti da specificare in maniera quantitativa.


## Tipi di algoritmi

La costruzione dei sottoinsiemi puo' effettuarsi tramite:
* *aggregazione* dei singoli dati (bottom-up): 
    * es. single linkage clustering
* *divisione* dell'insieme dei dati (top-down): 
    * es. cut clustering (sui grafi)

Dal punto di vista del risultato, possiamo parlarare di
* *clustering partizionale*, che risulta in una partizione dei dati 
    * es. k-Means
* *clustering gerarchico*, che porta a una gerarchia di partizioni (un albero)
    * es. single-linkage





-----------------------------------------------------


## Distanza e spazi metrici

La matematica ci viene in aiuto con la nozione di distanza. Dato un insieme $X$, una distanza e' una funzione

$d(X \times X ) \rightarrow \mathbb{R}$

che soddisfa le seguenti proprieta' per ogni $x,y, z \in  X$:
1. $d(x,y) \geq 0$ (positivita')
2. $d(x,y)=0 \iff x=y$ (identita' degli indiscernibili)
3. $d(x,y)=d(y,x)$ (simmetria) 
4. $d(x,y)\leq d(x,z) +d(z,y)$ (diseguaglianza triangolare)

La coppia $(X,d)$ costituisce uno spazio metrico. La maggior parte degli algoritmi di clustering richiede almeno uno spazio metrico; vari algoritmi richiedono strutture piu' ricche (spazi vettoriali).



## Esempio 1: clustering delle citta' italiane

Pensiamo alle citta' come punti su un piano cartesiano

Distanza euclidea ($\simeq$ distanza geografica):

$d_E(\mathbb{R}^2 \times \mathbb{R}^2 ) \rightarrow \mathbb{R}$

quindi, per due punti $\vec{u}$, $\vec{v}$ sul piano:

$d(\vec{v},\vec{w})=\sqrt{(v_x-w_x)^2+(v_y-w_y)^2}$

![distanze](https://famigliainfuga.com/wp-content/uploads/2020/06/distanze-chilometriche-google-maps.png)

## Esempio 2: clustering delle pizze

| pizza      | pomodoro | mozzarella | acciughe | capperi | aglio |
|------------|----------|------------|----------|---------|-------|
| Margherita |    1     |         1  |       0  |      0  |    0  |
| Marinara   |     1    |         0  |       0  |      0  |    1  |
| Napoli     |     1    |         1  |       1  |      1  |    0  |

$X=\{0,1\}^5$

Distanza di Hamming: numero di ingredienti presenti solo in una delle due pizze
    
$d_H(p, q)= \sum_i |x_i - y_i|$

(facilmente estensibile a descrittori di tipo Booleano non alimentare)

## Esempio 3: clustering di sequenze di DNA



$X$: spazio delle stringhe con elementi in $\{A,T,C,G\}$

Esempio:
s1=`CATACG`
s2=`GATTACA`

[Distanza di Levenshtein](https://it.wikipedia.org/wiki/Distanza_di_Levenshtein): *minimo* numero di operazioni di editing (sostituzione, inserimento, cancellazione) necessarie a trasformare la stringa s1 nella stringa s2

CATACG ->  `G`ATACG -> GAT`T`ACG -> GATTAC`A`

$d_L(s1, s2)=3$

Il calcolo della distanza di Levenshtein e' un problema di progammazione dinamica.


## La scelta dei descrittori e della metrica e' importante!

Ha senso fare un clustering delle citta' basato sulla distanza geografica?

* Se cerchiamo di ottimizzare la posizione dei depositi per una serie di punti vendita, probabilmente si'

Se abbiamo altri scopi, potremmo considerare:

* Numero degli abitanti
* Distribuzione degli abitanti per fasce d'eta'
* Distribuzione degli abitanti per fasce di reddito
* Distribuzione dei lavoratori per settore economico

Un linguista computazionale potrebbe voler fare un clustering delle pizze basato sul loro nome e sulla distanza di Levenshtein!

---------------------------


# L'algoritmo K-Means


* Uno degli algoritmi piu' popolari
* Molto usato in computer graphics/computer vision
* Richiede uno spazio vettoriale
* Usa la distanza euclidea (e' generalizzabile a [divergenze di Bregman](https://www.jmlr.org/papers/volume6/banerjee05b/banerjee05b.pdf))
* Risolve un problema di ottimizzazione


## K-means come compressione con perdita d'informazione

Supponiamo di dover trasmettere le coordinate di questi punti usando solo due bit per punto.

<img src="img/kmeans_1.png" style="height:400px">

Dobbiamo accettare la perdita d'informazione; come penalita', prendiamo la somma dei quadrati delle distanze tra i punti originali e quelli trasmessi. 

**Come approssimare i punti in maniera ottimale?**

**IDEA No. 1**: Dividiamo il piano in quadranti. Per ogni punto, trasmettiamo il numero del quadrante (2 bit). Ricostruiamo i dati come centro del quadrante:

<img src="img/kmeans_2.png" style="height:400px">

**IDEA No. 2:** Per ogni quadrante, approssimiamo i punti col centroide dei dati in quel quadrante 

<img src="img/kmeans_3.png" style="height:400px">

**IDEA No. 3**: Perche' definire le partizioni a priori, e non in base ai dati? Possiamo limitarci a specificare solo il numero delle partizioni?

### L'algoritmo

**PASSO 1**: Chiediamo all'utente quanti cluster vuole (esempio: k=5)

**PASSO 2**: Scegliamo k centri a caso (esempio: k punti)

<img src="img/kmeans_4.png" style="height:400px">

**PASSO 3:** Ogni dato trova il centro al quale e' piu' vicino (ogni centro reclama i "suoi" punti). Questo di fatto "crea" le partizioni

<img src="img/kmeans_5.png" style="height:400px">

**PASSO 4**: Ogni centro si sposta sul centroide dei punti nella sua partizione

<img src="img/kmeans_6.png" style="height:400px">

Questo ci riporta nella situazione del passo 2, ma con nuovi centri:

<img src="img/kmeans_7.png" style="height:400px">

...e possiamo iterare fino alla convergenza (non tutti i passi sono visualizzati; ignorate i quadrati).

![](img/kmeans_8.png)

(Per la presentazione di k-Means come un algoritmo di compressione e le immagini, sono debitore al [Prof. Andrew Moore](http://www.cs.cmu.edu/~awm/tutorials.html), Carnegie Mellon University.)

## Riassumendo l'algoritmo:

* input: dati, numero di cluster k
* inizializzazione: scelta di k centri a caso
* ripetere fino a convergenza:
    * ogni punto sceglie il centro piu' vicino
    * ogni centro si sposta sul centroide dei suoi punti    

## Domande:

* Cosa ottimizza k-means? 
* L'algoritmo converge?
* A cosa converge?

**K-means minimizza l'errore di approssimazione**

$E=\sum_i \left(\vec{x_i}- \vec{c}_{p(i)}\right)^2$,

dove  $p(i)$ e' l'indice del centroide (o della partizione) assegnata dall'algoritmo al punto $\vec{x_i}$.

Perche' $E$ sia minimo, devono verificarsi due condizioni:

**Condizione 1:** ogni punto $\vec{x_i}$ e' assegnato al centroide $\vec{c}_j$ a lui piu' vicino. 

Questo e' evidente: se cosi' non fosse, basterebbe riassegnare $\vec{x_i}$ per ridurre $E$.

**Condizione 2:** la derivata parziale dell'errore rispetto alla coordinate dei centri deve essere zero. Con $N$ numero dei dati e $k$ numero dei cluster:

$E=\sum_{i=1}^N\left(\vec{x_i}-\vec{c}_{p(i)}\right)^2=\sum_{j=1}^k \sum_{i\in p^{-1}(j)}\left(\vec{x_i}-\vec{c}_j\right)^2$

e quindi, con leggero abuso di notazione:

\begin{equation}
\frac{\partial E}{\partial{\vec{c}_j}}=
\frac{\partial}{\partial{\vec{c}_j}}\sum_{i\in p^{-1}(j)}\left(\vec{x_i}-\vec{c}_j\right)^2=
-2\sum_{i\in p^{-1}(j)}\left(\vec{x_i}-\vec{c}_j\right)=0\qquad \mathrm{nel\,minimo}
\end{equation}

ovvero
\begin{equation}
\vec{c_j}=\frac{1}{\left| p^{-1}(j)\right|} \sum_{i\in p^{-1}(j)}\vec{x_i}
\end{equation}


Riassumendo:
    
**Condizione 1:** Ogni $\vec{x}_i$ deve essere assegnato al centro piu' vicino

**Condizione 2:** Ogni centro deve essere uguale alla media dei suoi punti.

Se siamo lontani dal minimo, possiamo provare a cambiare le cose in modo da imporre una delle due condizioni.

Imporre la stessa condizione due volte non porta a niente, ma alternare tra le due puo' essere utile - e questo e' k-means!

### Questo procedimento ha termine?

* c'e' un numero finito di modi di assegnare i punti ai centri
* ogni volta, imporre una condizione ci porta ad una configurazione con $E$ piu' basso
* ne segue che l'algoritmo esaurisce ad un certo punto le configurazioni accessibili e quindi converge.


## Questioni aperte (per la prossima lezione):

* Il minimo al quale k-means converge e' un minimo locale
* Criteri per la scelta di k