
# Spectral Clustering


## 1. Grafo de Similitud

Dados:

* Un conjunto de datos $X = \{x_1, x_2,...,x_n\}$ 

* Un valor de similitud $s_{ij} \geq 0$ entre dos datos $x_i$ y $x_j$. 

El objetivo es dividir el conjunto $X$ en diferentes grupos, de tal manera que los datos que se encuentran en un mismo grupo son aquellos que son similares entre sí, y diferentes a los que se encuentran en otros grupos. 

Una manera de representar los *data points* conociendo las *similitudes* entre ellos, es usando una *Matriz de Similitud G = (V,E)*, donde:

* Cada vértice $v_i$ representa a un dato $x_i$.

* Los vértices $v_i$ y $v_j$ están conectados si su similitud $s_{ij}$ es positiva o mayor a un *threshold*


### 1.1. Notación del Grafo
Dado $G = (V, E)$ un grado no-dirigido con el conjunto de vértices $V = \{v_1, v_2, ..., v_n\}$.  Asumimos que:

* El grafo $G$ es ponderado, es decir, cada arista entre dos vértices $v_i$ y $v_j$  tiene un peso no-negativo $w_{ij} \geq 0 $.

* La **matriz de adyacencia ponderada**  del grafo es la matriz $W = (w_{ij})_{ij=1,...,n}$ .

* Si los vértices $v_i$ y $v_j$ no están conectados entonces $w_{ij} = 0$.

* La matriz de adyacencia es *simétrica* pues $w_{ij} = w_{ji}$. 

* El **grado** de un vértice $v_i$ se define como $$d_i = \sum_{j = 1}^{n}{w_{ij}}$$ 

* La **Matriz de Grado D** está definida como la matriz diagonal  con los grados $d_1, d_2,...,d_n$ en la diagonal. 



Sea el subconjunto $A \subset V$ de un **grafo es conexo** si para cualquier par de vértices en $A$ tiene una trayectoria con vértices intermediarios que pertenecen también a $A$.

El subconjunto $A$ es llamada **componente conexa** si además de conexo, no hay conexión entre los vértices de $A$ y su complemento $\bar{A}$.

Conociendo lo anterior, podemos definir los conjuntos no vacíos $A_1, A_2, ..., A_k$ son particiones del grafo $A$, tal que:

* $A_i \cap A_j = \emptyset$
* $A_1 \cup A_2 \cup ... \cup A_k = V$


### 1.2. Ejemplos Grafos de Similitud

Para transformar un conjunto de *data points* $x_1, x_2, ..., x_n$ en un grafo de similitudes $s_{ij}$ o de distancias $d_{ij}$, existen diversos métodos.

Construir *grafos de similitud* ayuda a modelar las relaciones de vecindad local entre los *data points*.

* **El Grafo $\varepsilon-$Neighborhood:**
Se conectan aquellos pares de vértices cuya distancia sea más pequeña que $\varepsilon$. Es así que los pesos del grafo estan en la misma escala.

* **El Grafo $k-$Nearest Neighbor**: Los véstices $v_i$ y $v_j$ están conectados si $v_j$ pertenece a los $k$ vecinos más cercanos de $v_i$. Esto define un grafo dirigido, pero ello puede ser solucionado de dos maneras:
    * Ignorar las direcciones de los arcos, es decir, existe la arista $e_{ij} \in E$ tal que $v_i$ es un $k$-vecino más cercano de $v_j$ o viceversa. De ello se obtiene el **grado de k-vecinos más cercanos**
    
    * Conectar los vértices $v_i$ y $v_j$ si uno pertenece a los $k-$vecinos más cercanos del otro y viceversa, obteniendo el **grafo de k-vecinos más cercanos mutuo**


* **El Grafo Completamente Conectado:** Se conectan aquellos vértices cuya similitud es positiva siendo ello su peso de la arista que los une $s_{ij}$. La función a usar debe reflejar las relaciones de vecindad local. 

    * Un ejemplo de esta función es la **función de similitud Gausiana** $s(x_i, x_j) = \exp{(-\frac{\|x_i - x_j \|^2}{2\sigma^2})}$
    * $\sigma$ controla el tamaño de la vecindad  similar a $\varepsilon$ del grafo  $\varepsilon-$neigborhood