Agrupamiento 
===

**Juan David Velásquez Henao**  
jdvelasq@unal.edu.co   
Universidad Nacional de Colombia, Sede Medellín  
Facultad de Minas  
Medellín, Colombia

# Definición del problema real

A un museo ha llegado una donación de mesas antiguas y el historiador encargado desea distribuirlas de tal forma que sean restauradas en un centro especializado en las carcaterísticas de cada una. Para ello, desea poder clasificar las mesas en grupos de acuerdo con su largo y ancho para posteriormente enviarlas al taller correspondiente. 

# Definición del problema en términos de los datos

Se tienen 60 observaciones para las variables 'Ancho(x1)' y 'Largo (x2)', que corresponden a las variables preliminares tomadas por el coleccionista. Se desea determinar si las observaciones están agrupadas en regiones que pueden ser interpretadas posteriormente en términos del conocimiento existente sobre la población de interés.

Las observaciones aparecen al final de este archivo.
     


# Solución

## Definición del problema

Este es el problema inverso al de clasificación. En la siguiente figura se desea determinar cuántos grupos existen en un conjunto de datos y los centroides de dichos grupos; cada centroide representa a los miembros de su grupo.   

<img src="images/k-means-1.jpg" width=400>

Nóte que en este ejemplo resulta fácil de visualizar ya que es un problema de dos dimensiones. En la realidad esto es completamente inusual.

## Algoritmo k-means

El algoritmo k-means se basa en asignar $n$ ejemplos a uno de $k$ grupos posibles. La notación usada es la siguiente:


* $S_i$ representa el conjunto de patrones del grupo $i$.


* La pertenencia del ejemplo (patrón) $x_j$ al grupo $S_i$ se representa como $x_j \in S_i$. 


* $u_i$ representa el centro del grupo $i$.


El algoritmo asigna el ejemplo $x_j$ al grupo al que pertenece el centroide más cercano $u_i$. Si se tienen tres grupos ($k=3$), cuyos centroides (representados por los rectángulos) son generados aleatoriamente, los puntos serían asignados a cada grupo de la siguiente forma:

<img src="images/k-means-2.jpg" width=400>

---
**Ejercicio.--** Para los siguientes centros de clusters (9.96, 13.31), (13.24, 8.58) y (14.58, 17.01) asigne cada ejemplo de la tabla en el archivo `06-kmeans.xlsx` a uno de los clusters.

---

En el algoritmo k-means, se pretende minimizar la distancia entre los miembros de cada grupo y maximizar la distancia entre grupos.  Para ello, en este algoritmo se minimiza:

$$ \sum_{i=1}^k \sum_{x_j \in S_i} \| x_j - u_i \|^2$$

Este proceso se realiza en dos fases:


* Paso 1: Dados los centros de los clusters $u_i$, cada punto $x_j$ se asigna al cluster más cercano. En esta fase se asignan todos los ejemplos de la muestra de datos a un cluster (Ejercicio anterior).


* Paso 2: Se recalcula cada centro $u_i$ como el promedio de los puntos $x_j$ que pertenecen a él.


El algoritmo se detiene cuando ningún punto cambia de cluster. Este caso es ejemplificado en la siguiente figura.

<img src="images/k-means-3.jpg" width=400>

---
**Ejercicio.--** Compute los nuevos centros de los clusters y asigne nuevamente los ejemplos a los clusters hasta que el algoritmo converja.

---

## Métricas de distancia

Existen distintas métricas para computar la distancia entre puntos. 

**Euclidiana.** 

$$ \text{dist}(x_i, x_j) =\left\{ \sum_k (x_{ik} - x_{jk})^2 \right\}^\frac{1}{2}$$

**Manhattan.**

$$ \text{dist}(x_i, x_j) = \sum_k \left|x_{ik} - x_{jk}\right| $$


**Chebychev**.

$$ \text{dist}(x_i, x_j) = \max_k \left|x_{ik} - x_{jk}\right| $$




## Escalamiento y transformación de variables

El algoritmo k-means se ve afectado por la escala de las variables. Por ello, se debe realizar la transformación de las variables antes de aplicar k-means.

**Normalización max-min.** 

$$x_* = \frac{x-\min(x)}{\max(x) - \min(x)}$$

**Estandarización z-score.**

$$z_* = \frac{x-\mu_x}{\sigma_x}$$

* $\mu_x$ es la media de $x$.
* $\sigma_x$ es la desviación estándar de $x$.

**Variables nominales.** Una variable nominal con categorías $C_1$, $C_2$, ..., $C_n$ se codifica con $n-1$ niveles, $L_i$, $i=1,...,n-1$:

$$ L_i =
   \begin{cases}
      1, & \text{if $x \in C_i$.} \\
      0, &\text{En caso contrario.}
   \end{cases}
$$


Si las categorías están ordenadas se codifica como:

$$ L_i =
   \begin{cases}
      i, & \text{if $x \in C_i$.} \\
      0, &\text{En caso contrario.}
   \end{cases}
$$

y luego es realiza la normalización.

# k-medoids

En esta variación del algoritmo, los centros (medoids) de cada cluster son puntos de la muestra de datos; esto es, el centro de cada cluster es uno de los puntos asignados al cluster. El algoritmo opera de forma similar a k-means:

* Paso 1: Se seleccionan $k$ puntos como centros de los clusters.

* Paso 2: Para todos los clusters se verifica si alguno de los miembros del cluster disminuye la métrica de distancia utilizada. En caso afirmativo, este punto pasa a ser el nuevo centro del cluster. En caso negativo, hay convergencia del algoritmo.

* Paso 3: Se asignan los puntos al cluster con centro más cercano y se retorna al Paso 2. 

# k-means++

Este algoritmo es similar al algoritmo k-means, con la diferencia que los nuevos centros de los clusters son generados de forma aleatoria.

---

       #  Ancho (x1). Largo x(2)
       1       10,67       14,70
       2        9,74       13,79
       3       10,23       14,30
       4       11,17       15,53
       5       10,41       15,08
       6       11,14       14,45
       7       10,12       12,95
       8        9,58       13,76
       9       11,16       15,21
      10       10,08       13,53
      11        9,96       13,31
      12        9,17       12,41
      13       11,52       16,01
      14       11,27       15,41
      15        8,72       11,66
      16       11,30       15,11
      17        9,70       13,56
      18        8,69       11,81
      19       10,99       16,28
      20       10,82       14,41
      21       10,87        6,91
      22       11,95        6,05
      23       12,77        7,97
      24       13,25        8,03
      25       14,42        9,25
      26       16,03        9,88
      27       12,23        6,97
      28       13,24        8,58
      29       10,88        6,15
      30       15,85        9,51
      31       11,63        7,28
      32       13,41        8,35
      33       11,71        6,37
      34       12,49        7,60
      35       14,46        8,21
      36       15,00       10,11
      37       12,24        7,16
      38       13,68        8,12
      39       15,06        8,47
      40       12,78        8,74
      41       13,27       13,92
      42       14,40       16,58
      43       14,50       17,39
      44       14,20       16,70
      45       14,62       17,22
      46       13,05       12,20
      47       14,43       16,31
      48       13,51       15,12
      49       14,63       17,00
      50       15,36       16,95
      51       14,24       17,55
      52       13,82       15,46
      53       14,52       18,90
      54       15,43       19,00
      55       14,58       17,01
      56       12,87       14,26
      57       15,37       18,91
      58       15,61       19,00
      59       15,12       17,84
      60       13,64       15,49

---

Agrupamiento 
===

**Juan David Velásquez Henao**  
jdvelasq@unal.edu.co   
Universidad Nacional de Colombia, Sede Medellín  
Facultad de Minas  
Medellín, Colombia