# Reconocimiento de patrones: Identificación de grupos o Clustering
### Ramón Soto C. [(rsotoc@moviquest.com)](mailto:rsotoc@moviquest.com/)
![ ](images/blank.png)
![agents](images/binary_data_under_a_magnifying.jpg)
[ver en nbviewer](http://nbviewer.ipython.org/github/rsotoc/pattern-recognition/blob/master/Clustering%20I.ipynb)

## Definición

El reconocimiento de patrones se realiza en un ciclo de tres fases principales:

1. La identificación o definición de clases en las que se pueden agrupar los elementos de un dominio de interés. Estas clases suelen ser creadas a partir de la observación de características que presentan los elementos bajo observación.
2. La asignación de elementos (conocidos) a clases definidas.
3. La predicción de nuevas observaciones dada la dinámica observada a partir del conjunto de clases.

![](images/heroes.png)

Para realizar la construcción de las clases a partir de observaciones, utilizamos un técnica conocida como  *identificación de grupos*, o más comunmente, "*clustering*".

El clustering consiste en agrupar objetos en grupos de tal manera que los objetos pertenecientes a un grupo (o "*cluster*") son más semejantes entre sí que a otros objetos no pertenecientes al grupo.

![](images/clusters_aficionados.jpg)
![ ](images/blank.png)

La semejanza se define a través de diversos rasgos, algunos de los cuales pueden ser de carácter semántico; En la imagen a continuación, por ejemplo, pueden distinguirse dos grupos principales de fans: los "*amarillos*" que junto con los "*azules*" forman el grupo de "*fans brasileños*" en oposición al grupo de fans "*verdes*" y fans "*rojos*" que conforman el grupo de "*fans mexicanos*".

El agrupamiento es una habilidad natural de los seres vivos. Las relaciones de semejanza nos permiten identificar grupos incluso como si fueran objetos inexistentes:

![](images/law-of-proximity.png)
![ ](images/blank.png)
![](images/Pattern1.jpg)
![ ](images/blank.png)
![](images/mmillerimplied.png)
![ ](images/blank.png)
![](images/gestalt_proximity_dalmation_by_gderanidaye.png)
![ ](images/blank.png)
![](images/What-Lies-Within-by-um0p3pisdn.png)
![ ](images/blank.png)


## Medidas de semejanza

La base del agrupamiento es la determinación de la semejanza entre objetos.

![](images/people-groups.jpg)
![ ](images/blank.png)

La semejanza es un juicio subjetivo mediante el cual las personas describen su percepción de cercanía o parecido entre dos objetos. El objetivo del reconocimiento de patrones es sistematizar la medición de esta evaluación.

La teoría de la Gestalt reconoce varios principios en base a los cuales se puede explicar la percepción. Entre estos principios podemos distinguir los de "proximidad" y "similitud". 

![](images/Gestalt_grouping.jpg)
![ ](images/blank.png)

La "proximidad" se puede medir de manera directa a través de medidas de distancia. La "similitud", por su parte, es un concepto más difícil de generalizar: la similitud entre objetos puede definirse a través de diferentes características. 

![](images/similarity.png)

Las técnicas de reconocimiento de patrones miden la similitud en términos de la proximidad entre puntos de un espacio teórico. Este espacio se construye utilizando los rasgos que describen a un objeto como coordenadas, como en el siguiente ejemplo:

[![ ](images/FeatureSpace small.png)](images/FeatureSpace.png)
![ ](images/blank.png)


## Distancia(s)

La forma más común de medir la proximidad entre dos puntos es a través de la distancia. Una función de distancia es una función matemática que cumple las siguientes características:

\begin{eqnarray}
 D1 & & d(x,y)\ge 0 \\
 D2 & & d(x,y)=0 \iff x=y\\
 D3 & & d(x,y)=d(y,x)\\
 D4 & & d(x,y) + d(y,z) \ge d(x,z)
\end{eqnarray}

Existen diversas funciones de distancia, siendo algunas de las más comunes las siguientes:

### **Distancia euclidiana** 

La forma más común para medir la distancia es la llamada distancia euclidiana. Corresponde a la distancia en línea recta desde un punto al otro

![](images/euclidean.png)
![ ](images/blank.png)

En general, si $p = (p_1, p_2, ..., p_n)$ y $q = (q_1, q_2, ..., q_n)$ son dos puntos en un espacio de *n* características, la distancia euclidiana entre p y q es 

$$d(p,q) = \sqrt{(p_1-q_1)^2, (p_2-q_2)^2 \ldots (p_n-q_n)^2}\ $$ 

Por ejemplo, en Python, utilizando el paquete [*scipy.spatial.distance*](http://docs.scipy.org/doc/scipy/reference/generated/scipy.spatial.distance.pdist.html#scipy.spatial.distance.pdist):

In [1]:
from scipy.spatial import distance

In [2]:
a = (1,2,3)
b = (4,5,6)

print('La distancia entre el punto {} y el punto {} es:'.format(a,b), distance.euclidean(a,b))

La distancia entre el punto (1, 2, 3) y el punto (4, 5, 6) es: 5.19615242271


Para calcular todas las distancias en un conjunto de datos:

In [3]:
import numpy as np
import pandas as pd
import os

os.chdir('Data sets/Pima Indian Data Set')

In [4]:
df = pd.read_csv("pima-indians-diabetes.data-small-orig", 
                 names = ['emb', 'gl2h', 'pad', 'ept', 'is2h', 'imc', 'fpd', 'edad', 'class'])

print(df)

md = distance.pdist(df, 'euclidean')
print('\nLas distancias euclidianas ({}) para los datos de diabetes son:\n'.format(md.size), md)

    emb  gl2h  pad  ept  is2h   imc    fpd  edad  class
0     6   148   72   35     0  33.6  0.627    50      1
1     1    85   66   29     0  26.6  0.351    31      0
2     8   183   64    0     0  23.3  0.672    32      1
3     1    89   66   23    94  28.1  0.167    21      0
4     0   137   40   35   168  43.1  2.288    33      1
5     5   116   74    0     0  25.6  0.201    30      0
6     3    78   50   32    88  31.0  0.248    26      1
7    10   115    0    0     0  35.3  0.134    29      0
8     2   197   70   45   543  30.5  0.158    53      1
9     8   125   96    0     0   0.0  0.232    54      1
10    4   110   92    0     0  37.6  0.191    30      0
11   10   168   74    0     0  38.0  0.537    34      1
12   10   139   80    0     0  27.1  1.441    57      0
13    1   189   60   23   846  30.1  0.398    59      1
14    5   166   72   19   175  25.8  0.587    51      1
15    7   100    0    0     0  30.0  0.484    32      1
16    0   118   84   47   230  45.8  0.551    31

El resultado es un conjunto de 190 datos $n(n-1)/2$, es decir, el resultado de obtener las distancias de cada renglón contra los restantes.

### **Distancia de Manhattan** 

También conocida como distancia del taxista, distancia lineal o distancia de ciudad, consiste en sumar las distancias horizontales y verticales, como lo haría un taxi que va de un punto a otro a través de las calles una ciudad. 

![](images/manhattan.png)
$$d(p,q) = \left|p-q \right| = \sum_{i=1}^n \left|p_i-q_i \right| \ $$

In [5]:
md_manhattan = distance.pdist(df, 'cityblock')
print('\nLas distancias del uber ({}) para los datos de diabetes son:\n'.format(md_manhattan.size), md_manhattan)


Las distancias del uber (190) para los datos de diabetes son:
 [  107.276   108.345   211.96    245.161    99.426   212.979   168.193
   614.569   121.995   120.436    81.49     71.314   928.729   218.84
   177.743   321.276   102.373   206.144   160.098   141.621   115.684
   274.437    74.15    126.503   144.917   703.093   156.719    95.16
   144.586   133.59    994.547   298.036   121.533   320.4      69.097
   164.868   141.178   237.305   303.416    85.771   258.124   150.538
   642.714   135.74    122.781    43.835    92.569   920.074   243.585
   154.888   393.621    94.718   264.489   218.443   191.121   167.534
    52.981   233.233   619.409   252.165   185.524   237.27    228.274
   899.231   205.72    214.217   237.084   161.587   103.216    57.862
   286.587   176.14    289.954   511.73    345.156   297.597   285.851
   296.847   803.89    126.001   302.904   143.437   291.534   136.305
   141.259   194.447    90.767   704.943    84.631    37.01     74.736
    63.74    99

### **Distancia de Minkowski** 

Es una generalización de las distancias de Manhattan $(k=1)$ y Euclidiana $(k=2)$. 

$$D(p,q)=\left(\sum_{i=1}^n \left| p_i-q_i \right|^k \right)^\frac{1}{k} $$

In [6]:
md_minkowski = distance.pdist(df, 'minkowski', 1)
print('\nLas distancias de Minkowski con k=1 para los datos de diabetes son:\n', md_minkowski)


Las distancias de Minkowski con k=1 para los datos de diabetes son:
 [  107.276   108.345   211.96    245.161    99.426   212.979   168.193
   614.569   121.995   120.436    81.49     71.314   928.729   218.84
   177.743   321.276   102.373   206.144   160.098   141.621   115.684
   274.437    74.15    126.503   144.917   703.093   156.719    95.16
   144.586   133.59    994.547   298.036   121.533   320.4      69.097
   164.868   141.178   237.305   303.416    85.771   258.124   150.538
   642.714   135.74    122.781    43.835    92.569   920.074   243.585
   154.888   393.621    94.718   264.489   218.443   191.121   167.534
    52.981   233.233   619.409   252.165   185.524   237.27    228.274
   899.231   205.72    214.217   237.084   161.587   103.216    57.862
   286.587   176.14    289.954   511.73    345.156   297.597   285.851
   296.847   803.89    126.001   302.904   143.437   291.534   136.305
   141.259   194.447    90.767   704.943    84.631    37.01     74.736
    63.74

## Similaridad(es)

Otra forma de medir semejanza entre dos objetos es a través de una función de **similaridad**. Aunque la similaridad guarda cierta relación de *inversas* con la distancia, su naturaleza es distinta: mientras que la idea de distancia se deriva de una relación espacial, la similaridad se deriva de un conteo de rasgos similares entre dos objetos.

Una función de similaridad es una función que cumple con las siguientes condiciones:


\begin{eqnarray*}
 S1 & & s(x,y)\ge 0 \\
 S2 & & s(x,y)\le \min\{s(x,x), s(y,y)\}\\
 S3 & & s(x,y)=s(y,x)\\
 S4 & & s(x,y) + s(y,z) \le s(x,z) + s(y, y)\\
\end{eqnarray*}


siendo $x, y$ y $z$ tres elementos cualesquiera de un conjunto. 

### Similaridad y distancia

La forma más formal de obtener una función de similaridad es a través de las ya conocidas funciones de distancia. Una manera de construir la función de similaridad es definiendo $s(x,y)$ como

$$Ec1 : s(x,y) = d(x,z) + d(z,y) - d(x,y)$$

En este caso, $z$ es un valor de referencia.

Para que $s(x,y)$ definida así sea una función de similaridad debe cumplir con las condiciones $S1$ a $S4$. Para verificar $S1$ reescribimos la desigualdad del triángulo $d(x,z) + d(z,y) - d(x,y)\ge 0$ y se satisface $S1$.

Un resultado que se deriva de la desigualdad del triángulo es la llamada *desigualdad inversa* en la que en lugar de establecer límites superiores se establecen límites inferiores:

$$d(x,z) + d(z,y) \ge d(x,y)$$

o bien...

$$d(x,z) \ge d(x,y) − d(y,z)$$

Supongamos que $d(x,y) − d(y,z) \ge 0$, entonces se cumple que 

$$d(x,z) \ge \left| d(x,y) − d(y,z)\right|$$

Por otra parte, si $d(x,y) − d(y,z) < 0$, entonces $d(x,y) < d(y,z)$

![](images/triangle.png)

y ahora preferimos la expresión 

$$d(x,y) + d(y,z) \ge d(x,z)$$

(que también es válida, al igual que $d(x,z) + d(z,y) \ge d(x,y)$)

Y entonces, 

$$d(x,y) \ge d(x,z) − d(z,y) > 0$$

y combinando ambos casos...

$$d(x,y) \ge \left| d(y,z) − d(z,x)\right| = \left| d(x,z) − d(z,y)\right|$$

o bien

$$\left| d(x,z) - d(z,y) \right| \le d(x,y)$$


por lo tanto

\begin{eqnarray*}
 s(x,y) & = & d(x,z) + d(z,y) - d(x,y) \\
 s(x,y) & \le & d(x,z) + d(z,y) - \left| d(x,z) - d(z,y) \right|
\end{eqnarray*}

pero

$$
d(x,z) + d(y,z) - \left| d(x,z) - d(y,z) \right| = 
\begin{cases} 
2d(y,z), & \mbox{if } d(x,z) \ge d(y,z) \\ 
2d(x,z), & \mbox{if } d(x,z) \lt d(y,z)
\end{cases}
$$

entonces

$$s(x,y) \le 2\min\{d(x,z), d(y,z)\} $$

y volviendo a la ecuación Ec1

\begin{eqnarray*}
s(x,x) & = & 2 d(x,z)\\
s(y,y) & = & 2 d(y,z) 
\end{eqnarray*}

entonces

$$s(x,y) \le \min\{s(x,x), s(y,y)\} $$

y se verifica la condición $S2$. $S3$ es trivial y $S4$ se puede derivar de $D4$.

De manera semejante, dada la función de similaridad $s(x,y)$, puede obtenerse una medida de distancia haciendo:

$$d(x, y) = s(x, x) + s(y, y)−2s(x, y)$$


### Otras alternativa

Otra alternativa más común para definir similaridades a partir de distancias es mediante:

 $$s(x,y) = \frac{1}{d(x,y)}$$

In [7]:
md = distance.pdist(df.head(5), 'euclidean')
print('\nLas distancias euclidianas para los datos de diabetes son:\n', md)

ms = 1/md
print('\nLas similaridades euclidianas para los datos de diabetes son:\n', ms)

md2 = md/10000
print('\nLas similaridades euclidianas para los datos "pequeños" de diabetes son:\n', 1/md2)


Las distancias euclidianas para los datos de diabetes son:
 [  66.91095707   54.29633528  115.73444431  172.58913326  102.52313417
   94.8171074   178.66729407  135.64400107  180.55650488   94.7391083 ]

Las similaridades euclidianas para los datos de diabetes son:
 [ 0.01494524  0.01841745  0.00864047  0.00579411  0.0097539   0.01054662
  0.005597    0.00737224  0.00553843  0.0105553 ]

Las similaridades euclidianas para los datos "pequeños" de diabetes son:
 [ 149.45235337  184.17449259   86.40470052   57.94107549   97.53896114
  105.46619987   55.96995271   73.72239039   55.38432418  105.55303063]


La siguiente modificación resuelve el problema de posible división por cero.

$$s(x,y) = \frac{1}{d(x,y)+0.5}$$

In [8]:
ms = 1/(md+0.5)
print('\nLas similaridades euclidianas para los datos de diabetes son:\n', ms)

ms2 = 1/(md2+0.5)
print('\nLas similaridades euclidianas para los datos "pequeños" de diabetes son:\n', ms2)


Las similaridades euclidianas para los datos de diabetes son:
 [ 0.01483438  0.0182494   0.0086033   0.00577737  0.00970656  0.0104913
  0.00558138  0.00734516  0.00552314  0.01049989]

Las similaridades euclidianas para los datos "pequeños" de diabetes son:
 [ 1.97358905  1.97851478  1.95475354  1.9332678   1.95981473  1.96277899
  1.93099874  1.94717547  1.93029455  1.96280904]



### Distancias normalizadas

Cuando se trabaja con similaridades puede ser conveniente que los valores obtenidos queden restringidos a un rango, típicamente en [0, 1]. De esta manera resulta claro asociar 0 a la similaridad entre objetos totalmente disímiles y 1 entre objetos idénticos. Cuando las medidas de similaridad se derivan de una distancia, es conveniente, en tales casos, normalizar la distancia. Existen diversas maneras de normalizar las distancias, siendo las más comunes las siguientes:

$$\hat{d}(x,y) = \frac{d(x,y)}{1+d(x,y)}$$

y una función de similaridad normalizada derivada de esta distancia normalizada sería:

$$s(x,y) = 1-\hat{d}(x,y)$$

In [9]:
md = distance.pdist(df.head(5), 'euclidean')
print('\nLas distancias euclidianas para los datos de diabetes son:\n', md)
mdn =  md/(1+md)
print('\nLas distancias euclidianas normalizadas para los datos de diabetes son:\n', mdn)
print('\nY las similaridades euclidianas correspondientes son:\n', 1-mdn)

md2 = md/10000
mdn2 =  md2/(1+md2)
print('\nY para los datos pequeños:\n d:', mdn2, "\n s:",1-mdn2)


Las distancias euclidianas para los datos de diabetes son:
 [  66.91095707   54.29633528  115.73444431  172.58913326  102.52313417
   94.8171074   178.66729407  135.64400107  180.55650488   94.7391083 ]

Las distancias euclidianas normalizadas para los datos de diabetes son:
 [ 0.98527484  0.98191562  0.99143355  0.99423927  0.99034032  0.98956345
  0.99443416  0.99268171  0.99449207  0.98955495]

Y las similaridades euclidianas correspondientes son:
 [ 0.01472516  0.01808438  0.00856645  0.00576073  0.00965968  0.01043655
  0.00556584  0.00731829  0.00550793  0.01044505]

Y para los datos pequeños:
 d: [ 0.00664662  0.00540031  0.01144103  0.0169661   0.01014827  0.00939265
  0.01755311  0.01338287  0.01773543  0.009385  ] 
 s: [ 0.99335338  0.99459969  0.98855897  0.9830339   0.98985173  0.99060735
  0.98244689  0.98661713  0.98226457  0.990615  ]


<hr style="border-width: 3px;">

### Tarea 3

* Investigue y explique las funciones de distancia de Hamming, Pearson, Coseno y Gower. 

**Fecha de entrega**: Martes 7 de enero.
