# Reconocimiento de patrones: Identificación de grupos o Clustering
### Ramón Soto C. [(rsotoc@moviquest.com)](mailto:rsotoc@moviquest.com/)
![ ](images/blank.png)
![agents](images/binary_data_under_a_magnifying.jpg)
[ver en nbviewer](http://nbviewer.ipython.org/github/rsotoc/pattern-recognition/blob/master/Clustering%20I.ipynb)

## Definición

Una estrategia natural de reconocimiento de patrones que parece obvia es la clasificación, un proceso que consiste en asignar los objetos de interés a **clases** de objetos. Una técnica muy importante para realizar esta tarea es la *identificación de grupos*, mejor conocida "*clustering*".

El clustering consiste en agrupar objetos en grupos de tal manera que los objetos pertenecientes a un grupo (o "*cluster*") son más semejantes entre sí que a otros objetos no pertenecientes al grupo.

![](images/clusters_aficionados.jpg)
![ ](images/blank.png)

La semejanza se define a través de diversos rasgos, algunos de los cuales pueden ser de carácter semántico; En la imagen a continuación, por ejemplo, pueden distinguirse dos grupos principales de fans: los "*amarillos*" que junto con los "*azules*" forman el grupo de "*fans brasileños*" en oposición al grupo de fans "*verdes*" y fans "*rojos*" que conforman el grupo de "*fans mexicanos*".

El agrupamiento es una habilidad natural de los seres vivos. Las relaciones de semejanza nos permiten identificar grupos incluso como si fueran objetos inexistentes:

![](images/law-of-proximity.png)
![ ](images/blank.png)
![](images/Pattern1.jpg)
![ ](images/blank.png)
![](images/mmillerimplied.png)
![ ](images/blank.png)
![](images/gestalt_proximity_dalmation_by_gderanidaye.png)
![ ](images/blank.png)
![](images/What-Lies-Within-by-um0p3pisdn.png)
![ ](images/blank.png)


## Medidas de semejanza

La base del agrupamiento es la determinación de la semejanza entre objetos.

![](images/people-groups.jpg)
![ ](images/blank.png)

La semejanza es un juicio subjetivo mediante el cual las personas describen su percepción de cercanía o parecido entre dos objetos. El objetivo del reconocimiento de patrones es sistematizar la medición de esta evaluación.

La teoría de la Gestalt reconoce varios principios en base a los cuales se puede explicar la percepción. Entre estos principios podemos distinguir los de "proximidad" y "similitud". 

![](images/Gestalt_grouping.jpg)
![ ](images/blank.png)

La "proximidad" se puede medir de manera directa a través de medidas de distancia. La "similitud", por su parte, es un concepto más difícil de generalizar: la similitud entre objetos puede definirse a través de diferentes características. 

![](images/similarity.png)

Las técnicas de reconocimiento de patrones miden la similitud en términos de la proximidad entre puntos de un espacio teórico. Este espacio se construye utilizando los rasgos que describen a un objeto como coordenadas, como en el siguiente ejemplo:

[![ ](images/FeatureSpace small.png)](images/FeatureSpace.png)
![ ](images/blank.png)

La forma más común de medir la proximidad entre dos puntos es a través de la distancia. Existen diversas funciones de distancia, siendo algunas de ellas las siguientes:

* **Distancia euclidiana**. La forma más común para medir la distancia es la llamada distancia euclidiana. Corresponde a la distancia en línea recta desde un punto al otro

![](images/euclidean.png)
![ ](images/blank.png)

En general, si p = (p<sub>1</sub>, p<sub>2</sub>, ..., p<sub>*n*</sub>) y q = (q<sub>1</sub>, q<sub>2</sub>, ..., q<sub>*n*</sub>) son dos puntos en un espacio de *n* características, la distancia euclidiana entre p y q es 

![](images/euclideanEq.png)
![ ](images/blank.png)

Por ejemplo, en Python, utilizando el paquete [*scipy.spatial.distance*](http://docs.scipy.org/doc/scipy/reference/generated/scipy.spatial.distance.pdist.html#scipy.spatial.distance.pdist):

In [1]:
from scipy.spatial import distance

In [2]:
a = (1,2,3)
b = (4,5,6)

print('La distancia entre el punto {} y el punto {} es:'.format(a,b), distance.euclidean(a,b))

La distancia entre el punto (1, 2, 3) y el punto (4, 5, 6) es: 5.19615242271


O, utilizando conjuntos de datos:

In [3]:
import numpy as np
import pandas as pd
import os
import matplotlib.pyplot as plt
%matplotlib inline  

import warnings # current version of seaborn generates a bunch of warnings that we'll ignore
warnings.filterwarnings("ignore")

os.chdir('Data sets/Pima Indian Data Set')

In [4]:
df = pd.read_csv("pima-indians-diabetes.data-small-orig", 
                 names = ['emb', 'gl2h', 'pad', 'ept', 'is2h', 'imc', 'fpd', 'edad', 'class'])

print(df)
print('\nLa matriz de distancias euclidianas para los datos de diabetes es:\n', distance.pdist(df, 'euclidean'))

    emb  gl2h  pad  ept  is2h   imc    fpd  edad  class
0     6   148   72   35     0  33.6  0.627    50      1
1     1    85   66   29     0  26.6  0.351    31      0
2     8   183   64    0     0  23.3  0.672    32      1
3     1    89   66   23    94  28.1  0.167    21      0
4     0   137   40   35   168  43.1  2.288    33      1
5     5   116   74    0     0  25.6  0.201    30      0
6     3    78   50   32    88  31.0  0.248    26      1
7    10   115    0    0     0  35.3  0.134    29      0
8     2   197   70   45   543  30.5  0.158    53      1
9     8   125   96    0     0   0.0  0.232    54      1
10    4   110   92    0     0  37.6  0.191    30      0
11   10   168   74    0     0  38.0  0.537    34      1
12   10   139   80    0     0  27.1  1.441    57      0
13    1   189   60   23   846  30.1  0.398    59      1
14    5   166   72   19   175  25.8  0.587    51      1
15    7   100    0    0     0  30.0  0.484    32      1
16    0   118   84   47   230  45.8  0.551    31

<hr style="border-width: 3px;">

### Tarea 3

* ... 

**Fecha de entrega**: Martes 29 de agosto.
