![](images/header_04.png)<br>

## Bases matemáticas


La base de las técnicas de reconocimiento de patrones es la comparación entre los datos disponibles con el fin de determinar su semejanza. Los datos deben, para que la comparación tenga sentido, representar elementos del universo de discurso del problema.

<img src='images/mat01.png' width='60%'>

### Atributos y características
Un **atributo** es una representación simbólica o numérica de una *propiedad* de un objeto, que puede ser útil para clasificarlo en una clase. Los diferentes objetos en un problema son descritos mediante diferentes *conjuntos de atributos*: En una clasificación de animales, por ejemplo, la descripción de las aves incluye atributos como el tipo de plumaje o la longitud del pico, atributos que no tiene sentido para otras clases de animales. 

Una manera de sistematizar y homogenizar la descripción de elementos en un problema es utilizando el mismo conjunto de propiedades para todos ellos, sean útiles o no para la clasificación de un objeto en particular, organizadas en lo que se denomina **vector de características**, así, podemos entender por **característica**, en el contexto de reconocimiento de patrones, cada uno de los atributos del objeto que será utilizado en su vector descriptivo: el conjunto de características es, típicamente, un subconjunto del conjunto de atributos.

Cada 'caso' representado mediante un vector de características en el conjunto de datos se denomina **instancia** (o *ejemplo*, particularmente en el contexto de entrenamiento supervisado). 

La comparación entre datos y, por ende, el reconocimiento de patrones en un conjunto de datos se realiza a partir de la descripción de los datos en forma de vectores de características.


#### Ejemplo: Base de datos de Diabetes 
El conjunto de datos *Pima Indian Diabetes Data Set* está compuesta por 768 instancias, formadas por 8 variables o atributos de entrada, además de una columna adicional que establece si la paciente tiene diabetes (1) o no (0). Estos datos se muestran en la tabla a continuación, donde se ha agregado una tercera columna con nombres cortos que serán utilizados como nombre de variable en los algoritmos de análisis: 

Variable | Atributos de predicción | Etiqueta 
---------| ----- | 
1 | Número de embarazos | *emb* 
2 | Concentración plasmática de glucosa a las 2 horas de una prueba de tolerancia a la glucosa oral | *gl2h* 
3 | Presión diastólica de la sangre | *pad* 
4 | Espesor de la piel del tríceps | *ept* 
5 | Cantidad de insulina en suero en dos horas | *is2h* 
6 | Índice de Masa Corporal | *imc* 
7 | Antecedentes Familiares | *fpd* 
8 | Edad | *edad* 
9 | Estado diabético | *clase* 

Los vectores de características en el caso del diagnóstico de diabetes a partir del conjunto de datos *Pima Indians Diabetes Dataset* tiene, entonces, la forma $v = \{emb, gl2h, pad, ept, is2h, imc, fpd, edad\}$.



## Medidas de semejanza

El concepto de semejanza en reconocimiento de patrones está estrechamente relacionado con los procesos (subjetivos) de percepción del ser humano. Estos procesos han sido estudiados ampliamente por psicólogos dentro de la teoría de la Gestalt. Esta teoría reconoce diversos principios en base a los cuales se puede explicar el concepto de semejanza, destacándose la "proximidad" y la "similitud".

<img src='images/gestalt_grouping.png' width='60%'>

* El principio de proximidad describe la forma en que el ojo humano percibe las conexiones entre los elementos visuales en base a su colocación espacial. Los elementos cercanos entre sí se perciben como parte de un grupo, a diferencia de elementos que se encuentran separados. La "proximidad", entonces, se puede medir de manera directa a través de medidas de distancia.
* La "similitud", por su parte, está influenciada por la forma, el tamaño y el color de los elementos. De acuerdo con el principio de similitud, el ojo humano tiende a percibir elementos similares como pertenecientes a un grupo, aún cuando se encuentren espacialmente separados. 
    
Proximidad y similitud son utilizados de manera alternativa en reconocimiento de patrones para medir semejanza entre elementos en el espacio de características.

## Medidas de distancia

La forma más común de medir la proximidad entre dos puntos es a través de la distancia. Una función de distancia es una función matemática que cumple las siguientes características:

\begin{eqnarray}
 D1 & & d(x,y)\ge 0 \\
 D2 & & d(x,y)=0 \iff x=y\\
 D3 & & d(x,y)=d(y,x)\\
 D4 & & d(x,y) + d(y,z) \ge d(x,z)
\end{eqnarray}

Existen diversas funciones de distancia, siendo algunas de las más comunes las siguientes:

### **Distancia euclidiana** 

La forma más común para medir la distancia es la llamada distancia euclidiana. Corresponde a la distancia en línea recta desde un punto al otro

![](images/euclidean.png)
![ ](images/blank.png)

En general, si $p = (p_1, p_2, ..., p_n)$ y $q = (q_1, q_2, ..., q_n)$ son dos puntos en un espacio de *n* características, la distancia euclidiana entre p y q es 

$$d(p,q) = \sqrt{(p_1-q_1)^2, (p_2-q_2)^2 \ldots (p_n-q_n)^2}\ $$ 

Por ejemplo, en Python, utilizando el paquete [*scipy.spatial.distance*](http://docs.scipy.org/doc/scipy/reference/generated/scipy.spatial.distance.pdist.html#scipy.spatial.distance.pdist):

In [1]:
from scipy.spatial import distance

In [2]:
a = (1,2,3)
b = (4,5,6)

print('La distancia entre el punto {} y el punto {} es:'
      .format(a,b), distance.euclidean(a,b))

La distancia entre el punto (1, 2, 3) y el punto (4, 5, 6) es: 5.19615242271


Para calcular todas las distancias en un conjunto de datos:

In [3]:
datos = [
    [6.0, 148.0, 72.0, 35.0, 0.0, 33.6, 0.627, 50.0, 1.0], 
    [1.0, 85.0, 66.0, 29.0, 0.0, 26.6, 0.351, 31.0, 0.0], 
    [8.0, 183.0, 64.0, 0.0, 0.0, 23.3, 0.672, 32.0, 1.0], 
    [1.0, 89.0, 66.0, 23.0, 94.0, 28.1, 0.167, 21.0, 0.0], 
    [0.0, 137.0, 40.0, 35.0, 168.0, 43.1, 2.288, 33.0, 1.0]]

md = distance.pdist(datos, 'euclidean')
print('Las distancias euclidianas para los datos\n{}\nson:\n'
      .format(datos), md)

Las distancias euclidianas para los datos
[[6.0, 148.0, 72.0, 35.0, 0.0, 33.6, 0.627, 50.0, 1.0], [1.0, 85.0, 66.0, 29.0, 0.0, 26.6, 0.351, 31.0, 0.0], [8.0, 183.0, 64.0, 0.0, 0.0, 23.3, 0.672, 32.0, 1.0], [1.0, 89.0, 66.0, 23.0, 94.0, 28.1, 0.167, 21.0, 0.0], [0.0, 137.0, 40.0, 35.0, 168.0, 43.1, 2.288, 33.0, 1.0]]
son:
 [  66.91095707   54.29633528  115.73444431  172.58913326  102.52313417
   94.8171074   178.66729407  135.64400107  180.55650488   94.7391083 ]


El despliegue de la lista listas que describen los datos puede mejorarse:

In [4]:
from IPython.display import display

display(datos)

[[6.0, 148.0, 72.0, 35.0, 0.0, 33.6, 0.627, 50.0, 1.0],
 [1.0, 85.0, 66.0, 29.0, 0.0, 26.6, 0.351, 31.0, 0.0],
 [8.0, 183.0, 64.0, 0.0, 0.0, 23.3, 0.672, 32.0, 1.0],
 [1.0, 89.0, 66.0, 23.0, 94.0, 28.1, 0.167, 21.0, 0.0],
 [0.0, 137.0, 40.0, 35.0, 168.0, 43.1, 2.288, 33.0, 1.0]]

El resultado de las distancias, por otra parte, se presenta en forma de lo que se denomina una 'matriz condensada', es decir, un arreglo lineal con  $n(n-1)/2$ valores (294528, en el ejemplo de diabetes). Estos valorres representan las distancias de cada renglón contra los renglones restantes. Se puede obtener una representación más convencional y más clara utilizando el método *distance.squareform*:

In [5]:
sq_md = distance.squareform(md)
print(sq_md)

[[   0.           66.91095707   54.29633528  115.73444431  172.58913326]
 [  66.91095707    0.          102.52313417   94.8171074   178.66729407]
 [  54.29633528  102.52313417    0.          135.64400107  180.55650488]
 [ 115.73444431   94.8171074   135.64400107    0.           94.7391083 ]
 [ 172.58913326  178.66729407  180.55650488   94.7391083     0.        ]]


Como puede observarse, la matriz es simétrica con respecto a la diagonal principal (la distancia desde $x$ hasta $y$ tiene el mismo valor que la distancia desde $y$ hasta $x$) y los elementos de la diagonal principal son todos ceros (la distancia de un punto a sí mismo es cero). Por ello, en muchos casos se prefiere utilizar en los cálculos la forma condensada de la matriz, o la matriz triangular superior (o la inferior) para despliegue:

In [6]:
import numpy as np

print(np.triu(sq_md))

[[   0.           66.91095707   54.29633528  115.73444431  172.58913326]
 [   0.            0.          102.52313417   94.8171074   178.66729407]
 [   0.            0.            0.          135.64400107  180.55650488]
 [   0.            0.            0.            0.           94.7391083 ]
 [   0.            0.            0.            0.            0.        ]]


### **Distancia de Manhattan** 

También conocida como distancia del taxista, distancia lineal o distancia de ciudad, consiste en sumar las distancias horizontales y verticales, como lo haría un taxi que va de un punto a otro a través de las calles una ciudad. 

![](images/manhattan.png)
$$d(p,q) = \left|p-q \right| = \sum_{i=1}^n \left|p_i-q_i \right| \ $$

In [7]:
md_manhattan = distance.pdist(datos, 'cityblock')
print('Las distancias del uber ({}) para los datos de prueba son:\n'
      .format(md_manhattan.size), md_manhattan)

Las distancias del uber (10) para los datos de prueba son:
 [ 107.276  108.345  211.96   245.161  141.621  115.684  274.437  237.305
  303.416  191.121]


### **Distancia de Minkowski** 

Es una generalización de las distancias de Manhattan $(k=1)$ y Euclidiana $(k=2)$. 

$$D(p,q)=\left(\sum_{i=1}^n \left| p_i-q_i \right|^k \right)^\frac{1}{k} $$

In [8]:
md_minkowski = distance.pdist(datos, 'minkowski', 1)
print('Las distancias de Minkowski con k=1 para los datos de prueba son:\n', 
      md_minkowski)

Las distancias de Minkowski con k=1 para los datos de prueba son:
 [ 107.276  108.345  211.96   245.161  141.621  115.684  274.437  237.305
  303.416  191.121]


## Funciones de similitud

Otra forma de medir semejanza entre dos objetos es a través de una función de **similitud**. Aunque la similitud guarda cierta relación de *inversas* con la distancia, su naturaleza es distinta: mientras que la idea de distancia se deriva de una relación espacial, la similitud se deriva de un conteo de rasgos similares entre dos objetos.

Una función de similitud es una función que cumple con las siguientes condiciones:

\begin{eqnarray*}
 S1 & & s(x,y)\ge 0 \\
 S2 & & s(x,y)\le \min\{s(x,x), s(y,y)\}\\
 S3 & & s(x,y)=s(y,x)\\
 S4 & & s(x,y) + s(y,z) \le s(x,z) + s(y, y)\\
\end{eqnarray*}

siendo $x, y$ y $z$ tres elementos cualesquiera de un conjunto. 

### Similitud y distancia

Una forma simple de definir medidas de similitudes es derivarlas a partir de las medidas conocidas de distancia. La forma más común de hacer esto es mediante la inversa de la función de distancia correspondiente:

 $$s(x,y) = \frac{1}{d(x,y)}$$

In [9]:
md = distance.pdist(datos, 'euclidean')
print('\nLas distancias euclidianas para los datos de diabetes son:\n', md)

ms = 1/md
print('\nLas similitudes euclidianas para los datos de diabetes son:\n', ms)

md2 = md/10000
print('\nLas similitudes euclidianas para los datos "pequeños" de diabetes son:\n', 1/md2)


Las distancias euclidianas para los datos de diabetes son:
 [  66.91095707   54.29633528  115.73444431  172.58913326  102.52313417
   94.8171074   178.66729407  135.64400107  180.55650488   94.7391083 ]

Las similitudes euclidianas para los datos de diabetes son:
 [ 0.01494524  0.01841745  0.00864047  0.00579411  0.0097539   0.01054662
  0.005597    0.00737224  0.00553843  0.0105553 ]

Las similitudes euclidianas para los datos "pequeños" de diabetes son:
 [ 149.45235337  184.17449259   86.40470052   57.94107549   97.53896114
  105.46619987   55.96995271   73.72239039   55.38432418  105.55303063]


La siguiente modificación resuelve el problema de posible división por cero.

$$s(x,y) = \frac{1}{d(x,y)+0.5}$$

In [10]:
ms = 1/(md+0.5)
print('\nLas similitudes euclidianas para los datos de diabetes son:\n', ms)

ms2 = 1/(md2+0.5)
print('\nLas similitudes euclidianas para los datos "pequeños" de diabetes son:\n', ms2)


Las similitudes euclidianas para los datos de diabetes son:
 [ 0.01483438  0.0182494   0.0086033   0.00577737  0.00970656  0.0104913
  0.00558138  0.00734516  0.00552314  0.01049989]

Las similitudes euclidianas para los datos "pequeños" de diabetes son:
 [ 1.97358905  1.97851478  1.95475354  1.9332678   1.95981473  1.96277899
  1.93099874  1.94717547  1.93029455  1.96280904]



### Distancias normalizadas

Cuando se trabaja con similitudes puede ser conveniente que los valores obtenidos queden restringidos a un rango, típicamente en [0, 1]. De esta manera resulta claro asociar 0 a la similitud entre objetos totalmente disímiles y 1 entre objetos idénticos. Cuando las medidas de similitud se derivan de una distancia, es conveniente, en tales casos, normalizar la distancia. Existen diversas maneras de normalizar las distancias, siendo las más comunes las siguientes:

$$\hat{d}(x,y) = \frac{d(x,y)}{1+d(x,y)}$$

y una función de similitud normalizada derivada de esta distancia normalizada sería:

$$s(x,y) = 1-\hat{d}(x,y)$$

In [11]:
md = distance.pdist(datos, 'euclidean')
print('\nLas distancias euclidianas para los datos de diabetes son:\n', md)
mdn =  md/(1+md)
print('\nLas distancias euclidianas normalizadas para los datos de diabetes son:\n', mdn)
print('\nY las similituddes euclidianas correspondientes son:\n', 1-mdn)

md2 = md/10000
mdn2 =  md2/(1+md2)
print('\nY para los datos pequeños:\n d:', mdn2, "\n s:",1-mdn2)


Las distancias euclidianas para los datos de diabetes son:
 [  66.91095707   54.29633528  115.73444431  172.58913326  102.52313417
   94.8171074   178.66729407  135.64400107  180.55650488   94.7391083 ]

Las distancias euclidianas normalizadas para los datos de diabetes son:
 [ 0.98527484  0.98191562  0.99143355  0.99423927  0.99034032  0.98956345
  0.99443416  0.99268171  0.99449207  0.98955495]

Y las similituddes euclidianas correspondientes son:
 [ 0.01472516  0.01808438  0.00856645  0.00576073  0.00965968  0.01043655
  0.00556584  0.00731829  0.00550793  0.01044505]

Y para los datos pequeños:
 d: [ 0.00664662  0.00540031  0.01144103  0.0169661   0.01014827  0.00939265
  0.01755311  0.01338287  0.01773543  0.009385  ] 
 s: [ 0.99335338  0.99459969  0.98855897  0.9830339   0.98985173  0.99060735
  0.98244689  0.98661713  0.98226457  0.990615  ]


## Conclusiones

* En el contexto de reconocimiento de patrones, se entiende por "atributo" la representación de una propiedad de un objeto.

* Si el atributo forma parte del vector representativo del objeto, le llamamos "característica".

* Una "instancia" es cada uno de los vectores de características empleados para describir los elementos en el conjunto de observaciones.

* La comparación entre instancias en un problema se realiza mediante medidas de semejanza, que pueden ser funciones de distancia o funciones de similitud.

<hr style="border-width: 3px;">

###### <a name="tarea_4">Tarea:</a>

* Investigue y explique las funciones de distancia de Hamming, Pearson, Coseno y Gower. 


<b>DISTANCIA DE HAMMING <b>

La distancia de Hamming es el número de bits en el que difieren 2 cadenas binarias (con el mismo número de elementos).

Por ejemplo:

a= 1010100 ; b= 1011011

d(a,b)=4

Para facilitar el conteo de numero de bits en el que difieren a y b, se utiliza la compuerta lógica XOR:

a xor b=0001111

Hay cuatro 1's y por lo tanto la distancia es d(a,b)=4



<b> DISTANCIA DE PEARSON </b>

Ésta se define como: 
<br><b> $$d=1-r$$ </b></br>

$$d=1-\dfrac{\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^{n}(x_i-\bar{x})^2\sum_{i=1}^{n}(y_i-\bar{y})^2}}$$



Donde r es el coeficiente de Pearson, el cual mide el grado de linealidad entre dos variables "x" y "y". 

<br>
El coef. r puede tomar valores entre -1 y 1. Si r es igual a -1 o 1 quiere decir que las dos variables tienen una alta relación lineal (-1 para pendiente negativa y 1 para pendiente positiva). Si r es 0, no tienen una relación lineal.
</br>

<br>
Entonces d toma valores entre 0 y 2. 
</br>





<b> DISTANCIA COSENO</b>

Esta está definida en términos del producto punto de dos vectores no nulos:

<br>
$$D(a,b)=1-S(a,b)$$
$$D(a,b)=1-\cos(\theta)=1- \dfrac{A\cdot B}{\lVert A\rVert\lVert B\rVert}$$
</br>

Donde S(a,b) es la similaridad entre los dos vectores, que se define como el coseno del ángulo entre ambos. Se utilizan usualmente valores del coseno entre 0 y 1.

Si el $\cos(\theta)$ es 1, quiere decir que el angulo entre ambos vectores es 0. Podriamos decir que son "paralelos" y se interpretaría como que son muy similares y por lo tanto la distancia D entre ellos es 0.

Si el $\cos(\theta)$ es 0, quiere decir que el angulo entre ambos vectores es $\dfrac{\pi}{2}$, y puede interpretarse que no son similares y la distancia D entre ellos es 1.




<b> DISTANCIA DE GOWER</b> 

Este tipo de distancia es apropiado cuando tenemos datos con valores como numericos o categóricos. 

Simplemente lo que se hace es escoger una metrica de distancia apropiada para el tipo de dato y luego normalizar para que queden los valores entre 0 y 1.

Para el caso de los valores numéricos se puede usar distancia de Manhattan.

Para el caso de los valores categóricos, k atributos se convierten en k valores binarios (0 o 1), donde a cada instancia se marca con 1 si contiene el atributo y 0 si no tiene el atributo. Se procede después a calcular la distancia con la distancia de Hamming u otra metrica para valores categóricos.