# Métricas de distancias

In [None]:
# Carga bibliotecas
import numpy             as np
import matplotlib.pyplot as plt

from sklearn import datasets

%matplotlib inline

In [None]:
# Genera N datos
N = 80

In [None]:
# Blobs de distinta varianza
Xblobs, Lblobs = datasets.make_blobs(n_samples=N, cluster_std=[1.0, 2.5, 0.5],
                                       random_state=170)


In [None]:
"""
 @note: solo se grafican los vectores con etiquetas Lblobs=0
 @X_m: media de X
"""
X   = Xblobs[Lblobs==0]
X_m = X.mean(axis=0)

plt.figure(figsize=(5,5))
plt.axes().set_aspect('equal', 'datalim')
plt.plot(X[:,0],X[:,1],'ok',markersize=10,alpha=.8)
plt.plot(X_m[0],X_m[1],'or',markersize=15,alpha=.8)
plt.grid(True)
plt.show()

### Distancia euclidiana
$$ D^2=\|x-\hat{x}\|^2 = (x-\hat{x})^T(x-\hat{x}) = \sum_{i=1}^N(x_i-\hat{x}_i)^2,$$
donde $x,\hat{x}\in\mathbb{R}^N$, $\hat{x}$ es la media de $x$; $x, \hat{x}_i$ representan respectivamente la $i$-ésima componente de sus correspondientes vectores.

### Implementación vectorial

Se puede ver como un producto punto entre vectores

In [None]:
D = []
for x in X:
    d = x-X_m
    D.append( np.dot( d,d ) )

D = np.array(D)

In [None]:
"""
 @note: La versión completamente vectorial y optimizada queda fuera del alcance de este curso
 @note: No se requiere evaluar la raiz cuadrada ya que el cuadrado es una función que crece monotónicamente
"""
D

In [None]:
plt.figure(figsize=(7,7))
plt.axes().set_aspect('equal', 'datalim')
plt.plot(X[:,0],X[:,1],'ok',markersize=10,alpha=.8)
plt.plot(X_m[0],X_m[1],'or',markersize=15,alpha=.8)
plt.grid(True)
for i,j in enumerate( X ):
    plt.arrow(X[i,0],X[i,1],X_m[0]-X[i,0],X_m[1]-X[i,1])

In [None]:
"""
 @note: Las líneas representan la distancia euclidiana del k-ésimo vector al vector media del conglomerado 
"""
print ('')

In [None]:
"""
 @note: solo se grafican los vectores con etiquetas Lblobs=0
 @X_m: media de X
"""
X1   = Xblobs[Lblobs==0]
X2   = Xblobs[Lblobs==1]
X1_m = X1.mean(axis=0)
X2_m = X2.mean(axis=0)

plt.figure(figsize=(5,5))
plt.axes().set_aspect('equal', 'datalim')
plt.plot(X1[:,0],X1[:,1],'ok',markersize=10,alpha=.8)
plt.plot(X1_m[0],X1_m[1],'or',markersize=15,alpha=.8)

plt.plot(X2[:,0],X2[:,1],'ob',markersize=10,alpha=.8)
plt.plot(X2_m[0],X2_m[1],'og',markersize=15,alpha=.8)
plt.grid(True)
plt.show()

Ahora suponga que no sabe las clases de los aglomerados, entonces la gráfica se vería de la siguiente forma

In [None]:
"""
 @note: solo se grafican los vectores con etiquetas Lblobs=0
 @X_m: media de X
"""
X1   = Xblobs[Lblobs==0]
X2   = Xblobs[Lblobs==1]
X1_m = X1.mean(axis=0)
X2_m = X2.mean(axis=0)

plt.figure(figsize=(5,5))
plt.axes().set_aspect('equal', 'datalim')
plt.plot(X1[:,0],X1[:,1],'ok',markersize=10,alpha=.8)

plt.plot(X2[:,0],X2[:,1],'ok',markersize=10,alpha=.8)

plt.grid(True)
plt.show()

¿Cómo estimaría los conglomerados dado que no tiene las etiquetas?

Este es el problema que resuelve el aprendizaje no supervisado o *clustering*