### 3.2 K-Means
k-means clustering es un algoritmo de aprendizaje no supervisado, que tiene como objetivo dividir $n$ observaciones ($\{x_1,x_2,\dots,x_n\mid x_i\in \mathbb{R}^D\}$) en $k$ clústeres en los que cada observación pertenece al clúster con la media más cercana, que sirve como prototipo del clúster. Un clúster es un conjunto de puntos cercanos entre ellos y alejados de otros puntos. Formalmente cada cluster $k$ construye un prototipo $\mu_k \in \mathbb{R}^D$ y el algoritmo trata de disminuir la medida de distorsión de los clústers $J$

$$J=\sum_{n=1}^N \sum_{k=1}^K r_{nk}\parallel x_n-\mu_k \parallel^2$$

Donde $r_{nk}$ es un arreglo binario siguiendo el esquema de codificación 1-of-K.

Para realizar esto (minimizar $J$), se propone un algoritmo iterativo:
1. Inicializar $\mu_k$ 
2. Minimizar $J$ modificando las asignaciones a los $\mu_k$ clústers
3. Minimizar $J$ modificando los $\mu_k$ en base a las nuevas asignaciones
4. Volver al paso 2 hasta que se alcance un estado de convergencia.

![k_means_example](img/11-k_means_example.png)

In [None]:
from sklearn.cluster import KMeans

kmeans = KMeans(n_clusters=2)
kmeans.fit(Xtrain)

ypredict = kmeans.predict(Xtest)

# plots
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12, 6))

x_pos, x_neg = Xtest[ytest > 0], Xtest[ytest <= 0]    
ax1.scatter(x_pos[:, 0], x_pos[:, 1], marker='o', color='r')
ax1.scatter(x_neg[:, 0], x_neg[:, 1], marker='o', color='b') 
ax1.grid()
ax1.set_title("Real")

x_pos, x_neg = Xtest[ypredict > 0], Xtest[ypredict <= 0]    
ax2.scatter(x_pos[:, 0], x_pos[:, 1], marker='o', color='r')
ax2.scatter(x_neg[:, 0], x_neg[:, 1], marker='o', color='b')  
ax2.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], marker='X', color='g')
ax2.grid()    
ax2.set_title("Estimado")

plt.show()

### 3.4 Métricas de performance
Cuando se entrena un modelo predictivo, debemos tener algún método para medir que tan fiable es el modelo para predecir. Esto es:

![model_metrics](img/11-model_metrics.png)

Una de las herramientas mas simples para evaluar el rendimiento de un predictor es **Accuracy Score**:

$$accuracy(y,\hat{y})=\frac{1}{N}\sum_{i=1}^N 1(\hat{y}_i=y_i)$$

In [1]:
from sklearn.metrics import accuracy_score

# Accuracy de KNeighborsClassifier
accuracy_nbrs = accuracy_score(ytest, nbrs.predict(Xtest))
# Accuracy de KMeans
accuracy_kmeans = accuracy_score(ytest, kmeans.predict(Xtest))

print('Accuracy KNeighborsClassifier: {}'.format(accuracy_nbrs))
print('Accuracy KMeans: {}'.format(accuracy_kmeans))

NameError: name 'ytest' is not defined

2) Implementar el algoritmo K-Means

In [None]:
from scipy.spatial.distance import cdist
from scipy.spatial.distance import euclidean

def k_means(X, k, tol=1e-4, n_iter=50):
    # simple random initialization
    n_samples, n_dim = X.shape
    #centroids = (X.max() - X.min()) * np.random.random((k, n_dim)) + X.min()
    centroids = X[np.random.choice(range(X.shape[0]), size=k, replace=False)]
    
    distortion, prev_distortion = 0., 1e6
    for i in range(n_iter):        
        # 1) Asignación de muestras a centroides:
        # computar una lista (o array) en donde el elemento i-ésimo 
        # corresponda al índice al cluster al cual debe ser asignada 
        # la muestra i-ésima de X. Utilizar la función cdist(XA, XB) 
        # para computar distancias entre dos arreglos XA y XB en donde 
        # muestras están ordenadas por filas.
        #
            
              
        # 2) Actualización de centroides:
        # en base a la lista de asignaciones computada en el paso anterior, 
        # calcular el nuevo valor de cada uno de los centroides. 
        
                
        # 3) Error de cuantización
        # Computar el error de quantización promedio (error de reemplazar 
        # cada muestra por su versión cuantizada). El no decrecimiento de 
        # éste valor será uno de los parámetros que definirán el criterio 
        # de parada del algoritmo.
        #
        
        
        if (prev_distortion - distortion) / (prev_distortion + 2**-23) < tol:
            print('done')
            break
        print('iter={}, avg. error={:.3f}'.format(i+1, distortion)) 
        prev_distortion = distortion
            
    return centroids, distortion

def k_means_predict(centroids, X):
    n_samples, n_dim = X.shape
    # Implementar metodo para estimar la pertenencia de un determinado punto X[i] 
    # a uno de los centroides (clusters) definidos previamente. Utilizar la función cdist(XA, XB) 
    # para computar distancias entre dos arreglos XA y XB en donde 
    # muestras están ordenadas por filas.
    
    #prediction = ...
    
    return prediction