# Tarea 4. Algoritmo K-Means.

<img style="float: right; margin: 0px 0px 15px 15px;" src="https://upload.wikimedia.org/wikipedia/commons/e/ea/K-means_convergence.gif" width="200px" height="180px" />


<p style="text-align:right;"> Imagen recuperada de: https://upload.wikimedia.org/wikipedia/commons/e/ea/K-means_convergence.gif</p>

___

## 1. 

Programar el algoritmo K-Means en una función.

1. Inicialización aleatoria de los centroides: para este punto, podemos elegir $k$ puntos aleatorios sobre los que queremos llevar a cabo el clustering como centroides.

   La función `np.random.randint` puede ser de mucha utilidad.

In [None]:
# Import numpy
import numpy as np

In [None]:
def init_centroids(X, k):
    """
    Centroids initialization for K-Means algorithm.
    :param X: Data.
    :param int k: Number of clusters.
    :return: Randomly chosen centroids.
    """
    # Dimension
    N, d = X.shape
    
    # Choose k random points from X (Hint: Use np.random.randint(N, size=k)
    # Your code goes here:
    centroids = ...
    
    # The centroids must be a k x d array.
    assert centroids.shape == (k, d)
    
    return centroids

2. Encontrar centroide más cercano: para este punto, debemos calcular las distancias (norma 2) de cada punto a cada centroide, y después encontrar el centroide más cercano de acuerdo a estas distancias.

   La función `np.linalg.norm` puede ser de mucha utilidad.

In [None]:
def closest_centroids(X, centroids):
    """
    Find the closest centroid to each data point.
    :param X: Data.
    :param centroids: k x d array of centroids.
    :return: Cluster ids assigned to each data point.
    """
    # Dimension
    N, d = X.shape
    # Number of clusters
    k = centroids.shape[0]
    
    # Distances initialization: Position i,j corresponds to the distance from point i to centroid j
    distances = np.zeros((N, k))
    
    for j in range(k):
        # Calculate the distances from all points to centroid j (Hint: Use np.linalg.norm(., axis=1))
        # Your code goes here:
        distances[:, j] = ...
    
    # Get the closest centroid to each data point
    return distances.argmin(axis=1)

3. Actualizar centroides: para este punto, debemos actualizar los centroides como la media de los puntos asignados a cada centroide.

   La función `np.mean` puede ser de mucha utilidad.

In [None]:
def update_centroids(X, cluster_id, k):
    """
    Find the closest centroid to each data point.
    :param X: Data.
    :param cluster_id: Array of cluster ids.
    :param int k: Number of clusters.
    :return: Updated centroids.
    """
    # Dimension
    N, d = X.shape
    
    # Centroids initialization
    centroids = np.zeros((k, d))
    
    for j in range(k):
        # Update the centroid j as the mean of the points belonging to cluster j (Hint: Use .mean(., axis=0) method)
        # Your code goes here:
        centroids[j, :] = ...
    
    # Updated centroids
    return centroids

Con lo anterior, el algoritmo K-Means lo podemos escribir de la siguiente manera:

In [None]:
def kmeans(X, k, max_iter=1000):
    """
    This function implements the K-Means algorithm.
    :param X: Data.
    :param int k: Number of clusters.
    :param int max_iter: Maximum number of iterations.
    :return: Cluster ids and centroids.
    """
    # Parameter validation
    N, d = X.shape
    if k >= N:
        raise ValueError(f"The number of clusters k={k} must be less than the number of data points N={N}.")
    
    # Centroids initialization
    centroids = init_centroids(X, k)

    # Cluster id initialization
    cluster_id_aux = -np.ones(N)
    
    # Repeat until convergence
    i = 0
    while i < max_iter:
        print(i)
        # For each point find the closest centroid to assign the cluster
        cluster_id = closest_centroids(X, centroids)
        
        # Update centroids
        centroids = update_centroids(X, cluster_id, k)
        
        # Check convergence
        if np.linalg.norm(cluster_id - cluster_id_aux) == 0:
            break
        else:
            cluster_id_aux = cluster_id
        
        i += 1
    
    return cluster_id, centroids

Ahora, probemos nuestro algoritmo:

In [None]:
# Importamos función para generar datos
from bank_customer_data import generate_bank_customer_data
# Importamos pyplot
from matplotlib import pyplot as plt

In [None]:
# Generamos datos
data = generate_bank_customer_data()

In [None]:
c_id, centroids = kmeans(data[["income", "debt"]].to_numpy(), k=3)

In [None]:
# Gráfico
plt.scatter(data["income"], data["debt"], c=c_id, cmap="Accent", alpha=0.6)
plt.plot(centroids[0, 0], centroids[0, 1], "*g", ms=20)
plt.plot(centroids[1, 0], centroids[1, 1], "*b", ms=20)
plt.plot(centroids[2, 0], centroids[2, 1], "*k", ms=20)
plt.xlabel("Ingresos mensuales (x100k MXN)")
plt.ylabel("Deuda (x100k MXN)")

¿Qué tal los resultados?

<script>
  $(document).ready(function(){
    $('div.prompt').hide();
    $('div.back-to-top').hide();
    $('nav#menubar').hide();
    $('.breadcrumb').hide();
    $('.hidden-print').hide();
  });
</script>

<footer id="attribution" style="float:right; color:#808080; background:#fff;">
Created with Jupyter by Esteban Jiménez Rodríguez.
</footer>