# K-means: Agrupación sobre dataset sintético por K-means

## ¿Qué vamos a hacer?
- Crear un dataset de agrupación sintético.
- Preprocesar los datos.
- Implementar el algoritmo de agrupación no-supervisado de K-means.
- Comprobar nuestra implementación.
- Entrenar un modelo de K-means con múltiples inicializaciones.
- Evaluar el modelo y representar sus resultados gráficamente.
- Escoger un nº de clústeres óptimo por la regla del codo.


En este ejercicio vamos a implementar un algoritmo de entrenamiento de modelos de agrupación por K-means.

Para ello, vamos a crear un dataset sintético de agrupación, vamos a desarrollar nuestra implementación de K-means y vamos a comprobarla.

Como sabemos, los modelos de agrupación son muy sensibles a las condiciones de inicialización, por lo que vamos a entrenar varios modelos en paralelo y comprobar gráficamente si sus resultados son notablemente diferentes.

Para evaluarlos, vamos a hacerlo de una forma gráfica, representando el resultado final.

In [None]:
# TODO: Importa todos los módulos necesarios en esta celda

## Crear el dataset sintético

Vamos a crear un dataset sintético de clasificación. Este dataset tendrá un nº determinado de clústeres con un nº de ejemplos y una desviación típica asociada.

Para hacerlo más sencillo, puedes utilizar la función de [sklearn.datasets.make_blobs](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_blobs.html).

In [None]:
# TODO: Crea un dataset sintético de agrupación
# Usa los siguientes parámetros para crearlo
n_samples = 1000
n_features = 2
centers = 5
cluster_std = [1.0, 1.5, 0.5, 2.0, 2.5]
return_centers = True
random_state = 42

## Preprocesar los datos

Preprocesa los datos con los pasos habituales, si es necesario:

- Reordenar los datos aleatoriamente.
- Normalizar los datos.

Como la agrupación es un modelo de aprendizaje no supervisado, no lo evaluaremos por el método tradicional, comparando sus resultados con unos resultados previamente conocidos.

In [None]:
# TODO: Reordena los datos aleatoriamente

In [None]:
# TODO: Normaliza los datos si es necesario

## Implementar el algoritmo de K-means

Ahora, implementa el algoritmo de agrupación de K-means.

Recuerda los pasos del algoritmo:
1. Define el nº de clústeres a considerar.
1. Inicializamos los centroides de cada clúster, p. ej. escogiendo los primeros ejemplos del dataset.
1. Asignamos cada ejemplo del dataset a su centroide más cercano.
1. Calculamos el punto medio en el espacio n-dimensional del dataset para cada clúster
1. Actualizamos el centroide correspondiente a dicho punto.
1. Re-asignamos cada ejemplo a su centroide más cercano.
1. Continuamos iterando hasta que el entrenamiento converge: los centroides no varían de posición o lo hacen menos que una tolerancia, o alcanzamos el nº máx. de iteraciones.

In [None]:
# TODO: Implementa una función auxiliar para calcular la distancia entre los ejemplos y un punto dado
def dist_examples(x, centroide):
    """ Calcula la distancia entre el punto x y el centroide en el espacio n-dimensional
    
    Argumentos:
    x -- array de Numpy n-dimensional con las características del ejemplo
    centroide -- array de Numpy n-dimensional con el punto del centroide
    
    Devuelve:
    dist -- distancia euclídea en el espacio n-dimensional entre x y el centroide
    """
    return dist

In [None]:
# TODO: Implementa el algoritmo de agrupación por K-means
n_clusters = 5
n_iter = 100
tol = 1e-3

# Inicializa los centroides como un array 2D con la posición n-dimensional de los n_clusters primeros ejemplos, tamaño n_clusters x n
centroides = [...]

# Itera sobre el nº máx de iteraciones
for i in range(n_iter):
    # Asigna cada ejemplo a su centroide más cercano usando dist_examples()
    for m in n_samples:
        cluster_asignado_ejemplos = [...]    # tamaño m, valores [1, n_clusters]
    
    # Calcula el punto medio n-dimensional para cada clúster con sus ejemplos asignados
    for c in n_clusters:
        for n in n_features:
            # Consejo: Puedes usar las funciones de Numpy para calcular la media de un array o un slice del mismo
            centroide[...] = [...]
    
        # Actualiza el centroide de cada clúster a dicho punto medio
        centroides[...] = centroide

    # Comprueba si el modelo converge: todos los centroides se mueven menos de la tolerancia tol
    if [...]:
        print('Modelo converge en iteración nº:', i)
        
        break
else:
    print('Nº máx. de iteraciones alcanzado')
    
print('Centroides finales:')
print(centroides)

print('Centroides asignados a cada ejemplo:')
print(cluster_asignado_ejemplos)

*Nota*: Recuerda que las celdas de plantilla de código son siempre símplemente guías propuestas para implementar tu código. Si prefieres modificarlas para desarrollar tu código con otra estructura, puedes hacerlo en cualquier momento. Lo único importante es que el cálculo final sea correcto y que devuelva los resultados finales a revisar.

## Evaluar y representar los resultados

Vamos a representar una gráfica 2D con los resultados de nuestro entrenamiento: el centroide de cada clúster y los ejemplos asignados a cada uno.
Del mismo modo, vamos a usar unas métricas de evaluación adecuadas para agrupación (notablemente diferentes de las usadas para clasificación).

Para ello, puedes tener como referencia este ejemplo: [A demo of K-Means clustering on the handwritten digits data](https://scikit-learn.org/stable/auto_examples/cluster/plot_kmeans_digits.html).

Al crear el dataset original hemos recuperado el centroide de cada clúster utilizado para crearlo, la *ground truth* de este dataset, que podemos usar en esta evaluación.

En nuestro caso, coincide que nuestro *n*, nº de dimensiones o *n_features* es también de 2, por lo que no tenemos que reducir la dimensionalidad por PCA (introduciremos este concepto de ML en una sesión posterior).

In [None]:
# TODO: Evalúa tu modelo con las métricas de homogeneidad, completación, V-measure, índice Rand ajustado, índice de información mútua ajustado y el coeficiente de silueta

*Nota*: Aprovecha la oportunidad para bucear en la documentación y conocer mejor estos coeficientes, utilizados para evaluar la agrupación, diferentes de los usados en clasificación: [Clustering performance evaluation](https://scikit-learn.org/stable/modules/clustering.html#clustering-evaluation).

In [None]:
# TODO: Representa tu modelo entrenado: los centroides de cada clúster y los ejemplos asignados a cada uno

*Bonus*: *¿Puedes calcular la distancia total entre cada centroide entrenado y el centroide original correspondiente?* Cuidado, no tiene por qué ser el más cercano (2 centroides entrenados pueden tener el mismo centroide original como el más cercano.

*¿Y si representas también esos centroides en la celda con los resultados de tu modelo, en otro color?*

In [None]:
# TODO: Calcula la distancia entre cada centroide entrenado y el centroide original correspondiente

## Entrenar un modelo de K-means con múltiples incializaciones

Como decíamos, la agrupación por K-means es un algoritmo bastante sensible a la inicialización utilizada, puesto que el resultado final puede variar.
Para comprobarlo gráficamente, reentrena de nuevo el modelo, escogiendo unos centroides iniciales diferentes, esta vez de forma aleatoria entre los diferentes ejemplos del dataset.

Para ello, copia abajo las celdas de código que entrenan el modelo (modificando la elección de los centroides originales), lo evalúan y representan los resultados gráficamente. De esta forma podrás ver los resultados en ambos casos a la vez para compararlos.

*Nota*: Para la representación gráfica, cambia el nº de figura en *plt.figure(1)*.

In [None]:
# TODO: Implementa el algoritmo de agrupación por K-means

In [None]:
# TODO: Evalúa tu modelo con las métricas de homogeneidad, completación, V-measure, índice Rand ajustado, índice de información mútua ajustado y el coeficiente de silueta

In [None]:
# TODO: Representa tu modelo entrenado: los centroides de cada clúster y los ejemplos asignados a cada uno

*¿Cómo varían los resultados de tu modelo con otra inicialización aleatoria, sus métricas de evaluación y la gráfica de resultados? ¿Cómo varían si reentrenas el modelo con inicializaciones aleatorias varias veces?*

También puedes recrear el dataset original, incluso cambiando el tamaño o desviación típica de cada clúster, y ver si afecta a los resultados y a la varianción entre los mismos.

## Escoger el nº óptimo de clústeres

Al haber creado un dataset sintético, hemos escogido nosotros el nº de clústeres "correcto" para el mismo. Sin embargo, en un dataset real no conoceremos dicho nº de clústeres, e incluso en muchas ocasiones no habrá un nº de clústeres correcto, puesto que encontrar la separación entre un clúster u otro, si están muy cerca, puede ser una tarea no trivial y subjetiva.

Por lógica matemática, a menor nº de clústeres, más distancia media habrá entre cada ejemplo y su clúster asignado, y a mayor nº de clústeres, menos distancia. En una reducción al absurdo, cuando usamos un nº de clústeres igual al nº de ejemplos, cada centroide idealmente corresponderá a la posición de cada ejemplo, y la distancia media al clúster más cercano será 0.

Por tanto, para escoger el nº óptimo de clústeres, cuando no tenemos ninguna consideración o limitación externa, podemos utilizar la llamada "regla del codo".

Vamos a aplicar dicha regla para nuestro dataset:
1. Entrena un modelo para cada nº de clústeres a considerar en un rango, p. ej. [1, 10]
1. Para cada nº de clústeres, entrenamos varios modelos con múltiples inicializaciones aleatorias, y escogemos el de mejor métrica de evaluación
1. Representamos gráficamente la métrica de evaluación del mejor modelo vs el nº de clústeres considerado
1. Escogemos como nº de clústeres "óptimo" aquel donde hay un "codo" en la gráfica, donde más abruptamente cambie la tendencia o pendiente.

En un dataset real no contaremos con su *ground truth*, los centroides correctos, por lo que como evaluación utilizaremos la métrica del coeficiente de silueta.

Implementa la regla del codo para escoger un nº óptimo de clústeres para este dataset:

In [None]:
# TODO: Implementa la regla del codo para escoger un nº óptimo de clústeres
n_clusters = [...]    # Array [1, 2, 3, ..., 10]
n_iter = 100
tol = 1e-3

# Itera sobre el nº de clústeres a considerar
for n_c in n_clusters:
    # Entrena varios modelos con inicializaciones aleatorias
    for _ in range(5):
        # Evalúa cada modelo por el coeficiente de silueta y quédate con el mejor
        # Pseudo-código
        if evaluacion > mejor_evaluacion:
            mejor_modelo = modelo
            
            # Usa tu código modificado de celdas anteriores para entrenar los modelos
            
# Como resultado final buscamos:
print('Centroides de cada modelo, según el nº de clústeres:')
print()

print('Coeficiente de silueta de cada modelo, según el nº de clústeres:')
print()

In [None]:
# TODO: Representa gráficamente la regla del codo en una gráfica de líneas: coeficiente de silueta del mejor modelo vs nº de clústeres considerados
plt.plot()

*¿Y si cambiamos el nº de clústeres originales del dataset? ¿Sigue apreciándose el nº óptimo en la gráfica con la misma claridad?*

Modifica el dataset original y la resolución de la regla del codo para compararlo. Usa varios nº de clústeres, como 5 de nuevo, 2, 4 y 6.

Escoge un nº de clústeres óptimo en tu último resultado e indícalo en esta celda:

- Nº de clústeres óptimo por la regla del codo: X

Por último, representa de nuevo gráficamente los resultados del modelo seleccionado, con el nº de clústeres óptimo:

In [None]:
# TODO: Representa tu modelo entrenado: los centroides de cada clúster y los ejemplos asignados a cada uno