# Agrupación: Comparación de algoritmos con Scikit-learn

## ¿Qué vamos a hacer?
- Comparar los diferentes algoritmos de agrupación disponibles en Scikit-learn.
- Comprobar las asumpciones del algoritmo de K-means.

En este ejercicio no vas a desarrollar código nuevo, sino simplemente descargar y ejecutar 2 notebooks de la documentación de Scikit-learn:
- [Comparing different clustering algorithms on toy datasets](https://scikit-learn.org/stable/auto_examples/cluster/plot_cluster_comparison.html)
- [Demonstration of k-means assumptions](https://scikit-learn.org/stable/auto_examples/cluster/plot_kmeans_assumptions.html)

Como conclusiones podríamos añadir muchas, como p. ej.:
- Ningún algoritmo de agrupación trabaja bien en todos los casos, con todos los datasets.
- El análisis de datos previo es más necesario si cabe a la hora de entrenar estos algoritmos.
- La visualización previa nos ayudará mucho, aunque es bastante difícil de hacer sin reducción de dimensionalidad.
- El problema de la agrupación es inherentemente difícil de resolver.


Copia las celdas de código, analiza los resultados, modifica algunos parámetros para comprobar tus intuiciones y responde a las preguntas al final del ejercicio:

## Comparando diferentes algoritmos de agrupación en datasets de muestra

El problema de la agrupación es un problema inherentemente difícil de resolver con precisión, puesto que no hay unos resultados previamente conocidos que podamos usar para supervisar nuestro aprendizaje, y la elección de clústeres correctos puede ser bastante difícil, además de subjetiva.

Hay muchos algoritmos de agrupación diferentes que podemos utilizar, además de K-means y sus variantes, y cada uno de ellos funcionará mejor o peor, en función de la distribución de datos del dataset.

Copia el código del ejercicio **Comparing different clustering algorithms on toy datasets** y compruébalo por ti mismo:

In [None]:
# TODO: Ejecuta el código del ejercicio correspondiente

## Demostración de las asumpciones del algoritmo de K-means

En concreto, para el algoritmo de K-means y en general para sus variaciones, funcionará mal sobre datasets con las siguientes distribuciones de ejemplos:
- Un nº incorrecto de blobs o clústeres utilizado para entrenar el modelo.
- Datasets con formas no-esféricas muy juntos entre sí.
- Varianza entre clústeres cercanos muy diferente entre sí.

Por contra, funciona bastante bien en clústeres separados con una varianza similar, aunque el nº de ejemplos sea muy diferente.

Copia el código del ejercicio **Demonstration of k-means assumptions** y compruébalo por ti mismo:

In [None]:
# TODO: Ejecuta el código del ejercicio correspondiente

Modifica los parámetros del dataset utilizado para ver si las asumpciones se continúan cumpliendo.

## Preguntas a responder

Por favor, responde las siguientes preguntas editando esta celda de Markdown con tus respuestas a continuación de cada pregunta.
Hemos dividido las preguntas en 2 bloques, cada uno relativa a uno de los notebooks de la documentación de Scikit-learn, por lo que cuando hablemos de datasets y algoritmos nos referiremos sólo a los que aparezcan en dicho notebook.

### Comparando diferentes algoritmos de agrupación en datasets de muestra
1. Pregunta: ¿Puedes describir con tus propias palabras los 6 datasets diferentes utilizados?
    1.  Nota: Parece una pregunta tonta, pero aunque las diferencias son evidentes, tener que pararte a describir las diferencias te ayuda a fijarte realmente bien y al escribirlo te puede servir para luego ver si encaja con alguna/s característica/s de otro dataset en la vida real.
    1. Dataset 1:
    1. Dataset 2:
    1. Dataset 3:
    1. Dataset 4:
    1. Dataset 5:
    1. Dataset 6:
1. Pregunta: Compara los diferentes algoritmos en los diferentes datasets. "Dale una nota" entre 1 y 5 a cada uno de ellos para compararlos:
    1. Ejemplo: MiniBatchKMeans: [1, 2, 2, 1, 5, 3]
    1. Mini-batch KMeans: []
    1. Affinity propagation: []
    1. Mean shift: []
    1. Spectral clustering: []
    1. Ward: []
    1. Agglomerative clustering: []
    1. DB Scan: []
    1. Optics: []
    1. Birch: []
    1. Gaussian mixture: []
1. Pregunta: Elige un algoritmo para resolver cada dataset o situación, y justifica tu respuesta:
    1. Dataset 1:
    1. Dataset 2:
    1. Dataset 3:
    1. Dataset 4:
    1. Dataset 5:
    1. Dataset 6:
    
### Demostración de las asumpciones del algoritmo de K-means
1. Pregunta: Ya has descrito la mayoría de datasets en una pregunta anterior. Así mismo, describe el último dataset ("Unevenly sized blobs"):
    1. Respuesta:
1. Pregunta: Para cada dataset o caso, describe la asumpción de KMeans para su correcta aplicación que crees que cumple o inclumple.
    1. Dataset 1:
    1. Dataset 2:
    1. Dataset 3:
    1. Dataset 4:
1. Pregunta: Para cada dataset o caso, ¿se te ocurre alguna posible transformación de los datos a otro espacio de variables (espacio lineal, vectorial, etc.), o una transformación de otro tipo, que nos ayudara a resolver dicho problema con KMeans?
    1. Nota: Es una pregunta compleja, no te preocupes si no tienes una respuesta para cada caso, o no se te ocurre nada, aunque te animamos a intentarlo :).
    1. Dataset 1:
    1. Dataset 2:
    1. Dataset 3:
    1. Dataset 4: