# K-means: Agrupación sobre dataset Iris y comparación con clasificación
M3U2 - Ejercicio 2

## ¿Qué vamos a hacer?
- Descargar el dataset Iris
- Entrenar un modelo de agrupación por K-means usando Scikit-learn
- Evaluar los resultados del modelo gráficamente
- Entrenar un modelo de clasificación por SVM sobre el mismo dataset
- Evaluar los resultados de la clasificación
- Comparar ambos modelos y sus resultados

Recuerda seguir las instrucciones para las entregas de prácticas indicadas en [Instrucciones entregas](https://github.com/Tokio-School/Machine-Learning/blob/main/Instrucciones%20entregas.md).

## Instrucciones
En este ejercicio, vamos a comparar ambos algoritmos sobre el dataset Iris, que habíamos utilizado previamente en clasificación. De esta forma vamos a poder comparar ambos tipos de aprendizaje, el aprendizaje supervisado de la clasificación y el no supervisado de la agrupación.

Habitualmente podemos confundir ambos tipos de modelos, o pensar que podemos utilizarlos para casos de uso similares. Sin embargo, siempre debemos recordar la diferencia fundamental entre ellos: que la clasificación es un aprendizaje supervisado (tenemos resultados previamente anotados y conocidos) y la agrupación no supervisado (no tenemos resultados).

In [None]:
# TODO: Importa todos los módulos necesarios en esta celda

## Descargar el dataset Iris

Descarga el dataset Iris en formato *X* e *Y* para utilizarlo en este ejercicio.

Puedes usar el método: [sklearn.datasets.load_iris](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_iris.html).

In [None]:
# TODO: Descarga el dataset Iris

*¿Te atreves a representar en 3D sus primeras 3 características? Longitud de los sépalos, anchura de los sépalos y longitud de los pétalos*.

*¿Aprecias una clara diferenciación entre clases? ¿Aprecias varios clústeres de datos?*

Puedes usar como referencia estos ejercicios:
- [The Iris Dataset](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_iris.html)
- [3D scatterplot](https://matplotlib.org/3.1.1/gallery/mplot3d/scatter3d.html)
- [K-means Clustering](https://scikit-learn.org/stable/auto_examples/cluster/plot_cluster_iris.html)

*NOTA:* Utilizaremos esta misma técnica de representación 3D y 3 características cuando representemos resultados a lo largo del ejercicio.

In [None]:
# TODO: Representa en 3D 3 características del dataset 4-dimensional

Para analizar mejor el dataset, intenta representar otra elección de 3 características diferentes, incluyendo también la anchura del pétalo.

Entre dichas combinaciones de características, representadas en diferentes gráficas, *¿puedes encontrar una diferencia entre clases más clara? ¿Varios clústeres de datos agrupados? ¿Variables más descriptoras?*

Ante tales datos, que se pueden ser difíciles de apreciar tambíen para nuestros modelos, vamos a comprobar sus resultados.

## Preprocesar los datos

Vamos a preprocesar los datos de la forma habitual:
- Reordena aleatoriamente los ejemplos.
- Normalízalos sólo si es necesario.
- Divídelos en subsets de entrenamiento y test.

Usaremos exclusivamente el subset de entrenamiento para entrenar nuestros modelos y el de test para evaluarlos, con validación cruzada por K-means. De esta forma nos aseguraremos de que ambos tipos de modelos se han entrenado y evaluado en igualdad de condiciones.

In [None]:
# TODO: Reordena aleatoriamente, normaliza si es necesario y divide los datos en subsets de entrenamiento y test

## Entrenar un modelo de agrupación por K-means usando Scikit-learn

Vamos a entrenar un modelo de agrupación por K-means usando el método de Scikit-learn [sklearn.cluster.KMeans](https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html).

Dicho método acepta un nº de clústeres *n_clusters* y realiza varias inicializaciones con diferentes centroides originales, por lo que no tendremos que realizar validación cruzada en el mismo.

Entrena un modelo de K-means para 3 clústeres sobre el subset de entrenamiento:

In [None]:
# TODO: Entrena un modelo de K-means con Scikit-learn para 3 clústeres

## Evaluar sus resultados gráficamente

En esta ocasión, para evaluar el modelo de K-means vamos a usar el subset de test final, ya que disponemos del mismo.

Evalúa dicho modelo con su método `model.score()` y con el coeficiente de silueta:

*NOTA:* Aunque lo implementa por consistencia, `model.score()` no utiliza *Y*.

In [None]:
# TODO: Evalúa dicho modelo sin usar Y sobre el subset de test

Representa gráficamente sus resultados:

In [None]:
# TODO: Representa gráficamente los centroides y los ejemplos asignados a cada clúster en 3D

## Entrenar un modelo de clasificación por SVM sobre el dataset Iris

Ahora entrena un modelo de clasificación por SVM usando [sklearn.svm.SVC](https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html) sobre el dataset Iris.

Evalúa varios valores del hiper-parámetro *C* y kernels disponibles por K-fold con [sklearn.model_selection.GridSearchCV](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html).

Para *gamma* puedes utilizar el valor por defecto o `auto`.

Puedes usar como referencia este ejercicio: [Plot differente SVM classifiers in the Iris Dataset](https://scikit-learn.org/stable/auto_examples/svm/plot_iris_svc.html).

In [None]:
# TODO: Entrena un modelo de SVC optimizando sus hiper-parámetros y kernel usado por CV con K-fold

## Evaluar sus resultados gráficamente

Al igual que hicimos en los ejercicios de la sesión anterior, evalúa el modelo finalmente sobre el subset de test y representa sus predicciones gráficamente:

In [None]:
# TODO: Evalúa el mejor modelo sobre el subset de test

In [None]:
# TODO: Representa sus predicciones gráficamente en 3D

## Comparar ambos modelos y sus resultados

Aunque ambas tareas, la agrupación y la clasificación son inherentemente diferentes, podemos comparar dichos resultados para destacar sus diferencias.

Para ello, puedes comparar la asignación de ejemplos a cada clúster en agrupación y a cada clase en clasificación.

*Nota*: Ten en cuenta la dificultad inherente de los ejemplos y características de este dataset Iris.

- *¿Hay una gran diferencia en nº de ejemplos que estarían asignados a un clúster en agrupación y a una clase diferente en clasificación?*
- *¿Qué modelo acierta más? ¿Es capaz una agrupación de tener un resultado similar a un modelo de clasificación, cuando podemos evaluar la clase real*
- *¿Cómo es la división del espacio n-dimensional en ambos casos? ¿El espacio asignado a las clases y el asignado a los clústeres es similar en las representaciones gráficas?*