## Clustering con `scikit-learn` utilizando el conjunto de datos Iris

### Objetivos del Ejercicio:
1. Utilizar el algoritmo K-Means para identificar agrupaciones en los datos.
2. Familiarizarse con el proceso de clustering y las métricas de evaluación.
3. Visualizar los clusters.

### Descripción del Ejercicio:

En este ejercicio, emplearás el algoritmo K-Means de `scikit-learn` para realizar un análisis de clustering en el conjunto de datos Iris. 

Clustering es un método de aprendizaje no supervisado que te permitirá descubrir agrupaciones inherentes en los datos.

1. **Cargar el conjunto de datos:**
   Utiliza `load_iris` de `sklearn.datasets` para cargar los datos.

2. **Aplicación de K-Means:**
   Aplica el algoritmo K-Means al conjunto de datos y selecciona un número apropiado de clusters (puedes empezar con k=3, que es el número de especies en el conjunto de datos).

3. **Evaluación de Clusters:**
   Evalúa los clusters utilizando las métricas Silhouettea y el índice Davies-Bouldin.

4. **Visualización:**
   Visualiza los clusters en un gráfico de dispersión utilizando dos de las características para los ejes.

### Instrucciones para el Estudiante:

- Completa el código  que falte en las siguientes celdas
- Extra 1: El conjunto de datos Iris tiene 4 características por lo que es complicado de visualizar en un gráfico. 
   - Aplica un algoritmo de reducción de dimensionalidad para dejar solo 3 características.
   - Visualiza el resultado en un gráfico de dispersión 3D. 
   - Utiliza el código de este ejemplo: https://scikit-learn.org/stable/auto_examples/decomposition/plot_pca_iris.html
   - Asegúrate de que entiendes el código. Añade comentarios.

In [None]:
# Importaciones necesarias
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score, davies_bouldin_score

In [None]:
# Ignorar algunos warnings de KMeans
import warnings
warnings.filterwarnings("ignore")

In [None]:
# Cargar el conjunto de datos Iris
iris = ## COMPLETA EL CODIGO ##
X = ## COMPLETA EL CODIGO ##
y = ## COMPLETA EL CODIGO ##

In [None]:
# Iniciar KMeans 
# Utiliza el parámetro n_clusters para indicar cuantos clusters quieres crear
# Utiliza el parámetro n_init con el valor 'auto'
kmeans = ## COMPLETA EL CODIGO ##

In [None]:
# Entrenar a K-Means
## COMPLETA EL CODIGO ##

In [None]:
# Crear los clusters
clusters = ## COMPLETA EL CODIGO ##

In [None]:
# Mostrar los centros de los clusters
print('Los centros de los clusters son:\n', kmeans.cluster_centers_)

In [None]:
# Evaluar los resultados
silhouette_avg = silhouette_score(X, clusters)
db_score = davies_bouldin_score(X, clusters)

print(f'Silhouette Score: {silhouette_avg:.2f}')
print(f'Davies-Bouldin Score: {db_score:.2f}')

In [None]:
# Visualización de los clusters
plt.scatter(X[:, 0], X[:, 1], c=clusters, cmap='viridis', marker='o')
centers = kmeans.cluster_centers_
plt.scatter(centers[:, 0], centers[:, 1], c='red', s=200, alpha=0.75, marker='x')
plt.title('Visualización de Clusters K-Means del Iris Dataset')
plt.xlabel('Longitud del Sépalo')
plt.ylabel('Ancho del Sépalo')
plt.show()

In [None]:
# Comparar clusters con etiquetas reales
print('Comparación de los clusters encontrados con las etiquetas reales:\n')
for i in range(3):
    print(f'Cluster {i}:', list(y[clusters == i]))
