# KMeans sobre Iris dataset

Cargamos la librería `sklearn`:

In [None]:
import sklearn

Cargamos el dataset:

In [None]:
from sklearn.datasets import load_iris
iris = load_iris()

Vamos a separar las *features* (X) de las *labels* (y). Ten en cuenta que, al estar trabajando en aprendizaje no supervisado, las *labels* no van a usarse en el proceso de entrenamiento. No obstante, las usaremos para evaluar la calidad de los clusters creados.

In [None]:
X = iris.data
y = iris.target

Partimos el dataset en conjuntos de entrenamiento y test:

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)

Ahora, vamos a ejecutar el algoritmo KMeans. Fíjate que el método *fit* solo recibe como entrada las *features* (X). Establecemos 3 clusters.

In [None]:
from sklearn.cluster import KMeans
kmeans = KMeans(n_clusters = 3, random_state=0)
kmeans.fit(X_train)

KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=300,
       n_clusters=3, n_init=10, n_jobs=None, precompute_distances='auto',
       random_state=0, tol=0.0001, verbose=0)

El método *predict* nos permite asignar un cluster a los datos de test:

In [None]:
y_hat = kmeans.predict(X_test)

Puesto que para este dataset conocemos la *ground truth*, podemos usar medidas de calidad que comprueben cómo de bien hemos hecho el clustering. Por ejemplo, podemos evaluar los resultados de KMeans para *adjusted rand score*.

Fijate que le pasamos las predicciones (`y_hat`) y nuestra *ground truth* (`y_test`).

In [None]:
from sklearn import metrics
metrics.adjusted_rand_score(y_test, y_hat)

0.7794943069439247

En caso de no disponer de la *ground truth*, que es lo más habitual, hay medidas de calidad que evaluan la calidad de los clústers. Una de las más populares es *silhouette score*. Fijate que ahora no usarmos `y_test` para calcular la medida de calidad.

In [None]:
metrics.silhouette_score(X_test, y_hat, metric='euclidean')

0.5351530997478439

Una alternativa a KMeans es MiniBatchKMeans. Entrenamos el modelo:

In [None]:
from sklearn.cluster import MiniBatchKMeans
mb_kmeans = MiniBatchKMeans(n_clusters=3, random_state=0, batch_size=6)
mb_kmeans.fit(X_train)

MiniBatchKMeans(batch_size=6, compute_labels=True, init='k-means++',
                init_size=None, max_iter=100, max_no_improvement=10,
                n_clusters=3, n_init=3, random_state=0, reassignment_ratio=0.01,
                tol=0.0, verbose=0)

Calculamos las predicciones:

In [None]:
y_hat = mb_kmeans.predict(X_test)

Calculamos el *adjuested rand score*:

In [None]:
from sklearn import metrics
metrics.adjusted_rand_score(y_test, y_hat)

0.8261953850170608

Y la *silhouette score*:

In [None]:
metrics.silhouette_score(X_test, y_hat, metric='euclidean')

0.4898449785464226