# Ejemplo K-Means

In [None]:
# Importo librerías
import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler

from sklearn.cluster import KMeans
from sklearn.model_selection import cross_validate

from matplotlib import pyplot as plt
import seaborn as sns
%matplotlib inline

In [None]:
# Cargo el dataset Iris
dataset = load_iris()
print(u'Los tipos de clases que hay en el dataset son: {}'.format(dataset.target_names))
dataset.data[:5, :]

In [None]:
dataset.feature_names

In [None]:
dataset.target_names

In [None]:
dataset.data

In [None]:
# Normalizamos variables
scaler = StandardScaler()
X = scaler.fit_transform(dataset.data)

In [None]:
dataset.data[:5]

In [None]:
X[:5]

In [None]:
# Represento los datos originales con sus clases diferenciadas
dfXY = pd.DataFrame(X, columns=dataset.feature_names)
dfXY["target"] = dataset.target

In [None]:
dfXY

In [None]:
sns.pairplot(data=dfXY, 
             hue="target", 
             vars=dfXY.columns[dfXY.columns != "target"], 
             diag_kind="hist")
plt.show()

En este punto se utiliza el método del codo para agrupar los datos X, es decir las variables predictoras pero no la clase de flor. El método del codo consiste en calcular la distancia media de las observaciones a su centroide para una serie de valores de k hasta encontrar un valor que satisfaga que un incremento de k no mejore sustancialmente la distancia media intra-cluster

In [None]:
# Calculo WSS (Within-Cluster-Sum of Squared Errors) en función del 
# número de clústers k
wss = []
for K in range(2, 15):
    
    clf = KMeans(init="random", random_state=0, n_clusters=K)
    clf.fit(X)
    resultados = cross_validate(clf, X, cv=4)
    wss.append(np.mean(resultados["test_score"]) * -1)

In [None]:
# Represento el método del codo
plt.plot(np.arange(2, 15), wss)
plt.xlabel("K")
plt.ylabel("WSS")
plt.title("Método del codo para obtener el K óptimo")
plt.show()

In [None]:
# Calculo WSS (Within-Cluster-Sum of Squared Errors) en función del 
# número de clústers k
wss = []
for K in range(2, 30):
    
    clf = KMeans(init="random", random_state=0, n_clusters=K)
    clf.fit(X)
    resultados = cross_validate(clf, X, cv=4)
    wss.append(np.mean(resultados["test_score"]) * -1)

In [None]:
# Represento el método del codo
plt.plot(np.arange(2, 30), wss)
plt.xlabel("K")
plt.ylabel("WSS")
plt.title("Método del codo para obtener el K óptimo")
plt.show()

In [None]:
# Ajusto el modelo con el mejor parámetro k=3
clf = KMeans(init="random", random_state=0, n_clusters=3)

In [None]:
clf.fit(X)

In [None]:
# Mostramos los centroides
clf.cluster_centers_

In [None]:
clusters = clf.predict(X)

In [None]:
# Vector de asignación al cluster
clusters

In [None]:
# ¿Es similar la cluserización al target original? (solo comprobación)
dataset.target

In [None]:
# Obtengo la lista de variables
feat_list = [[x, y] for x in range(4) for y in range(4) if x != y]

In [None]:
for idx in feat_list:
    
    plt.figure(figsize=(10, 2.55))
    plt.subplot(121)
    plt.scatter(X[:, idx[0]], X[:, idx[1]], c=dfXY["target"])
    plt.xlabel(dataset.feature_names[idx[0]])
    plt.ylabel(dataset.feature_names[idx[1]])
    plt.title("Clases reales")

    plt.subplot(122)
    plt.scatter(X[:, idx[0]], X[:, idx[1]], c=clusters)
    plt.xlabel(dataset.feature_names[idx[0]])
    plt.ylabel(dataset.feature_names[idx[1]])
    plt.title(u"Asignación del clustering")
    plt.tight_layout()
    plt.show()


### Consideraciones práticas:

* Preprocesamiento de datos: las variables X deben tener valores numéricos y continuos en la medida de lo posible. Del mismo modo es recomendable escalar los valores y no incluir variables muy correlacionadas. Generalmente se utiliza un método llamado “estandarización” de los datos.
* K-medias vs K-medianas: existe otro algoritmo denominado K-medianas que es análogo al K-medias, pero en el que los centroides se obtienen a partir de la mediana. Este algoritmo es mejor utilizarlo cuando las variables tienen muchos outliers.

### Cuando utilizarlo.

* El algoritmo K-medias es útil aplicarlo cuando existe una definición por parte de negocio del número de grupos K en los que se quiere dividir el conjunto de datos. 

In [None]:
dfXY["cluster"] = clusters

In [None]:
dfXY

In [None]:
sns.pairplot(data=dfXY, 
             hue="cluster", 
             vars=dfXY.columns[(dfXY.columns != "target") & (dfXY.columns != "cluster")], 
             diag_kind="hist")
plt.show()

In [None]:
dfXY.groupby(["cluster"]).count()

In [None]:
dfXY.groupby(["cluster"]).mean()