# Ejemplo K-Means - Clusterización mamíferos

In [None]:
%pylab
%matplotlib inline

%config InlineBackend.figure_format = 'retina'

En el archivo “mammals.csv” se encuentra una lista de mamíferos y los constituyentes de su leche. A partir de esta información segmentar los mamíferos en base los constituyentes de la leche.

Para resolver el problema en primer lugar se ha de cargar el archivo con pandas.

In [None]:
import pandas as pd

mammals = pd.read_csv('mammals.csv', sep = ',')
mammals.head()

In [None]:
mammals

Ahora se ha de eliminar las variables que son se van a utilizar para la segmentación, en esta ocasión el nombre del animal.  Por lo que se crear una nueva variable ` mammals_data` para usar posteriormente.

In [None]:
col_names = list(mammals.columns)
col_names.remove('name')

mammals_data = mammals[col_names]

In [None]:
mammals_data

Para seleccionar el número de clústeres en los que se divide los mamíferos se puede utilizar el método de la silueta. Para esto se puede copiar el código utilizado en los ejemplos

In [None]:
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
from scipy.spatial.distance import cdist

def plot_sillhouette(blobs, figure_name, max_k = 10, n_init = 10):
    sillhouette_avgs = []
    
    for k in range(2, max_k):
        kmean = KMeans(n_clusters = k, n_init = n_init).fit(blobs)
        sillhouette_avgs.append(silhouette_score(blobs, kmean.labels_))
        
    plot(range(2, max_k), sillhouette_avgs)
    title(figure_name)
    
plot_sillhouette(mammals_data, 'Mammals')

En esta ocasión se puede apreciar que el número óptimo de clústeres es 3, por lo que se puede proceder al ajuste con `KMeans`. Una vez ajustados el modelo se puede imprimir las propiedades de los diferentes clústeres.

In [None]:
kmeans = KMeans(n_clusters = 3, n_init = 10).fit(mammals_data)
kmeans.cluster_centers_

Ahora se pueden obtener a que clúster pertenece cada animal e imprimir los grupos por pantalla

In [None]:
clust = kmeans.predict(mammals_data)

In [None]:
clust

In [None]:
mammals["asignacion_cluster"] = clust

In [None]:
mammals

In [None]:
for i in range(max(clust) + 1):
    print ("Cluster", i)
    print (mammals["name"][clust == i])

In [None]:
mammals.asignacion_cluster.value_counts()

In [None]:
mammals.groupby(["asignacion_cluster"]).mean()

In [None]:
mammals.groupby(["asignacion_cluster"]).max()

In [None]:
kmeans = KMeans(n_clusters = 4, n_init = 10).fit(mammals_data)
kmeans.cluster_centers_

In [None]:
clust_four = kmeans.predict(mammals_data)

In [None]:
mammals["asignacion_cluster_cuatro"] = clust_four

In [None]:
for i in range(max(clust_four) + 1):
    print ("Cluster", i)
    print (mammals["name"][clust_four == i])