#Ejemplo basico con KMeans

Cargamos las librerias requeridas

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

La función sklearn Kmeans () realiza agrupaciones de K means. Comenzamos con un ejemplo simulado simple en el que realmente hay dos agrupaciones en los datos: las primeras 25 observaciones tienen un desplazamiento medio en relación con las siguientes 25 observaciones. 

En este primer paso generamos 50 datos al azar

In [None]:
np.random.seed(123)
X = np.random.randn(50,2)

f, ax = plt.subplots(figsize=(6, 5))
ax.scatter(X[:,0], X[:,1], s=50) 
ax.set_xlabel('X0')
ax.set_ylabel('X1')

In [None]:
X

Ahora agregamos un offset a 25 datos y otro offset a 25 datos para crear dos agrupamientos claramente visibles

In [None]:
X[0:25, 0] = X[0:25, 0] + 3
X[0:25, 1] = X[0:25, 1] - 4

f, ax = plt.subplots(figsize=(6, 5))
ax.scatter(X[:,0], X[:,1], s=50) 
ax.set_xlabel('X0')
ax.set_ylabel('X1')

Ahora realizamos agrupaciones de K-medias con K = 2:

In [None]:
from sklearn.cluster import KMeans
kmeans = KMeans(n_clusters = 2, random_state = 123).fit(X)

Las asignaciones de grupos de las 50 observaciones están contenidas en kmeans.labels_:

In [None]:
print(kmeans.labels_)

El agrupamiento de K-means separó perfectamente las observaciones en dos grupos a pesar de que no proporcionamos ninguna información de grupo a Kmeans (). Podemos graficar los datos, con cada observación coloreada de acuerdo con su asignación de grupo:

In [None]:
plt.figure(figsize=(6,5))
plt.scatter(X[:,0], X[:,1], s = 50, c = kmeans.labels_, cmap = plt.cm.bwr) 
plt.scatter(kmeans.cluster_centers_[:, 0], 
            kmeans.cluster_centers_[:, 1], 
            marker = '*', 
            s = 150,
            color = 'cyan', 
            label = 'Centros')
plt.legend(loc = 'best')
plt.xlabel('X0')
plt.ylabel('X1')

Aquí las observaciones se pueden graficar fácilmente porque son bidimensionales. Si hubiera más de dos variables, entonces podríamos realizar PCA y graficar los dos primeros vectores de puntuación de los componentes principales.

En este ejemplo, sabíamos que realmente había dos clústeres porque generamos los datos. Sin embargo, para los datos reales, en general, no conocemos el número real de conglomerados. En su lugar, podríamos haber realizado el agrupamiento de K-means en este ejemplo con K = 3. Si hacemos esto, el agrupamiento de K-means dividirá los dos grupos "reales", ya que no tiene información sobre ellos:

In [None]:
kmeans_3_clusters = KMeans(n_clusters = 3, random_state = 123)
kmeans_3_clusters.fit(X)

plt.figure(figsize=(6,5))
plt.scatter(X[:,0], X[:,1], s=50, c=kmeans_3_clusters.labels_, cmap=plt.cm.prism) 
plt.scatter(kmeans_3_clusters.cluster_centers_[:, 0], kmeans_3_clusters.cluster_centers_[:, 1], marker='*', s=150,
            color='blue', label='Centros')
plt.legend(loc='best')
plt.xlabel('X0')
plt.ylabel('X1')

Aquí las observaciones se pueden graficar fácilmente porque son bidimensionales. Si hubiera más de dos variables, entonces podríamos realizar PCA y graficar los dos primeros vectores de puntuación de los componentes principales.

En este ejemplo, sabíamos que realmente había dos clústeres porque generamos los datos. Sin embargo, para los datos reales, en general, no conocemos el número real de conglomerados. En su lugar, podríamos haber realizado el agrupamiento de K-means en este ejemplo con K = 4. Si hacemos esto, el agrupamiento de K-means dividirá los dos grupos "reales", ya que no tiene información sobre ellos:

In [None]:
kmeans_4_clusters = KMeans(n_clusters = 4, random_state = 123)
kmeans_4_clusters.fit(X)

plt.figure(figsize=(6,5))
plt.scatter(X[:,0], X[:,1], s=50, c=kmeans_4_clusters.labels_, cmap=plt.cm.bwr) 
plt.scatter(kmeans_4_clusters.cluster_centers_[:, 0], kmeans_4_clusters.cluster_centers_[:, 1], marker='*', s=150,
            color='green', label='Centros')
plt.legend(loc='best')
plt.xlabel('X0')
plt.ylabel('X1')

Para ejecutar la función Kmeans () en Python con múltiples asignaciones de clúster iniciales, usamos el argumento n_init (predeterminado: 10). Si se usa un valor de n_init mayor que uno, entonces el agrupamiento de K-medias se realizará usando múltiples asignaciones aleatorias, y la función Kmeans () reportará solo los mejores resultados. Aquí comparamos usando n_init = 1:

In [None]:
km_out_single_run = KMeans(n_clusters = 3, n_init = 1, random_state = 123).fit(X)
km_out_single_run.inertia_

para n_init = 20:

In [None]:
km_out_single_run = KMeans(n_clusters = 3, n_init = 20, random_state = 123).fit(X)
km_out_single_run.inertia_