Como funciona K-Means

El algoritmo trabaja iterativamente para asignar a cada “punto” (las filas de nuestro conjunto de entrada forman una coordenada) uno de los “K” grupos basado en sus características. Son agrupados en base a la similitud de sus features (las columnas). Como resultado de ejecutar el algoritmo tendremos:


* Los “centroids” de cada grupo que serán unas “coordenadas” de cada uno de los K conjuntos que se utilizarán para poder etiquetar nuevas muestras.
* Etiquetas para el conjunto de datos de entrenamiento. Cada etiqueta perteneciente a uno de los K grupos formados.

Los grupos se van definiendo de manera “orgánica”, es decir que se va ajustando su posición en cada iteración del proceso, hasta que converge el algoritmo. Una vez hallados los centroids deberemos analizarlos para ver cuales son sus características únicas, frente a la de los otros grupos. Estos grupos son las etiquetas que genera el algoritmo.


casos de uso 

* sementacion
* Categorizacion de Inventario 
* Detetar comportaminto sopechoso 

In [None]:
import pandas as pd
import numpy as np
import seaborn as sb
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.metrics import pairwise_distances_argmin_min as pws

%matplotlib inline
from mpl_toolkits.mplot3d import Axes3D

plt.rcParams['figure.figsize'] = (16, 9)
plt.style.use('ggplot')

In [None]:
df = pd.read_csv('../dataset/analisis.csv')
df.head()

# Exploramos lo datos
este data set contiene las siguite descricion:

* usuario (el nombre en Twitter)
* “op” = Openness to experience – grado de apertura mental a nuevas experiencias, curiosidad, arte
* “co” =Conscientiousness – grado de orden, prolijidad, * organización
* “ex” = Extraversion – grado de timidez, solitario o * participación ante el grupo social
* “ag” = Agreeableness – grado de empatía con los demás, temperamento
* “ne” = Neuroticism, – grado de neuroticismo, nervioso, irritabilidad, seguridad en sí mismo.
* Wordcount – Cantidad promedio de palabras usadas en sus tweets
* Categoria – Actividad laboral del usuario (actor, cantante, etc.)

este arcgivo contiene 9 actividades laborales
1.Actor/actriz
2.Cantante
3.Modelo
4.Tv, series
5.Radio
6.Tecnología
7.Deportes
8.Politica
9.Escritor

In [None]:
df.describe()

In [None]:
df.groupby('categoria').size()

#visualizamos lo datos 

In [None]:
df.drop(['categoria'], 1).hist()
plt.show()

In [None]:
sb.pairplot(df.dropna(), hue='categoria',size=4,vars=["op","ex","ag"],kind='scatter')

In [None]:
#Para el ejercicio, sólo seleccionamos 3 dimensiones, para poder graficarlo
X = np.array(df[["op","ex","ag"]])
y = np.array(df['categoria'])
X.shape

In [None]:
fig = plt.figure()
ax = Axes3D(fig)
colores= ['blue',
          'red',
          'green',
          'blue',
          'cyan',
          'yellow',
          'orange',
          'black',
          'pink',
          'brown',
          'purple']
asignar= []
for row in y:
    asignar.append(colores[row])
ax.scatter(X[:, 0], X[:, 1], X[:, 2], c=asignar,s=60)

# allemos el valor K

In [None]:
Nc = range(1, 20)
kmeans = [KMeans(n_clusters=i) for i in Nc]
kmeans
score = [kmeans[i].fit(X).score(X) for i in range(len(kmeans))]
score
plt.plot(Nc,score)
plt.xlabel('Number of Clusters')
plt.ylabel('Score')
plt.title('Elbow Curve')
plt.show()

In [None]:
# Para el ejercicio, elijo 5 como un buen valor de K. Pero podría ser otro.
k = KMeans(n_clusters=5).fit(X)
centroids = k.cluster_centers_
print(centroids)

In [None]:
# Obtenemos las etiquetas de cada punto de nuestros datos
labels = k.predict(X)
# Obtenemos los centroids
C = k.cluster_centers_
colores=['red','green','blue','cyan','yellow']
asignar=[]
for row in labels:
    asignar.append(colores[row])

fig = plt.figure()
ax = Axes3D(fig)
ax.scatter(X[:, 0], X[:, 1], X[:, 2], c=asignar,s=60)
ax.scatter(C[:, 0], C[:, 1], C[:, 2], marker='*', c=colores, s=1000)

In [None]:
f1 = df['op'].values
f2 = df['ex'].values

plt.scatter(f1, f2, c=asignar, s=70)
plt.scatter(C[:, 0], C[:, 1], marker='*' ,c=colores, s=1000)
plt.show()


In [None]:
# hacemos una proyecion 2d con diverso ejes
f1 = df['ex'].values
f2 = df['ag'].values

plt.scatter(f1, f2, c=asignar, s=70)
plt.scatter(C[:, 0], C[:, 2], marker='*' ,c=colores, s=1000)
plt.show()


# allemos el valor K

In [None]:
# hacemos una proyecion 2d con diverso ejes
f1 = df['op'].values
f2 = df['ag'].values

plt.scatter(f1, f2, c=asignar, s=70)
plt.scatter(C[:, 0], C[:, 2], marker='*' ,c=colores, s=1000)
plt.show()


In [None]:
fig = plt.figure()
ax = Axes3D(fig)
colores= ['blue',
          'red',
          'green',
          'blue',
          'cyan',
          'yellow',
          'orange',
          'black',
          'pink',
          'brown',
          'purple']
asignar= []
for row in y:
    asignar.append(colores[row])
ax.scatter(X[:, 0], X[:, 1], X[:, 2], c=asignar,s=60)

In [None]:
# contamos cuantos usuarios hay en cada grupo
copy =  pd.DataFrame()
copy['usuario']=dataframe['usuario'].values
copy['categoria']=dataframe['categoria'].values
copy['label'] = labels;
cantidadGrupo =  pd.DataFrame()
cantidadGrupo['color']=colores
cantidadGrupo['cantidad']=copy.groupby('label').size()
cantidadGrup