# El método de k-means
* Dividimos los datos en k-grupos. Este numero $k$ con este método tiene que ser conocido a priori.
* El método necesita evaluar, calcular o definir los baricentros o centroides de estos grupos.
* La salida del método será una array conteniendo el número de cluster en el cual pertenece cada una de las observaciones.

<img src="img/k_means_2.jpg" width="600">

<img src="img/k_means_1.jpg" width="600">

In [1]:
import numpy as np

In [2]:
data = np.random.random(90).reshape(30,3)
data

array([[0.38708941, 0.43295174, 0.77858823],
       [0.82374958, 0.42249082, 0.45184114],
       [0.10471256, 0.63626742, 0.36031047],
       [0.24368108, 0.64615919, 0.25460057],
       [0.09571688, 0.50205849, 0.13787742],
       [0.24456893, 0.32690233, 0.6255395 ],
       [0.42812743, 0.56017293, 0.96613535],
       [0.04739221, 0.91491892, 0.97686114],
       [0.72544428, 0.36503234, 0.72325251],
       [0.531745  , 0.55328831, 0.87198025],
       [0.50189464, 0.53979583, 0.04481757],
       [0.60663208, 0.14106192, 0.73797895],
       [0.42567353, 0.03908514, 0.36666282],
       [0.16841705, 0.60308111, 0.82442681],
       [0.62290825, 0.63875449, 0.95603758],
       [0.4453313 , 0.92854017, 0.02726882],
       [0.27617803, 0.76943439, 0.36284503],
       [0.19582355, 0.053838  , 0.85223254],
       [0.49252666, 0.73712765, 0.06902168],
       [0.23925427, 0.38162446, 0.24898646],
       [0.73591425, 0.19453764, 0.80330255],
       [0.88553488, 0.41396684, 0.85143733],
       [0.

**Vamos a elegir 2 centroides al azar. Que serán los 2 baricentros originales de los 2 clusters que generaremos**

In [3]:
c1 = np.random.choice(range(len(data))) 
c2 = np.random.choice(range(len(data)))
clust_centers = np.vstack([data[c1], data[c2]]) #con vstack los colocamos uno debajo del otro
clust_centers

array([[0.37661327, 0.0451813 , 0.31024399],
       [0.24368108, 0.64615919, 0.25460057]])

### **Primera forma:** 

In [4]:
from scipy.cluster.vq import vq

In [5]:
clusters = vq(data, clust_centers) #le indicamos los datos y los centros par generar los clusters
clusters

(array([1, 0, 1, 1, 1, 0, 1, 1, 0, 1, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 0, 0,
        1, 0, 0, 1, 0, 0, 0, 1], dtype=int32),
 array([0.58359784, 0.60194942, 0.17488476, 0.        , 0.23723977,
        0.44296016, 0.74006475, 0.79524929, 0.62814313, 0.68757798,
        0.34927971, 0.49503428, 0.07501438, 0.57638732, 0.79742206,
        0.41482715, 0.16724141, 0.5714118 , 0.32347938, 0.26463132,
        0.6281013 , 0.82939387, 0.2717077 , 0.52369366, 0.45190636,
        0.23529006, 0.        , 0.26958395, 0.55314048, 0.24652303]))

* El primer Array nos da la informacion de a qué cluster pertenece cada una de las observaciones.
* El segundo array nos da la distancia de cada una de las 30 observaciones hasta el baricentro, según el cluster en el cual se encuentra.

In [6]:
labels = clusters[0]
labels

array([1, 0, 1, 1, 1, 0, 1, 1, 0, 1, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 0, 0,
       1, 0, 0, 1, 0, 0, 0, 1], dtype=int32)

In [7]:
import chart_studio.plotly as py
import plotly.graph_objs as go

import plotly.offline as ply

In [8]:
x = []
y = []
z = []
x2 = []
y2 = []
z2 = []

for i in range(0, len(labels)):
    if(labels[i] == 0): #si está en el cluster 0, metemos sus valores(que son 3, ver mas arriba) en la lista x[], y[] e z[]
        x.append(data[i,0])
        y.append(data[i,1])
        z.append(data[i,2])
        
    else: #sino (si pertenecen al cluster 1) metemos sus 3 valores en la lista x2[], y2[] y z2[]
        x2.append(data[i,0])
        y2.append(data[i,1])
        z2.append(data[i,2])

cluster1 = go.Scatter3d( #definimos el cluster 1(el 0) para representar en 3D
    x=x,
    y=y,
    z=z,
    mode='markers',
    marker=dict(
        size=12,
        line=dict(
            color='rgba(217, 217, 217, 0.14)',
            width=0.5
        ),
        opacity=0.9
    ),
    name="Cluster 0"
)


cluster2 = go.Scatter3d( #definimos el cluster 2(el 1) para representar en 3D
    x=x2,
    y=y2,
    z=z2,
    mode='markers',
    marker=dict(
        color='rgb(127, 127, 127)',
        size=12,
        symbol='circle',
        line=dict(
            color='rgb(204, 204, 204)',
            width=1
        ),
        opacity=0.9
    ),
    name="Cluster 1"
)
data2 = [cluster1, cluster2]
layout = go.Layout(
    margin=dict(
        l=0,
        r=0,
        b=0,
        t=30
    )
)

fig = go.Figure(data=data2, layout=layout)
ply.plot(fig, filename='Clusters.html')


'Clusters.html'

### **Segunda forma:**

In [16]:
from scipy.cluster.vq import kmeans

In [24]:
kmeans(data, clust_centers) #nos da la info de los baricentros, 

(array([[0.25356775, 0.33343472, 0.61008505],
        [0.61225214, 0.67847808, 0.45417067]]), 0.3953435194154305)

* El tercer numero del array que da kmeans es el valor de la suma de los cuadrados de los errores normalizado (ver video teoria anterior). De cada uno de los puntos resta la distancia de dichos puntos al baricentro, las eleva al cuadrado, las suma todas ellas, y las divide la suma total de los resultados, dividida entre la suma de los cuadrados en cada punto al baricentro global del sistema(de absolutamente todos los puntos del data).

In [25]:
kmeans(data, 2) #también podemos darle solo el numero de clusters que queremos, 2 en este caso, en vez de los centroides

(array([[0.21991345, 0.4151696 , 0.50781939],
        [0.78716605, 0.61852133, 0.61192767]]), 0.3779717903498595)