In [3]:
import pandas as pd

In [4]:
path = '../datasets/candy.csv'
df = pd.read_csv(path)
df.head()

Unnamed: 0,competitorname,chocolate,fruity,caramel,peanutyalmondy,nougat,crispedricewafer,hard,bar,pluribus,sugarpercent,pricepercent,winpercent
0,100 Grand,1,0,1,0,0,1,0,1,0,0.732,0.86,66.971725
1,3 Musketeers,1,0,0,0,1,0,0,1,0,0.604,0.511,67.602936
2,One dime,0,0,0,0,0,0,0,0,0,0.011,0.116,32.261086
3,One quarter,0,0,0,0,0,0,0,0,0,0.011,0.511,46.116505
4,Air Heads,0,1,0,0,0,0,0,0,0,0.906,0.511,52.341465


## Estrategias de Clustering
Los algoritmos de clustering son las estrategias que podemos usar para agrupar los datos de tal manera que todos los datos pertenecientes a un grupo sean lo más similares que sea posible entre sí, y lo más diferentes a los de otros grupos.

**Casos de aplicación de clustering.**
* No conocemos con anterioridad las etiquetas de nuestros datos (Aprendizaje no supervisado).
* Queremos descubrir patrones ocultos a simple vista.
* Queremos identificar datos atípicos.

## El algoritmo de k-means
Es un algoritmo de clasificación no supervisada (clusterización) que agrupa objetos en k grupos basándose en sus características. El agrupamiento se realiza minimizando la suma de distancias entre cada objeto y el centroide de su grupo o cluster. Se suele usar la distancia cuadrática.

El algoritmo consta de tres pasos:

1.- **Inicialización:** una vez escogido el número de grupos, k, se establecen k centroides en el espacio de los datos, por ejemplo, escogiéndolos aleatoriamente.

2.- **Asignación objetos a los centroides:** cada objeto de los datos es asignado a su centroide más cercano.

3.- **Actualización centroides:** se actualiza la posición del centroide de cada grupo tomando como nuevo centroide la posición del promedio de los objetos pertenecientes a dicho grupo.

In [21]:
from sklearn.cluster import MiniBatchKMeans

X = df.drop('competitorname', axis = 1)
model_kmeans = MiniBatchKMeans(n_clusters=3,batch_size=8)
model_kmeans.fit(X)
print('Total de centros = {}'.format(len(model_kmeans.cluster_centers_)))
print(model_kmeans.predict(X))

Total de centros = 3
[1 1 2 0 0 0 0 2 2 2 2 2 2 0 2 0 2 0 0 2 0 0 0 1 0 0 2 0 1 0 2 0 1 1 0 0 1
 1 1 0 0 0 1 1 2 2 0 1 2 0 2 1 1 1 1 2 1 2 0 2 1 0 2 0 1 0 1 0 1 2 2 2 2 0
 0 0 0 0 0 1 0 2 0 0 0]


In [22]:
df['KMeans'] = model_kmeans.predict(X)

## MeanShift
Este algoritmo nos puede servir para cuando no sabemos el numero de cluster que nececitamos para resolver el problema

In [23]:
from sklearn.cluster import MeanShift

model_MShisft = MeanShift()
model_MShisft.fit(X)
model_MShisft.labels_

print(model_MShisft.labels_)

[1 1 0 0 1 1 1 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 1 1 1 1 0 1 1 0 0 1 1 1 0 1 1
 1 1 0 1 1 1 1 0 0 0 1 0 0 0 1 1 1 1 0 1 0 0 0 1 1 0 0 1 1 1 1 1 0 0 0 0 1
 0 0 0 0 0 1 0 0 0 0 0]


Lo cual nos dice que MeanShift nos clasifico 3 clusters.

In [24]:
df['MeanShift'] = model_MShisft.labels_

Para poder ver las coordenadas de nuestros centroides encontrados en el espacion n dimencional de nuestros datos tenemos

In [25]:
model_MShisft.cluster_centers_

array([[2.25000000e-01, 5.75000000e-01, 1.00000000e-01, 2.50000000e-02,
        5.00000000e-02, 2.50000000e-02, 3.00000000e-01, 1.00000000e-01,
        5.50000000e-01, 4.57599993e-01, 3.67824996e-01, 4.10442122e+01,
        2.05000000e+00, 1.50000000e-01],
       [6.07142857e-01, 3.92857143e-01, 2.50000000e-01, 1.42857143e-01,
        1.07142857e-01, 1.42857143e-01, 3.57142857e-02, 4.28571429e-01,
        5.00000000e-01, 5.23535706e-01, 5.57642856e-01, 5.88355186e+01,
        6.07142857e-01, 1.46428571e+00]])

In [26]:
df.head(10)

Unnamed: 0,competitorname,chocolate,fruity,caramel,peanutyalmondy,nougat,crispedricewafer,hard,bar,pluribus,sugarpercent,pricepercent,winpercent,KMeans,MeanShift
0,100 Grand,1,0,1,0,0,1,0,1,0,0.732,0.86,66.971725,1,1
1,3 Musketeers,1,0,0,0,1,0,0,1,0,0.604,0.511,67.602936,1,1
2,One dime,0,0,0,0,0,0,0,0,0,0.011,0.116,32.261086,2,0
3,One quarter,0,0,0,0,0,0,0,0,0,0.011,0.511,46.116505,0,0
4,Air Heads,0,1,0,0,0,0,0,0,0,0.906,0.511,52.341465,0,1
5,Almond Joy,1,0,0,1,0,0,0,1,0,0.465,0.767,50.347546,0,1
6,Baby Ruth,1,0,1,1,1,0,0,1,0,0.604,0.767,56.914547,0,1
7,Boston Baked Beans,0,0,0,1,0,0,0,0,1,0.313,0.511,23.417824,2,0
8,Candy Corn,0,0,0,0,0,0,0,0,1,0.906,0.325,38.010963,2,0
9,Caramel Apple Pops,0,1,1,0,0,0,0,0,0,0.604,0.325,34.517681,2,0


In [27]:
(df['KMeans'] == df['MeanShift']).sum() / df.shape[0]

0.5058823529411764

Notamos que la clasificacion de los modelos coincicen en un 50% de los datos