In [2]:
# K-Means Clustering

# Importing the libraries
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

En una tienda tipo mall, se tienen datos de información de sus clientes, los cuales están suscritos a 
una membresía con tarjeta de la tienda
Cuando un cliente se subscribe, proporciona los siguientes datos:

- Gender
- Age
- Annual Income

Con esta tarjeta compran todo tipo de cosas en el centro comercial tiene el historial de compras 
de cada uno de sus clientes miembro y así es como obtuvieron la última columna del dataset
`Spending Score (1-100)` que es un puntaje de gastos.

`Spending Score` es un puntaje de cantidad calculada por cada uno de sus clientes basado en algunos criterios tales como
por ejemplo:

- Sus ingresos
- La cantidad de veces por semana que aparecen en el centro comercial
- Cantidad de dólares gastados en un año 

Basado en todoe esto, ellos calculan esta métrica `Spending Score (1-100)` que toma valores entre 1 y 100. Es como su puntaje de gamificación.

De modo que el puntaje de gasto más cercano es de 2 1 y los gastos menos rechazados y cuanto más se acerque el gasto a 100, más gastado queda.

Y eventualmente después de coleccionar estos datos, la compañía me ha contratado como científico de datos para segmentear
sus clientes en dos diferentes grupos o clusters, basado en estas dos métricas de **Annual Income** and **Spending Score** pues el centro comercial no tiene idea de lo que podrían ser sus segmentos de clientes o incluso no tiene idea de cuántos segmentos de clientes habría 

Este es un problema típico de clustering, porque no conocemos las respuestas

In [36]:
dataset = pd.read_csv('../../data/Mall_Customers.csv')


In [37]:
# dataset[dataset['Spending Score (1-100)'] == 21]

Usamos K-Means para encontrar cuales podrían ser esos grupos de clientes.

Escogemos las columnas `Annual Income` y `Spending Score` que son las métricas que nos interesan 

In [38]:
# Queremos todos los registros de las columnas 3 y 4 que son los índices de Annual Income y Spending Score
X = dataset.iloc[:, [3, 4]].values
# y = dataset.iloc[:, 3].values

In [41]:
# Hemos creado el arreglo numpy de las dos columnas
# X

Entonces, ya que no tenemos idea de qué buscar, en realidad no sabemos la cantidad de grupos de clientes que debemos buscar, es válido recordar que en la teoría de Kmeans, vimos que cuando usamos K-Means debemos escoger el número de clústers y esto es exactamente lo que haremos.

Vamos a encontrar el número óptimo de clústers para nuestro problema y lo haremos utilizando el método de Elbow

In [44]:
# Using the elbow method to find the optimal number of clusters
from sklearn.cluster import KMeans

Ahora dibujemos el gráfico del método de Elbow
Para ello vamos a calcular la suma interna de los cuadrados de cada cluster para 10 diferentes números de clúster.
Es decir iteraremos a través de 10 clústers y miraremos en cual de ellos se reduce la distancia de suma de cuadrados y ese será el número de clústers a utilizar

Con un ciclo escribimos una lista de los 10 diferentes clusters con su respectiva suma de cuadrados

In [53]:
# Inicializamos esa lista a que sea vacia - Within Clusters Sum Squared
wcss= []
for i in range(1,11): # 1 2 3 4 5 6 7 8 9 10
    # En cada iteración hacemos dos cosas:
    # 1. Ajustamos el algoritmo K-Means para nuestros datos contenidos en el array numpy X
    #
    # - n_clusters - numero de clusters. EStamos probando un núemero en particular para construir 
    # nuestro gráfico de método de Elbow, asi que el número será nuestra variable i que ira desde 1 a 10
    #
    # - init - Metodo de inicialización aleatoria. Puedo escoger random si quiero una eleccion aleatoria completa de mi
    # centroide inicial, pero no queremos caer en la trampa de inicialización aleatoria 
    # https://docs.google.com/document/d/1DZ1vwyqwK1t3tPVbaLDvC_qH-WmaoI4zjN1x5B_iZM8/edit 
    # Asi que usaremos un poderoso método que es el KMeans ++ initialization method. que servirá para seleccionar
    # el mejor centroide
    #
    # - max_iter - es el máximo de iteraciones que puede haber para encontrar los clusters finales cuando el algoritmo de
    # K-Means esté ejecutándose. El valor por defecto para este parámetro es 300 y es el que seleccionaremos
    #
    # - n_init - El cual es el número de veces que el algoritmo K-Means se ejecutará con diferentes centroides iniciales
    # El valor por defecto para este parámetro es 10 y ese seleccionaremos
    #
    # - random_state - Ajusta todos los factores aleatorios del proceso K-Means, si lo ponemos a 0 veremos los mismos
    # resultados que el tutorial. POdemos quitarlo o darle otro valor para ver que sucede 
    #
    # Existen otros parámetros que podemos adicionar como la tolerancia para la convergencia, pero no vamos a entrar en 
    # detalle para esto, lo dejamos en sus valores predeterminados  al no agregarlos en el paréntesis 
    # http://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html
    
    kmeans = KMeans(n_clusters = i, init='k-means++', max_iter = 300)
    
    # Ajustamos nuestros datos array numpy X
    kmeans.fit(X)
    
    # 2. Calculamos la suma de cuadrados dentro de cada clúster y la adicionamos a nuestra lista wcss
    # sklearn tiene un atributo que calcula esta suma de cuadrados llamado inertia, entocnes lo calculamos
    # esa suma de cuadrados y la adicionamos a la lista wcss
    wcss.append(kmeans.inertia_)
    
# Ahora dibujamos el gráfico del método de Elbow
# el valor del eje x (x axis) es de uno a 11 para que nos de los 10 clusters con los que vamos
# a probar el metodo de Elbow
# El valor del eje y (y axis) es wcss
plt.plot(range(1,11), wcss)
# Adicionamos el título a la gráfica
plt.title('The Elbow Method')
# Nombre para el eje x
plt.xlabel('Number of Clusters')
# Nombre para el eje y
plt.ylabel('WCSS')
# Desplegamos el gráfico y tenemos el método de Elbow
plt.show()


![alt text](https://cldup.com/R3Ffufqi1m-3000x3000.png "Elbow Method")

El número óptimo de clústers resulta ser de cinco clústers que es en donde la diferencia de WCSS empieza a ser poca mientras desciende. ES ahi en donde esta el codo 

Ahora que tenemos el número correcto de clústers a empezar, hacemos el siguiente paso que es aplicar el algoritmo de K-Means a nuestros datos `X` pero esta vez con la cantidad correcta de clústers

In [56]:
# Applying K-means to the mall dataset 
kmeans = KMeans(n_clusters = 5, init = 'k-means++', max_iter = 300, random_state = 0)


Ajustamos los datos, pero no usamos esta vez el metodo `fit()`, usaremos el método `fit_predict()` que retorna por 
cada observación, a cual clúster pertenece

Esto significa que para cada cliente solo de nuestro dataset, el método `fit_predict()` va a decirnos:

- El clúster al que pertenece 
- El declive 

Devolverá estos números de clusters en un vector llamado `y_kmeans = kmeans.fit_predict(X)`



In [84]:
y_kmeans = kmeans.fit_predict(X)

Si miramos, tenemos un nuevo vector de números llamado `y_kmeans`

In [85]:
# y_kmeans.reshape(-1,1)
y_kmeans

array([4, 3, 4, 3, 4, 3, 4, 3, 4, 3, 4, 3, 4, 3, 4, 3, 4, 3, 4, 3, 4, 3,
       4, 3, 4, 3, 4, 3, 4, 3, 4, 3, 4, 3, 4, 3, 4, 3, 4, 3, 4, 3, 4, 1,
       4, 3, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 0, 2, 1, 2, 0, 2, 0, 2,
       1, 2, 0, 2, 0, 2, 0, 2, 0, 2, 1, 2, 0, 2, 0, 2, 0, 2, 0, 2, 0, 2,
       0, 2, 0, 2, 0, 2, 0, 2, 0, 2, 0, 2, 0, 2, 0, 2, 0, 2, 0, 2, 0, 2,
       0, 2, 0, 2, 0, 2, 0, 2, 0, 2, 0, 2, 0, 2, 0, 2, 0, 2, 0, 2, 0, 2,
       0, 2], dtype=int32)

Y vemos que: 
- CustomerID 1 pertenece al cluster 4
- CustomerID 2 pertenece al cluster 3
- CustomerID 3 pertenece al cluster 4

Y así sucesivamente

Inline-style: 
![alt text](https://cldup.com/nSDetOaWOS-1200x1200.png "Clusters a los cuales pertenece cada dato o registro")



El siguiente paso, es realmente el paso final y es en donde se pone bueno el asunto.
Ya tenemos todo el trabajo hecho con nuestro algoritmo KMeans a nuestro conjunto de datos
y ahora queremos ver los resultados, entonces vamos a tener un hermoso gráfico con nuestros 5 clústeres bien 
representados.

Básicamente ubicaremos en un gráfico de dispersión todas nuestras observaciones sobre las cuales vamos a adicionar los centroides y a partir de ellos, destacar los clústers de una adecuada manera 

y empecemos por sangrar la salvación obvia que pertenece al grupo 1

Notemos que en el vector `y_kmeans` los números de clústeres no son de 1 a 5 sino de 0 a 4 lo que significa que nuestro cluster 1  es `y_kmeans = 0`

In [None]:
## Esta seccion de VISUALIZACION ES SOLO PARA CLUSTERES CON 2 DIMENSIONES O VARIABLES

Se puede mirar la tecnica de reducir la dimensionalidad de un dataset 

In [86]:
# Visualising the clusters

# Le pasamos nuestro dataset X especificando solo los datos del cluster 1, es decir el 0
# Luego especificamos que queremos la primera columna de nuestros datos X ponemos 0 porque ese es su índice
# De esta manera tenemos las coordenadas X de todos los puntos de datos que pertenecen al cluster 1
#
# Luego hacemos lo mismo con las coordenadas Y, en donde le pasamos los datos del cluster 1 es decir el 0
# y el 1 que corrresponde a la segunda columna de nuestro dataset X
# Estas son las coordenadas Y
#
# s - Seleccionamos un tamaño para los puntos de datos, ya que no tenemos demasiadas observaciones una buena eleccion es 100
#
# c - color para nuestro cluster 1 
#
# label - nombre para nuestro cluster 1
plt.scatter(X[y_kmeans == 0, 0], X[y_kmeans == 0, 1], s = 100, c = 'red', label = 'Cluster 1' ) 



<matplotlib.collections.PathCollection at 0x7f9391b072b0>

Hacemos lo mismo para los otros 4 clusteres

In [87]:
# especificando solo los datos del cluster 2, es decir el 1
# Luego especificamos que queremos la primera columna de nuestros datos X ponemos 0 porque ese es su índice
# Lo mismo hacemos para las coordenadas Y
# Ademas cambiamos los colores 
plt.scatter(X[y_kmeans == 1, 0], X[y_kmeans == 1, 1], s = 100, c = 'blue', label = 'Cluster 2' ) 
plt.scatter(X[y_kmeans == 2, 0], X[y_kmeans == 2, 1], s = 100, c = 'green', label = 'Cluster 3' ) 
plt.scatter(X[y_kmeans == 3, 0], X[y_kmeans == 3, 1], s = 100, c = 'cyan', label = 'Cluster 4' ) 
plt.scatter(X[y_kmeans == 4, 0], X[y_kmeans == 4, 1], s = 100, c = 'magenta', label = 'Cluster 5' ) 

<matplotlib.collections.PathCollection at 0x7f9391b13400>

Dibujamos los centroides, de igual manera que los puntos de datos, solo que esta vez vamos a usar el atributo `kmeans.cluster_centers_` que retorna las coordenadas del centroide


In [88]:
plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], s= 300, c='yellow', label='Centroids')
# Adicionamos un titulo
plt.title('Clusters of clients')

# Ponemos el nombre al eje x
plt.xlabel('Annual Income (k$)')

# Ponemos el nombre al eje y
plt.ylabel('Spendijng Score (1-100)')

plt.legend()

# Y por ultimo pero no menos importante desplegamos el gráfico para nuestros 5 clústeres 
plt.show()




![alt text](https://cldup.com/hAByIt8chd-2000x2000.png "Clusters para seleccion de grupos de clientes por ingresos anual")



Miremos los resultados

- Cluster 1: Rojo

Los clientes del cluster 1 tienen altos ingresos (**Annual Income**) y no puntaje de gastos o compras (**spending score**)

En este cluster, los clientes ganan altos ingresos pero no gastan mucho dinero. 

Podemos llamar a este cluster 1, **el cluster de Clientes cuidadosos**

- Cluster 2: Azúl

Los clientes del cluster 2 tienen ingresos promedio y tienen un gasto promedio
Podemos llamar a este cluster 2, **el cluster de clientes estándar*

- Cluster 3: Verde

Los clientes del cluster 3 tienen ingresos altos y tienen un gasto alto
Este cluster de clientes es la población objetivo potencial de las campañas de marketing del
centro comercial
Sería muy útil para todos entender que tipo de productos compran los clientes en este clúster 
POdemos llamar a este cluster **Target**

---

Eventualmente podemos pensar en los nombres para los otros clústers 

- Cluster 4: Azul clarito 

Los clientes del cluster 4 tienen bajos ingresos pero alto puntaje de gasto 
POdemos llamar a los clientes de este cluster **No cuidadosos**

- Cluster 5: Magenta

Los clientes del cluster 5 tienen bajos ingresos y bajos gastos
POdemos llamar a los clientes de este cluster **Clientes sensibles**

