In [None]:
# This Python 3 environment comes with many helpful analytics libraries installed
# It is defined by the kaggle/python docker image: https://github.com/kaggle/docker-python
# For example, here's several helpful packages to load in 

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

# Input data files are available in the "../input/" directory.
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# Any results you write to the current directory are saved as output.

In [None]:
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score, calinski_harabasz_score
from yellowbrick.cluster import KElbowVisualizer

In [None]:
dataset = pd.read_csv("../input/mall-customers/Mall_Customers.csv")
#Considero solo due features (Annual income e Spending Score)
X= dataset.iloc[:, [3,4]].values

In [None]:
plt.scatter(X[:,0], X[:,1], c='yellow', marker='o', edgecolor='black', s=100)

Come si può vedere, i dati del grafico precedente sono tali da costituire ad occhio 5 raggruppamenti. Quando ciò non è possibile, per scegliere il numero ideale di cluster, si può usare l'elbow method, che prevede l'iterazione di KMeans per diversi valori di k ed ogni volta calcola la somma delle distanze al quadrato tra ogni centroide ed i punti del proprio cluster.
Per farlo, invece di iterare l'algoritmo KMeans, ho utilizzato **KElbowVisualizer** che implementa l'elbow method per aiutare a selezionare il numero ottimale di cluster. Se il grafico assomiglia a un braccio, allora il "gomito" (il punto in cui la curva sembra "scendere" in maniera più lineare) corrisponde al numero di cluster ottimale. 
In questo caso specifico, il punto di gomito corrisponde a k = 4, e non a k = 5 come ci si poteva aspettare dalla figura.



In [None]:
km = KMeans()
visualizer = KElbowVisualizer(km, k = (1,10))
visualizer.fit(X)
visualizer.poof()

La silhouette misura quanto è vicino ogni punto in un cluster ai punti nei suoi cluster vicini. I valori della silhouette si trovano nell’intervallo di [-1, 1]. Un valore di 1 indica che il campione è lontano dal cluster adiacente e molto vicino al cluster assegnato; il valore -1 indica che il punto è vicino al cluster adiacente rispetto al cluster assegnato. Di conseguenza un valore della silhouette che tende ad 1 indica che la scelta del numero di cluster è buona.

La calinski_harabasz misura la similarità entro i cluster e la dissimilarità tra i cluster. Il numero di cluster ottimo si ottiene in corrispondenza del k che massimizza il valore calinski_harabasz.

In [None]:
model = KMeans(n_clusters = 4)
model.fit(X)
print('Silhouette Score')
print(silhouette_score(X, model.labels_, metric = 'euclidean'))
print('Calinski_harabasz Score')
print(calinski_harabasz_score(X, model.labels_))

In [None]:
plt.scatter(X[:,0], X[:,1], c = model.labels_, cmap = 'jet' )
plt.scatter(model.cluster_centers_[:,0], model.cluster_centers_[:,1], c = 'red', marker = 's')

KElbowVisualizer non utilizza solo la somma delle distanze al quadrato tra ogni centroide ed i punti del proprio cluster ma anche altre due metriche, la silhouette e la calinski_harabasz. Con queste metriche il numero ottimale di cluster k è pari a 5 come ci si aspettava.

In [None]:
visualizer = KElbowVisualizer(model, k = (2,10), metric = 'silhouette', timings = False)
visualizer.fit(X)
visualizer.poof()

In [None]:
visualizer = KElbowVisualizer(model, k = (2,10), metric = 'calinski_harabasz', timings = False)
visualizer.fit(X)
visualizer.poof()

In conclusione, il numero ottimale di cluster varia tra 4 e 5 secondo KElbowVisualizer.