# Intro

Per installare scikit-learn:

In [None]:
pip install scikit-learn

In [1]:
import numpy as np

# Metodi di clustering

## Metodo delle k-medie
Clusterizza i dati cercando di separarli in n gruppi, specificati a priori, minimizzando l’inerzia o la somma al quadrato della distanza within; algoritmo che scala bene per grandi numeri di campioni

In [2]:
X = np.array([[1, 2], [1, 4], [1, 0], [10, 2], [10, 4], [10, 0]])

In [3]:
from sklearn.cluster import KMeans
kmeans = KMeans(n_clusters=2, random_state=0, n_init="auto").fit(X)

In [4]:
kmeans.labels_

array([1, 1, 1, 0, 0, 0])

In [5]:
kmeans.predict([[0, 0], [12, 3]])

array([1, 0])

In [6]:
kmeans.cluster_centers_

array([[10.,  2.],
       [ 1.,  2.]])

OPPURE

In [None]:
def plot_ssd_curve(data):
  
  ssd = {}
  for k in range(1, 10):
      kmeans = KMeans(init="k-means++", n_clusters=k, random_state=RANDOM_SEED).fit(data)
      ssd[k] = kmeans.inertia_
  plt.figure()
  plt.plot(list(ssd.keys()), list(ssd.values()),marker='o')
  plt.xlabel("Numero di cluster", fontsize=16)
  plt.ylabel("Somma delle distanza al quadrato", fontsize=16)
  plt.show()
# per metodo kmedie

plot_ssd_curve(X)

In [None]:
def plot_clusters(model, data, axlabels=None, print_ssd=False):
  y_pred = model.predict(data)
  sns.scatterplot(x=data[:,0], y=data[:,1], hue=y_pred, s=100)
  plt.scatter(model.cluster_centers_[:, 0], model.cluster_centers_[:, 1], c='red', s=200, alpha=0.5)

  if axlabels!=None:
    plt.xlabel(axlabels[0], fontsize=16)
    plt.ylabel(axlabels[1], fontsize=16)

  if print_ssd:
    plt.text(X[:,0].max()-10, 0, f"SSD={model.inertia_:.2f}")

  plt.show()
# per visualizzare i cluster

kmeans = KMeans(n_clusters = 5, init = 'k-means++', random_state = RANDOM_SEED)
kmeans.fit(X)
plot_clusters(kmeans, X, axlabels=["Annual Income (k$)","Spending Score (1-100)"], print_ssd=True)

In [None]:
# OPPURE 
# DA PROVARE
# per determinare il numero di clusters

sse = {}
for k in range(1, 10):
    kmeans = KMeans(init="k-means++", n_clusters=k).fit(X)
    #print(data["clusters"])
    sse[k] = kmeans.inertia_ # Inertia: Sum of distances of samples to their closest cluster center
plt.figure()
plt.plot(list(sse.keys()), list(sse.values()),marker='o')
plt.xlabel("Numero di clusters", fontsize=16)
plt.ylabel("Somma delle distanza al quadrato", fontsize=16)
plt.savefig("number_of_k.png")
plt.show()

In [None]:
from sklearn.cluster import KMeans

km = KMeans(n_clusters=2)
km.fit(X)
y_km = km.predict(X)

plt.scatter(X[:, 0], X[:, 1], c=y_km,cmap='viridis')
plt.show()

## Affinity propagation
Crea cluster mandando messaggi tra coppie di campioni fino alla convergenza; il dataset finale può essere descritto con un piccolo numero di esemplari considerati come membri più significativi del campione

In [7]:
X = np.array([[1, 2], [1, 4], [1, 0], [4, 2], [4, 4], [4, 0]]) 

In [8]:
from sklearn.cluster import AffinityPropagation
clustering = AffinityPropagation(random_state=5).fit(X)
clustering

In [9]:
clustering.labels_

array([0, 0, 0, 1, 1, 1], dtype=int64)

In [10]:
clustering.predict([[0, 0], [12, 3]])

array([0, 1], dtype=int64)

In [11]:
clustering.cluster_centers_

array([[1, 2],
       [4, 2]])

## MeanShift 
Punta a scoprire cluster in campioni molto densi; algoritmo basato sui centroidi, che lavora sull’aggiornamento dei centroidi in modo da essere la media dei punti all’interno di una data regione

In [12]:
X = np.array([[1, 1], [2, 1], [1, 0], [4, 7], [3, 5], [3, 6]])

In [13]:
from sklearn.cluster import MeanShift
clustering = MeanShift(bandwidth=2).fit(X)
clustering

In [14]:
clustering.labels_

array([1, 1, 1, 0, 0, 0], dtype=int64)

In [15]:
clustering.predict([[0, 0], [5, 5]])

array([1, 0], dtype=int64)

In [16]:
clustering.cluster_centers_

array([[3.33333333, 6.        ],
       [1.33333333, 0.66666667]])

## Spectral Clustering
Per un low-dimensional embedding; molto efficiente se la matrice di affinità è sparsa; il numero di cluster va specificato a priori; lavora bene con un numero ridotto di clusters, non è consigliato per numeri elevati di clusters

In [None]:
X = np.array([[1, 1], [2, 1], [1, 0], [4, 7], [3, 5], [3, 6]])

In [17]:
from sklearn.cluster import SpectralClustering
clustering = SpectralClustering(n_clusters=2, assign_labels='discretize', random_state=0).fit(X)
clustering

In [18]:
clustering.labels_

array([1, 1, 1, 0, 0, 0], dtype=int64)

## Clustering Gerarchico
Produce clusters annidati unendoli o separandoli in successione; questa gerarchia di clusters può essere rappresentata da un albero, o dendrogramma, con la radice come l’unico cluster contenente tutto, e le foglie come piccoli clusters con un solo campione; i clustering agglomerativi creano una gerarchia secondo metriche come la distanza di Ward, il massimo linkage, il linkage medio o il singolo linkage

In [21]:
X = np.array([[1, 2], [1, 4], [1, 0], [4, 2], [4, 4], [4, 0]])

In [22]:
from sklearn.cluster import AgglomerativeClustering
clustering = AgglomerativeClustering().fit(X)
clustering

In [23]:
clustering.labels_

array([1, 1, 1, 0, 0, 0], dtype=int64)

In [24]:
clustering.n_clusters_

2

In [25]:
clustering.n_leaves_

6

In [None]:
# OPPURE
# DA PROVARE
# per dendrogramma

from scipy.cluster.hierarchy import linkage, dendrogram

plt.figure(figsize=(18,14))
dendogram = dendrogram(linkage(X, method="ward"))
plt.ylabel("Distanza")
plt.title("Dendrogramma")
plt.xticks(fontsize=8)
plt.show()

In [None]:
from sklearn.cluster import AgglomerativeClustering # Clustering Gerarchico Agglomerativo
hc = AgglomerativeClustering(n_clusters=3)
y = hc.fit_predict(X)

plt.scatter(X[:, 0], X[:, 1], c=y, s=200, cmap='viridis', edgecolors="black");

## DBSCAN 
Individua i clusters come aree ad alta densità rispetto ad aree a bassa densità di punti; i cluster possono essere di ogni forma, rispetto ad esempio alle k-medie e alle loro forme convesse; si basa sul concetto di core samples, ovvero campioni in aree ad alta densità.

Il principale problema del DBSCAN è che bisogna ottimizzare i valori di eps e minPts e questo è particolarmente difficile specialmente in casi in cui la densità dei clusters è notevolmente diversa, cioè quando la differenza del numero di osservazioni per cluster è elevata.

In [27]:
X = np.array([[1, 2], [2, 2], [2, 3], [8, 7], [8, 8], [25, 80]])

In [28]:
from sklearn.cluster import DBSCAN
clustering = DBSCAN(eps=3, min_samples=2).fit(X)
clustering

In [29]:
clustering.labels_

array([ 0,  0,  0,  1,  1, -1], dtype=int64)

In [None]:
# OPPURE
# DA PROVARE

from sklearn.cluster import DBSCAN

dbscan = DBSCAN(eps=0.25, min_samples=5)
y_dbscan = dbscan.fit_predict(X)

plt.scatter(X[:, 0], X[:, 1], c=y_dbscan,cmap='viridis')
#core_pts = dbscan.components_
#plt.scatter(x=core_pts[:, 0], y=core_pts[:, 1], c='red', s=200, alpha=0.5);
plt.show()

## OPTICS
Simile al DBSCAN, ma il valore di eps non è fisso ma compreso in un range di valori

In [30]:
X = np.array([[1, 2], [2, 5], [3, 6], [8, 7], [8, 8], [7, 3]])

In [32]:
from sklearn.cluster import OPTICS
clustering = OPTICS(min_samples=5).fit(X)

In [33]:
clustering.labels_

array([0, 0, 0, 0, 0, 0])

In [34]:
clustering.cluster_hierarchy_

array([[0, 5]], dtype=int64)

## BIRCH
Costruisce un albero, comprimendo i dati in un set di nodi di Clustering Feature

In [35]:
X = [[0, 1], [0.3, 1], [-0.3, 1], [0, -1], [0.3, -1], [-0.3, -1]]

In [36]:
from sklearn.cluster import Birch
brc = Birch(n_clusters=None, threshold = 0.5)
brc.fit(X)

In [37]:
brc.predict(X)

array([0, 0, 0, 1, 1, 1])

In [39]:
brc.subcluster_centers_

array([[ 0.,  1.],
       [ 0., -1.]])

# Performance evaluation di metodi di clustering

## Rand index
Misura la similarità tra due metodi

In [40]:
from sklearn import metrics
labels_true = [0, 0, 0, 1, 1, 1]
labels_pred = [0, 0, 1, 1, 2, 2]
metrics.rand_score(labels_true, labels_pred)

0.6666666666666666

In [41]:
metrics.adjusted_rand_score(labels_true, labels_pred)

0.24242424242424243

## Mutual Information
Misura la concordanza di due assignement, ignorando le permutazioni

In [42]:
from sklearn import metrics
labels_true = [0, 0, 0, 1, 1, 1]
labels_pred = [0, 0, 1, 1, 2, 2]
metrics.adjusted_mutual_info_score(labels_true, labels_pred)

0.2987924581708901

## Omogeneità
Ogni cluster comprende solo membri di una singola classe

In [43]:
from sklearn import metrics
labels_true = [0, 0, 0, 1, 1, 1]
labels_pred = [0, 0, 1, 1, 2, 2]
metrics.homogeneity_score(labels_true, labels_pred)

0.6666666666666669

## Completezza
Tutti i membri di una classe sono assegnati allo stesso cluster

In [44]:
from sklearn import metrics
labels_true = [0, 0, 0, 1, 1, 1]
labels_pred = [0, 0, 1, 1, 2, 2]
metrics.completeness_score(labels_true, labels_pred)

0.420619835714305

## V-measure
Media armonica tra omogeneità e completezza

In [45]:
from sklearn import metrics
labels_true = [0, 0, 0, 1, 1, 1]
labels_pred = [0, 0, 1, 1, 2, 2]
metrics.v_measure_score(labels_true, labels_pred)

0.5158037429793889

## Fowlkes-Mallows index
Metrica per misurare la matrice di confusione

In [46]:
from sklearn import metrics
labels_true = [0, 0, 0, 1, 1, 1]
labels_pred = [0, 0, 1, 1, 2, 2]
metrics.fowlkes_mallows_score(labels_true, labels_pred)

0.4714045207910317

## Coefficiente di Silhouette
Per valutare la matrice di confusione

In [None]:
from sklearn import metrics
kmeans_model = KMeans(n_clusters=3, random_state=1).fit(X)
labels = kmeans_model.labels_
metrics.silhouette_score(X, labels, metric='euclidean')

## Matrice di contingenze
Riporta le cardinalità della vera classe predetta correttamente

In [47]:
from sklearn.metrics.cluster import contingency_matrix
x = ["a", "a", "a", "b", "b", "b"]
y = [0, 0, 1, 1, 2, 2]
contingency_matrix(x, y)

array([[2, 1, 0],
       [0, 1, 2]], dtype=int64)