# Clustering

La tecnica di __[clustering](https://it.wikipedia.org/wiki/Clustering)__ consiste in un analisi multivariata dei dati al fine di stabilire dei gruppi contenenti dati simili al loro interno e dati diversi al loro esterno, in genere per effettuare questa misura della somiglianza tra i dati si ricorre a misura di metrica come distanza geometrica, in base ad essa i risultati potrebbero essere diversi.<br>
Il clustering presenta due approcci al problema:
- approccio aggregativo : ogni punto è un cluster a se e l'algoritmo secondo certe specifiche unisce i cluster più vicini
- approccio divisivo: il dataset è un unico cluster e vengono poi definito in seguito più cluster basandoci sulla similarità dei dati
**Potete notare che non sono state fatte assunzioni su come quantificare l'errore di mislassificazione ma solo sulle proprietà dei dati, questo ci dice che questi metodi sono unsupervised, ovvero l'agoritmo non richiede di sapere la soluzione corretta**.
***Questo è un allo stesso tempo un vantaggio e uno svataggio, lo svantaggio è che l'algoritmo impara autonomamente le proprietà dei dati, lo svantaggio è che è estrememamente difficile valutare e interpretare i risultati ottenuti.***
Per ovviare a questi problemi in molti casi si usa un __[clustering gerarchico](https://scikit-learn.org/stable/modules/clustering.html#hierarchical-clustering)__, questo permette di definire una struttura ad albero attraverso cui poter interpretare successivamente i dati.

## K-Means

Partiamo dall'algoritmo forse più conosciuto e citato per il clustering il __[K-means](https://scikit-learn.org/stable/modules/clustering.html#k-means)__, la caratteristica di questo algoritmo è **la necessità di sapere il numero di cluster e il fatto che essi siano isotropi e convessi, cosa che non permette sempre di essere in grado di rivelarsi vera**.<br>
L'algoritmo si basa sulla **minimizzazione della somma dei quadrati dei criterio(metrica eucliediana, di manhattan, ecc...) attraverso la scelta di centroidi, ovvero icentri del cluster**, per questi motivi dobbiamo stare a non passare dataset ad alta dimensionalità poichè in tal caso queste somma diventano enormi, per questo in molti casi questo effetto si chiama ***curse of dimensionality***.
La velocità con cui l'algoritmo converge e la possibilità di trovare un minimo locale è influita fortemente dalla scelta delle posizioni iniziali dei centroidi, un modo per risolvere il problema è usare l'algoritmo __[k-means++](https://en.wikipedia.org/wiki/K-means%2B%2B)__.<br>I cluster ottenuti alla fine avranno una varianza quanto più uguale possibile tra di loro, vediamo di capire cosa succede se però diamo un numero cluster sbagliato attraverso del codice python.

In [1]:
%matplotlib widget
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
from sklearn.cluster import KMeans
from sklearn.datasets import load_iris # dataset of plants
from sklearn.model_selection import train_test_split
from sklearn.metrics import plot_confusion_matrix, classification_report

#get the data
iris = load_iris()
iris_data = load_iris(as_frame=True)
#get the pandas dataframe
df = iris_data['frame']
print('The dataset we have is made of: ')
display(df)


X_train, X_test, y_train, y_test = train_test_split(iris_data['data'].values, 
                                                    iris_data['target'].values,
                                                    random_state=0, test_size=0.4)

#let's train the model
iris_kmeans = KMeans(n_clusters=3) #correct number of cluster
iris_kmeans.fit(X_train)

#classification training report
print("Training report classification of Kmeans on iris")
print(classification_report(y_train, iris_kmeans.predict(X_train)))

#classification teaining report
print("Testing report classification of Kmean on iris")
print(classification_report(y_test, iris_kmeans.predict(X_test)))

#unite predictions
kmeans_pred = np.concatenate((iris_kmeans.predict(X_train), iris_kmeans.predict(X_test)))

plt.figure(figsize=(10,5))
ax1 = plt.subplot(121, projection='3d', elev=-150, azim=110)
ax1.scatter(xs = df['sepal length (cm)'].values, ys = df['sepal width (cm)'].values, 
           zs = df['petal length (cm)'].values, c=df['target'].values )
ax1.set_title("Iris dataset")
ax1.set_xlabel('sepal length')
ax1.set_ylabel('sepal width')
ax1.set_zlabel('petal length')

ax2= plt.subplot(122, projection='3d', elev=-150, azim=110)
ax2.scatter(xs = df['sepal length (cm)'].values, ys = df['sepal width (cm)'].values, 
           zs = df['petal length (cm)'].values, c=kmeans_pred )
ax2.set_title("Predicted dataset KMEANS")
ax2.set_xlabel('sepal length')
ax2.set_ylabel('sepal width')
ax2.set_zlabel('petal length')

plt.show()

print(f'Cluster centers are:\n{iris_kmeans.cluster_centers_}')

The dataset we have is made of: 


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2


Training report classification of Kmeans on iris
              precision    recall  f1-score   support

           0       0.00      0.00      0.00        34
           1       0.00      0.00      0.00        27
           2       0.17      0.17      0.17        29

    accuracy                           0.06        90
   macro avg       0.06      0.06      0.06        90
weighted avg       0.05      0.06      0.05        90

Testing report classification of Kmean on iris
              precision    recall  f1-score   support

           0       0.00      0.00      0.00        16
           1       0.00      0.00      0.00        23
           2       0.29      0.43      0.35        21

    accuracy                           0.15        60
   macro avg       0.10      0.14      0.12        60
weighted avg       0.10      0.15      0.12        60



Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

Cluster centers are:
[[6.92307692 3.12307692 5.78076923 2.08461538]
 [4.99411765 3.38235294 1.45294118 0.23235294]
 [5.85666667 2.75333333 4.29666667 1.39333333]]


In [2]:
%matplotlib widget
print("Now we try to use the diabetes dataset")
#get diabetes data
diabetes = pd.read_csv('../data/diabetes2.csv')
X_diabetes, y_diabetes = diabetes.drop('Outcome', axis = 1).values, diabetes.Outcome.values

X_diab_train, X_diab_test, y_diab_train, y_diab_test = train_test_split(X_diabetes, 
                                                    y_diabetes,
                                                    random_state=0, test_size=0.2)

#ler's train the model
diab_kmeans = KMeans(n_clusters=2) #correct number of cluster
diab_kmeans.fit(X_diab_train)

#classification training report
print("Training report classification of Kmeans on diabetes")
print(classification_report(y_diab_train, diab_kmeans.predict(X_diab_train)))

#classification teaining report
print("Testing report classification of Kmeans on diabetes")
print(classification_report(y_diab_test, diab_kmeans.predict(X_diab_test)))

#unite predictions
kmeans_pred_diab = np.concatenate((diab_kmeans.predict(X_diab_train), diab_kmeans.predict(X_diab_test)))

plt.figure(figsize = (10,5))
ax3 = plt.subplot(121, projection='3d', elev=-150, azim=110)
ax3.scatter(xs = diabetes['BMI'].values, ys = diabetes['Glucose'].values, 
           zs = diabetes['Age'].values, c=y_diabetes )
ax3.set_title("Diabetes dataset")
ax3.set_xlabel('BMI')
ax3.set_ylabel('Glucose')
ax3.set_zlabel('Age')

ax4 = plt.subplot(122, projection='3d', elev=-150, azim=110)
ax4.scatter(xs = diabetes['BMI'].values, ys = diabetes['Glucose'].values, 
           zs = diabetes['Age'].values, c=kmeans_pred_diab )
ax4.set_title("Predicted dataset KMEANS")
ax4.set_xlabel('BMI')
ax4.set_ylabel('Glucose')
ax4.set_zlabel('Age')

plt.show()

print(f'Cluster centers are:\n{diab_kmeans.cluster_centers_}')

Now we try to use the diabetes dataset
Training report classification of Kmeans on diabetes
              precision    recall  f1-score   support

           0       0.69      0.83      0.75       393
           1       0.52      0.32      0.40       221

    accuracy                           0.65       614
   macro avg       0.60      0.58      0.57       614
weighted avg       0.63      0.65      0.62       614

Testing report classification of Kmeans on diabetes
              precision    recall  f1-score   support

           0       0.75      0.88      0.81       107
           1       0.54      0.32      0.40        47

    accuracy                           0.71       154
   macro avg       0.64      0.60      0.60       154
weighted avg       0.68      0.71      0.68       154



Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

Cluster centers are:
[[  3.96855346 115.18658281  68.34591195  17.68972746  32.63102725
   31.44046122   0.43319078  33.71069182]
 [  3.54744526 140.77372263  72.2919708   30.83941606 254.50364964
   34.87445255   0.58234307  33.18978102]]


Come possiamo vedere in tal caso la situazione non è così buona, nè ottimale, questo è dovuto al fatto che noi non abbiamo dei cluster isotropi e non sono convessi, infatti si sovrappongono molto spesso uno con l'altro.<br>
Ci possiamo mettere a usare altri algoritmi come __[Spectral clusteing](https://scikit-learn.org/stable/modules/clustering.html#spectral-clustering)__, __[BIRCH](https://scikit-learn.org/stable/modules/clustering.html#birch)__ e altri oppure preprocessare il dataset, quello che però ci possiamo chiesere è **qualora io però non sappia il numero di cluster posso usare algoritmo che non lo richiedano? La risposta è SI, esistono questi lgoritmi tra questi in scikit ci sono:** __[Affinity propagation](%matplotlib widget)__,  __[DBSCAN](https://scikit-learn.org/stable/modules/clustering.html#dbscan)__, __[OPTICS](https://scikit-learn.org/stable/modules/clustering.html#optics)__ e altri, in questo notebook farò vedere solo il DBSCAN.

## DBSCAN

Il __[DBSCAN](https://it.wikipedia.org/wiki/Dbscan)__ acronimo per "Density-Based Spatial Clustering of Applications with Noise" è un algoritmo di clustering il cui obiettivo e di dividere le regioni dello spazio in zone ad altà densità circondate da zone a bassa densità, per fare ciò il DBSCAN usa dei parametridi densità attraverso cui riesce a definire dei core samples che saranno il nostro cluster.<br>
Controllando i valori dei parametri possiamo rendere l'algoritmo più robusto rispetto al Noise che ci permette di definire anche quando alcuni punti che non appartengono ai cluster siano effettivamente outliers, notate bene che a differenza dei kmeans questo algoritmo non richiede alcuna ipotesi sulla forma che abbiano questi cluster. L'implementazione scikit la trovate __[qui](https://scikit-learn.org/stable/modules/generated/sklearn.cluster.DBSCAN.html#sklearn.cluster.DBSCAN)__, consultate anche la __[user guide di scikit](https://scikit-learn.org/stable/modules/clustering.html#dbscan)__.

In [3]:
from sklearn.cluster import DBSCAN

dbscan = DBSCAN(n_jobs=-1)#all cores

#classification training report
print("Classification of DBSCAN on iris")
print(classification_report(iris_data['target'].values, dbscan.fit_predict(iris_data['data'].values)))

plt.figure(figsize=(10,5))
ax1 = plt.subplot(121, projection='3d', elev=-150, azim=110)
ax1.scatter(xs = df['sepal length (cm)'].values, ys = df['sepal width (cm)'].values, 
           zs = df['petal length (cm)'].values, c=df['target'].values )
ax1.set_title("Iris dataset")
ax1.set_xlabel('sepal length')
ax1.set_ylabel('sepal width')
ax1.set_zlabel('petal length')

ax2= plt.subplot(122, projection='3d', elev=-150, azim=110)
ax2.scatter(xs = df['sepal length (cm)'].values, ys = df['sepal width (cm)'].values, 
           zs = df['petal length (cm)'].values, c=dbscan.fit_predict(iris_data['data'].values) )
ax2.set_title("Predicted dataset DBSCAN")
ax2.set_xlabel('sepal length')
ax2.set_ylabel('sepal width')
ax2.set_zlabel('petal length')

plt.show()

Classification of DBSCAN on iris
              precision    recall  f1-score   support

          -1       0.00      0.00      0.00         0
           0       1.00      0.98      0.99        50
           1       0.52      0.88      0.66        50
           2       0.00      0.00      0.00        50

    accuracy                           0.62       150
   macro avg       0.38      0.46      0.41       150
weighted avg       0.51      0.62      0.55       150



  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

In [4]:
#classification training report
print("Classification of DBSCAN on diabetes")
print(classification_report(y_diabetes, dbscan.fit_predict(X_diabetes)))

plt.figure(figsize = (10,5))
ax3 = plt.subplot(121, projection='3d', elev=-150, azim=110)
ax3.scatter(xs = diabetes['BMI'].values, ys = diabetes['Glucose'].values, 
           zs = diabetes['Age'].values, c=y_diabetes )
ax3.set_title("Diabetes dataset")
ax3.set_xlabel('BMI')
ax3.set_ylabel('Glucose')
ax3.set_zlabel('Age')

ax4 = plt.subplot(122, projection='3d', elev=-150, azim=110)
ax4.scatter(xs = diabetes['BMI'].values, ys = diabetes['Glucose'].values, 
           zs = diabetes['Age'].values, c=dbscan.fit_predict(X_diabetes) )
ax4.set_title("Predicted dataset DBSCAN")
ax4.set_xlabel('BMI')
ax4.set_ylabel('Glucose')
ax4.set_zlabel('Age')

plt.show()

Classification of DBSCAN on diabetes
              precision    recall  f1-score   support

          -1       0.00      0.00      0.00       0.0
           0       0.00      0.00      0.00     500.0
           1       0.00      0.00      0.00     268.0

    accuracy                           0.00     768.0
   macro avg       0.00      0.00      0.00     768.0
weighted avg       0.00      0.00      0.00     768.0



  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

Come possiamo vedere il DBSCAN in alcuni dataset è in grado di fare un lavoro discreto come nell'iris, ma purtroppo per altri tipi di dataset come diabetes non lo fa poiché la densità dei dataset è troppo significativa per poter definire ulteriori cluster, per provare a ottenere soluzioni migliori potete impostare diversi valori di `min_samples` e `eps` oppure cambiare l'ordine dei dati che influisce sulla creazione dei cluster.<br>
Negli algoritmi agglomerativi è possibile avere un __[dendogramma](https://it.wikipedia.org/wiki/Dendrogramma)__ attraverso cui è possibile visualizzare l'albero di separazione, potete guardare __[questo esempio scikit](https://scikit-learn.org/stable/auto_examples/cluster/plot_agglomerative_dendrogram.html)__.<br>
Per avere una visione più generale del problema potete anche guardare come si comportano i diversi algoritmi scikit __[qui](https://scikit-learn.org/stable/modules/clustering.html#overview-of-clustering-methods)__, inoltre per saperne di più sul clustering in scikit consultate __[la sezione scikit](https://scikit-learn.org/stable/modules/generated/sklearn.cluster.DBSCAN.html#sklearn.cluster.DBSCAN)__.

***

COMPLIMENTO AVETE FINITO IL NOTEBOOK SUL CLUSTERING A PRESTO!