In [1]:
import numpy as np
from sklearn.cluster import KMeans, DBSCAN
from sklearn.datasets import make_blobs
from sklearn.metrics import adjusted_rand_score, silhouette_score

In [2]:
def print_kmeans_results(X, y, use_case, verbose=False):
    print(f'{use_case} - KMeans')
    n_clusters_ari_best = 2
    n_clusters_silhouette_best = 2
    ari_best = 0
    silhouette_best = 0
    for n_clusters in range(2, 6):
        kmeans = KMeans(n_clusters=n_clusters)
        preds = kmeans.fit_predict(X)
        ari = round(adjusted_rand_score(y, preds), 2)
        silhouette = round(silhouette_score(X, preds), 2)
        if verbose:
            print(f'Numero di cluster: {n_clusters}')
            print(f'ARI KMeans: {ari}')
            print(f'Silhouette score KMeans: {silhouette}')
        if ari > ari_best:
            ari_best = ari
            n_clusters_ari_best = n_clusters
        if silhouette > silhouette_best:
            silhouette_best = silhouette
            n_clusters_silhouette_best = n_clusters
    print(
        f'''Parametri con il valore massimo di ARI:
        num clusters: {n_clusters_ari_best}
        Valore massimo di ARI: {ari_best}''')
    print(
        f'''Parametri con il valore massimo di silhouette:
        num clusters: {n_clusters_silhouette_best}
        Valore massimo di silhouette: {silhouette_best}''')


def print_dbscan_results(X, y, use_case, verbose=False):
    print(f'{use_case} - DBSCAN')
    eps_mins_ari_best = [0, 0]
    eps_mins_silhouette_best = [0, 0]
    ari_best = 0
    silhouette_best = 0
    for epsilon in [0.5, 1.0]:
        for min_samples in [5, 10]:
            dbscan = DBSCAN(eps=epsilon, min_samples=min_samples)
            preds = dbscan.fit_predict(X)
            ari = round(adjusted_rand_score(y, preds), 2)
            silhouette = round(silhouette_score(X, preds), 2)
            if verbose:
                print(f'Epsilon: {epsilon} - Min samples: {min_samples}')
                print(f'ARI KMeans: {ari}')
                print(f'Silhouette score KMeans: {silhouette}')
            if ari > ari_best:
                ari_best = ari
                eps_mins_ari_best = [epsilon, min_samples]
            if silhouette > silhouette_best:
                silhouette_best = silhouette
                eps_mins_silhouette_best = [epsilon, min_samples]
    print(
        f'''Parametri con il valore massimo di ARI:
        eps: {eps_mins_ari_best[0]} - min samples: {eps_mins_ari_best[1]}
        Valore massimo di ARI: {ari_best}''')
    print(
        f'''Parametri con il valore massimo di silhouette score:
        eps: {eps_mins_silhouette_best[0]} - min samples: {eps_mins_silhouette_best[1]}
        Valore massimo di silhouette: {silhouette_best}''')

In [3]:
# Esercizio E21.1
X, y = make_blobs(n_samples=1000, random_state=42)

print_kmeans_results(X, y, 'Cluster corretti')
print_dbscan_results(X, y, 'Cluster corretti')

Cluster corretti - KMeans
Parametri con il valore massimo di ARI:
        num clusters: 3
        Valore massimo di ARI: 1.0
Parametri con il valore massimo di silhouette:
        num clusters: 3
        Valore massimo di silhouette: 0.84
Cluster corretti - DBSCAN
Parametri con il valore massimo di ARI:
        eps: 1.0 - min samples: 5
        Valore massimo di ARI: 0.99
Parametri con il valore massimo di silhouette score:
        eps: 1.0 - min samples: 5
        Valore massimo di silhouette: 0.82


In [4]:
# Ipotesi 1: anisotropia
t = np.tan(np.radians(60))
rot = np.array([[1, t], [0, 1]])
X_an = X.dot(rot)

print_kmeans_results(X_an, y, 'Cluster anisotropi')
print_dbscan_results(X_an, y, 'Cluster anisotropi')

Cluster anisotropi - KMeans
Parametri con il valore massimo di ARI:
        num clusters: 3
        Valore massimo di ARI: 0.99
Parametri con il valore massimo di silhouette:
        num clusters: 2
        Valore massimo di silhouette: 0.82
Cluster anisotropi - DBSCAN
Parametri con il valore massimo di ARI:
        eps: 1.0 - min samples: 5
        Valore massimo di ARI: 1.0
Parametri con il valore massimo di silhouette score:
        eps: 1.0 - min samples: 5
        Valore massimo di silhouette: 0.74


In [5]:
# Ipotesi 2: diversa varianza
X_var, y_var = make_blobs(
    n_samples=1000,
    random_state=200,
    cluster_std=[1.8, 2.5, 2.4])

print_kmeans_results(X_var, y_var, 'Cluster a diversa varianza')
print_dbscan_results(X_var, y_var, 'Cluster a diversa varianza')

Cluster a diversa varianza - KMeans
Parametri con il valore massimo di ARI:
        num clusters: 3
        Valore massimo di ARI: 0.74
Parametri con il valore massimo di silhouette:
        num clusters: 3
        Valore massimo di silhouette: 0.49
Cluster a diversa varianza - DBSCAN
Parametri con il valore massimo di ARI:
        eps: 0.5 - min samples: 5
        Valore massimo di ARI: 0.32
Parametri con il valore massimo di silhouette score:
        eps: 1.0 - min samples: 5
        Valore massimo di silhouette: 0.31


In [6]:
# Ipotesi 3: diversa cardinalità
X, y = make_blobs(n_samples=1000, random_state=12)
X_uneven = np.concatenate(
    (X[y == 0][:200], X[y == 1][:50], X[y == 2][:10]),
    axis=0)
y_uneven = np.concatenate(
    (y[y == 0][:200], y[y == 1][:50], y[y == 2][:10]),
    axis=0)

print_kmeans_results(X_var, y_var, 'Cluster a diversa cardinalità')
print_dbscan_results(X_var, y_var, 'Cluster a diversa cardinalità')

Cluster a diversa cardinalità - KMeans
Parametri con il valore massimo di ARI:
        num clusters: 3
        Valore massimo di ARI: 0.74
Parametri con il valore massimo di silhouette:
        num clusters: 3
        Valore massimo di silhouette: 0.49
Cluster a diversa cardinalità - DBSCAN
Parametri con il valore massimo di ARI:
        eps: 0.5 - min samples: 5
        Valore massimo di ARI: 0.32
Parametri con il valore massimo di silhouette score:
        eps: 1.0 - min samples: 5
        Valore massimo di silhouette: 0.31
