## Clustering gerarchico
Come abbiamo visto, il clustering gerarchico è un metodo di apprendimento non supervisionato per il clustering di punti dati, l'algoritmo crea cluster misurando le differenze tra i dati. Sappiamo che l'apprendimento non supervisionato si basa su un modello che non deve essere addestrato e non abbiamo bisogno di una variabile "target", questo metodo può essere utilizzato su qualsiasi dato per visualizzare e interpretare la relazione tra i singoli punti dati.

In questa prima parte pratica utilizzeremo il clustering gerarchico per raggruppare i punti dati e visualizzare i cluster utilizzando sia un dendrogramma che un grafico a dispersione.

### Come funziona?
Utilizzeremo l'Agglomerative Clustering, un tipo di clustering gerarchico che segue un approccio dal basso verso l'alto, iniziamo trattando ciascun punto dati come un proprio cluster, quindi, uniamo insieme i cluster che hanno la distanza più breve tra loro per creare cluster più grandi. Questo passaggio viene ripetuto finché non viene formato un cluster di grandi dimensioni contenente tutti i punti dati.

Il clustering gerarchico ci impone di decidere sia il metodo della distanza che quello del collegamento. Utilizzeremo la distanza euclidea e il metodo del collegamento di Ward, che tenta di minimizzare la varianza tra i cluster.

### Esempio
Iniziamo visualizzando alcuni punti dati:

In [None]:
import numpy as np
import matplotlib.pyplot as plt

x = [4, 5, 10, 4, 3, 11, 14 , 6, 10, 12]
y = [21, 19, 24, 17, 16, 25, 24, 22, 21, 21]

plt.scatter(x, y)
plt.show()

Ora trasformiamo i dati in un insieme di punti:

In [None]:
data = list(zip(x, y))
print(data)

ora grazie alla libreria scipy calcoliamo il collegamento tra tutti i diversi punti. Qui utilizziamo una semplice misura di distanza euclidea e il collegamento di Ward, che cerca di ridurre al minimo la varianza tra i cluster.

In [None]:
from scipy.cluster.hierarchy import dendrogram, linkage
linkage_data = linkage(data, method='ward', metric='euclidean')

Infine, tracciamo i risultati in un dendrogramma, questo grafico ci mostrerà la gerarchia dei cluster dal basso (singoli punti) verso l'alto (un singolo cluster costituito da tutti i punti dati).

plt.show()ci consente di visualizzare il dendrogramma anziché solo i dati grezzi di collegamento.

In [None]:
dendrogram(linkage_data)
plt.show()

La libreria scikit-learn ci consente di utilizzare il clustering gerarchico in modo diverso. Innanzitutto, inizializziamo la classe AgglomerativeClustering con 2 cluster, utilizzando la stessa distanza euclidea e il collegamento di Ward.

In [None]:
from sklearn.cluster import AgglomerativeClustering
hierarchical_cluster = AgglomerativeClustering(n_clusters=2, linkage='ward')

Il metodo .fit_predict può essere richiamato sui nostri dati per calcolare i cluster utilizzando i parametri definiti nel numero di cluster scelto.

In [None]:
labels = hierarchical_cluster.fit_predict(data) 
print(labels)

Infine, se tracciamo gli stessi dati e coloriamo i punti utilizzando le etichette assegnate a ciascun indice tramite il metodo del clustering gerarchico, possiamo vedere il cluster a cui è stato assegnato ciascun punto:

In [None]:
plt.scatter(x, y, c=labels)
plt.show()

## k-Means Clustering
Come abbiamo visto, il K-means è un metodo di apprendimento non supervisionato per il clustering di punti dati, l'algoritmo divide iterativamente i punti dati in K cluster riducendo al minimo la varianza in ciascun cluster.

Ora vedremo come stimare il valore migliore per K utilizzando il metodo del gomito, quindi utilizzeremo il clustering K-means per raggruppare i punti dati in cluster.

### Come funziona?
Innanzitutto, ciascun punto dati viene assegnato in modo casuale a uno dei K cluster. Quindi, calcoliamo il centroide (funzionalmente il centro) di ciascun cluster e riassegniamo ciascun punto dati al cluster con il centroide più vicino. Ripetiamo questo processo finché le assegnazioni dei cluster per ciascun punto dati non cambiano più.

k-Means Clustering richiede di selezionare K, il numero di cluster in cui vogliamo raggruppare i dati. Il metodo del gomito ci consente di rappresentare graficamente l'inerzia (una metrica basata sulla distanza) e visualizzare il punto in cui inizia a diminuire linearmente. Questo punto è denominato "soffio" ed è una buona stima del miglior valore di K in base ai nostri dati.

### Esempio
Iniziamo visualizzando alcuni punti dati:

In [None]:
import matplotlib.pyplot as plt

x = [4, 5, 10, 4, 3, 11, 14 , 6, 10, 12]
y = [21, 19, 24, 17, 16, 25, 24, 22, 21, 21]

plt.scatter(x, y)
plt.show()

Ora trasformiamo i dati in un insieme di punti:

In [None]:
data = list(zip(x, y))
print(data)

Per trovare il valore migliore per K, dobbiamo eseguire le medie K sui nostri dati per un intervallo di valori possibili. Abbiamo solo 10 punti dati, quindi il numero massimo di cluster è 10. Quindi, per ogni valore K in range(1,11), addestriamo un modello K-means e tracciamo l'intertia in corrispondenza di quel numero di cluster:

In [None]:
from sklearn.cluster import KMeans
inertias = []

for i in range(1,11):
    kmeans = KMeans(n_clusters=i)
    kmeans.fit(data)
    inertias.append(kmeans.inertia_)

plt.plot(range(1,11), inertias, marker='o')
plt.title('Elbow method')
plt.xlabel('Number of clusters')
plt.ylabel('Inertia')
plt.show()

Possiamo vedere che il "gomito" nel grafico sopra (dove l'interia diventa più lineare) è a K=2. Possiamo quindi adattare ancora una volta il nostro algoritmo delle medie K e tracciare i diversi cluster assegnati ai dati:

In [None]:
kmeans = KMeans(n_clusters=2)
kmeans.fit(data)

plt.scatter(x, y, c=kmeans.labels_)
plt.show()

## Presentazione più specifica del k-Means Clustering

Come già detto, l'algoritmo k-means cerca un numero predeterminato di cluster all'interno di un set di dati multidimensionale senza etichetta, per raggiungere questo obiettivo, utilizza una semplice concezione di come si presenta il clustering ottimale:

- Il "centro del cluster" è la media aritmetica di tutti i punti appartenenti al cluster.
- Ogni punto è più vicino al proprio centro del cluster che ad altri centri del cluster.

Queste due ipotesi sono alla base del modello k-means, diamo quindi un'occhiata a un semplice set di dati e vediamo il risultato k-means.

Innanzitutto, generiamo un set di dati bidimensionale contenente quattro BLOB distinti. Per sottolineare che si tratta di un algoritmo non supervisionato, lasceremo le etichette fuori dalla visualizzazione

In [None]:
#import library
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np

#make blobs
from sklearn.datasets import make_blobs
X, y_true = make_blobs(n_samples=300, centers=4,
                       cluster_std=0.60, random_state=0)
plt.scatter(X[:, 0], X[:, 1], s=50)

A occhio è relativamente facile individuare i quattro cluster. L' algoritmo k -means lo fa automaticamente e in Scikit-Learn utilizza la tipica API di stima:

In [None]:
from sklearn.cluster import KMeans
kmeans = KMeans(n_clusters=4)
kmeans.fit(X)
y_kmeans = kmeans.predict(X)

Visualizziamo i risultati tracciando i dati colorati da queste etichette. Tracciamo anche i centri dei cluster come determinati dallo stimatore k -means:

In [None]:
plt.scatter(X[:, 0], X[:, 1], c=y_kmeans, s=50, cmap='viridis')

centers = kmeans.cluster_centers_
plt.scatter(centers[:, 0], centers[:, 1], c='black', s=200)

La buona notizia è che l' algoritmo k-means (almeno in questo caso semplice) assegna i punti ai cluster in modo molto simile a come potremmo assegnarli a occhio. Ma potresti chiederti come fa questo algoritmo a trovare questi cluster così velocemente! Dopotutto, il numero di possibili combinazioni di assegnazioni di cluster è esponenziale nel numero di punti dati: una ricerca esaustiva sarebbe molto, molto costosa. Fortunatamente per noi, una ricerca così esaustiva non è necessaria: invece, l’approccio tipico alle k-means implica un approccio iterativo intuitivo noto come massimizzazione delle aspettative .

## Massimizzazione dell'aspettativa

In inglese Expectation–maximization (E–M) è un potente algoritmo che emerge in una varietà di contesti nell'ambito della scienza dei dati. k-means è un'applicazione dell'algoritmo particolarmente semplice e di facile comprensione e la esamineremo brevemente qui. In breve, l’approccio di massimizzazione delle aspettative come abbiamo visto consiste nella seguente procedura:

- Indovinare alcuni centri cluster
- Ripetere fino alla convergenza
 - E-Step : assegnare i punti al centro del cluster più vicino
 - M-Step : impostare i centri dei cluster sulla media

Qui il "fase E" o "fase delle aspettative" è chiamato così perché implica l'aggiornamento delle nostre aspettative su a quale cluster appartiene ciascun punto. Il "passo M" o "passo di massimizzazione" è così chiamato perché implica la massimizzazione di alcune funzioni di fit che definiscono la posizione dei centri dei cluster: in questo caso, tale massimizzazione viene ottenuta prendendo una media semplice dei dati in ciascun cluster .

La letteratura su questo algoritmo è vasta, ma può essere riassunta come segue: in circostanze tipiche, ogni ripetizione dell’E-step e dell’M-step risulterà sempre in una migliore stima delle caratteristiche del cluster.

Possiamo visualizzare l'algoritmo come mostrato nella figura seguente.

![k-meas](dati/img/k-means.png)


L' algoritmo k-Means è abbastanza semplice da poterlo scrivere in poche righe di codice. Quella che segue è un'implementazione molto semplice:

In [None]:
from sklearn.metrics import pairwise_distances_argmin

def find_clusters(X, n_clusters, rseed=2):
    # 1. Randomly choose clusters
    rng = np.random.RandomState(rseed)
    i = rng.permutation(X.shape[0])[:n_clusters]
    centers = X[i]

    while True:
        # 2a. Assign labels based on closest center
        labels = pairwise_distances_argmin(X, centers)

        # 2b. Find new centers from means of points
        new_centers = np.array([X[labels == i].mean(0)
                                for i in range(n_clusters)])

        # 2c. Check for convergence
        if np.all(centers == new_centers):
            break
        centers = new_centers

    return centers, labels

centers, labels = find_clusters(X, 4)
plt.scatter(X[:, 0], X[:, 1], c=labels,
            s=50, cmap='viridis')

La maggior parte delle implementazioni ben testate faranno qualcosa di più dietro le quinte, ma la funzione precedente fornisce l'essenza dell'approccio di massimizzazione delle aspettative.

### Avvertenze sull’aspettativa- massimizzazione

Ci sono alcuni problemi di cui tenere conto quando si utilizza l’algoritmo di massimizzazione delle aspettative.

### Il risultato globalmente ottimale potrebbe non essere raggiunto
In primo luogo, sebbene sia garantito che la procedura E-M migliori il risultato in ogni fase, non vi è alcuna garanzia che porti alla migliore soluzione globale. Ad esempio, se utilizziamo un seed casuale diverso nella nostra semplice procedura, le particolari ipotesi iniziali portano a scarsi risultati:

In [None]:
centers, labels = find_clusters(X, 4, rseed=0)
plt.scatter(X[:, 0], X[:, 1], c=labels,
            s=50, cmap='viridis')

Qui l’approccio E-M è convergente, ma non verso una configurazione ottimale a livello globale. Per questo motivo, è normale che l'algoritmo venga eseguito per più ipotesi iniziali, come in effetti fa Scikit-Learn per impostazione predefinita (impostato dal n_init parametro, che per impostazione predefinita è 10).

#### Il numero di cluster deve essere selezionato in anticipo
Un'altra sfida comune con k -means è che dobbiamo dirgli quanti cluster ci aspettiamo in anticipo: l'algoritmo infatti non può apprendere il numero di cluster dai dati. 
Ad esempio, se chiediamo all'algoritmo di identificare sei cluster, procederà felicemente e troverà i sei cluster migliori:

In [None]:
labels = KMeans(6, random_state=0).fit_predict(X)
plt.scatter(X[:, 0], X[:, 1], c=labels,
            s=50, cmap='viridis');

Purtroppo se il risultato sia significativo è una domanda a cui è difficile rispondere in modo definitivo.

#### k-medie è limitato ai confini dei cluster lineari
I presupposti fondamentali del modello k -means (i punti saranno più vicini al centro del proprio cluster rispetto ad altri) significano che l'algoritmo sarà spesso inefficace se i cluster hanno geometrie complicate.

In particolare, i confini tra i cluster k -medie saranno sempre lineari, il che significa che fallirà per confini più complicati. Consideriamo i seguenti dati, insieme alle etichette dei cluster trovate dal tipico approccio k -means:

In [None]:
from sklearn.datasets import make_moons
X, y = make_moons(200, noise=.05, random_state=0)

In [None]:
labels = KMeans(2, random_state=0).fit_predict(X)
plt.scatter(X[:, 0], X[:, 1], c=labels,
            s=50, cmap='viridis');

Questa situazione ricorda l'approccio fatto con le SVM, dove abbiamo utilizzato una trasformazione del kernel per proiettare i dati in una dimensione superiore dove è possibile una separazione lineare. Potremmo immaginare di utilizzare lo stesso trucco per consentire a k-means di scoprire confini non lineari.

Una versione di questo k-means kernelizzato è implementata in Scikit-Learn all'interno dello stimatore SpectralClustering , utilizziamo l'affinità dei KNN per calcolare una rappresentazione dimensionale superiore dei dati, quindi assegniamo le etichette utilizzando un algoritmo k-means:

In [None]:
from sklearn.cluster import SpectralClustering
model = SpectralClustering(n_clusters=2, affinity='nearest_neighbors',
                           assign_labels='kmeans')
labels = model.fit_predict(X)
plt.scatter(X[:, 0], X[:, 1], c=labels,
            s=50, cmap='viridis')

Vediamo che con questo approccio di trasformazione del kernel, le k -mean kernelizzate sono in grado di trovare i confini non lineari più complicati tra i cluster.

#### k-medie può essere lenta per un gran numero di campioni
Poiché ogni iterazione di k-means deve accedere a ogni punto del set di dati, l'algoritmo può essere relativamente lento all'aumentare del numero di campioni. Una soluzione potrebbe essere non utilizzare tutti i dati ad ogni iterazione, ad esempio, potremo semplicemente utilizzare un sottoinsieme di dati per aggiornare i centri cluster a ogni passaggio. 
Questa è l'idea alla base degli algoritmi k-means basati su batch, una forma dei quali è implementata in sklearn.cluster.MiniBatchKMeans. L'interfaccia è la stessa di quella standard KMeans, vedremo un esempio del suo utilizzo più in la negli esempi più complessi.

## Esempi

Facendo attenzione a queste limitazioni dell'algoritmo, possiamo utilizzare k -means a nostro vantaggio in un'ampia varietà di situazioni. Ora daremo un'occhiata ad un paio di esempi.

### Esempio 1: k-Means sulle cifre

Quindi andiamo a vedere nella pratica l'esempio sul dataset delle cifre già visto in passato, con questo nuovo algoritmo. Qui tenteremo di utilizzare k -means per cercare di identificare cifre simili senza utilizzare le informazioni dell'etichetta originale, questo potrebbe essere simile a un primo passo per estrarre significato da un nuovo set di dati su cui non si dispone di informazioni sull'etichetta a priori .

Inizieremo caricando le cifre e quindi trovando i KMeanscluster. Ricordiamo che le cifre sono costituite da 1.797 campioni con 64 caratteristiche, dove ciascuna delle 64 caratteristiche è la luminosità di un pixel in un'immagine 8×8:

In [None]:
from sklearn.datasets import load_digits
digits = load_digits()
digits.data.shape

Il clustering può essere eseguito come abbiamo fatto prima:

In [None]:
kmeans = KMeans(n_clusters=10, random_state=0)
clusters = kmeans.fit_predict(digits.data)
kmeans.cluster_centers_.shape

Il risultato sono 10 cluster in 64 dimensioni. Si noti che i centri stessi del cluster sono punti a 64 dimensioni e possono essere interpretati come la cifra "tipica" all'interno del cluster. Vediamo come appaiono questi centri cluster:

In [None]:
fig, ax = plt.subplots(2, 5, figsize=(8, 3))
centers = kmeans.cluster_centers_.reshape(10, 8, 8)
for axi, center in zip(ax.flat, centers):
    axi.set(xticks=[], yticks=[])
    axi.imshow(center, interpolation='nearest', cmap=plt.cm.binary)

Vediamo che anche senza le etichette , K-Means è in grado di trovare gruppi i cui centri sono cifre riconoscibili, forse con l'eccezione di 1 e 8.

Poiché k -Means non sa nulla dell'identità del cluster, le etichette 0–9 possono essere permutate. Possiamo risolvere questo problema abbinando ciascuna etichetta del cluster appresa con le vere etichette trovate in essi:

In [None]:
from scipy.stats import mode

labels = np.zeros_like(clusters)
for i in range(10):
    mask = (clusters == i)
    labels[mask] = mode(digits.target[mask])[0]

Ora possiamo verificare quanto è stato accurato il nostro clustering non supervisionato nel trovare cifre simili all'interno dei dati:

In [None]:
from sklearn.metrics import accuracy_score
accuracy_score(digits.target, labels)

Con un semplice algoritmo k -means, abbiamo scoperto il raggruppamento corretto per il 75% delle cifre immesse! Controlliamo la matrice di confusione per questo:

In [None]:
from sklearn.metrics import confusion_matrix
import seaborn as sns
mat = confusion_matrix(digits.target, labels)
sns.heatmap(mat.T, square=True, annot=True, fmt='d',
            cbar=False, cmap='Blues',
            xticklabels=digits.target_names,
            yticklabels=digits.target_names)
plt.xlabel('true label')
plt.ylabel('predicted label')

Come potremmo aspettarci dai centri dei cluster che abbiamo visualizzato prima, il principale punto di confusione è tra gli otto, gli uno e i 9. Ma questo mostra ancora che usando k -means, possiamo essenzialmente costruire un classificatore di cifre senza riferimento ad alcuna etichetta conosciuta !

Solo per divertimento, proviamo a spingerci ancora più lontano. Possiamo utilizzare l'algoritmo t-distributed stochastic neighbor embedding (t-SNE) per pre-elaborare i dati prima di eseguire k -mean. t-SNE è un algoritmo molto tecnico di cui non parleremo nel dettaglio per l'incorporamento non lineare particolarmente adatto a preservare punti all'interno dei cluster. Vediamo come si comporta:

In [None]:
from sklearn.manifold import TSNE

# Project the data: this step will take several seconds
tsne = TSNE(n_components=2, init='random',
            learning_rate='auto',random_state=0)
digits_proj = tsne.fit_transform(digits.data)

# Compute the clusters
kmeans = KMeans(n_clusters=10, random_state=0)
clusters = kmeans.fit_predict(digits_proj)

# Permute the labels
labels = np.zeros_like(clusters)
for i in range(10):
    mask = (clusters == i)
    labels[mask] = mode(digits.target[mask])[0]

# Compute the accuracy
accuracy_score(digits.target, labels)

Si tratta di una precisione di classificazione pari a quasi il 95% senza l'utilizzo delle etichette . Questo è il potere dell’apprendimento non supervisionato se usato con attenzione: può estrarre informazioni dal set di dati che potrebbe essere difficile da ottenere a mano o a occhio.

### Esempio 2: k-Means per la compressione del colore

Un'applicazione interessante del clustering è la compressione del colore all'interno delle immagini. Ad esempio, immaginiamo di avere un'immagine con milioni di colori. Nella maggior parte delle immagini, un gran numero di colori rimarranno inutilizzati e molti pixel nell'immagine avranno colori simili o addirittura identici.

Ad esempio, consideriamo l'immagine mostrata nella figura seguente, che proviene dal datasets del modulo Scikit-Learn (perché funzioni, dovrete avere installato il pacchetto Python pillow).

In [None]:
# Note: this requires the PIL package to be installed
from sklearn.datasets import load_sample_image
china = load_sample_image("china.jpg")
ax = plt.axes(xticks=[], yticks=[])
ax.imshow(china)

L'immagine stessa è memorizzata in un array tridimensionale di size (height, width, RGB), contenente gli attributi rosso/blu/verde come numeri interi da 0 a 255:

In [None]:
china.shape

Un modo in cui possiamo visualizzare questo insieme di pixel è come una nuvola di punti in uno spazio colore tridimensionale. Rimodelleremo i dati in [n_samples x n_features] e ridimensioneremo i colori in modo che siano compresi tra 0 e 1:

In [None]:
data = china / 255.0  # use 0...1 scale
data = data.reshape(-1, 3)
data.shape

Possiamo visualizzare questi pixel in questo spazio colore, utilizzando un sottoinsieme di 10.000 pixel per efficienza:

In [None]:
def plot_pixels(data, title, colors=None, N=10000):
    if colors is None:
        colors = data

    # choose a random subset
    rng = np.random.default_rng(0)
    i = rng.permutation(data.shape[0])[:N]
    colors = colors[i]
    R, G, B = data[i].T

    fig, ax = plt.subplots(1, 2, figsize=(16, 6))
    ax[0].scatter(R, G, color=colors, marker='.')
    ax[0].set(xlabel='Red', ylabel='Green', xlim=(0, 1), ylim=(0, 1))

    ax[1].scatter(R, B, color=colors, marker='.')
    ax[1].set(xlabel='Red', ylabel='Blue', xlim=(0, 1), ylim=(0, 1))

    fig.suptitle(title, size=20)

In [None]:
plot_pixels(data, title='Input color space: 16 million possible colors')

Ora riduciamo questi 16 milioni di colori a soli 16 colori, utilizzando un k-means clustering nello spazio dei pixel. Poiché abbiamo a che fare con un set di dati molto grande, utilizzeremo il mini batch k-means, che opera su sottoinsiemi di dati per calcolare il risultato molto più rapidamente rispetto all'algoritmo k-means standard:

In [None]:
from sklearn.cluster import MiniBatchKMeans
kmeans = MiniBatchKMeans(16)
kmeans.fit(data)
new_colors = kmeans.cluster_centers_[kmeans.predict(data)]

plot_pixels(data, colors=new_colors,
            title="Reduced color space: 16 colors")

Il risultato è una ricolorazione dei pixel originali, in cui a ciascun pixel viene assegnato il colore del centro del cluster più vicino. Tracciare questi nuovi colori nello spazio dell'immagine anziché nello spazio dei pixel ci mostra l'effetto di questo:

In [None]:
china_recolored = new_colors.reshape(china.shape)

fig, ax = plt.subplots(1, 2, figsize=(16, 6),
                       subplot_kw=dict(xticks=[], yticks=[]))
fig.subplots_adjust(wspace=0.05)
ax[0].imshow(china)
ax[0].set_title('Original Image', size=16)
ax[1].imshow(china_recolored)
ax[1].set_title('16-color Image', size=16)

Sicuramente si perde qualche dettaglio nel pannello più a destra, ma l'immagine complessiva è ancora facilmente riconoscibile. Questa immagine a destra raggiunge un fattore di compressione di circa 1 milione! Sebbene questa sia un'interessante applicazione di k-means, esiste sicuramente un modo migliore per comprimere le informazioni nelle immagini. Ma l’esempio mostra il potere di pensare fuori dagli schemi con metodi non supervisionati come k-means.

### Vediamo per curiosità lo stesso esempio con 16000 colori invece che 16

In [None]:
from sklearn.cluster import MiniBatchKMeans
kmeans = MiniBatchKMeans(16000)
kmeans.fit(data)
new_colors = kmeans.cluster_centers_[kmeans.predict(data)]

plot_pixels(data, colors=new_colors,
            title="Reduced color space: 16000 colors")

In [None]:
china_recolored = new_colors.reshape(china.shape)

fig, ax = plt.subplots(1, 2, figsize=(16, 6),
                       subplot_kw=dict(xticks=[], yticks=[]))
fig.subplots_adjust(wspace=0.05)
ax[0].imshow(china)
ax[0].set_title('Original Image', size=16)
ax[1].imshow(china_recolored)
ax[1].set_title('16000-color Image', size=16)

Come possiamo vedere il fattore di compressione rimane molto alto, ma in questo caso non abbiamo la perdita di qualità. 

## Esercizio 1 

Obiettivo: Utilizzare l'algoritmo K-Means per raggruppare i dati di un dataset in cluster omogenei.

Dataset: Utilizzeremo il famoso dataset Iris, che contiene informazioni su diverse specie di fiori Iris. Il dataset contiene quattro attributi (lunghezza e larghezza del sepalo, lunghezza e larghezza del petalo) e una variabile di classe che rappresenta la specie di fiore.

Cosa dobbiamo fare:

- Caricare il dataset Iris utilizzando la libreria scikit-learn.
- Creare il clustering dei dati utilizzando l'algoritmo K-Means.
- Determinare il numero ottimale di cluster utilizzando il metodo del gomito.
- Visualizzare i cluster ottenuti.

## Esercizio 2

Obiettivo: Utilizzare l'algoritmo K-Means per raggruppare i dati di un dataset in cluster omogenei.

Dataset: Utilizzeremo il dataset "Mall Customer Segmentation Data" (scaricabile a questo link https://www.kaggle.com/datasets/vjchoudhary7/customer-segmentation-tutorial-in-python) che contiene informazioni sui clienti di un centro commerciale, per il nostro esercizio utilizzeremo l'Annual Income e lo Spending Score.

Cosa dobbiamo fare:

- Caricare il dataset.
- Creare il clustering dei dati utilizzando l'algoritmo K-Means.
- Determinare il numero ottimale di cluster utilizzando il metodo del gomito.
- Visualizzare i cluster ottenuti.

