# Spectral Clustering

Spectral Clustering é un algoritmo de *clustering* que utiliza información procedente da matriz de similitude dun grafo para asignar puntos a *clusters*, e está baseado na idea de que os puntos nun mesmo *cluster* deben ser máis similares entre eles. Transforma o espazo de datos nun grafo, onde as arestas representan a similitude entre puntos. Despois fai unha descomposición espectral da matriz de similitude, e usa os vectores para realizar a asignación de clusters. Este algoritmo é útil para datos non lineais e de formas complexas que non poden ser ben modelados por métodos como K-Means.

Spectral Clustering é un algoritmo de *clustering* que usa información procedente da matriz de similitude dun grafo para asignar puntos a clusters. Fundaméntase na idea de que os puntos que pertencen ao mesmo *cluster* deben ser máis similares entre eles ca os puntos doutros *clusters*. O algoritmo funciona transformando o espazo de datos nun grafo, onde cada nodo representa un punto e as arestas entre estes puntos reflicten o grao de similitude. Realiza unha descomposición espectral da matriz de similitude para obter os vectores propios e valores propios. Estes vectores propios úsanse despois para realizar a asignación dos puntos a clusters.

Unha das principais vantaxes do Spectral Clustering é a súa capacidade para manexar datos con estruturas non lineais e formas complexas, o que fai que sexa especialmente útil en conxuntos de datos onde os *clusters* non están claramente separados por fronteiras lineais.

## Dependencias

In [None]:
!pip install numpy matplotlib scikit-learn seaborn pandas

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import MinMaxScaler
from sklearn.cluster import SpectralClustering
from sklearn.metrics import silhouette_score
import warnings

In [None]:
warnings.filterwarnings("ignore")

### Datos

#### Exploración dos datos

In [None]:
!wget http://fegalaz.usc.es/~sdocio/apau2/p1/datasets/customers.csv

In [None]:
df = pd.read_csv(r'customers.csv')

In [None]:
df.head()

Seleccionamos as columnas coas que imos traballar.

In [None]:
df = df[['Annual Income (k$)', 'Spending Score (1-100)']]

In [None]:
df.head()

Normalizamos os datos para axustar a escala.

In [None]:
scaler = MinMaxScaler()

X = scaler.fit_transform(df)
df_scaled = pd.DataFrame(X, columns=df.columns, index=df.index)

In [None]:
df_scaled.head()

### Clustering

In [None]:
def get_optimal_clusters(X, max_clusters=20):
    max_score = -1
    optimal = 1

    for n_clusters in range(2, max_clusters + 1):
        clusterer = SpectralClustering(n_clusters=n_clusters, random_state=42)
        score = silhouette_score(X, clusterer.fit_predict(X))
        if score > max_score:
            max_score = score
            optimal = n_clusters
    return optimal

optimal = get_optimal_clusters(df_scaled)
print(f"Número de clusters: {optimal}")

In [None]:
spectral = SpectralClustering(n_clusters=optimal, random_state=42)
labels = spectral.fit_predict(df_scaled)

In [None]:
labels

In [None]:
val, count = np.unique(labels, return_counts=True)

for v, c in sorted(zip(val, count), key=lambda x: x[1], reverse=True):
    print(f"  Cluster {v}: {c} puntos")

**Visualización**

In [None]:
df['Cluster'] = labels

In [None]:
fig, ax = plt.subplots(figsize=(8, 6))
sns.scatterplot(x='Annual Income (k$)', y='Spending Score (1-100)', data=df, hue='Cluster', ax=ax, palette='Set2', edgecolors='k', s=75)
plt.show()