![logo](images/untumbes.PNG)

<center><b>Prof. Dr. Jorge Zavaleta - zavaleta.jorge@gmail.com</b></center>

# Agrupamientos espectrales

Una de las principales limitaciones del algoritmo de agrupamiento de k-means es su tendencia a buscar clusters de forma globular. Por lo tanto, no funciona cuando se aplica a datasets con grupos de formas arbitrarias o cuando los centroides del grupo se superponen entre sí. 

La agrupación espectral puede superar esta limitación explotando las propiedades del gráfico de similitud para superar dichas limitaciones. 

In [None]:
# librarys
# libray
import pandas as pd
import numpy as np
from sklearn import cluster
import matplotlib.pyplot as plt
%matplotlib inline
#
import warnings
warnings.filterwarnings("ignore")

In [None]:
# datos bi-dimensionales
data1 = pd.read_csv('data/2d_data.txt', delimiter=' ', names=['x','y'])
data2 = pd.read_csv('data/elliptical.txt', delimiter=' ', names=['x','y'])

In [None]:
# visualizar los datos
data1.head()

In [None]:
# visulizar los datos
data2.head()

In [None]:
# Visualización gráfica de los datos
fig, (ax1,ax2) = plt.subplots(nrows=1, ncols=2, figsize=(12,5))
data1.plot.scatter(x='x',y='y',ax=ax1, color='blue')
ax1.set_title('datos 2D');
data2.plot.scatter(x='x',y='y',ax=ax2, color='green')
ax2.set_title('Datos elipticos');

>## Aplicacion de k-means a los datasets (con k=2)

In [None]:
# Aplicacion de k-means a los datasets (con k=2)
#dataset 1
k_means = cluster.KMeans(n_clusters=2, max_iter=50, random_state=1)
k_means.fit(data1)
labels1 = pd.DataFrame(k_means.labels_,columns=['Cluster ID'])
result1 = pd.concat((data1,labels1), axis=1)
#
#dataset 2
k_means2 = cluster.KMeans(n_clusters=2, max_iter=50, random_state=1)
k_means2.fit(data2)
labels2 = pd.DataFrame(k_means2.labels_,columns=['Cluster ID'])
result2 = pd.concat((data2,labels2), axis=1)
#
# grafico dataset1
fig, (ax1,ax2) = plt.subplots(nrows=1, ncols=2, figsize=(12,5))
result1.plot.scatter(x='x',y='y',c='Cluster ID',colormap='viridis',ax=ax1)
ax1.set_title('Agrupamiento K-means (k=2)');
#
# grafico dataset 2
result2.plot.scatter(x='x',y='y',c='Cluster ID',colormap='viridis',ax=ax2)
ax2.set_title('Agrupamiento K-means (k=2)');

Los gráficos muestran el bajo rendimiento de la agrupación de k-means. A continuación, aplicamos agrupamiento espectral a datasets.

La **agrupación espectral** convierte los datos en un gráfico de similitud y aplica el algoritmo de partición del gráfico de corte normalizado para generar los grupos.

En el siguiente ejemplo, se usa la función de base radial gaussiana como nuestra medida de afinidad (similitud).

Los usuarios deben **ajustar** el valor del parámetro del kernel (gamma) para obtener los grupos apropiados para el conjunto de datos determinado.

In [None]:
# spectral clustering para data 1
# data 1, gamma = 5000
spectral = cluster.SpectralClustering(n_clusters=2,random_state=1,affinity='rbf',gamma=5000)
spectral.fit(data1)
labels1 = pd.DataFrame(spectral.labels_,columns=['Cluster ID'])
result1 = pd.concat((data1,labels1), axis=1)

# data 2, gamma = 100
spectral2 = cluster.SpectralClustering(n_clusters=2,random_state=1,affinity='rbf',gamma=100)
spectral2.fit(data2)
labels2 = pd.DataFrame(spectral2.labels_,columns=['Cluster ID'])
result2 = pd.concat((data2,labels2), axis=1)

# graficos data 1
fig, (ax1,ax2) = plt.subplots(nrows=1, ncols=2, figsize=(12,5))
result1.plot.scatter(x='x',y='y',c='Cluster ID',colormap='jet',ax=ax1)
ax1.set_title('Agrupación espectral');

# graficos data 2
result2.plot.scatter(x='x',y='y',c='Cluster ID',colormap='jet',ax=ax2)
ax2.set_title('Agrupación espectral');

Los gráficos anteriores muestran el bajo rendimiento de la agrupación de k-means. 
Aplicación del agrupamiento espectral a los datasets.
La agrupación espectral convierte los datos en un gráfico de similitud y aplica el algoritmo de partición del gráfico de corte normalizado para generar los grupos. 

En el ejemplo se usa la función de base radial gaussiana como nuestra medida de afinidad (similitud). 

Los usuarios deben ajustar el valor del parámetro del kernel (**gamma**) para obtener los grupos apropiados para el dataset determinado.

In [None]:
# spectral clustering
# data 1, gamma=5000
spectral = cluster.SpectralClustering(n_clusters=2,random_state=1,affinity='rbf',gamma=5000)
spectral.fit(data1)
labels1 = pd.DataFrame(spectral.labels_,columns=['Cluster ID'])
result1 = pd.concat((data1,labels1), axis=1)
# data2 , gamma = 100
spectral2 = cluster.SpectralClustering(n_clusters=2,random_state=1,affinity='rbf',gamma=200)
spectral2.fit(data2)
labels2 = pd.DataFrame(spectral2.labels_,columns=['Cluster ID'])
result2 = pd.concat((data2,labels2), axis=1)
#
fig, (ax1,ax2) = plt.subplots(nrows=1, ncols=2, figsize=(12,5))
result1.plot.scatter(x='x',y='y',c='Cluster ID',colormap='jet',ax=ax1)
ax1.set_title('Agrupación espectral');
#
result2.plot.scatter(x='x',y='y',c='Cluster ID',colormap='jet',ax=ax2)
ax2.set_title('Agrupacion espectral');

---
<center><b>&copy;Jorge Zavaleta, 2024</b></center>