## ¿Qué es un Cluster?

> ***Un cluster es un grupo de datos que comparten características similares entre sí y que se encuentran más cercanos entre ellos en un espacio de características en comparación con otros grupos.***

En el contexto del análisis de datos, los clusters permiten identificar patrones o segmentos naturales dentro de un conjunto de datos sin la necesidad de etiquetas o clases predeterminadas.

### Importar paquetes

In [None]:
import pandas as pd

import seaborn as sns
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D

from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans

### Carga de Datos

In [None]:
df = pd.read_csv('./data/retailmax.csv')

In [None]:
features = df[['Age', 'Annual Income (k$)', 'Spending Score (1-100)']]

In [None]:
scaler = StandardScaler()
scaled_features = scaler.fit_transform(features)

In [None]:
type(scaled_features)

In [None]:
kmeans = KMeans(n_clusters=3, init='k-means++', max_iter=300, n_init=10, random_state=42)
clusters = kmeans.fit_predict(scaled_features)

In [None]:
clusters

In [None]:
len(clusters)

In [None]:
kmeans = KMeans(n_clusters=5, init='k-means++', max_iter=300, n_init=10, random_state=42)
clusters = kmeans.fit_predict(scaled_features)

In [None]:
clusters

In [None]:
kmeans = KMeans(n_clusters=4, init='k-means++', max_iter=300, n_init=10, random_state=42)
clusters = kmeans.fit_predict(scaled_features)

In [None]:
clusters

In [None]:
df

In [None]:
df['clasificación'] = clusters
df

In [None]:
df['clasificación'].value_counts()

In [None]:
plt.figure(figsize=(10, 6))
sns.scatterplot(data=df, x='Annual Income (k$)', y='Spending Score (1-100)', hue='clasificación', palette='Set1')
plt.title('Clusters de clientes')
plt.show()

In [None]:
    # Función para calcular la Suma de Cuadrados Dentro del Cluster (WCSS)
def calcular_wcss(datos):
    wcss = []
    for n in range(1, 11):
        kmeans = KMeans(n_clusters=n, init='k-means++', max_iter=300, n_init=10, random_state=42)
        kmeans.fit(datos)
        wcss.append(kmeans.inertia_)
    return wcss

# Calcular el WCSS para diferentes números de clusters
wcss = calcular_wcss(scaled_features)

# Graficar el método del codo
plt.plot(range(1, 11), wcss)
plt.title('Método del codo')
plt.xlabel('Número de clusters')
plt.ylabel('WCSS')
plt.show()