# Análisis y Modelado de Segmentación de Clientes - KMeans y Clustering Jerárquico

## 1. Cargar y Explorar los Datos

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import os
os.environ["OMP_NUM_THREADS"] = "1"

df = pd.read_csv('Mall_Customers.csv')

print(df.info())
print(df.describe())

sns.countplot(x='Gender', data=df)
plt.title('Distribución por género')
plt.show()

sns.scatterplot(x='Annual Income (k$)', y='Spending Score (1-100)', data=df)
plt.title('Ingreso vs. Gasto')
plt.show()

## 2. Preprocesamiento de Datos

In [None]:
df['Gender'] = df['Gender'].map({'Male': 0, 'Female': 1})

# Verificar valores nulos
print(df.isnull().sum())

df_model = df[['Gender', 'Age', 'Annual Income (k$)', 'Spending Score (1-100)']]

## 3. Selección de Características

In [None]:
X = df[['Annual Income (k$)', 'Spending Score (1-100)']]

## 4. Entrenamiento de Modelos de Clustering

In [None]:
from sklearn.cluster import KMeans
import numpy as np

# Método del codo
inertia = []
for k in range(1, 11):
    kmeans = KMeans(n_clusters=k, random_state=42)
    kmeans.fit(X)
    inertia.append(kmeans.inertia_)

plt.plot(range(1, 11), inertia, marker='o')
plt.title('Método del Codo')
plt.xlabel('Número de Clusters')
plt.ylabel('Inercia')
plt.show()

# Entrenar KMeans
kmeans = KMeans(n_clusters=5, random_state=42)
df['KMeans_Cluster'] = kmeans.fit_predict(X)

In [None]:
from scipy.cluster.hierarchy import dendrogram, linkage
from sklearn.cluster import AgglomerativeClustering

linked = linkage(X, method='ward')
plt.figure(figsize=(10, 7))
dendrogram(linked)
plt.title('Dendrograma')
plt.show()

hc = AgglomerativeClustering(n_clusters=5)
df['HC_Cluster'] = hc.fit_predict(X)

## 5. Evaluación del Desempeño del Modelo

In [None]:
from sklearn.metrics import silhouette_score, calinski_harabasz_score

print('KMeans Silhouette:', silhouette_score(X, df['KMeans_Cluster']))
print('KMeans Calinski-Harabasz:', calinski_harabasz_score(X, df['KMeans_Cluster']))

print('HC Silhouette:', silhouette_score(X, df['HC_Cluster']))
print('HC Calinski-Harabasz:', calinski_harabasz_score(X, df['HC_Cluster']))

## 6. Visualización de Resultados

In [None]:
sns.scatterplot(x='Annual Income (k$)', y='Spending Score (1-100)', hue='KMeans_Cluster', data=df, palette='Set1')
plt.title('Segmentación por KMeans')
plt.show()

sns.scatterplot(x='Annual Income (k$)', y='Spending Score (1-100)', hue='HC_Cluster', data=df, palette='Set2')
plt.title('Segmentación por Clustering Jerárquico')
plt.show()

## 7. Interpretación y Documentación

- K-Means tiende a encontrar grupos circulares y bien separados.
- El dendrograma del clustering jerárquico permite visualizar relaciones entre clientes.
- Las métricas como el coeficiente de Silhouette y el índice de Calinski-Harabasz ayudan a evaluar la calidad del agrupamiento.
- Se pueden analizar los grupos para identificar perfiles de clientes (por ejemplo: alto ingreso, alto gasto).