# Notebook generado automáticamente

# 🧠 Análisis de Segmentación de Clientes con Clustering

## 📥 Paso 1: Cargar el dataset
```python
import pandas as pd

df = pd.read_csv("Mall_Customers.csv")
df.head()
```

## 📊 Paso 2: Análisis Exploratorio de los Datos (EDA)
```python
# Ver estructura
df.info()

# Estadísticas generales
df.describe()

# Ver si hay valores nulos
df.isnull().sum()

# Visualizaciones
import seaborn as sns
import matplotlib.pyplot as plt

sns.pairplot(df[['Age', 'Annual Income (k$)', 'Spending Score (1-100)']])
plt.show()

# Distribuciones
sns.histplot(df['Age'], kde=True)
sns.boxplot(data=df[['Age', 'Annual Income (k$)', 'Spending Score (1-100)']])
```

## 🧹 Paso 3: Preprocesamiento de los Datos
```python
# Eliminar columnas innecesarias como 'CustomerID'
data = df.drop(columns=['CustomerID'])

# Convertir género a valores numéricos
data['Genre'] = data['Genre'].map({'Male': 0, 'Female': 1})

# Ver el resultado
data.head()
```

## 🧠 Paso 4: Selección de Características
```python
# Usamos todas las columnas transformadas
X = data[['Genre', 'Age', 'Annual Income (k$)', 'Spending Score (1-100)']]
```

## ⚙️ Paso 5: Entrenamiento del Modelo - K-Means
```python
from sklearn.cluster import KMeans

# Entrenar KMeans con 5 clústeres (puedes probar con otros)
kmeans = KMeans(n_clusters=5, random_state=42)
kmeans.fit(X)

# Agregar las etiquetas al dataframe
data['Cluster_KMeans'] = kmeans.labels_
```

## ⚙️ Paso 6: Entrenamiento del Modelo - Clustering Jerárquico
```python
from scipy.cluster.hierarchy import linkage, dendrogram, fcluster

# Dendograma
linked = linkage(X, method='ward')
plt.figure(figsize=(10, 7))
dendrogram(linked)
plt.title("Dendograma")
plt.show()

# Cortar en 5 clústeres
data['Cluster_Hierarchical'] = fcluster(linked, t=5, criterion='maxclust')
```

## 📈 Paso 7: Evaluación del Modelo
```python
from sklearn.metrics import silhouette_score, calinski_harabasz_score, davies_bouldin_score

# Evaluación para KMeans
print("Silhouette Score:", silhouette_score(X, kmeans.labels_))
print("Calinski-Harabasz:", calinski_harabasz_score(X, kmeans.labels_))
print("Davies-Bouldin:", davies_bouldin_score(X, kmeans.labels_))
```

## 📊 Paso 8: Visualización de Resultados
```python
sns.scatterplot(x='Annual Income (k$)', y='Spending Score (1-100)', hue='Cluster_KMeans', data=data, palette='Set1')
plt.title("Clusters por KMeans")
plt.show()

sns.scatterplot(x='Annual Income (k$)', y='Spending Score (1-100)', hue='Cluster_Hierarchical', data=data, palette='Set2')
plt.title("Clusters por Clustering Jerárquico")
plt.show()
```

## 📝 Análisis Final

**¿Qué significa cada clúster?**  
Cada clúster agrupa clientes con características similares según ingreso anual, gasto y edad. Por ejemplo, un grupo puede representar jóvenes con alto gasto, otro puede ser adultos con bajo gasto, etc.

**¿Qué grupo gasta más?**  
El grupo con mayor puntaje de gasto representa a los clientes más activos o leales al mall.

**¿Qué grupo tiene menos ingresos?**  
Generalmente, los grupos con menor ingreso anual se identifican por valores bajos en la dimensión “Annual Income (k$)”.

**¿Qué diferencias hay entre los modelos?**  
K-means crea clústeres esféricos basados en centroides y es eficiente con grandes datos. El clustering jerárquico genera una estructura en forma de árbol (dendograma) que es más útil para entender jerarquías pero puede ser más lento.