# Notebook generado autom√°ticamente

# üß† An√°lisis de Segmentaci√≥n de Clientes con Clustering

## üì• Paso 1: Cargar el dataset
```python
import pandas as pd

df = pd.read_csv("Mall_Customers.csv")
df.head()
```

## üìä Paso 2: An√°lisis Exploratorio de los Datos (EDA)
```python
# Ver estructura
df.info()

# Estad√≠sticas generales
df.describe()

# Ver si hay valores nulos
df.isnull().sum()

# Visualizaciones
import seaborn as sns
import matplotlib.pyplot as plt

sns.pairplot(df[['Age', 'Annual Income (k$)', 'Spending Score (1-100)']])
plt.show()

# Distribuciones
sns.histplot(df['Age'], kde=True)
sns.boxplot(data=df[['Age', 'Annual Income (k$)', 'Spending Score (1-100)']])
```

## üßπ Paso 3: Preprocesamiento de los Datos
```python
# Eliminar columnas innecesarias como 'CustomerID'
data = df.drop(columns=['CustomerID'])

# Convertir g√©nero a valores num√©ricos
data['Genre'] = data['Genre'].map({'Male': 0, 'Female': 1})

# Ver el resultado
data.head()
```

## üß† Paso 4: Selecci√≥n de Caracter√≠sticas
```python
# Usamos todas las columnas transformadas
X = data[['Genre', 'Age', 'Annual Income (k$)', 'Spending Score (1-100)']]
```

## ‚öôÔ∏è Paso 5: Entrenamiento del Modelo - K-Means
```python
from sklearn.cluster import KMeans

# Entrenar KMeans con 5 cl√∫steres (puedes probar con otros)
kmeans = KMeans(n_clusters=5, random_state=42)
kmeans.fit(X)

# Agregar las etiquetas al dataframe
data['Cluster_KMeans'] = kmeans.labels_
```

## ‚öôÔ∏è Paso 6: Entrenamiento del Modelo - Clustering Jer√°rquico
```python
from scipy.cluster.hierarchy import linkage, dendrogram, fcluster

# Dendograma
linked = linkage(X, method='ward')
plt.figure(figsize=(10, 7))
dendrogram(linked)
plt.title("Dendograma")
plt.show()

# Cortar en 5 cl√∫steres
data['Cluster_Hierarchical'] = fcluster(linked, t=5, criterion='maxclust')
```

## üìà Paso 7: Evaluaci√≥n del Modelo
```python
from sklearn.metrics import silhouette_score, calinski_harabasz_score, davies_bouldin_score

# Evaluaci√≥n para KMeans
print("Silhouette Score:", silhouette_score(X, kmeans.labels_))
print("Calinski-Harabasz:", calinski_harabasz_score(X, kmeans.labels_))
print("Davies-Bouldin:", davies_bouldin_score(X, kmeans.labels_))
```

## üìä Paso 8: Visualizaci√≥n de Resultados
```python
sns.scatterplot(x='Annual Income (k$)', y='Spending Score (1-100)', hue='Cluster_KMeans', data=data, palette='Set1')
plt.title("Clusters por KMeans")
plt.show()

sns.scatterplot(x='Annual Income (k$)', y='Spending Score (1-100)', hue='Cluster_Hierarchical', data=data, palette='Set2')
plt.title("Clusters por Clustering Jer√°rquico")
plt.show()
```

## üìù An√°lisis Final

**¬øQu√© significa cada cl√∫ster?**  
Cada cl√∫ster agrupa clientes con caracter√≠sticas similares seg√∫n ingreso anual, gasto y edad. Por ejemplo, un grupo puede representar j√≥venes con alto gasto, otro puede ser adultos con bajo gasto, etc.

**¬øQu√© grupo gasta m√°s?**  
El grupo con mayor puntaje de gasto representa a los clientes m√°s activos o leales al mall.

**¬øQu√© grupo tiene menos ingresos?**  
Generalmente, los grupos con menor ingreso anual se identifican por valores bajos en la dimensi√≥n ‚ÄúAnnual Income (k$)‚Äù.

**¬øQu√© diferencias hay entre los modelos?**  
K-means crea cl√∫steres esf√©ricos basados en centroides y es eficiente con grandes datos. El clustering jer√°rquico genera una estructura en forma de √°rbol (dendograma) que es m√°s √∫til para entender jerarqu√≠as pero puede ser m√°s lento.