**FICHA TÉCNICA - DATASET DE SEGMENTACIÓN DE CLIENTES**



In [None]:
## INFORMACIÓN GENERAL DEL ARCHIVO
- **Nombre archivo**: `customer_segmentation_final.csv`
- **Formato**: CSV (Comma-Separated Values)
- **Codificación**: UTF-8
- **Delimitador**: Coma (,)
- **Registros**: 10,000
- **Variables**: 12
- **Tamaño estimado**: 1.2 MB
- **Periodo de datos**: Simulado para análisis educativo
- **Fecha generación**: [Fecha actual]

## PROPÓSITO DEL DATASET
Dataset sintético diseñado para análisis de segmentación de clientes mediante métodos de aprendizaje no supervisado. Ideal para:
- Clustering con K-Means
- Análisis de componentes principales (PCA)
- Segmentación de mercado
- Análisis de comportamiento de compra
- Casos de estudio en machine learning

## ESTRUCTURA DE VARIABLES

### VARIABLES ORIGINALES

| Variable | Tipo | Descripción | Rango/Valores | Escala |
|----------|------|-------------|---------------|---------|
| `age` | Numérica Continua | Edad del cliente | 18 - 70 años | Años |
| `annual_income` | Numérica Continua | Ingreso anual del cliente | $20,000 - $150,000 | USD |
| `spending_score` | Numérica Continua | Puntuación de comportamiento de gasto | 1 - 100 | Puntos |
| `online_visits_per_month` | Numérica Continua | Visitas mensuales al sitio web | 1 - 30 | Visitas/mes |
| `avg_cart_value` | Numérica Continua | Valor promedio del carrito de compras | $10 - $300 | USD |
| `product_categories_visited` | Numérica Discreta | Número de categorías exploradas | 1 - 8 | Categorías |
| `days_since_last_purchase` | Numérica Continua | Días desde la última compra | 0 - 365 días | Días |
| `customer_tenure_mths` | Numérica Continua | Antigüedad como cliente | 1 - 60 meses | Meses |

### VARIABLES DERIVADAS (GENERADAS POR ANÁLISIS)

| Variable | Tipo | Descripción | Valores |
|----------|------|-------------|----------|
| `cluster` | Numérica Discreta | Segmento asignado por K-Means | 0, 1, 2, 3 |
| `segment_name` | Categórica | Nombre descriptivo del segmento | 4 categorías |
| `pca_1` | Numérica Continua | Primer componente principal | Valores estandarizados |
| `pca_2` | Numérica Continua | Segundo componente principal | Valores estandarizados |

## SEGMENTOS IDENTIFICADOS

### DISTRIBUCIÓN DE SEGMENTOS

| Segmento | Cluster | Cantidad | Porcentaje | Descripción |
|----------|---------|----------|------------|-------------|
| **Jóvenes de Bajo Presupuesto** | 0 | 4,250 | 42.5% | Clientes jóvenes con ingreso y gasto limitado |
| **Compradores Establecidos** | 1 | 3,980 | 39.8% | Clientes con alto ingreso y alto gasto |
| **Clientes Medianos Semi-activos** | 2 | 1,154 | 11.5% | Clientes con características medias, baja actividad reciente |
| **Clientes Inactivos** | 3 | 616 | 6.2% | Clientes con muy baja actividad de compra |

## ESTADÍSTICAS CLAVE POR SEGMENTO

### INGRESO Y GASTO PROMEDIO
| Segmento | Ingreso Promedio | Gasto Promedio | Valor Carrito |
|----------|------------------|----------------|---------------|
| Jóvenes Bajo Presupuesto | $49,024 | 39.7/100 | $94 |
| Compradores Establecidos | $73,085 | 60.7/100 | $118 |
| Medianos Semi-activos | $60,831 | 51.1/100 | $104 |
| Inactivos | $60,342 | 50.0/100 | $106 |

### COMPORTAMIENTO DIGITAL
| Segmento | Visitas/Mes | Categorías | Días Última Compra |
|----------|-------------|------------|-------------------|
| Jóvenes Bajo Presupuesto | 9.4 | 3.4 | 23.6 |
| Compradores Establecidos | 11.6 | 3.7 | 23.0 |
| Medianos Semi-activos | 10.8 | 3.7 | 115.0 |
| Inactivos | 10.4 | 3.6 | 278.4 |

##  METADATOS TÉCNICOS

### ALGORITMOS APLICADOS
- **Preprocesamiento**: RobustScaler (sklearn)
- **Clustering**: K-Means (k=4, random_state=42)
- **Reducción dimensional**: PCA (2 componentes)
- **Métricas**: Silhouette Score (0.183), Calinski-Harabasz (3485.1)

### CALIDAD DEL MODELO
- **Silhouette Score**: 0.183 (Calidad aceptable para segmentación de negocio)
- **Varianza explicada (PCA)**: 64.4% con 2 componentes
- **Estabilidad**: Modelo entrenado con random_state=42 para reproducibilidad

##  RECOMENDACIONES DE USO

###  APLICACIONES DE NEGOCIO
1. **Marketing Segmentado**: Diseñar campañas específicas por segmento
2. **Desarrollo de Producto**: Identificar necesidades por perfil de cliente
3. **Retención**: Estrategias específicas para reducir churn
4. **Ventas Cruzadas**: Oportunidades basadas en comportamiento

### APLICACIONES ACADÉMICAS
1. **Enseñanza clustering**: Ejemplo práctico de K-Means
2. **Análisis PCA**: Caso de reducción dimensional
3. **Storytelling con datos**: Transformar clusters en insights
4. **Evaluación de modelos**: Comparar métricas de clustering

##  CONSIDERACIONES TÉCNICAS

###  FORTALEZAS
- Datos balanceados y preprocesados
- Segmentos interpretables comercialmente
- Metadatos completos para reproducibilidad
- Calidad suficiente para casos educativos y prototipos

###  LIMITACIONES
- Datos sintéticos (no datos reales de producción)
- Silhouette Score moderado (0.183)
- Segmentación influenciada por outliers en días desde última compra


Código de práctica para generaciones del Data Set

In [None]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt
import seaborn as sns

# Configurar semilla para reproducibilidad
np.random.seed(42)

# Generar datos base realistas
n_samples = 10000

# Edad - distribución normal con sesgo hacia adultos jóvenes
age = np.random.normal(35, 10, n_samples).clip(18, 70)

# Ingreso anual - correlacionado con la edad
base_income = np.random.normal(60000, 20000, n_samples)
income_age_effect = (age - 35) * 800  # Efecto de la edad sobre el ingreso
annual_income = (base_income + income_age_effect).clip(20000, 150000)

# Puntuación de gasto - correlacionada con ingreso pero con variabilidad
income_effect = (annual_income - 60000) / 1000
random_variation = np.random.normal(0, 15, n_samples)
spending_score = (50 + income_effect * 0.3 + random_variation).clip(1, 100)

# Comportamientos online
online_visits = np.random.poisson(8, n_samples) + (spending_score / 20)
online_visits = online_visits.clip(1, 30)

# Valor del carrito - correlacionado con ingreso y puntuación de gasto
avg_cart_value = np.random.normal(80, 25, n_samples) + (spending_score * 0.5)
avg_cart_value = avg_cart_value.clip(10, 300)

# Categorías visitadas - correlacionado con visits
product_categories = np.random.poisson(3, n_samples) + (online_visits / 10)
product_categories = product_categories.clip(1, 8).astype(int)

# Días desde última compra - algunos clientes inactivos
last_purchase_days = np.random.exponential(30, n_samples)
# 10% de clientes inactivos
inactive_mask = np.random.random(n_samples) < 0.1
last_purchase_days[inactive_mask] = np.random.uniform(90, 365, inactive_mask.sum())

# Antigüedad del cliente
customer_tenure = np.random.gamma(2, 10, n_samples).clip(1, 60)

# Crear DataFrame
customer_data = pd.DataFrame({
    'age': age.round(1),
    'annual_income': annual_income.round(2),
    'spending_score': spending_score.round(1),
    'online_visits_per_month': online_visits.round(1),
    'avg_cart_value': avg_cart_value.round(2),
    'product_categories_visited': product_categories,
    'days_since_last_purchase': last_purchase_days.round(1),
    'customer_tenure_mths': customer_tenure.round(1)
})

# Mostrar información básica
print("Dataset de Clientes de E-commerce")
print(f"Dimensiones: {customer_data.shape}")
print("\nPrimeras 5 filas:")
print(customer_data.head())
print("\nEstadísticas descriptivas:")
print(customer_data.describe())

# Guardar el dataset en CSV
customer_data.to_csv('customer_shopping_behavior.csv', index=False)
print("Dataset guardado como 'customer_shopping_behavior.csv'")

# Opcional: Guardar en Excel (necesita openpyxl)
# customer_data.to_excel('customer_shopping_behavior.xlsx', index=False)
# print(" Dataset guardado como 'customer_shopping_behavior.xlsx'")