# Segmentación de Clientes con **K-means**

## Objetivo

Usar el algoritmo **K-means clustering** para segmentar clientes según su **comportamiento de pago**, con el fin de identificar grupos como:

- Clientes de alto valor
- Clientes recurrentes
- Clientes ocasionales
- Clientes morosos o de bajo valor

Este análisis puede ayudar a personalizar estrategias de atención al cliente, diseñar campañas de retención o mejorar la asignación de recursos comerciales.



## Esquema Utilizado

Tablas relevantes:
- `customers`: información del cliente
- `payments`: registros de pagos realizados por los clientes

Campos clave:
- `customerNumber` (identificador único)
- `paymentDate`
- `amount`: monto pagado por transacción



## Paso 1: Preparación de Datos

Primero, extraemos y agregamos los datos necesarios desde las tablas. Agruparemos por cliente para obtener métricas útiles.

### 🔍 Métricas por Cliente:
1. **Total de compras**: Monto total pagado
2. **Frecuencia de pago**: Número de transacciones
3. **Recencia**: Días desde el último pago (para medir actividad reciente)

### SQL:

```sql
SELECT 
    customerNumber,
    COUNT(*) AS frequency,
    SUM(amount) AS total_amount,
    CURRENT_DATE - MAX(paymentDate) AS days_since_last_payment
FROM payments
GROUP BY customerNumber;
```



In [None]:
# Importar librerías necesarias
import pandas as pd
import numpy as np
from sqlalchemy import create_engine

In [None]:
# Extracción con datos a un archivo CSV

# Configura los parámetros de conexión
conn_string = 'postgresql+psycopg2://usuario:contraseña@localhost:5432/nombre_basedatos'

engine = create_engine(conn_string)

# Consulta SQL para traer los datos
query = """SELECT 
    customerNumber,
    COUNT(*) AS frequency,
    SUM(amount) AS total_amount,
    CURRENT_DATE - MAX(paymentDate) AS days_since_last_payment
FROM payments
GROUP BY customerNumber;"""

# Cargar los datos en un DataFrame
df = pd.read_sql(query, engine)

# OLD py versions
# df = pd.DataFrame(engine.connect().execute(text(query)))

df.info()

## Paso 2: Aplicación del Algoritmo K-means

Usaremos Python + Scikit-learn para aplicar **K-means** sobre los datos obtenidos.

In [None]:
# Importar librerías necesarias
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# Fake data for demonstration purposes
data = {
    'customernumber': [101, 102, 103, 104],
    'frequency': [5, 1, 10, 2],
    'total_amount': [4800, 1200, 25000, 600],
    'days_since_last_payment': [5, 90, 2, 180]
}

df = pd.DataFrame(data)
df.info()

In [None]:
# Seleccionamos las características relevantes
X = df[['frequency', 'total_amount', 'days_since_last_payment']]

# Estandarización de los datos
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

In [None]:

# Determinar número óptimo de clusters usando Elbow Method
inertias = []
for k in range(1, 5):
    kmeans = KMeans(n_clusters=k, random_state=42)
    kmeans.fit(X_scaled)
    inertias.append(kmeans.inertia_)

plt.figure(figsize=(8, 4))
plt.plot(range(1, 5), inertias, marker='o')
plt.title('Método del Codo para Selección de Clusters')
plt.xlabel('Número de clusters')
plt.ylabel('Inercia')
plt.show()

In [None]:

# Aplicar K-means con número óptimo de clusters (por ejemplo, k=3)
kmeans = KMeans(n_clusters=3, random_state=42)
df['cluster'] = kmeans.fit_predict(X_scaled)

# Mostrar resultados
print(df[['customernumber', 'frequency', 'total_amount', 'days_since_last_payment', 'cluster']])

# Visualización de clusters
sns.pairplot(df, hue='cluster', vars=['frequency', 'total_amount', 'days_since_last_payment'])
plt.show()

## Paso 3: Interpretación de los Clusters

Una vez ejecutado el código, obtendrás una clasificación de clientes como esta:

| Cluster | Descripción |
|---------|-------------|
| **0**   | **Clientes ocasionales** – Baja frecuencia, bajo monto total y larga recencia |
| **1**   | **Clientes leales** – Alta frecuencia, alto monto total, baja recencia |
| **2**   | **Clientes nuevos o esporádicos** – Frecuencia media, monto medio, recencia variable |



## Paso 4: Acciones Comerciales por Segmento

| Segmento | Estrategia sugerida |
|----------|----------------------|
| Clientes leales | Programas de fidelización, acceso temprano a promociones |
| Clientes nuevos | Ofertas especiales, seguimiento personalizado |
| Clientes ocasionales | Campañas de reactivación, recordatorios de compra |

