# Segmentaci√≥n de Clientes con **K-means**

## Objetivo

Usar el algoritmo **K-means clustering** para segmentar clientes seg√∫n su **comportamiento de pago**, con el fin de identificar grupos como:

- Clientes de alto valor
- Clientes recurrentes
- Clientes ocasionales
- Clientes morosos o de bajo valor

Este an√°lisis puede ayudar a personalizar estrategias de atenci√≥n al cliente, dise√±ar campa√±as de retenci√≥n o mejorar la asignaci√≥n de recursos comerciales.



## Esquema Utilizado

Tablas relevantes:
- `customers`: informaci√≥n del cliente
- `payments`: registros de pagos realizados por los clientes

Campos clave:
- `customerNumber` (identificador √∫nico)
- `paymentDate`
- `amount`: monto pagado por transacci√≥n



## Paso 1: Preparaci√≥n de Datos

Primero, extraemos y agregamos los datos necesarios desde las tablas. Agruparemos por cliente para obtener m√©tricas √∫tiles.

### üîç M√©tricas por Cliente:
1. **Total de compras**: Monto total pagado
2. **Frecuencia de pago**: N√∫mero de transacciones
3. **Recencia**: D√≠as desde el √∫ltimo pago (para medir actividad reciente)

### SQL:

```sql
SELECT 
    customerNumber,
    COUNT(*) AS frequency,
    SUM(amount) AS total_amount,
    CURRENT_DATE - MAX(paymentDate) AS days_since_last_payment
FROM payments
GROUP BY customerNumber;
```



In [None]:
# Importar librer√≠as necesarias
import pandas as pd
import numpy as np
from sqlalchemy import create_engine

In [None]:
# Extracci√≥n con datos a un archivo CSV

# Configura los par√°metros de conexi√≥n
conn_string = 'postgresql+psycopg2://usuario:contrase√±a@localhost:5432/nombre_basedatos'

engine = create_engine(conn_string)

# Consulta SQL para traer los datos
query = """SELECT 
    customerNumber,
    COUNT(*) AS frequency,
    SUM(amount) AS total_amount,
    CURRENT_DATE - MAX(paymentDate) AS days_since_last_payment
FROM payments
GROUP BY customerNumber;"""

# Cargar los datos en un DataFrame
df = pd.read_sql(query, engine)

# OLD py versions
# df = pd.DataFrame(engine.connect().execute(text(query)))

df.info()

## Paso 2: Aplicaci√≥n del Algoritmo K-means

Usaremos Python + Scikit-learn para aplicar **K-means** sobre los datos obtenidos.

In [None]:
# Importar librer√≠as necesarias
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# Fake data for demonstration purposes
data = {
    'customernumber': [101, 102, 103, 104],
    'frequency': [5, 1, 10, 2],
    'total_amount': [4800, 1200, 25000, 600],
    'days_since_last_payment': [5, 90, 2, 180]
}

df = pd.DataFrame(data)
df.info()

In [None]:
# Seleccionamos las caracter√≠sticas relevantes
X = df[['frequency', 'total_amount', 'days_since_last_payment']]

# Estandarizaci√≥n de los datos
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

In [None]:

# Determinar n√∫mero √≥ptimo de clusters usando Elbow Method
inertias = []
for k in range(1, 5):
    kmeans = KMeans(n_clusters=k, random_state=42)
    kmeans.fit(X_scaled)
    inertias.append(kmeans.inertia_)

plt.figure(figsize=(8, 4))
plt.plot(range(1, 5), inertias, marker='o')
plt.title('M√©todo del Codo para Selecci√≥n de Clusters')
plt.xlabel('N√∫mero de clusters')
plt.ylabel('Inercia')
plt.show()

In [None]:

# Aplicar K-means con n√∫mero √≥ptimo de clusters (por ejemplo, k=3)
kmeans = KMeans(n_clusters=3, random_state=42)
df['cluster'] = kmeans.fit_predict(X_scaled)

# Mostrar resultados
print(df[['customernumber', 'frequency', 'total_amount', 'days_since_last_payment', 'cluster']])

# Visualizaci√≥n de clusters
sns.pairplot(df, hue='cluster', vars=['frequency', 'total_amount', 'days_since_last_payment'])
plt.show()

## Paso 3: Interpretaci√≥n de los Clusters

Una vez ejecutado el c√≥digo, obtendr√°s una clasificaci√≥n de clientes como esta:

| Cluster | Descripci√≥n |
|---------|-------------|
| **0**   | **Clientes ocasionales** ‚Äì Baja frecuencia, bajo monto total y larga recencia |
| **1**   | **Clientes leales** ‚Äì Alta frecuencia, alto monto total, baja recencia |
| **2**   | **Clientes nuevos o espor√°dicos** ‚Äì Frecuencia media, monto medio, recencia variable |



## Paso 4: Acciones Comerciales por Segmento

| Segmento | Estrategia sugerida |
|----------|----------------------|
| Clientes leales | Programas de fidelizaci√≥n, acceso temprano a promociones |
| Clientes nuevos | Ofertas especiales, seguimiento personalizado |
| Clientes ocasionales | Campa√±as de reactivaci√≥n, recordatorios de compra |

