# Clasificación de Clientes con Riesgo y Sin Riesgo usando Random Forest

## Objetivo

Crear un modelo de clasificación que identifique a los clientes con **riesgo de no realizar nuevas compras o de no pagar puntualmente**, basándose en características derivadas de las tablas `customers`, `sales` y `payments`.

Este modelo permite:
- Identificar patrones en el comportamiento de los clientes.
- Predecir qué clientes podrían dejar de comprar o presentar mora.
- Enviar alertas tempranas para tomar medidas preventivas.



## Contexto del Negocio

Eres analista de una empresa comercial que vende productos electrónicos. Tienes acceso a datos históricos de:

- **Clientes**: información demográfica y comercial (`customers`)
- **Ventas**: historial de compras (`sales`)
- **Pagos**: registros de pagos realizados (`payments`)

El objetivo es **etiquetar a los clientes como "Con riesgo" o "Sin riesgo"** según su probabilidad de no volver a comprar o de retrasarse en pagos.



## Definición de Riesgo

| Categoría | Condición |
|----------|-----------|
| **Con riesgo** | Cliente que no ha realizado compras en los últimos 90 días o tiene más de 2 pagos atrasados |
| **Sin riesgo** | Cliente activo con compras recientes y buen historial de pago |



## Paso 1: Extracción de Datos

```sql
SELECT 
    c.customernumber,
    DATE_PART('day', CURRENT_DATE::timestamp - MAX(s.orderDate)::timestamp) AS days_since_last_purchase,
    COUNT(DISTINCT s.orderNumber) AS total_orders,
    SUM(p.amount) AS total_spent,
    AVG(p.amount) AS avg_payment_amount,
    SUM(CASE 
            WHEN p.paymentDate > s.requiredDate + INTERVAL '5 days' THEN 1 
            ELSE 0 
        END) AS late_payments_count,
    CASE 
        WHEN DATE_PART('day', CURRENT_DATE::timestamp - MAX(s.orderDate)::timestamp) > 90 OR 
             SUM(CASE 
                     WHEN p.paymentDate > s.requiredDate + INTERVAL '5 days' THEN 1 
                     ELSE 0 
                 END) >= 2
        THEN 1 
        ELSE 0 
    END AS risk_label
FROM customers c
JOIN sales s ON c.customerNumber = s.customerNumber
JOIN payments p ON c.customerNumber = p.customerNumber
GROUP BY c.customerNumber;
```



In [None]:
# Importar librerías necesarias
import pandas as pd
import numpy as np
from sqlalchemy import create_engine

In [None]:
# Extracción con datos a un archivo CSV

# Configura los parámetros de conexión
conn_string = 'postgresql://formacion_owner:xcg_qpOxh7GvM9Ii@ep-white-field-a8rw6835-pooler.eastus2.azure.neon.tech/formacion?sslmode=require&channel_binding=require'

engine = create_engine(conn_string)

# Consulta SQL para traer los datos
query = """SELECT 
    c.customerNumber,
    DATE_PART('day', CURRENT_DATE::timestamp - MAX(s.orderDate)::timestamp) AS days_since_last_purchase,
    COUNT(DISTINCT s.orderNumber) AS total_orders,
    SUM(p.amount) AS total_spent,
    AVG(p.amount) AS avg_payment_amount,
    SUM(CASE 
            WHEN p.paymentDate > s.requiredDate + INTERVAL '5 days' THEN 1 
            ELSE 0 
        END) AS late_payments_count,
    CASE 
        WHEN DATE_PART('day', CURRENT_DATE::timestamp - MAX(s.orderDate)::timestamp) > 90 OR 
             SUM(CASE 
                     WHEN p.paymentDate > s.requiredDate + INTERVAL '5 days' THEN 1 
                     ELSE 0 
                 END) >= 2
        THEN 1 
        ELSE 0 
    END AS risk_label
FROM customers c
JOIN sales s ON c.customerNumber = s.customerNumber
JOIN payments p ON c.customerNumber = p.customerNumber
GROUP BY c.customerNumber;"""

# Cargar los datos en un DataFrame
df = pd.read_sql(query, engine)

# OLD py versions
# df = pd.DataFrame(engine.connect().execute(text(query)))

df.info()

## Paso 2: Entrenamiento del Modelo de Clasificación

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# Fake data for demonstration purposes
df = pd.read_csv('../data/customer_risk_data.csv')
df.info()

In [None]:

# Características y etiqueta
X = df.drop(['customernumber', 'risk_label'], axis=1)
y = df['risk_label']

# Dividir en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Entrenar modelo
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# Mostrar importancia de características
importances = model.feature_importances_
feature_names = X.columns
feat_df = pd.DataFrame({'Feature': feature_names, 'Importance': importances})
feat_df = feat_df.sort_values(by='Importance', ascending=False)

print(feat_df)

# Visualización
plt.figure(figsize=(10, 6))
sns.barplot(x='Importance', y='Feature', data=feat_df, palette='viridis')
plt.title('Importancia de las Características en el Modelo de Riesgo')
plt.tight_layout()
plt.show()


## Interpretación

Las dos características más importantes para predecir el riesgo son:

1. **Días desde la última compra:** Clientes inactivos tienden a estar en riesgo.
2. **Número de pagos atrasados:** Indicador clave de comportamiento financiero irregular.



## Acciones Comerciales Sugeridas

| Característica | Estrategia |
|----------------|------------|
| Alta inactividad | Envío de ofertas personalizadas o recordatorios |
| Muchos pagos atrasados | Contacto proactivo para entender causas o ofrecer opciones de pago flexible |
| Bajo gasto histórico | Programas de fidelización o incentivos por primera compra recurrente |



## Ventajas del Modelo

- Permite detectar clientes en riesgo antes de que se pierdan.
- La importancia de características ayuda a priorizar acciones correctivas.
- Es fácil de actualizar con nuevos datos de ventas y pagos.

