## Algoritmo para predecir el LTV a 24 meses

### Preparación de los datos

1. **Colección y limpieza de datos:**
    - Asegurarse de que los datos incluyan información relevante como demografía del cliente, historial de compras y métricas de interacción.
    - Limpiar los datos para manejar valores faltantes, outliers y consistencia de formatos.
    - Define y calcula la variable objetivo.

### Ingeniería de características

2. **Creación de características:**
    - Crear características que reflejen el comportamiento del cliente, tales como el gasto total, la cantidad promedio de transacciones, la frecuencia de compra, y el tiempo desde la última compra.
    - Considerar la creación de características en ventanas de tiempo como el gasto total en los últimos 6 o 12 meses.

### Análisis exploratorio de datos (EDA)

3. **Análisis exploratorio:**
    - Analizar los datos para entender patrones y relaciones.
    - Visualizar las distribuciones del gasto y otras métricas relevantes a través de diferentes segmentos de clientes.
    - Agrupar clientes basándose en la fecha de su primera compra y seguir su comportamiento a lo largo del tiempo.


### Modelado predictivo

4. **Modelado predictivo:**
    - Dividir los datos en conjuntos de entrenamiento y prueba.
    - Elegir un modelo de regresión adecuado para predecir un resultado continuo como el LTV.
    - Entrenar el modelo en los datos de entrenamiento utilizando las características desarrolladas.

### Evaluación del modelo

5. **Evaluación del modelo:**
    - Evaluar el modelo en el conjunto de prueba usando métricas adecuadas, como el error cuadrático medio (RMSE) o el error absoluto medio (MAE).
    - Analizar los residuales para asegurar que el modelo funciona bien en todos los segmentos de clientes.

### Interpretación del modelo y aplicación de insights

6. **Interpretación y acción:**
    - Interpretar el modelo para entender qué características son más predictivas del LTV.
    - Usar la salida del modelo para segmentar clientes basándose en su LTV predicho y dirigirles estrategias de marketing específicas.

### Despliegue y monitoreo

7. **Despliegue y monitoreo:**
    - Implementar el modelo en un entorno de producción donde pueda predecir el LTV de nuevos clientes.
    - Monitorear regularmente el desempeño del modelo y actualizarlo según sea necesario para manejar cambios en el comportamiento del cliente o en las condiciones del mercado.

In [2]:
import pandas as pd
import numpy as np
import datetime

In [3]:
df_data = pd.read_csv('tlacuachitos_vip_customers_data.csv')
df_data.head()

Unnamed: 0,CustomerID,Age,Income,Tenure,Education,Industry,Geographic Location,Churn_Risk,Cohort
0,1,56,52752.677346,3,Master,Technology,Europe,1,2023-08-31
1,2,69,55297.364348,6,Bachelor,Technology,South America,0,2021-08-31
2,3,46,57978.753383,3,Bachelor,Finance,Europe,1,2019-05-31
3,4,32,60445.2669,3,High School,Education,South America,1,2021-02-28
4,5,60,57741.870929,5,Bachelor,Entertainment,Asia,0,2018-10-31


In [4]:
df_transactions = pd.read_csv('tlacuachitos_vip_transactions.csv')
df_transactions.head()

Unnamed: 0,CustomerID,TransactionDate,TransactionAmount
0,1,2023-10-31,518.444092
1,1,2024-07-31,353.796197
2,1,2024-01-31,38.206591
3,1,2024-06-30,724.929423
4,2,2022-02-28,145.616


In [5]:
df_transactions['TransactionDate'] = pd.to_datetime(df_transactions['TransactionDate'])
df_data['Cohort'] = pd.to_datetime(df_data['Cohort'])

In [6]:
snapshot_date = df_transactions['TransactionDate'].max()

In [7]:
df_data['customer_tenure'] = (snapshot_date.year - df_data['Cohort'].dt.year)*12 + (snapshot_date.month - df_data['Cohort'].dt.month)
                                                                                    
df_data.head()

Unnamed: 0,CustomerID,Age,Income,Tenure,Education,Industry,Geographic Location,Churn_Risk,Cohort,customer_tenure
0,1,56,52752.677346,3,Master,Technology,Europe,1,2023-08-31,12
1,2,69,55297.364348,6,Bachelor,Technology,South America,0,2021-08-31,36
2,3,46,57978.753383,3,Bachelor,Finance,Europe,1,2019-05-31,63
3,4,32,60445.2669,3,High School,Education,South America,1,2021-02-28,42
4,5,60,57741.870929,5,Bachelor,Entertainment,Asia,0,2018-10-31,70


In [8]:
df_transactions.merge(df_data, on='CustomerID')

Unnamed: 0,CustomerID,TransactionDate,TransactionAmount,Age,Income,Tenure,Education,Industry,Geographic Location,Churn_Risk,Cohort,customer_tenure
0,1,2023-10-31,518.444092,56,52752.677346,3,Master,Technology,Europe,1,2023-08-31,12
1,1,2024-07-31,353.796197,56,52752.677346,3,Master,Technology,Europe,1,2023-08-31,12
2,1,2024-01-31,38.206591,56,52752.677346,3,Master,Technology,Europe,1,2023-08-31,12
3,1,2024-06-30,724.929423,56,52752.677346,3,Master,Technology,Europe,1,2023-08-31,12
4,2,2022-02-28,145.616000,69,55297.364348,6,Bachelor,Technology,South America,0,2021-08-31,36
...,...,...,...,...,...,...,...,...,...,...,...,...
4341,1143,2023-10-31,248.733500,52,46636.172619,6,Bachelor,Healthcare,Europe,0,2023-03-31,17
4342,1143,2023-05-31,522.714507,52,46636.172619,6,Bachelor,Healthcare,Europe,0,2023-03-31,17
4343,1143,2023-10-31,116.858302,52,46636.172619,6,Bachelor,Healthcare,Europe,0,2023-03-31,17
4344,1143,2024-01-31,41.066354,52,46636.172619,6,Bachelor,Healthcare,Europe,0,2023-03-31,17


In [9]:
df_master = df_transactions.merge(df_data, on='CustomerID')
df_master.head()

Unnamed: 0,CustomerID,TransactionDate,TransactionAmount,Age,Income,Tenure,Education,Industry,Geographic Location,Churn_Risk,Cohort,customer_tenure
0,1,2023-10-31,518.444092,56,52752.677346,3,Master,Technology,Europe,1,2023-08-31,12
1,1,2024-07-31,353.796197,56,52752.677346,3,Master,Technology,Europe,1,2023-08-31,12
2,1,2024-01-31,38.206591,56,52752.677346,3,Master,Technology,Europe,1,2023-08-31,12
3,1,2024-06-30,724.929423,56,52752.677346,3,Master,Technology,Europe,1,2023-08-31,12
4,2,2022-02-28,145.616,69,55297.364348,6,Bachelor,Technology,South America,0,2021-08-31,36


In [10]:


df_master['customer_tenure_on_transaction']=(df_master['TransactionDate'].dt.year-df_master['Cohort'].dt.year)*12 + (df_master['TransactionDate'].dt.month- df_master['Cohort'].dt.month)

In [11]:
df_master['customer_tenure_on_transaction']

0        2
1       11
2        5
3       10
4        6
        ..
4341     7
4342     2
4343     7
4344    10
4345    17
Name: customer_tenure_on_transaction, Length: 4346, dtype: int32

In [27]:
cltv_24_months=df_master[(df_master['customer_tenure'] > 24) & (df_master['customer_tenure_on_transaction'] <= 24)
].groupby('CustomerID')['TransactionAmount'].sum().reset_index()

cltv_24_months.head()

Unnamed: 0,CustomerID,TransactionAmount
0,2,145.616
1,3,487.285458
2,4,1095.025887
3,5,1685.260152
4,6,728.364381


In [35]:
df_to_model=cltv_24_months.merge(df_data, on='CustomerID')

categorical_features =['Education', 'Industry', 'Geographic Location']

numerical_features = ['Age', 'Income', 'Tenure']

data_encoded = pd.get_dummies(df_data[categorical_features], columns=categorical_features, drop_first=True)

df_data_with_encoded = df_data.[['CustomerID'+numerical_features].merge(data_encoded, on='CustomerID')

df_to_model = cltv_24_months.merge(df_data_with_encoded, on='CustomerID')

df_to_model

SyntaxError: invalid syntax (3675940396.py, line 9)