# EDA con Enfoque en CAC y LTV

Este cuaderno se centra en **preguntas de negocio** que generan valor al entender la relación entre:
- **CAC**: Costo de Adquisición de Cliente.
- **LTV**: Valor de Vida del Cliente.

Adicionalmente, explora aspectos clave como **suscripción**, **descuentos**, **categoría** del producto, **frecuencia de compras**, **método de pago**, etc. Con estas preguntas podrás tomar **decisiones estratégicas** sobre tu modelo de negocio, campañas de marketing y retención de clientes.

## Contenido:
1. **Importar librerías y cargar datos**
2. **Inspección inicial** (dimensiones, tipos de datos, nulos)
3. **Limpieza básica** (si es necesaria)
4. **Creación de columna** ratio `LTV/CAC` (rentabilidad por cliente)
5. **Preguntas de negocio** (groupby, filtros, etc.)
6. **Conclusiones**

In [1]:
!wget !wget https://github.com/javierherrera1996/IntroMarketingAnalytics/raw/refs/heads/main/PrimerCorte/shopping_trends_LTV_CAC.csv

--2025-03-12 21:46:22--  http://!wget/
Resolving !wget (!wget)... failed: Name or service not known.
wget: unable to resolve host address ‘!wget’
--2025-03-12 21:46:22--  https://github.com/javierherrera1996/IntroMarketingAnalytics/raw/refs/heads/main/PrimerCorte/shopping_trends_LTV_CAC.csv
Resolving github.com (github.com)... 140.82.116.3
Connecting to github.com (github.com)|140.82.116.3|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://raw.githubusercontent.com/javierherrera1996/IntroMarketingAnalytics/refs/heads/main/PrimerCorte/shopping_trends_LTV_CAC.csv [following]
--2025-03-12 21:46:23--  https://raw.githubusercontent.com/javierherrera1996/IntroMarketingAnalytics/refs/heads/main/PrimerCorte/shopping_trends_LTV_CAC.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HT

## 1. Importar librerías y cargar datos
Asegúrate de tener tu archivo CSV con las columnas mencionadas: `CAC`, `LTV`, `Purchase Amount (USD)`, etc. Ajusta la ruta según tu archivo real.

In [2]:
import pandas as pd
import numpy as np


# Cargar el dataset
df = pd.read_csv("shopping_trends_LTV_CAC.csv")


# Mostramos las primeras filas para verificar
df.head()

Unnamed: 0,Customer ID,Age,Gender,Item Purchased,Category,Purchase Amount (USD),Location,Size,Color,Season,...,Shipping Type,Discount Applied,Promo Code Used,Previous Purchases,Preferred Payment Method,Frequency of Purchases,CAC,LTV,Rentabilidad,LTV_CAC_Ratio
0,1,55,Male,Blouse,Clothing,53,Kentucky,L,Gray,Winter,...,Express,Yes,Yes,14,Venmo,Fortnightly,112.0,1512,16.434783,13.5
1,2,19,Male,Sweater,Clothing,64,Maine,L,Maroon,Winter,...,Express,Yes,Yes,2,Cash,Fortnightly,95.0,1497,19.96,15.757895
2,3,50,Male,Jeans,Clothing,73,Massachusetts,S,Maroon,Spring,...,Free Shipping,Yes,Yes,23,Credit Card,Weekly,32.0,1137,94.75,35.53125
3,4,21,Male,Sandals,Footwear,90,Rhode Island,M,Maroon,Spring,...,Next Day Air,Yes,Yes,49,PayPal,Weekly,,1914,26.957746,26.957746
4,5,45,Male,Blouse,Clothing,49,Oregon,M,Turquoise,Spring,...,Free Shipping,Yes,Yes,31,PayPal,Annually,47.0,1300,48.148148,27.659574


## 2. Inspección inicial
1. **Dimensiones (filas x columnas)**
2. **Info general**: tipos de dato, nulos, etc.
3. **Valores nulos** por columna.

Si existen valores nulos en columnas importantes (por ejemplo, `CAC`, `LTV`, `Customer ID`), evalúa si los eliminarás o imputarás.

In [3]:
#Columnas

df.shape

(3900, 23)

In [4]:
#Informacion general
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3900 entries, 0 to 3899
Data columns (total 23 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Customer ID               3900 non-null   int64  
 1   Age                       3900 non-null   int64  
 2   Gender                    3900 non-null   object 
 3   Item Purchased            3900 non-null   object 
 4   Category                  3900 non-null   object 
 5   Purchase Amount (USD)     3900 non-null   int64  
 6   Location                  3900 non-null   object 
 7   Size                      3900 non-null   object 
 8   Color                     3900 non-null   object 
 9   Season                    3900 non-null   object 
 10  Review Rating             3900 non-null   float64
 11  Subscription Status       3900 non-null   object 
 12  Payment Method            3900 non-null   object 
 13  Shipping Type             3900 non-null   object 
 14  Discount

In [5]:
df.isnull().sum()

Unnamed: 0,0
Customer ID,0
Age,0
Gender,0
Item Purchased,0
Category,0
Purchase Amount (USD),0
Location,0
Size,0
Color,0
Season,0


In [None]:
#Descripción
df.describe()

Unnamed: 0,Customer ID,Age,Purchase Amount (USD),Review Rating,Previous Purchases,CAC,LTV,Rentabilidad,LTV_CAC_Ratio
count,3900.0,3900.0,3900.0,3900.0,3900.0,3301.0,3900.0,3900.0,3900.0
mean,1950.5,44.068462,59.764359,3.749949,25.351538,66.292336,1108.944872,28.330611,23.301258
std,1125.977353,15.207589,23.685392,0.716223,14.447125,27.71238,527.645495,27.627277,22.705725
min,1.0,18.0,20.0,2.5,1.0,10.0,200.0,2.070707,1.722689
25%,975.75,31.0,39.0,3.1,13.0,44.0,657.0,11.665094,10.03588
50%,1950.5,44.0,60.0,3.7,25.0,67.0,1107.0,19.784776,17.062261
75%,2925.25,57.0,81.0,4.4,38.0,88.0,1563.0,33.307253,27.629467
max,3900.0,70.0,100.0,5.0,50.0,120.0,2410.0,215.8,215.8


## 3. Limpieza básica
Por ejemplo, si detectas `CAC <= 0` o `LTV <= 0` y consideras que no tienen sentido en tu negocio, podrías filtrar esos registros. Ajusta según tu criterio.

In [None]:
df= df.dropna(subset=['CAC'])

In [None]:
df.isnull().sum()

Unnamed: 0,0
Customer ID,0
Age,0
Gender,0
Item Purchased,0
Category,0
Purchase Amount (USD),0
Location,0
Size,0
Color,0
Season,0


In [None]:
df[df['LTV']==""]

Unnamed: 0,Customer ID,Age,Gender,Item Purchased,Category,Purchase Amount (USD),Location,Size,Color,Season,...,Shipping Type,Discount Applied,Promo Code Used,Previous Purchases,Preferred Payment Method,Frequency of Purchases,CAC,LTV,Rentabilidad,LTV_CAC_Ratio


In [None]:
# Eliminamos filas donde CAC menor o igual a 0
df[df['CAC']==""]

Unnamed: 0,Customer ID,Age,Gender,Item Purchased,Category,Purchase Amount (USD),Location,Size,Color,Season,...,Shipping Type,Discount Applied,Promo Code Used,Previous Purchases,Preferred Payment Method,Frequency of Purchases,CAC,LTV,Rentabilidad,LTV_CAC_Ratio


In [None]:
df[df["LTV"]<=0]

Unnamed: 0,Customer ID,Age,Gender,Item Purchased,Category,Purchase Amount (USD),Location,Size,Color,Season,...,Shipping Type,Discount Applied,Promo Code Used,Previous Purchases,Preferred Payment Method,Frequency of Purchases,CAC,LTV,Rentabilidad,LTV_CAC_Ratio


## 4. Creación de columna: Ratio LTV/CAC
Es una métrica clave de la **rentabilidad** del cliente. Un valor > 1 indica que, en teoría, el cliente retorna más de lo que cuesta adquirirlo.

In [None]:
df['Ratio'] = df['LTV'] / df['CAC']

In [None]:
df.head()

Unnamed: 0,Customer ID,Age,Gender,Item Purchased,Category,Purchase Amount (USD),Location,Size,Color,Season,...,Discount Applied,Promo Code Used,Previous Purchases,Preferred Payment Method,Frequency of Purchases,CAC,LTV,Rentabilidad,LTV_CAC_Ratio,Ratio
0,1,55,Male,Blouse,Clothing,53,Kentucky,L,Gray,Winter,...,Yes,Yes,14,Venmo,Fortnightly,112.0,1512,16.434783,13.5,13.5
1,2,19,Male,Sweater,Clothing,64,Maine,L,Maroon,Winter,...,Yes,Yes,2,Cash,Fortnightly,95.0,1497,19.96,15.757895,15.757895
2,3,50,Male,Jeans,Clothing,73,Massachusetts,S,Maroon,Spring,...,Yes,Yes,23,Credit Card,Weekly,32.0,1137,94.75,35.53125,35.53125
4,5,45,Male,Blouse,Clothing,49,Oregon,M,Turquoise,Spring,...,Yes,Yes,31,PayPal,Annually,47.0,1300,48.148148,27.659574,27.659574
6,7,63,Male,Shirt,Clothing,85,Montana,M,Gray,Fall,...,Yes,Yes,49,Cash,Quarterly,99.0,213,2.696203,2.151515,2.151515


## 5. Preguntas de Negocio
En vez de usar gráficas o correlaciones, nos centramos en **preguntas que generen valor** al análisis. Cada una se resuelve con **groupby, filtros o estadísticas** simples.

1. **¿Cuántos clientes únicos hay y cuál es la edad promedio?**
2. **¿Cuál es el CAC promedio y el LTV promedio en todo el dataset?**
3. **¿Cuál es la ratio LTV/CAC promedio?**
4. **¿Qué categoría tiene el mayor LTV en promedio?**
5. **¿En cuál categoría se justifica más el CAC?** (categoría con mayor ratio LTV/CAC)
6. **¿Los clientes suscritos tienen LTV mayor que los no suscritos?**
7. **¿Cuál es el método de pago más frecuente y su LTV promedio?**
8. **¿Quiénes usan descuentos con mayor frecuencia?** (Por ejemplo, ¿cierto género, cierto rango de edad?)
9. **¿Cuántos clientes aprovechan códigos promocionales (Promo Code Used)?** y su ratio LTV/CAC
10. **¿Cuál es la frecuencia de compra más común (Frequency of Purchases)?** y su LTV asociado.
11. **¿Cuál es la ubicación (Location) con mayor ratio LTV/CAC?**
12. **Entre los clientes con `Previous Purchases` > X, cuál es el gasto promedio y LTV promedio?**


### 5.1 ¿Cuántos clientes únicos hay y cuál es la edad promedio?

RTA: 3301 son el total de clientes únicos y tienen un promedio de 44 años.

In [None]:
df['Customer ID'].nunique()

3301

In [None]:
df['Age'].mean()

44.00060587700697

### 5.2 ¿Cuál es el CAC promedio y el LTV promedio en todo el dataset?

RTA: El CAC promedio es de 66.29 y la LTV promedio es 1110.69.

In [None]:
df['CAC'].mean()

66.29233565586186

In [None]:
df['LTV'].mean()

1110.6934262344744

### 5.3 ¿Cuál es la ratio LTV/CAC promedio?

RTA: El Ratio promedio es 22.44.

In [None]:
df['Ratio'].mean()

22.446982949947316

### 5.4 ¿Qué categoría tiene el mayor LTV en promedio?

RTA: Accesories es la categoría con mayor LTV promedio (1145.99).

In [None]:
df.groupby('Category')['LTV'].mean()

Unnamed: 0_level_0,LTV
Category,Unnamed: 1_level_1
Accessories,1145.992742
Clothing,1095.688543
Outerwear,1056.040123


### 5.5 ¿En cuál categoría se justifica más el CAC? (mayor ratio LTV/CAC)

RTA: Es Accesories la categoría con ratio (29.28).

In [None]:
df.groupby('Category')['Ratio'].mean()

Unnamed: 0_level_0,Ratio
Category,Unnamed: 1_level_1
Accessories,29.281313
Clothing,16.845818
Outerwear,26.319371


### 5.6 ¿Los clientes suscritos tienen LTV mayor que los no suscritos?

RTA: Los clientes que tiene mayor LTV son los que no están suscritos.

In [None]:
df.groupby('Subscription Status')['LTV'].mean()

Unnamed: 0_level_0,LTV
Subscription Status,Unnamed: 1_level_1
No,1115.798264
Yes,1096.692744


### 5.7 ¿Cuál es el método de pago más frecuente y su LTV promedio?

RTA: El método de pago más frecuente es Credit Card y tiene un LTV de 1099.99.

In [None]:
df['Payment Method'].value_counts()

Unnamed: 0_level_0,count
Payment Method,Unnamed: 1_level_1
Credit Card,612
Venmo,545
Cash,543
Debit Card,542
Bank Transfer,534
PayPal,525


In [None]:
df.groupby('Payment Method')['LTV'].mean()

Unnamed: 0_level_0,LTV
Payment Method,Unnamed: 1_level_1
Bank Transfer,1135.986891
Cash,1162.265193
Credit Card,1099.990196
Debit Card,1098.097786
PayPal,1086.798095
Venmo,1082.091743


### 5.8 ¿Quiénes usan descuentos con mayor frecuencia?
Podemos ver si hay algún grupo (por género, rango de edad, etc.) que destaca. A modo de ejemplo, segmentaremos por género:

RTA: Male utiliza más los descuentos.

In [None]:
df.groupby('Gender')['Discount Applied'].count()

Unnamed: 0_level_0,Discount Applied
Gender,Unnamed: 1_level_1
Female,1049
Male,2252


Podrías repetir el ejercicio segmentando por **Age** (definiendo rangos) o por **Location**.

### 5.9 ¿Cuántos clientes aprovechan códigos promocionales y cuál es su ratio LTV/CAC?
El uso de promos puede modificar la rentabilidad.

RTA: 1418 clientes utilizan código promocional, los que utilizan código tienen un ratio de 22.70.

In [None]:
df['Promo Code Used'].value_counts()

Unnamed: 0_level_0,count
Promo Code Used,Unnamed: 1_level_1
No,1883
Yes,1418


In [None]:
df.groupby('Promo Code Used')['Ratio'].mean()

Unnamed: 0_level_0,Ratio
Promo Code Used,Unnamed: 1_level_1
No,22.252655
Yes,22.705036


### 5.10 ¿Cuál es la frecuencia de compra más común (Frequency of Purchases) y su LTV?
Esto ayuda a ver si, por ejemplo, los clientes que compran semanalmente tienen un LTV más alto.

RTA: Every 3 Months es la frecuencia de compra y tiene un LTV de 1088.77.

In [None]:
df['Frequency of Purchases'].value_counts()

Unnamed: 0_level_0,count
Frequency of Purchases,Unnamed: 1_level_1
Every 3 Months,492
Annually,485
Quarterly,480
Monthly,478
Bi-Weekly,467
Weekly,453
Fortnightly,446


In [None]:
df.groupby('Frequency of Purchases')['LTV'].mean()

Unnamed: 0_level_0,LTV
Frequency of Purchases,Unnamed: 1_level_1
Annually,1095.987629
Bi-Weekly,1181.297645
Every 3 Months,1088.776423
Fortnightly,1112.547085
Monthly,1101.855649
Quarterly,1084.364583
Weekly,1112.854305


### 5.11 ¿Cuál es la ubicación (Location) con mayor ratio LTV/CAC?

RTA: New York ubicación con mayor Ratio.

In [None]:
df.groupby('Location')['Ratio'].mean()

Unnamed: 0_level_0,Ratio
Location,Unnamed: 1_level_1
Alabama,21.481423
Alaska,21.457456
Arizona,23.806429
Arkansas,20.151509
California,27.714002
Colorado,21.680277
Connecticut,21.473588
Delaware,20.915415
Florida,23.776268
Georgia,19.392744


### 5.12 Entre los clientes con `Previous Purchases` > X, ¿cuál es el gasto promedio y el LTV promedio?
Define un umbral X según tu contexto. Por ejemplo, X = 20:

RTA = Los clientes con un Previous Purchases mayor a 20, tienen promedio de gasto es 66.10 y el LTV 1121.81.

In [None]:
dfmayora20 =df[df['Previous Purchases'] > 20]

In [None]:
dfmayora20['CAC'].mean()

66.1076688674454

In [None]:
dfmayora20['LTV'].mean()

1121.810563737938

## 6. Conclusiones

En este Notebook, hemos abordado un **EDA orientado a negocio** en el que:
1. **Identificamos** la base total de clientes y su edad promedio.
2. **Calculamos** el CAC y LTV promedio, y la ratio LTV/CAC global.
3. **Segregamos** por categorías, suscripción, uso de descuentos, métodos de pago, etc.
4. **Resolvimos** preguntas de negocio que ayudan a:
   - **Identificar** cuáles categorías o ubicaciones ofrecen mejor rentabilidad (ratio LTV/CAC).
   - **Entender** si la suscripción eleva el LTV.
   - **Explorar** la efectividad de promos y descuentos.
   - **Diferenciar** frecuencias de compra y ver su impacto en LTV.
   - **Focalizar** inversiones de marketing en los segmentos más prometedores.

Este tipo de **análisis** proporciona las bases para **estrategias** de retención, adquisición y segmentación de clientes. ¡Espero que te sea útil para **generar valor** en tu negocio!