# EDA con Enfoque en CAC y LTV

Este cuaderno se centra en **preguntas de negocio** que generan valor al entender la relación entre:
- **CAC**: Costo de Adquisición de Cliente.
- **LTV**: Valor de Vida del Cliente.

Adicionalmente, explora aspectos clave como **suscripción**, **descuentos**, **categoría** del producto, **frecuencia de compras**, **método de pago**, etc. Con estas preguntas podrás tomar **decisiones estratégicas** sobre tu modelo de negocio, campañas de marketing y retención de clientes.

## Contenido:
1. **Importar librerías y cargar datos**
2. **Inspección inicial** (dimensiones, tipos de datos, nulos)
3. **Limpieza básica** (si es necesaria)
4. **Creación de columna** ratio `LTV/CAC` (rentabilidad por cliente)
5. **Preguntas de negocio** (groupby, filtros, etc.)
6. **Conclusiones**

In [None]:
!wget !wget https://github.com/javierherrera1996/IntroMarketingAnalytics/raw/refs/heads/main/PrimerCorte/shopping_trends_LTV_CAC.csv

--2025-03-12 14:12:40--  http://!wget/
Resolving !wget (!wget)... failed: Name or service not known.
wget: unable to resolve host address ‘!wget’
--2025-03-12 14:12:40--  https://github.com/javierherrera1996/IntroMarketingAnalytics/raw/refs/heads/main/PrimerCorte/shopping_trends_LTV_CAC.csv
Resolving github.com (github.com)... 140.82.113.3
Connecting to github.com (github.com)|140.82.113.3|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://raw.githubusercontent.com/javierherrera1996/IntroMarketingAnalytics/refs/heads/main/PrimerCorte/shopping_trends_LTV_CAC.csv [following]
--2025-03-12 14:12:41--  https://raw.githubusercontent.com/javierherrera1996/IntroMarketingAnalytics/refs/heads/main/PrimerCorte/shopping_trends_LTV_CAC.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HT

## 1. Importar librerías y cargar datos
Asegúrate de tener tu archivo CSV con las columnas mencionadas: `CAC`, `LTV`, `Purchase Amount (USD)`, etc. Ajusta la ruta según tu archivo real.

In [None]:
import pandas as pd
import numpy as np


# Cargar el dataset
df = pd.read_csv("shopping_trends_LTV_CAC.csv")


# Mostramos las primeras filas para verificar
df.head()

Unnamed: 0,Customer ID,Age,Gender,Item Purchased,Category,Purchase Amount (USD),Location,Size,Color,Season,...,Shipping Type,Discount Applied,Promo Code Used,Previous Purchases,Preferred Payment Method,Frequency of Purchases,CAC,LTV,Rentabilidad,LTV_CAC_Ratio
0,1,55,Male,Blouse,Clothing,53,Kentucky,L,Gray,Winter,...,Express,Yes,Yes,14,Venmo,Fortnightly,112.0,1512,16.434783,13.5
1,2,19,Male,Sweater,Clothing,64,Maine,L,Maroon,Winter,...,Express,Yes,Yes,2,Cash,Fortnightly,95.0,1497,19.96,15.757895
2,3,50,Male,Jeans,Clothing,73,Massachusetts,S,Maroon,Spring,...,Free Shipping,Yes,Yes,23,Credit Card,Weekly,32.0,1137,94.75,35.53125
3,4,21,Male,Sandals,Footwear,90,Rhode Island,M,Maroon,Spring,...,Next Day Air,Yes,Yes,49,PayPal,Weekly,,1914,26.957746,26.957746
4,5,45,Male,Blouse,Clothing,49,Oregon,M,Turquoise,Spring,...,Free Shipping,Yes,Yes,31,PayPal,Annually,47.0,1300,48.148148,27.659574


## 2. Inspección inicial
1. **Dimensiones (filas x columnas)**
2. **Info general**: tipos de dato, nulos, etc.
3. **Valores nulos** por columna.

Si existen valores nulos en columnas importantes (por ejemplo, `CAC`, `LTV`, `Customer ID`), evalúa si los eliminarás o imputarás.

In [37]:
df.shape

(3301, 24)

In [None]:
print(f"Dimensiones del dataset: {df.shape}")

Dimensiones del dataset: (3900, 23)


In [None]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3900 entries, 0 to 3899
Data columns (total 23 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Customer ID               3900 non-null   int64  
 1   Age                       3900 non-null   int64  
 2   Gender                    3900 non-null   object 
 3   Item Purchased            3900 non-null   object 
 4   Category                  3900 non-null   object 
 5   Purchase Amount (USD)     3900 non-null   int64  
 6   Location                  3900 non-null   object 
 7   Size                      3900 non-null   object 
 8   Color                     3900 non-null   object 
 9   Season                    3900 non-null   object 
 10  Review Rating             3900 non-null   float64
 11  Subscription Status       3900 non-null   object 
 12  Payment Method            3900 non-null   object 
 13  Shipping Type             3900 non-null   object 
 14  Discount

In [None]:
print(df.isnull().sum())

Customer ID                   0
Age                           0
Gender                        0
Item Purchased                0
Category                      0
Purchase Amount (USD)         0
Location                      0
Size                          0
Color                         0
Season                        0
Review Rating                 0
Subscription Status           0
Payment Method                0
Shipping Type                 0
Discount Applied              0
Promo Code Used               0
Previous Purchases            0
Preferred Payment Method      0
Frequency of Purchases        0
CAC                         599
LTV                           0
Rentabilidad                  0
LTV_CAC_Ratio                 0
dtype: int64


## 3. Limpieza básica
Por ejemplo, si detectas `CAC <= 0` o `LTV <= 0` y consideras que no tienen sentido en tu negocio, podrías filtrar esos registros. Ajusta según tu criterio.

In [None]:
df[(df['CAC']<=0) | (df['LTV']<=10)]

Unnamed: 0,Customer ID,Age,Gender,Item Purchased,Category,Purchase Amount (USD),Location,Size,Color,Season,...,Shipping Type,Discount Applied,Promo Code Used,Previous Purchases,Preferred Payment Method,Frequency of Purchases,CAC,LTV,Rentabilidad,LTV_CAC_Ratio


In [None]:
df = df[(df['CAC'] > 0) & (df['LTV'] > 0)]

## 4. Creación de columna: Ratio LTV/CAC
Es una métrica clave de la **rentabilidad** del cliente. Un valor > 1 indica que, en teoría, el cliente retorna más de lo que cuesta adquirirlo.

In [None]:
df['LTV/CAC'] = df['LTV'] / df['CAC']  #Crear una columna Ratio LTV/CAC

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['LTV/CAC'] = df['LTV'] / df['CAC']  #Crear una columna Ratio LTV/CAC


## 5. Preguntas de Negocio
En vez de usar gráficas o correlaciones, nos centramos en **preguntas que generen valor** al análisis. Cada una se resuelve con **groupby, filtros o estadísticas** simples.

1. **¿Cuántos clientes únicos hay y cuál es la edad promedio?**
2. **¿Cuál es el CAC promedio y el LTV promedio en todo el dataset?**
3. **¿Cuál es la ratio LTV/CAC promedio?**
4. **¿Qué categoría tiene el mayor LTV en promedio?**
5. **¿En cuál categoría se justifica más el CAC?** (categoría con mayor ratio LTV/CAC)
6. **¿Los clientes suscritos tienen LTV mayor que los no suscritos?**
7. **¿Cuál es el método de pago más frecuente y su LTV promedio?**
8. **¿Quiénes usan descuentos con mayor frecuencia?** (Por ejemplo, ¿cierto género, cierto rango de edad?)
9. **¿Cuántos clientes aprovechan códigos promocionales (Promo Code Used)?** y su ratio LTV/CAC
10. **¿Cuál es la frecuencia de compra más común (Frequency of Purchases)?** y su LTV asociado.
11. **¿Cuál es la ubicación (Location) con mayor ratio LTV/CAC?**
12. **Entre los clientes con `Previous Purchases` > X, cuál es el gasto promedio y LTV promedio?**


### 5.1 ¿Cuántos clientes únicos hay y cuál es la edad promedio?

In [None]:
df['Customer ID'].nunique()

3301

In [None]:
df['Age'].mean()

44.00060587700697

Hay 3301 clientes únicos y la edad promedio es de 44.00060587700697

### 5.2 ¿Cuál es el CAC promedio y el LTV promedio en todo el dataset?

In [None]:
df['CAC'].mean()

66.29233565586186

In [None]:
df['LTV'].mean()

1110.6934262344744

In [None]:
print(f"El CAC promedio es: {df['CAC'].mean()}")
print(f"El LTV promedio es: {df['LTV'].mean()}")

El CAC promedio es: 66.29233565586186
El LTV promedio es: 1110.6934262344744


El CAC promedio es de 66.29233565586186 y el LTV promedio en todo el dataset es de 1110.6934262344744


### 5.3 ¿Cuál es la ratio LTV/CAC promedio?

In [None]:
df['LTV/CAC'].mean()

22.446982949947316

In [None]:
df['LTV/CAC'].describe()

Unnamed: 0,LTV/CAC
count,3301.0
mean,22.446983
std,22.025988
min,1.722689
25%,9.723404
50%,16.604651
75%,26.469697
max,215.8


In [None]:
print(f"La ratio LTV/CAC promedio es: {df['LTV/CAC'].mean()}")

La ratio LTV/CAC promedio es: 22.446982949947316


In [19]:
print(f"La ratio LTV/CAC promedio es: {df['LTV/CAC'].mean()}")

La ratio LTV/CAC promedio es: 22.446982949947316


El ratio LTV/CAC promedio es de 22.45 realizando la aproximacion, sin embargo, la cifra neta que aparece es 22.446982949947316





### 5.4 ¿Qué categoría tiene el mayor LTV en promedio?

In [20]:
df.groupby('Category')['LTV'].mean().sort_values(ascending=False)

Unnamed: 0_level_0,LTV
Category,Unnamed: 1_level_1
Accessories,1145.992742
Clothing,1095.688543
Outerwear,1056.040123


In [21]:
print(df.groupby('Category')['LTV'].mean().idxmax())


Accessories


La categoría que tiene el mayor LTV en promedio es accesorios "Accessories"

### 5.5 ¿En cuál categoría se justifica más el CAC? (mayor ratio LTV/CAC)

In [22]:
df.groupby('Category')['LTV/CAC'].mean().sort_values(ascending=False)

Unnamed: 0_level_0,LTV/CAC
Category,Unnamed: 1_level_1
Accessories,29.281313
Outerwear,26.319371
Clothing,16.845818


In [23]:
print(df.groupby('Category')['LTV/CAC'].mean().idxmax())

Accessories


In [24]:
print(df.groupby('Category')['LTV/CAC'].mean())

Category
Accessories    29.281313
Clothing       16.845818
Outerwear      26.319371
Name: LTV/CAC, dtype: float64


La categoría en la que más se justifica el Costo de Adquisición de Clientes (CAC) es "Accesories" , ya que presenta el mayor ratio LTV/CAC con un valor de 29.28 . Esto indica que, en promedio, el lifetime value (LTV) en esta categoría es significativamente mayor en relación con el costo de adquisición, lo que hace que la inversión en CAC sea más rentable en comparación con las demás categorías.

### 5.6 ¿Los clientes suscritos tienen LTV mayor que los no suscritos?

In [25]:
df.groupby('Subscription Status')['LTV'].mean()

Unnamed: 0_level_0,LTV
Subscription Status,Unnamed: 1_level_1
No,1115.798264
Yes,1096.692744


No, los clientes suscritos "yes" tienen un LTV promedio de 1096.692744, mientras que los no suscritos "no" alcanzan un promedio de 1115.798264; lo que indica que, en promedio, los clientes no suscritos generan un LTV mayor a lo largo del tiempo en comparación con si son suscritos.

### 5.7 ¿Cuál es el método de pago más frecuente y su LTV promedio?

In [26]:
df.groupby('Payment Method')['LTV'].mean().sort_values(ascending=False)

Unnamed: 0_level_0,LTV
Payment Method,Unnamed: 1_level_1
Cash,1162.265193
Bank Transfer,1135.986891
Credit Card,1099.990196
Debit Card,1098.097786
PayPal,1086.798095
Venmo,1082.091743


In [27]:
print(df.groupby('Payment Method')['LTV'].mean().idxmax())

Cash


El método de pago más frecuente es "Cash" y su LTV promedio es de "1162.265193"

### 5.8 ¿Quiénes usan descuentos con mayor frecuencia?
Podemos ver si hay algún grupo (por género, rango de edad, etc.) que destaca. A modo de ejemplo, segmentaremos por género:

In [28]:
df.groupby('Gender')['Promo Code Used'].value_counts()

Unnamed: 0_level_0,Unnamed: 1_level_0,count
Gender,Promo Code Used,Unnamed: 2_level_1
Female,No,1049
Male,Yes,1418
Male,No,834


In [29]:
print(df.groupby('Gender')['Promo Code Used'].value_counts())

Gender  Promo Code Used
Female  No                 1049
Male    Yes                1418
        No                  834
Name: count, dtype: int64


Los hombres utilizan códigos de descuento con mayor frecuencia en comparación con las mujeres, pues al analizar los resultados que arrojan las formulas 1,418 hombres usaron códigos de descuento, mientras que 834 no lo hicieron. Adicional, 1,049 mujeres no usaron códigos de descuento, pues no hay datos explícitos de cuántas sí los usaron

Podrías repetir el ejercicio segmentando por **Age** (definiendo rangos) o por **Location**.

In [30]:
print(df.groupby('Age')['Promo Code Used'].value_counts())

Age  Promo Code Used
18   No                 35
     Yes                26
19   No                 44
     Yes                25
20   No                 28
                        ..
68   Yes                30
69   No                 49
     Yes                32
70   No                 30
     Yes                25
Name: count, Length: 106, dtype: int64


In [31]:
df.groupby('Location')['Promo Code Used'].value_counts()

Unnamed: 0_level_0,Unnamed: 1_level_0,count
Location,Promo Code Used,Unnamed: 2_level_1
Alabama,No,41
Alabama,Yes,33
Alaska,No,38
Alaska,Yes,25
Arizona,No,41
...,...,...
West Virginia,No,33
Wisconsin,No,32
Wisconsin,Yes,31
Wyoming,No,34


### 5.9 ¿Cuántos clientes aprovechan códigos promocionales y cuál es su ratio LTV/CAC?
El uso de promos puede modificar la rentabilidad.

In [32]:
df.groupby('Promo Code Used')['LTV/CAC'].mean()

Unnamed: 0_level_0,LTV/CAC
Promo Code Used,Unnamed: 1_level_1
No,22.252655
Yes,22.705036


Son 	22.705036 clientes aprovechan códigos promocionales y a su vez los datos indican que el ratio LTV/CAC para quienes utilizaron códigos promocionales es 22.70 , mientras que para quienes no los usaron es 22.25

### 5.10 ¿Cuál es la frecuencia de compra más común (Frequency of Purchases) y su LTV?
Esto ayuda a ver si, por ejemplo, los clientes que compran semanalmente tienen un LTV más alto.

In [33]:
df.groupby('Frequency of Purchases')['LTV'].mean().sort_values(ascending=False)

Unnamed: 0_level_0,LTV
Frequency of Purchases,Unnamed: 1_level_1
Bi-Weekly,1181.297645
Weekly,1112.854305
Fortnightly,1112.547085
Monthly,1101.855649
Annually,1095.987629
Every 3 Months,1088.776423
Quarterly,1084.364583


In [34]:
df.groupby('Frequency of Purchases')['LTV'].mean().idxmax()

'Bi-Weekly'

La frecuencia de compra más común (Frequency of Purchases) es Bi-Weekly y su LTV es de 1181.297645

### 5.11 ¿Cuál es la ubicación (Location) con mayor ratio LTV/CAC?

In [35]:
#la ubicación (Location) con mayor ratio LTV/CAC es New York: 32.785849
df.groupby('Location')['LTV/CAC'].mean().sort_values(ascending=False).head(5)

Unnamed: 0_level_0,LTV/CAC
Location,Unnamed: 1_level_1
New York,32.785849
Kentucky,30.392803
South Dakota,30.023524
California,27.714002
Hawaii,27.288639


### 5.12 Entre los clientes con `Previous Purchases` > X, ¿cuál es el gasto promedio y el LTV promedio?
Define un umbral X según tu contexto. Por ejemplo, X = 20:

In [36]:
df[df['Previous Purchases'] > 20].agg({'Purchase Amount (USD)': 'mean', 'LTV': 'mean'})

Unnamed: 0,0
Purchase Amount (USD),59.636872
LTV,1121.810564


## 6. Conclusiones

En este Notebook, hemos abordado un **EDA orientado a negocio** en el que:
1. **Identificamos** la base total de clientes y su edad promedio.
2. **Calculamos** el CAC y LTV promedio, y la ratio LTV/CAC global.
3. **Segregamos** por categorías, suscripción, uso de descuentos, métodos de pago, etc.
4. **Resolvimos** preguntas de negocio que ayudan a:
   - **Identificar** cuáles categorías o ubicaciones ofrecen mejor rentabilidad (ratio LTV/CAC).
   - **Entender** si la suscripción eleva el LTV.
   - **Explorar** la efectividad de promos y descuentos.
   - **Diferenciar** frecuencias de compra y ver su impacto en LTV.
   - **Focalizar** inversiones de marketing en los segmentos más prometedores.

Este tipo de **análisis** proporciona las bases para **estrategias** de retención, adquisición y segmentación de clientes. ¡Espero que te sea útil para **generar valor** en tu negocio!