# Hyppo | Business Case - Growth & Automation

## Sección 1: El negocio y el ciclo de vida del cliente

### Librerías utilizadas

- **pandas**: Para manipulación de datos tabulares.
- **numpy**: Para operaciones matemáticas.
- **matplotlib/seaborn**: Para visualización de datos.
- **datetime**: Para manipulación de fechas.

In [1]:
# Librerías generales
import pandas as pd
import numpy as np

# Visualización
import matplotlib.pyplot as plt
import seaborn as sns

# Manejo de fechas
from datetime import datetime

### Carga de datos

En esta sección se importan los datasets proporcionados.

In [None]:
# Cargar datasets desde archivos Excel

# Transacciones del período 2023 y 2024 hasta octubre
df_bd_orders = pd.read_excel('bd_orders.xlsx', engine='openpyxl')

# Base de datos de descargas de la app desde Diciembre 2022 en adelante
df_BD_signups = pd.read_excel('BD_signups.xlsx', engine='openpyxl')

In [None]:
# Visualizar las primeras filas de orders
print(df_bd_orders.head())

       order_id                      order_date order_date_formatted  \
0  912710261SE1  2024-01-06 19:35:11.496613 UTC           2024-01-06   
1  912709920SE1  2024-01-06 12:17:58.491384 UTC           2024-01-06   
2  912709908SE1  2024-01-06 12:08:36.228774 UTC           2024-01-06   
3  912709881SE1  2024-01-06 11:34:34.233489 UTC           2024-01-06   
4  912709621SE1  2024-01-06 07:31:38.291595 UTC           2024-01-06   

                    customer_id  shipping_value  total_value channel  \
0  WEec0P8u38AGmMpuvKnyovb9iY0=            3.29        31.13  Market   
1  KxO6Jtcn9dRwJPm2lKIt+wzra0c=            3.29        30.47  Market   
2  AdKieWspuschRsmhmx2ytMWcQ9M=            3.29        26.69  Market   
3  AdKieWspuschRsmhmx2ytMWcQ9M=            3.29        35.73  Market   
4  XQkIxFiUJZMSRULXM5XjSe0YTMk=            3.29        70.37  Market   

  categoria tipo_orden      fecha_prometida  skus_pedidos  skus_entregados  \
0       NaN  INMEDIATA  2024-01-06 20:35:11             

In [None]:
# Visualizar las primeras filas de signups
print(df_BD_signups.head())

                    customer_id                  fecha_registro  \
0  g5lKDcWZDJzFMzJ2Bl6VaHpJiwM=  2023-04-04 10:14:31.000000 UTC   
1  ucMqsvu35mpXquTuxpfuclwXbo4=  2024-01-09 18:32:02.000000 UTC   
2  ABoOKaQVIsD7p16ZdWmL0EIQZNE=  2023-01-15 15:48:04.000000 UTC   
3  Wo5RRGAF8PBRh0A9jDbVnvzR1jQ=  2024-04-12 17:33:25.000000 UTC   
4  If1cgc2vscM3PevKkFCRlpkx5vQ=  2023-04-03 20:45:32.000000 UTC   

  fecha_registro_formatted  
0               2023-04-04  
1               2024-01-09  
2               2023-01-15  
3               2024-04-12  
4               2023-04-03  


### Análisis exploratorio de datos (EDA)

- **Shape**: Dimensiones de los datasets.
- **Missing values**: Identificación de valores nulos.
- **Distribuciones**: Análisis de distribuciones clave.

In [None]:
# Dimensiones de los datasets
print(f"File bd orders shape: {df_bd_orders.shape}")
print(f"File bd signups shape: {df_BD_signups.shape}")

File db orders shape: (310153, 14)
File db signups shape: (18411, 3)


In [17]:
# Me fijo el tipo de dato de cada uno, tengo que validar el tipo de dato tenga sentido. 
df_bd_orders.dtypes

order_id                        object
order_date                      object
order_date_formatted    datetime64[ns]
customer_id                     object
shipping_value                 float64
total_value                    float64
channel                         object
categoria                       object
tipo_orden                      object
fecha_prometida                 object
skus_pedidos                     int64
skus_entregados                float64
items_pedidos                    int64
items_entregados                 int64
dtype: object

In [19]:
# Me fijo el tipo de dato de cada uno, tengo que validar el tipo de dato tenga sentido. 
df_BD_signups.dtypes

customer_id                         object
fecha_registro                      object
fecha_registro_formatted    datetime64[ns]
dtype: object

In [None]:
# Valores nulos bd orders
print(df_bd_orders.isnull().sum())

customer_id                 0
fecha_registro              0
fecha_registro_formatted    0
dtype: int64


In [None]:
# Valores nulos bd signups
print(df_BD_signups.isnull().sum())

customer_id                 0
fecha_registro              0
fecha_registro_formatted    0
dtype: int64


In [16]:
# Estadísticas descriptivas bd orders
print(df_bd_orders.describe())

                order_date_formatted  shipping_value    total_value  \
count                         310153   310153.000000  310153.000000   
mean   2023-11-02 14:49:55.324243456        2.576440      35.969412   
min              2023-01-01 00:00:00        0.000000      -2.160000   
25%              2023-05-16 00:00:00        2.350000      12.540000   
50%              2023-10-24 00:00:00        3.290000      22.310000   
75%              2024-04-16 00:00:00        3.290000      42.770000   
max              2024-10-23 00:00:00        7.500000     595.910000   
std                              NaN        1.218902      41.104948   

        skus_pedidos  skus_entregados  items_pedidos  items_entregados  
count  310153.000000    306584.000000  310153.000000     310153.000000  
mean        8.587926         8.288723      13.507337         12.826460  
min         1.000000         0.000000       1.000000          0.000000  
25%         2.000000         2.000000       3.000000          2.0000

In [15]:
# Estadísticas descriptivas bd singups
print(df_BD_signups.describe())

            fecha_registro_formatted
count                          18411
mean   2023-10-29 10:58:33.768942336
min              2022-12-01 00:00:00
25%              2023-04-29 00:00:00
50%              2023-11-17 00:00:00
75%              2024-04-27 00:00:00
max              2024-10-23 00:00:00


In [None]:
# Me fijo en las variables categóricas qué opciones hay y cuáles hay de cada una

# channel
print(df_bd_orders['channel'].value_counts())

channel
Market    221947
Eats       88206
Name: count, dtype: int64


In [None]:
# Me fijo en las variables categóricas qué opciones hay y cuáles hay de cada una

# categoria
print(df_bd_orders['categoria'].value_counts())

categoria
BBQ & Grill                             22334
Hamburguesas                            21151
Cafetería                               11543
Populares                                5954
Helado y Yogurt                          5942
Ecuatoriana                              3960
Internacional                            2956
Asiática                                 2704
Pizza                                    2546
Top del mes                              2036
Saludable                                1349
Mexicana                                  986
Mariscos                                  845
Postres                                   743
Árabe                                     633
Super Promos por el Día del Canguil!      280
Promociones Exclusivas                    223
Gourmet                                    65
Comida rápida                              32
Hasta 50% OFF en Desayunos                  6
Name: count, dtype: int64


In [None]:
# Me fijo en las variables categóricas qué opciones hay y cuáles hay de cada una

# tipo_orden
print(df_bd_orders['tipo_orden'].value_counts())

tipo_orden
INMEDIATA     297870
PROGRAMADA      9117
SIN APUROS      3166
Name: count, dtype: int64


## Sección 2: Estrategia de marketing


### Carga de datos

En esta sección se importan los datasets proporcionados.

In [28]:
# Cargar datasets desde archivos Excel

# Base de datos sobre las campañas de envíos automatizados de comunicaciones que tuvo prendida 
# el cliente durante Q3 2024 con un detalle de los envíos realizados
df_BD_campaigns_Q3 = pd.read_excel('bd_campaigns_q3.xlsx', engine='openpyxl')

In [29]:
# Visualizar las primeras filas de orders
print(df_BD_campaigns_Q3.head())

   workspace_id               created_at  campaign_id           campaign_name  \
0        145987  2024-09-25 15:00:15 UTC            8  1. Onboarding Campaign   
1        145987  2024-09-25 15:00:19 UTC            8  1. Onboarding Campaign   
2        145987  2024-09-25 15:00:15 UTC            8  1. Onboarding Campaign   
3        145987  2024-09-25 15:00:11 UTC            8  1. Onboarding Campaign   
4        145987  2024-09-25 15:00:18 UTC            8  1. Onboarding Campaign   

   newsletter_id  content_id     metric  metric_reason  \
0            NaN         272  delivered            NaN   
1            NaN         272  delivered            NaN   
2            NaN         272  delivered            NaN   
3            NaN         272  delivered            NaN   
4            NaN         272  delivered            NaN   

                    customer_id                   subject  \
0  N/BUwz4cGzuY3Y/oYewW9v59fnI=  🛒 Haz tu primera compra!   
1  sXt9O+HXjTa9u2/rkg4Rr0aiP04=  🛒 Haz tu 

### Análisis exploratorio de datos (EDA)

- **Shape**: Dimensiones de los datasets.
- **Missing values**: Identificación de valores nulos.
- **Distribuciones**: Análisis de distribuciones clave.

In [30]:
# Dimensiones de los datasets
print(f"File bd campaigns q3 shape: {df_BD_campaigns_Q3.shape}")

File bd campaigns q3 shape: (329902, 12)


In [31]:
# Me fijo el tipo de dato de cada uno, tengo que validar el tipo de dato tenga sentido. 
df_BD_campaigns_Q3.dtypes

workspace_id       int64
created_at        object
campaign_id        int64
campaign_name     object
newsletter_id    float64
content_id         int64
metric            object
metric_reason    float64
customer_id       object
subject           object
preheader         object
delivery_type     object
dtype: object

In [32]:
# Valores nulos bd orders
print(df_BD_campaigns_Q3.isnull().sum())

workspace_id          0
created_at            0
campaign_id           0
campaign_name         0
newsletter_id    329902
content_id            0
metric                0
metric_reason    329902
customer_id           0
subject               0
preheader         38371
delivery_type         0
dtype: int64
