# **Proyecto SPRINT 8**

# Descripción del proyecto
Se te ha ido muy bien y te han ofrecido hacer prácticas en el departamento analítico de Y.Afisha. Tu primera tarea es ayudar a optimizar los gastos de marketing.

Lo que tienes:

- registros del servidor con datos sobre las visitas a Y.Afisha desde enero de 2017 hasta diciembre de 2018;
- un archivo con los pedidos en este periodo;
- estadísticas de gastos de marketing.
  
Lo que vas a investigar:

- cómo los clientes usan el servicio;
- cuándo empiezan a comprar;
- cuánto dinero aporta cada cliente a la compañía;
- cuándo los ingresos cubren el costo de adquisición de los clientes.

### Instrucciones para completar el proyecto

## Paso 1. Descarga los datos y prepáralos para el análisis

Almacena los datos de visitas, pedidos y gastos en variables.  Optimiza los datos para el análisis. Asegúrate de que cada columna contenga el tipo de datos correcto.

Rutas de archivos: 

- /datasets/visits_log_us.csv. 
- /datasets/orders_log_us.csv.
- /datasets/costs_us.csv.

## Paso 2. Haz informes y calcula métricas 

1. Visitas:
- ¿Cuántas personas lo usan cada día, semana y mes?
- ¿Cuántas sesiones hay por día? (Un/a usuario/a puede tener más de una sesión).
- ¿Cuál es la duración de cada sesión?
- ¿Con qué frecuencia los usuarios y las usuarias regresan?

2. Ventas:
 
- ¿Cuándo la gente empieza a comprar? (En el análisis de KPI, generalmente nos interesa saber el tiempo que transcurre entre el registro y la conversión, es decir, cuando el/la usuario/a se convierte en cliente. Por ejemplo, si el registro y la primera compra ocurren el mismo día, el/la usuario/a podría caer en la categoría Conversion 0d. Si la primera compra ocurre al día siguiente, será Conversion 1d.  Puedes usar cualquier enfoque que te permita comparar las conversiones de diferentes cohortes para que puedas determinar qué cohorte o canal de marketing es más efectivo).
- ¿Cuántos pedidos hacen durante un período de tiempo dado?
- ¿Cuál es el tamaño promedio de compra?
- ¿Cuánto dinero traen? (LTV)

3. Marketing:
 
- ¿Cuánto dinero se gastó? (Total/por fuente de adquisición/a lo largo del tiempo)
- ¿Cuál fue el costo de adquisición de clientes de cada una de las fuentes?
- ¿Cuán rentables eran las inversiones? (ROMI)

Traza gráficos para mostrar cómo difieren estas métricas para varios dispositivos y fuentes de anuncios y cómo cambian con el tiempo. 

## Paso 3. Escribe una conclusión: aconseja a los expertos de marketing cuánto dinero invertir y dónde

¿Qué fuentes/plataformas recomendarías?  Fundamenta tu selección: ¿en qué métricas te enfocaste?  ¿Por qué? ¿Qué conclusiones sacaste después de encontrar los valores métricos?


### Descripción de los datos

1. La tabla visits (registros del servidor con datos sobre las visitas al sitio web):

- Uid: identificador único del usuario;
- Device: dispositivo del usuario;
- Start Ts: fecha y hora de inicio de la sesión;
- End Ts: fecha y hora de término de la sesión;
- Source Id: identificador de la fuente de anuncios de la que proviene el usuario.

Todas las fechas de esta tabla están en formato AAAA-MM-DD.

2. La tabla orders (datos sobre pedidos):

- Uid: identificador único del usuario que realiza un pedido;
- Buy Ts: fecha y hora del pedido;
- Revenue: ingresos de Y.Afisha de este pedido.

3. La tabla costs (datos sobre gastos de marketing):

- source_id: identificador de la fuente de anuncios
- dt: fecha;
- costs: gastos en esta fuente de anuncios en este día.

### Importamos las bibliotecas utilizadas

In [None]:
import pandas as pd

In [6]:
# Cargar los datos de visitas, pedidos y gastos
visits = pd.read_csv("datasets/visits_log_us.csv")
orders = pd.read_csv("datasets/orders_log_us.csv")
costs = pd.read_csv("datasets/costs_us.csv")

In [10]:
print(visits.head())
print("====================================================")
print(orders.head())
print("====================================================")
print(costs.head())

    Device               End Ts  Source Id             Start Ts  \
0    touch  2017-12-20 17:38:00          4  2017-12-20 17:20:00   
1  desktop  2018-02-19 17:21:00          2  2018-02-19 16:53:00   
2    touch  2017-07-01 01:54:00          5  2017-07-01 01:54:00   
3  desktop  2018-05-20 11:23:00          9  2018-05-20 10:59:00   
4  desktop  2017-12-27 14:06:00          3  2017-12-27 14:06:00   

                    Uid  
0  16879256277535980062  
1    104060357244891740  
2   7459035603376831527  
3  16174680259334210214  
4   9969694820036681168  
                Buy Ts  Revenue                   Uid
0  2017-06-01 00:10:00    17.00  10329302124590727494
1  2017-06-01 00:25:00     0.55  11627257723692907447
2  2017-06-01 00:27:00     0.37  17903680561304213844
3  2017-06-01 00:29:00     0.55  16109239769442553005
4  2017-06-01 07:58:00     0.37  14200605875248379450
   source_id          dt  costs
0          1  2017-06-01  75.20
1          1  2017-06-02  62.25
2          1  2017-06

In [9]:
# Verificar tipos de datos y ajustar si es necesario
print(visits.info())
print("====================================================")
print(orders.info())
print("====================================================")
print(costs.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 359400 entries, 0 to 359399
Data columns (total 5 columns):
 #   Column     Non-Null Count   Dtype 
---  ------     --------------   ----- 
 0   Device     359400 non-null  object
 1   End Ts     359400 non-null  object
 2   Source Id  359400 non-null  int64 
 3   Start Ts   359400 non-null  object
 4   Uid        359400 non-null  uint64
dtypes: int64(1), object(3), uint64(1)
memory usage: 13.7+ MB
None
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50415 entries, 0 to 50414
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   Buy Ts   50415 non-null  object 
 1   Revenue  50415 non-null  float64
 2   Uid      50415 non-null  uint64 
dtypes: float64(1), object(1), uint64(1)
memory usage: 1.2+ MB
None
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2542 entries, 0 to 2541
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     -------------- 

In [12]:
# Convertir columnas a tipos de datos adecuados
visits["Start Ts"] = pd.to_datetime(visits["Start Ts"])
visits["End Ts"] = pd.to_datetime(visits["End Ts"])
orders["Buy Ts"] = pd.to_datetime(orders["Buy Ts"])
costs["dt"] = pd.to_datetime(costs["dt"])

# Asegurarse de que los identificadores sean del tipo string (si no lo son ya)
visits["Uid"] = visits["Uid"].astype(str)
orders["Uid"] = orders["Uid"].astype(str)
costs["source_id"] = costs["source_id"].astype(str)

# Verificar nuevamente los tipos de datos para asegurarse de que todo esté correcto
print(visits.info())
print("====================================================")
print(orders.info())
print("====================================================")
print(costs.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 359400 entries, 0 to 359399
Data columns (total 5 columns):
 #   Column     Non-Null Count   Dtype         
---  ------     --------------   -----         
 0   Device     359400 non-null  object        
 1   End Ts     359400 non-null  datetime64[ns]
 2   Source Id  359400 non-null  int64         
 3   Start Ts   359400 non-null  datetime64[ns]
 4   Uid        359400 non-null  object        
dtypes: datetime64[ns](2), int64(1), object(2)
memory usage: 13.7+ MB
None
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50415 entries, 0 to 50414
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype         
---  ------   --------------  -----         
 0   Buy Ts   50415 non-null  datetime64[ns]
 1   Revenue  50415 non-null  float64       
 2   Uid      50415 non-null  object        
dtypes: datetime64[ns](1), float64(1), object(1)
memory usage: 1.2+ MB
None
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2542 entries, 0 to 2

### Interpretando Resultados

1. **Tabla `visits`:**
    - **Device:** Es un tipo `object`, lo cual es correcto ya que representa el dispositivo utilizado por el usuario.
    - **End Ts:** Ahora es de tipo `datetime64[ns]`, lo cual es correcto ya que representa la fecha y hora de término de la sesión.
    - **Source Id:** Es de tipo `int64`, lo cual es adecuado, aunque podría ser `object` si queremos tener consistencia con `costs`.
    - **Start Ts:** Ahora es de tipo `datetime64[ns]`, lo cual es correcto ya que representa la fecha y hora de inicio de la sesión.
    - **Uid:** Ahora es de tipo `object`, lo cual es correcto ya que representa un identificador único del usuario.

2. **Tabla `orders`:**
    - **Buy Ts:** Ahora es de tipo `datetime64[ns]`, lo cual es correcto ya que representa la fecha y hora del pedido.
    - **Revenue:** Es de tipo `float64`, lo cual es correcto ya que representa los ingresos de Y.Afisha por este pedido.
    - **Uid:** Ahora es de tipo `object`, lo cual es correcto ya que representa un identificador único del usuario.

3. **Tabla `costs`:**
    - **source_id:** Ahora es de tipo `object`, lo cual es correcto ya que representa un identificador de la fuente de anuncios.
    - **dt:** Ahora es de tipo `datetime64[ns]`, lo cual es correcto ya que representa la fecha de los gastos de marketing.
    - **costs:** Es de tipo `float64`, lo cual es correcto ya que representa los gastos en esta fuente de anuncios en este día.

### Conclusión

Todos los tipos de datos son correctos y están optimizados para el análisis. Las conversiones de las columnas de fecha y hora se realizaron correctamente a `datetime64[ns]` y los identificadores únicos se convirtieron a `object`. Esto nos permitirá realizar análisis temporales y de identificación de manera eficiente.


### **Iniciamos con el PASO 2**
### **1. Visitas**

**¿Cuántas personas lo usan cada día, semana y mes?**


In [14]:


# Convertir columnas de fecha y hora a datetime
visits["Start Ts"] = pd.to_datetime(visits["Start Ts"])

# Número de visitas por día
visits_per_day = visits.groupby(visits["Start Ts"].dt.date)["Uid"].nunique()

# Número de visitas por semana
visits_per_week = visits.groupby(visits["Start Ts"].dt.isocalendar().week)[
    "Uid"
].nunique()

# Número de visitas por mes
visits_per_month = visits.groupby(visits["Start Ts"].dt.to_period("M"))["Uid"].nunique()

# Mostrar resultados
print("Visitas por día:")
print(visits_per_day.head())
print("\nVisitas por semana:")
print(visits_per_week.head())
print("\nVisitas por mes:")
print(visits_per_month.head())

Visitas por día:
Start Ts
2017-06-01    605
2017-06-02    608
2017-06-03    445
2017-06-04    476
2017-06-05    820
Name: Uid, dtype: int64

Visitas por semana:
week
1    6918
2    6703
3    6972
4    7060
5    8111
Name: Uid, dtype: int64

Visitas por mes:
Start Ts
2017-06    13259
2017-07    14183
2017-08    11631
2017-09    18975
2017-10    29692
Freq: M, Name: Uid, dtype: int64


**Calcular el número de sesiones por día**

In [15]:
# Número de sesiones por día
sessions_per_day = visits.groupby(visits["Start Ts"].dt.date)["Uid"].count()

# Mostrar resultados
print("Sesiones por día:")
print(sessions_per_day.head())

Sesiones por día:
Start Ts
2017-06-01    664
2017-06-02    658
2017-06-03    477
2017-06-04    510
2017-06-05    893
Name: Uid, dtype: int64


**Duración de cada sesión**

In [16]:
# Calcular la duración de cada sesión en minutos
visits["session_duration"] = (
    visits["End Ts"] - visits["Start Ts"]
).dt.total_seconds() / 60

# Calcular la duración promedio de sesión
average_session_duration = visits["session_duration"].mean()

# Mostrar resultados
print("Duración promedio de sesión (en minutos):")
print(average_session_duration)

Duración promedio de sesión (en minutos):
10.717094787608978


**- ¿Con qué frecuencia los usuarios y las usuarias regresan?**

In [18]:
# Convertir la columna 'Start Ts' a solo fechas (sin tiempo)
visits["date"] = visits["Start Ts"].dt.date

# Contar el número de días distintos que cada usuario ha visitado el sitio
visits_per_user = visits.groupby("Uid")["date"].nunique()

# Calcular la frecuencia promedio de retorno (promedio de días distintos por usuario)
average_visits_per_user = visits_per_user.mean()

# Mostrar resultados
print("Frecuencia promedio de retorno de usuarios (días distintos por usuario):")
print(average_visits_per_user)

Frecuencia promedio de retorno de usuarios (días distintos por usuario):
1.4485271881806907


### **2. Ventas**

**¿Cuándo la gente empieza a comprar?**

In [20]:

# Fusionar datos de visitas y pedidos para cada usuario
merged_data = pd.merge(visits, orders, on="Uid", how="left")

# Calcular tiempo hasta la primera compra para cada usuario
merged_data["time_to_first_purchase"] = (
    merged_data["Buy Ts"] - merged_data["Start Ts"]
).dt.days

# Obtener el tiempo mínimo hasta la primera compra para cada usuario
time_to_first_purchase = merged_data.groupby("Uid")["time_to_first_purchase"].min()

# Mostrar resultados
print("Tiempo hasta la primera compra (días):")
print(time_to_first_purchase.head(20))

Tiempo hasta la primera compra (días):
Uid
10000171586432207426      NaN
10000344846682484395      NaN
1000036778515242839       NaN
10000460875579931334      NaN
10000558740593440652      NaN
10000584491997262943      NaN
10000837700716403746   -148.0
10000962813665337931      NaN
10000996569639771286      NaN
10000997030965831953      0.0
10001016957011970065      NaN
1000104625626262139       NaN
10001063059357693918      NaN
10001091218281033249      NaN
10001106532052218620      NaN
10001107248119799119      NaN
10001167080632523065      NaN
10001169102778973581      NaN
10001199569370567060    -58.0
10001265525405988161      NaN
Name: time_to_first_purchase, dtype: float64


Manejo de datos por Cohortes

In [22]:
# Filtrar registros nulos en las fechas de compra
orders = orders.dropna(subset=["Buy Ts"])

# Calcular la fecha de registro de cada usuario
registration_dates = visits.groupby("Uid")["Start Ts"].min()

# Unir la fecha de registro con los datos de compra
merged_data = pd.merge(registration_dates, orders, on="Uid", how="left")

# Calcular el tiempo hasta la primera compra para cada usuario y cohorte
merged_data["time_to_first_purchase"] = (
    merged_data["Buy Ts"] - merged_data["Start Ts"]
).dt.days

# Obtener la cohorte de cada usuario
merged_data["cohort_month"] = merged_data["Start Ts"].dt.to_period("M")

# Calcular el tiempo promedio hasta la primera compra por cohorte
avg_time_to_first_purchase_by_cohort = merged_data.groupby("cohort_month")[
    "time_to_first_purchase"
].mean()

# Mostrar resultados
print("Tiempo promedio hasta la primera compra por cohorte:")
print(avg_time_to_first_purchase_by_cohort)

Tiempo promedio hasta la primera compra por cohorte:
cohort_month
2017-06    112.509770
2017-07     66.201128
2017-08     61.013268
2017-09     42.992637
2017-10     29.554468
2017-11     26.326425
2017-12     17.581933
2018-01     12.868271
2018-02      8.798241
2018-03      6.214386
2018-04      4.835011
2018-05      0.756560
Freq: M, Name: time_to_first_purchase, dtype: float64


Estos resultados muestran cómo cambia el tiempo promedio hasta la primera compra para diferentes cohortes de usuarios que se registraron en diferentes meses. Puedes observar que en general, el tiempo hasta la primera compra tiende a disminuir a medida que avanzan los meses. Esto podría indicar una mejora en la conversión o en la efectividad de las estrategias de marketing con el tiempo.