# Análisis para Showz

Showz es una empresa de <span style="color: gold;">**venta de entradas de eventos.**</span>

## Objetivo:
Optimizar los gastos del departamento de marketing

### Objetivos específicos:
- Identificar cómo los clientes usan el servicio

- Cuándo empiezan a comprar

- Cuánto dinero aporta cada cliente a la compañía (LTV)

- Cuándo los ingresos cubren el costo de adquisición de los clientes (ROM

## Pasos a seguir
1) Preparación de datos (cargar y limpiar datos)
2) Elaborar informes (gráficos para diferentes dispositivos y fuentes de anuncios y cambio con el tiempo)

    **Informe de visitas**
    * Calcular el DAU, WAU y MAU
    * Sesiones por día
    * Duración de la sesión (ASL)
    * Tasa de retención

    **Informe de ventas**
	* Tiempo entre el registro y la conversión
	* Número de pedidos durante un periodo
	* Tamaño promedio de compra
	* LTV

    **Informe de marketing**
    * ¿Cuánto dinero se gastó?
    * Costo de adquisición de clientes (CAC) para cada fuente
    * Rentabilidad de la inversión (ROMI)

3) Conclusión sobre la inversión en marketing:
* ¿Qué fuentes/plataformas recomendarías?
* ¿en qué métricas te enfocaste? ¿Por qué?
* ¿Qué conclusiones sacaste después de encontrar los valores métricos?

## Diccionario de datos
**Visits** (registros de visitas al sitio web)
* ``uid``: identificador único del usuario
* ``device``: dispositivo del usuario
* ``start ts``: fecha y hora de inicio de la sesión
* ``end ts``: fecha y hora de término de la sesión
* ``source id``: identificador de la fuente de anuncios de la que proviene el usuario

**Orders** (pedidos)
* ``uid``: identificador único del usuario que realiza un pedido
* ``buy ts``: fecha y hora del pedido
* ``revenue``: el ingreso de Showz por el pedido

**Costs** (gastos de marketing)
* ``source_id``: identificador de la fuente de anuncios
* ``dt``: fecha
* ``costs``: gastos en esta fuente de anuncios en este día

In [None]:
# importar librerías
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Visualización general de los datos

In [None]:
# importar los datasets
visits = pd.read_csv('visits_log_us.csv')
orders = pd.read_csv('orders_log_us.csv')
costs = pd.read_csv('costs_us.csv')

In [None]:
# información de 'visits'
visits.info()
print('\n', visits.sample(5))
print('\n', 'Hay', visits.duplicated().sum(), 'valores duplicados')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 359400 entries, 0 to 359399
Data columns (total 5 columns):
 #   Column     Non-Null Count   Dtype 
---  ------     --------------   ----- 
 0   Device     359400 non-null  object
 1   End Ts     359400 non-null  object
 2   Source Id  359400 non-null  int64 
 3   Start Ts   359400 non-null  object
 4   Uid        359400 non-null  uint64
dtypes: int64(1), object(3), uint64(1)
memory usage: 13.7+ MB

          Device               End Ts  Source Id             Start Ts  \
97140   desktop  2017-07-03 15:58:00          1  2017-07-03 15:51:00   
181238  desktop  2017-10-18 00:59:00          2  2017-10-18 00:59:00   
260631  desktop  2017-11-06 11:40:00          4  2017-11-06 11:34:00   
21638     touch  2018-03-11 13:17:00          4  2018-03-11 13:00:00   
297819    touch  2018-01-22 21:09:00          3  2018-01-22 21:06:00   

                         Uid  
97140   10478802796828998103  
181238  10842769217004303202  
260631  173896580015

In [None]:
# información general de 'orders'
orders.info()
print('\n', orders.sample(5))
print('\n', 'Hay', orders.duplicated().sum(), 'valores duplicados')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50415 entries, 0 to 50414
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   Buy Ts   50415 non-null  object 
 1   Revenue  50415 non-null  float64
 2   Uid      50415 non-null  uint64 
dtypes: float64(1), object(1), uint64(1)
memory usage: 1.2+ MB

                     Buy Ts  Revenue                   Uid
16403  2017-11-06 20:31:00     4.58   6160910069829701223
1615   2017-06-18 21:58:00     8.33  10199368243688186982
22459  2017-12-06 23:21:00     3.05   1677788919393072845
17037  2017-11-11 14:11:00     0.98  14911467214388078081
23371  2017-12-11 15:12:00     4.89  10340246027996293586

 Hay 0 valores duplicados


In [None]:
# información general de 'costs'
costs.info()
print('\n', costs.sample(5))
print('\n', 'Hay', costs.duplicated().sum(), 'valores duplicados')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2542 entries, 0 to 2541
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   source_id  2542 non-null   int64  
 1   dt         2542 non-null   object 
 2   costs      2542 non-null   float64
dtypes: float64(1), int64(1), object(1)
memory usage: 59.7+ KB

       source_id          dt   costs
2134          9  2018-04-17   11.50
898           3  2017-11-20  106.78
575           2  2017-12-30  158.27
1145          4  2017-07-27  141.77
1515          5  2017-08-03   64.27

 Hay 0 valores duplicados


### Comentario
En ninguno de los DataFrames hay valores duplicados ni ausentes, solo hay que realizar algunas modificaciones en los nombres de las columnas y algunos tipos de datos.

* **costs**
  * Convertir “dt” a formato fecha
* **orders**
  * Convertir “buy ts” a formato fecha
  * Convertir nombres de las columnas
* **visits**
  * Convertir “end ts” y “start ts” a formato fecha
  * Convertir nombres de las columnas


# Limpieza de datos

In [None]:
# formato nombre de columnas
orders.columns = orders.columns.str.replace(' ', '_').str.lower()
visits.columns = visits.columns.str.replace(' ', '_').str.lower()


In [None]:
# manejo de fechas
costs['dt'] = pd.to_datetime(costs['dt'])
orders['buy_ts'] = pd.to_datetime(orders['buy_ts'])
visits['end_ts'] = pd.to_datetime(visits['end_ts'])
visits['start_ts'] = pd.to_datetime(visits['start_ts'])