# Descripción del proyecto

## Contexto

El departamento de marketing has recopilado una lista de hipótesis que pueden ayudar a aumentar los ingresos. 
    
Tienes que priorizar estas hipótesis, lanzar un test A/B y analizar los resultados.

# Descripción de los datos

## Datos utilizados en la primera parte del proyecto

`/datasets/hypotheses_us.csv`

  - `Hypotheses:` breves descripciones de las hipótesis
  - `Reach:` alcance del usuario, en una escala del uno a diez
  - `Impact:` impacto en los usuarios, en una escala del uno al diez
  - `Confidence:` confianza en la hipótesis, en una escala del uno al diez
  - `Effort:` los recursos necesarios para probar una hipótesis, en una escala del uno al diez. Cuanto mayor sea el valor Effort, más recursos requiere la prueba.

## Datos utilizados en la segunda parte del proyecto

`/datasets/orders_us.csv`

  - `transactionId:` identificador de pedido
  - `visitorId:` identificador del usuario que realizó el pedido
  - `date:` fecha del pedido
  - `revenue:` ingresos del pedido
  - `group:` el grupo del test A/B al que pertenece el usuario

`/datasets/visits_us.csv`

  - `date:` la fecha
  - `group:` grupo del test A/B
  - `visits:` el número de visitas en la fecha especificada para el grupo de test A/B especificado

Asegúrate de preprocesar los datos. Es posible que haya errores en los datasets originales; por ejemplo, algunos de los visitantes podrían haber entrado tanto en el grupo A como en el grupo B.

# **Parte 1.** Priorizar hipótesis

El archivo `hypotheses_us.csv` contiene nueve hipótesis sobre cómo aumentar los ingresos de una tienda en línea con `Reach`, `Impact`, `Confidence` y `Effort` especificados para cada una.

El ejercicio consiste en:

  - Aplicar el framework `ICE` para priorizar hipótesis. Ordenarlas en orden descendente de prioridad.
  - Aplicar el framework `RICE` para priorizar hipótesis. Ordenarlas en orden descendente de prioridad.
  - Mostrar cómo cambia la priorización de hipótesis cuando utilizas `RICE` en lugar de `ICE`. Proporcionar una explicación de los cambios.

# **Parte 2.** Análisis de test A/B

Realizaste un test A/B y obtuviste los resultados descritos en los archivos `orders_us.csv` y `visitors_us.csv.`

## Ejercicio

Analiza el test A/B:

  1. Representa gráficamente el ingreso acumulado por grupo. Haz conclusiones y conjeturas.
  2. Representa gráficamente el tamaño de pedido promedio acumulado por grupo. Haz conclusiones y conjeturas.
  3. Representa gráficamente la diferencia relativa en el tamaño de pedido promedio acumulado para el grupo B en comparación con el grupo A. Haz conclusiones y conjeturas.
  4. Calcula la tasa de conversión de cada grupo como la relación entre los pedidos y el número de visitas de cada día. Representa gráficamente las tasas de conversión diarias de los dos grupos y describe la diferencia. Saca conclusiones y haz conjeturas.
  5. Traza un gráfico de dispersión del número de pedidos por usuario. Haz conclusiones y conjeturas.
  6. Calcula los percentiles 95 y 99 para el número de pedidos por usuario. Define el punto en el cual un punto de datos se convierte en una anomalía.
  7. Traza un gráfico de dispersión de los precios de los pedidos. Haz conclusiones y conjeturas.
  8. Calcula los percentiles 95 y 99 de los precios de los pedidos. Define el punto en el cual un punto de datos se convierte en una anomalía.
  9. Encuentra la significancia estadística de la diferencia en la conversión entre los grupos utilizando los datos en bruto. Haz conclusiones y conjeturas.
  10. Encuentra la significancia estadística de la diferencia en el tamaño promedio de pedido entre los grupos utilizando los datos en bruto. Haz conclusiones y conjeturas.
  11. Encuentra la significancia estadística de la diferencia en la conversión entre los grupos utilizando los datos filtrados. Haz conclusiones y conjeturas.
  12. Encuentra la significancia estadística de la diferencia en el tamaño promedio de pedido entre los grupos utilizando los datos filtrados. Haz conclusiones y conjeturas.
  13. Toma una decisión basada en los resultados de la prueba. Las decisiones posibles son: 
      1. Para la prueba, considera a uno de los grupos como líder. 
      2. Para la prueba, concluye que no hay diferencia entre los grupos. 
      3. Continúa la prueba.

El proyecto será evaluado según estos criterios:

  - Cómo preparas los datos para el análisis
  - Cómo priorizas las hipótesis
  - Cómo interpretas los gráficos resultantes
  - Cómo calculas la significancia estadística
  - Qué conclusiones sacas con base en los resultados del test A/B
  - Si sigues la estructura del proyecto y mantienes el código ordenado
  - Las conclusiones que sacas
  - Si dejas comentarios en cada paso

# Proyecto 9

## *Preparar los datos para el analisis*

In [81]:
# Importar librerias
import pandas as pd
import datetime as dt

In [82]:
# Leer el archivos
hypotheses = pd.read_csv('datasets/hypotheses_us.csv', sep=';')
orders = pd.read_csv('datasets/orders_us.csv')
visits = pd.read_csv('datasets/visits_us.csv')

In [83]:
# Analizar los DataFrames
print('DataFrame hypotheses:')
print(hypotheses.info())
print('-'*50)
print('DataFrame orders:')
print(orders.info())
print('-'*50)
print('DataFrame visits:')
print(visits.info())

DataFrame hypotheses:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9 entries, 0 to 8
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Hypothesis  9 non-null      object
 1   Reach       9 non-null      int64 
 2   Impact      9 non-null      int64 
 3   Confidence  9 non-null      int64 
 4   Effort      9 non-null      int64 
dtypes: int64(4), object(1)
memory usage: 492.0+ bytes
None
--------------------------------------------------
DataFrame orders:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1197 entries, 0 to 1196
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   transactionId  1197 non-null   int64  
 1   visitorId      1197 non-null   int64  
 2   date           1197 non-null   object 
 3   revenue        1197 non-null   float64
 4   group          1197 non-null   object 
dtypes: float64(1), int64(2), object(2)
memory usage: 4

In [84]:
# Analizar si existe algun valor nulo
print('DataFrame hypotheses:')
print(hypotheses.isnull().sum())
print('-'*50)
print('DataFrame orders:')
print(orders.isnull().sum())
print('-'*50)
print('DataFrame visits:')
print(visits.isnull().sum())

DataFrame hypotheses:
Hypothesis    0
Reach         0
Impact        0
Confidence    0
Effort        0
dtype: int64
--------------------------------------------------
DataFrame orders:
transactionId    0
visitorId        0
date             0
revenue          0
group            0
dtype: int64
--------------------------------------------------
DataFrame visits:
date      0
group     0
visits    0
dtype: int64


In [85]:
# Analizar si existe algun valor duplicado
print('Valores duplicados en hypotheses:', hypotheses.duplicated().sum())
print('-'*50)
print('Valores duplicados en orders:', orders.duplicated().sum())
print('-'*50)
print('Valores duplicados en visits:', visits.duplicated().sum())

Valores duplicados en hypotheses: 0
--------------------------------------------------
Valores duplicados en orders: 0
--------------------------------------------------
Valores duplicados en visits: 0


In [86]:
# Analizar los valores unicos
print('DataFrame hypotheses:')
print(hypotheses.nunique())
print('-'*50)
print('DataFrame orders:')
print(orders.nunique())
print('-'*50)
print('DataFrame visits:')
print(visits.nunique())

DataFrame hypotheses:
Hypothesis    9
Reach         6
Impact        7
Confidence    7
Effort        6
dtype: int64
--------------------------------------------------
DataFrame orders:
transactionId    1197
visitorId        1031
date               31
revenue           403
group               2
dtype: int64
--------------------------------------------------
DataFrame visits:
date      31
group      2
visits    58
dtype: int64


In [87]:
# Mostrar los datos
print('DataFrame hypotheses:')
display(hypotheses)
print('DataFrame orders:')
display(orders.head())
print('DataFrame visits:')
display(visits.head())

DataFrame hypotheses:


Unnamed: 0,Hypothesis,Reach,Impact,Confidence,Effort
0,Add two new channels for attracting traffic. T...,3,10,8,6
1,Launch your own delivery service. This will sh...,2,5,4,10
2,Add product recommendation blocks to the store...,8,3,7,3
3,Change the category structure. This will incre...,8,3,3,8
4,Change the background color on the main page. ...,3,1,1,1
5,Add a customer review page. This will increase...,3,2,2,3
6,Show banners with current offers and sales on ...,5,3,8,3
7,Add a subscription form to all the main pages....,10,7,8,5
8,Launch a promotion that gives users discounts ...,1,9,9,5


DataFrame orders:


Unnamed: 0,transactionId,visitorId,date,revenue,group
0,3667963787,3312258926,2019-08-15,30.4,B
1,2804400009,3642806036,2019-08-15,15.2,B
2,2961555356,4069496402,2019-08-15,10.2,A
3,3797467345,1196621759,2019-08-15,155.1,B
4,2282983706,2322279887,2019-08-15,40.5,B


DataFrame visits:


Unnamed: 0,date,group,visits
0,2019-08-01,A,719
1,2019-08-02,A,619
2,2019-08-03,A,507
3,2019-08-04,A,717
4,2019-08-05,A,756


### Observaciones

  - El DataFrame `hypotheses` y `orders` contienen en su columnas algunas mayusculas por lo que haremos el cambio a minusculas.
  - En el Dataframe `orders` observamos que los valores unicos de la columna `visitorId` solo hay *1031* valores unicos debiendo ser *1197*, esto nos indica que existen valores duplicados implicitos los cuales pueden afectar nuestro analisis de hipotesis mas adelante.
  - Cambiar los tipos de datos de algunas columnas en los DataFrames `orders` y `visits`

## Modificar Columnas de los DataFrames

In [88]:
# Renombrar columnas del DataFrame hypotheses
hypotheses.columns = hypotheses.columns.str.lower()
# Renombrar columnas del DataFrame orders
orders.columns = ['transaction_id', 'visitor_id', 'date', 'revenue', 'group']
# Convertir la columna date de orders a tipo datetime
orders['date'] = orders['date'].map(lambda x: dt.datetime.strptime(x, '%Y-%m-%d'))
# Convertir la columna date de visits a tipo datetime
visits['date'] = visits['date'].map(lambda x: dt.datetime.strptime(x, '%Y-%m-%d'))

In [89]:
# Verificar los cambios
print('DataFrame hypotheses:')
print(hypotheses.info())
print('-'*50)
print('DataFrame orders:')
print(orders.info())
print('-'*50)
print('DataFrame visits:')
print(visits.info())

DataFrame hypotheses:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9 entries, 0 to 8
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   hypothesis  9 non-null      object
 1   reach       9 non-null      int64 
 2   impact      9 non-null      int64 
 3   confidence  9 non-null      int64 
 4   effort      9 non-null      int64 
dtypes: int64(4), object(1)
memory usage: 492.0+ bytes
None
--------------------------------------------------
DataFrame orders:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1197 entries, 0 to 1196
Data columns (total 5 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   transaction_id  1197 non-null   int64         
 1   visitor_id      1197 non-null   int64         
 2   date            1197 non-null   datetime64[ns]
 3   revenue         1197 non-null   float64       
 4   group           1197 non-null   object        

## Buscar valores duplicados implicitos

In [107]:
orders_duplicates = orders.groupby('visitor_id').nunique()
orders_duplicates = orders_duplicates[orders_duplicates['group'] > 1]
orders_duplicates = orders_duplicates.reset_index()

display(orders_duplicates.head())
orders_duplicates.info()

Unnamed: 0,visitor_id,transaction_id,date,revenue,group
0,8300375,2,2,2,2
1,199603092,5,5,4,2
2,232979603,2,1,2,2
3,237748145,5,4,3,2
4,276558944,2,2,2,2


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 58 entries, 0 to 57
Data columns (total 5 columns):
 #   Column          Non-Null Count  Dtype
---  ------          --------------  -----
 0   visitor_id      58 non-null     int64
 1   transaction_id  58 non-null     int64
 2   date            58 non-null     int64
 3   revenue         58 non-null     int64
 4   group           58 non-null     int64
dtypes: int64(5)
memory usage: 2.4 KB


### Observaciones

Ya encontramos los usuarios que realizaron la prueba A y la prueba B pero no podemos descartarlos aun por que podemos afectar el tamaño de la prueba por lo que haremos 3 Dataframes por ahora, el primero es el de `orders` el cual contendra todos los usuarios en ambas pruebas, `orders_duplicates` el cual seran solo los usuarios que hicieron ambas pruebas y el ultimo DataFrame sera donde solo se encuentren los usaurios que realizaron una sola prueba. Asi mas adelante podemos ver el impacto de su inclusion y exclusion en los resultados.