#### Description 
En el contexto de MercadoPago, se quiere desarrollar un modelo de Machine Learning para predecir el orden de un conjunto de Propuestas de Valor (aka, Value Props) en el carrusel de la app llamado “Descubrí Más”.

La tarea consiste en construir utilizando Python y sus librerías un pipeline que tenga como input 3 fuentes de datos diferentes y genere como resultado un dataset listo para ser ingerido por el modelo. 

#### Data Sources
1. Prints (prints.json) - historial de 1 mes de value props que fueron mostradas a cada usuario, en formato json lines (un json por línea).

2. Taps (taps.json) - historial de 1 mes de value props que fueron clickeadas por un usuario, en formato json lines.

3. Payments (pays.csv) - historial de 1 mes de pagos realizados por los usuarios, en formato csv.

#### Expected Result 
El dataset a construir deberá contar con la siguiente información: 

1. prints de la última semana 

2. por cada print: 
    - un campo que indique si se hizo click o no 
    - cantidad de veces que el usuario vio cada value prop en las 3 semanas previas a ese print. 
    - cantidad de veces que el usuario clickeo cada value prop en las 3 semanas previas a ese print.
    - cantidad de pagos que el usuario realizó para cada value prop en las 3 semanas previas a ese print.
    - importes acumulados que el usuario gasto para cada value prop en las 3 semanas previas a ese print.
#### Deliverables 

1. Código Python 

2. Un Doc con una breve descripción de las decisiones tomadas.

In [None]:
# Unzipping all files from .zip file into /tmp folder
import os
import zipfile
with zipfile.ZipFile(
    f"{os.getcwd()}/data/CodeEx.zip", "r"
) as zip_ref:
    zip_ref.extractall(f"{os.getcwd()}/tmp/")

In [None]:
# Reading inputs and unnested interesting values
import os
import pandas as pd

# Reading prints.json and first inspect
df_prints = pd.read_json(
    f"{os.getcwd()}/tmp/CodeEx/prints.json",
    lines=True
)
print(
    f"Numbers of rows of inputs.json like dataframe: {len(df_prints)}"
)
print(df_prints.head(n=10))
print(
    f"Printing the first value of event_data column: {df_prints.event_data[0]}"
)

# Transforming all data to dataframe
print()
print()
print(
    f"Defining two new columns from even_data column and droping event_data"
)
df_prints["position"] = df_prints.event_data.str.get("position")
df_prints["value_prop"] = df_prints.event_data.str.get("value_prop")
df_prints_unnested = df_prints.drop("event_data", axis=1)
print(
    f"Numbers of rows of transformed data: {len(df_prints_unnested)}"
)
print(df_prints_unnested.head(n=10))

In [57]:
print(df_prints_unnested.dtypes)
print("")
print(df_prints_unnested.isna().sum())
df_prints_unnested.describe(include="all")

day           object
user_id        int64
position       int64
value_prop    object
dtype: object
day           0
user_id       0
position      0
value_prop    0
dtype: int64


Unnamed: 0,day,user_id,position,value_prop
count,508617,508617.0,508617.0,508617
unique,30,,,7
top,2020-11-07,,,link_cobro
freq,19810,,,72883
mean,,50062.994955,0.999457,
std,,28887.779988,0.999966,
min,,1.0,0.0,
25%,,25063.0,0.0,
50%,,50095.0,1.0,
75%,,75109.0,2.0,
