Enunciado
Una importante compañía de e-commerce acumula información de las interacciones de sus usuarios con su plataforma mediante un motor de analytics. Esta información está disponible en un data frame para que sea analizada por nuestro equipo.

El data frame llamado events.csv posee las siguientes columnas:

uid: identificador único que representa a un usuario que visita la plataforma.

sessionid: identificador único de la sesión que generó el usuario.

event: nombre del evento que se generó.

value: información adicional que se guarda con el evento.

datetime: timedate64 que contiene fecha y hora del evento.

Para poder realizar un análisis es necesario tener las siguientes consideraciones:

Cada vez que un usuario visita la plataforma, el sistema le genera una nueva sesión con un sessionid asociado. Esto implica que un usuario puede realizar múltiples sesiones.

Los eventos son interacciones que realiza el usuario con el sistema. Una sesión está compuesta por al menos un evento.

Se le pide a nuestro equipo las siguientes tareas utilizando pandas:

a) Listar aquellos usuarios que tengan un total de sesiones mayor al promedio de sesiones por usuario del sistema. Ej: si el promedio de los usuarios cuenta con 20 sesiones, se debe listar los usuarios que tengan más de 20 sesiones asociadas.

b) Calcular el valor promedio de los eventos 'ecommerce.view-product', 'ecommerce.checkout', 'ecommerce.conversion' para aquellos usuarios que hayan realizado más de 25 (tomaremos 3 para el ejercicio) sesiones. Los resultados deben ser presentados en un dataframe con las siguientes columnas ('uid','ecommerce_view_product_mean', 'ecommerce_checkout_mean', 'ecommerce_conversion_mean').

Nota: Es posible realizar el cálculo de los promedios en una única operación sobre un dataframe, por lo que soluciones que realizan el cálculo del promedio de cada métrica por separado serán consideradas como menos eficientes.

In [1]:
# importacion general de librerias y de visualizacion (matplotlib y seaborn)
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline

plt.style.use('default') # haciendo los graficos un poco mas bonitos en matplotlib
#plt.rcParams['figure.figsize'] = (20, 10)

sns.set(style="whitegrid") # seteando tipo de grid en seaborn

pd.options.display.float_format = '{:20,.2f}'.format # suprimimos la notacion cientifica en los outputs

import warnings
warnings.filterwarnings('ignore')

In [25]:
events = pd.DataFrame({ 
    'uid':[1,2,3,4,5,6,1,2,3,4,5,6,1,2,1,3,1,2,],
    'sessionid':[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18],
    'event':['ecommerce.view-product', 'ecommerce.checkout', 'ecommerce.conversion', 'ecommerce.other', 'ecommerce.checkout', 'ecommerce.other','ecommerce.view-product', 'ecommerce.checkout', 'ecommerce.other', 'ecommerce.view-product', 'ecommerce.other', 'ecommerce.conversion','ecommerce.other', 'ecommerce.checkout', 'ecommerce.conversion', 'ecommerce.view-product', 'ecommerce.other', 'ecommerce.conversion'],
    'value':[1,6,3,4,5,12,8,2,5,7,5,6,1,2,9,4,2,6],
    'datetime':['2021-03-16','2021-03-17','2021-03-18','2021-03-17','2021-03-16','2021-03-15','2021-03-16','2021-03-17','2021-03-18','2021-03-17','2021-03-16','2021-03-15','2021-03-16','2021-03-17','2021-03-18','2021-03-17','2021-03-16','2021-03-15']

})

In [26]:
users = pd.DataFrame({
    'uid':[1,2,3,4,5,6],
    'name':['User1','User2','User3','User4','User5','User6']
})

In [36]:
#Listar aquellos usuarios que tengan un total de sesiones mayor al promedio de sesiones por usuario del sistema. 
#Ej: si el promedio de los usuarios cuenta con 20 sesiones, se debe listar los usuarios 
#que tengan más de 20 sesiones asociadas.
events['cantidad_sesiones'] = events.groupby('uid')['sessionid'].transform('count')

In [42]:
average = events[['uid','cantidad_sesiones']].drop_duplicates()['cantidad_sesiones'].mean()
average

3.0

In [44]:
#filtro aquellos que cumplan lo pedido
filtered_users = events.loc[events['cantidad_sesiones'] > promedio]
filtered_users
#si me interesa ver detalles de cada sesion esta seria la respuesta

Unnamed: 0,uid,sessionid,event,value,datetime,cantidad_sesiones
0,1,1,ecommerce.view-product,1,2021-03-16,5
1,2,2,ecommerce.checkout,6,2021-03-17,4
6,1,7,ecommerce.view-product,8,2021-03-16,5
7,2,8,ecommerce.checkout,2,2021-03-17,4
12,1,13,ecommerce.other,1,2021-03-16,5
13,2,14,ecommerce.checkout,2,2021-03-17,4
14,1,15,ecommerce.conversion,9,2021-03-18,5
16,1,17,ecommerce.other,2,2021-03-16,5
17,2,18,ecommerce.conversion,6,2021-03-15,4


In [53]:
#si solo quisiear lista los usuarios que cumple lo pedido hago
filtered_users_unique = events['uid'].drop_duplicates().to_frame()
filtered_users_unique

Unnamed: 0,uid
0,1
1,2
2,3
3,4
4,5
5,6


 Calcular el valor promedio de los eventos 'ecommerce.view-product', 'ecommerce.checkout', 'ecommerce.conversion' para aquellos usuarios que hayan realizado más de 25 (tomaremos 3 para el ejercicio) sesiones. Los resultados deben ser presentados en un dataframe con las siguientes columnas ('uid','ecommerce_view_product_mean', 'ecommerce_checkout_mean', 'ecommerce_conversion_mean').

In [61]:
#defino mis condiciones pedidas
condition1 = events['cantidad_sesiones'] > 3
condition2 = (events['event']=='ecommerce.view-product')|(events['event']=='ecommerce.checkout')|(events['event']=='ecommerce.conversion')

In [73]:
filtered_user_b = events.loc[(condition1) & (condition2)]
result = filtered_user_b.pivot_table(index='uid', columns='event',values='value', aggfunc='mean').reset_index()
result=result[['uid','ecommerce.view-product', 'ecommerce.checkout', 'ecommerce.conversion']]
result.columns = ['uid','eccomerce_view_product_mean','ecommerce_checkout_mean','ecommerce_conversion_mean']
result

Unnamed: 0,uid,eccomerce_view_product_mean,ecommerce_checkout_mean,ecommerce_conversion_mean
0,1,4.5,,9.0
1,2,,3.33,6.0
