Una importante compañía de e-commerce acumula información de las interacciones de sus usuarios
con su plataforma mediante un motor de analytics. Esta información está disponible en un data frame
para que sea analizada por nuestro equipo.

El data frame llamado `events.csv` posee las siguientes columnas:

- uid: identificador único que representa a un usuario que visita la
plataforma.
- sessionid: identificador único de la sesión que generó el usuario.
- event: nombre del evento que se generó.
- value: información adicional que se guarda con el evento.
- datetime: timedate64 que contiene fecha y hora del evento.

Para poder realizar un análisis es necesario tener las siguientes consideraciones:

● Cada vez que un usuario visita la plataforma, el sistema le genera una nueva sesión con un
`sessionid` asociado. Esto implica que un usuario puede realizar múltiples sesiones.

● Los eventos son interacciones que realiza el usuario con el sistema. Una sesión está compuesta
por al menos un evento.

Se le pide a nuestro equipo las siguientes tareas utilizando pandas:

a) Listar aquellos usuarios que tengan un total de sesiones mayor al promedio de sesiones por usuario
del sistema. Ej: si el promedio de los usuarios cuenta con 20 sesiones, se debe listar los usuarios que
tengan más de 20 sesiones asociadas.

In [1]:
import pandas as pd

eventsDf = pd.read_csv('/home/marcos/PycharmProjects/PracticaPandas/events.csv')
eventsDf.drop(columns='datetime', inplace=True)

sessionsPerUser = eventsDf.groupby(by='uid').agg({'sessionid':lambda x: x.drop_duplicates().count()})
meanSessionsPerUser = sessionsPerUser['sessionid'].mean()
aboveMeanUsers = sessionsPerUser[sessionsPerUser['sessionid'] > meanSessionsPerUser]
aboveMeanUsers.columns = ['sessions_amount']
aboveMeanUsers

Unnamed: 0_level_0,sessions_amount
uid,Unnamed: 1_level_1
1,28
4,27
5,27
7,33
8,30
11,29
12,28
13,28
16,32


b) Calcular el valor promedio de los eventos 'ecommerce.view-product',
'ecommerce.checkout', 'ecommerce.conversion' para aquellos usuarios que hayan realizado
más de 25 sesiones. Los resultados deben ser presentados en un dataframe con las siguientes
columnas ('uid','ecommerce_view_product_mean', 'ecommerce_checkout_mean',
'ecommerce_conversion_mean').

Nota: Es posible realizar el cálculo de los promedios en una única operación sobre
un dataframe, por lo que soluciones que realizan el cálculo del promedio de cada
métrica por separado serán consideradas como menos eficientes.

In [2]:
sessionsPerUser.reset_index(inplace=True)
sessionsPerUser = sessionsPerUser[sessionsPerUser['sessionid'] > 25]
desiredEvents = ['ecommerce.view-product', 'ecommerce.checkout', 'ecommerce.conversion']
usersData = eventsDf[eventsDf['event'].isin(desiredEvents)]
usersData = usersData.merge(sessionsPerUser['uid'], how='inner', on='uid').drop(columns='sessionid')
usersData = usersData.pivot_table(index='uid', columns='event', values='value', aggfunc='mean').reset_index()
usersData.rename_axis(columns=None)
usersData.reindex(columns=['uid', 'ecommerce.view-product', 'ecommerce.checkout', 'ecommerce.conversion'])
usersData.columns = ['uid', 'ecommerce_view_product_mean', 'ecommerce_checkout_mean', 'ecommerce_conversion_mean']
usersData

Unnamed: 0,uid,ecommerce_view_product_mean,ecommerce_checkout_mean,ecommerce_conversion_mean
0,1,44.125,37.555556,36.333333
1,3,39.25,56.333333,40.75
2,4,36.5,39.625,60.444444
3,5,42.333333,63.0,31.8
4,7,52.666667,57.444444,53.666667
5,8,54.166667,46.888889,41.428571
6,9,47.727273,55.0,48.0
7,11,57.571429,64.375,67.0
8,12,41.071429,56.25,41.3
9,13,51.75,64.833333,36.727273
