In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

plt.style.use('default')

sns.set(style='whitegrid')

# Análisis de frecuencia de eventos en el tiempo

In [None]:
df = pd.read_csv('data/events.csv', low_memory=False)

In [None]:
df['timestamp'] = pd.to_datetime(df['timestamp'])
df['weekday'] = df['timestamp'].dt.weekday_name
df['hour'] = df['timestamp'].dt.hour

# Cantidad de eventos por hora y por día de la semana

Bajaremos un nivel más en nuestro análisis, centrándonos en la cantidad de eventos que hubo por hora, en cada día de la semana, teniendo en cuenta la totalidad de los datos que se encuentran disponibles en el dataset.

In [None]:
eventos_df = df.loc[:,['timestamp', 'weekday', 'hour', 'event']]
eventos_df['weekday'] = pd.Categorical(eventos_df['weekday'],\
               categories=['Monday','Tuesday','Wednesday','Thursday','Friday','Saturday', 'Sunday'], ordered=True)

In [None]:
# Creamos una tabla pivot para poder mostrar los datos que nos interesan utilizando un Heatmap.
_heatmap = eventos_df.pivot_table(index='weekday', columns='hour', values='event', aggfunc='count')
_heatmap

In [None]:
plt.figure(figsize=[14,8])
g = sns.heatmap(_heatmap, cmap='Blues')
g.set_title("Eventos registrados por hora, por día", fontsize=20)
g.set_xlabel("Hora", fontsize=18)
g.set_ylabel("Día", fontsize=18)
plt.xticks(rotation=0)
plt.yticks(rotation=0)

## Observaciones
Se puede observar que el tráfico durante los días de semana es mayor que el de los fines de semana, independientemente de la hora en la que se registran los eventos.

Además queda claro que en el horario de 5-9 AM se registran muy pocos eventos.

Tener en cuenta que el horario de cada evento está dado en EDT.

## Filtrando por Checkout (event)

In [None]:
eventos_df = df.loc[df['event'] == 'checkout',['timestamp', 'weekday', 'hour', 'event']]
eventos_df['weekday'] = pd.Categorical(eventos_df['weekday'],\
               categories=['Monday','Tuesday','Wednesday','Thursday','Friday','Saturday', 'Sunday'], ordered=True)

In [None]:
_heatmap = eventos_df.pivot_table(index='weekday', columns='hour', values='event', aggfunc='count')

In [None]:
plt.figure(figsize=[14,8])
g = sns.heatmap(_heatmap, cmap='Oranges')
g.set_title("Checkouts registrados por hora, por día", fontsize=20)
g.set_xlabel("Hora", fontsize=18)
g.set_ylabel("Día", fontsize=18)
plt.xticks(rotation=0)
plt.yticks(rotation=0)

## Observaciones

Al parecer se mantiene la tendencia observada anteriormente en los eventos sin filtrar.

## Filtrando por Conversion (event)

In [None]:
eventos_df = df.loc[df['event'] == 'conversion',['timestamp', 'weekday', 'hour', 'event']]
eventos_df['weekday'] = pd.Categorical(eventos_df['weekday'],\
               categories=['Monday','Tuesday','Wednesday','Thursday','Friday','Saturday', 'Sunday'], ordered=True)

In [None]:
_heatmap = eventos_df.pivot_table(index='weekday', columns='hour', values='event', aggfunc='count')

In [None]:
plt.figure(figsize=[14,8])
g = sns.heatmap(_heatmap, cmap='Purples')
g.set_title("Conversiones registrados por hora, por día", fontsize=20)
g.set_xlabel("Hora", fontsize=18)
g.set_ylabel("Día", fontsize=18)
plt.xticks(rotation=0)
plt.yticks(rotation=0)

## Observaciones

Si bien es notable que hay un volumen mucho menor de registros de este evento, se puede observar un comportamiento similar al del Checkout.