In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.plotly as py
from plotly import graph_objs as go
from __future__ import division

%matplotlib inline

plt.style.use('default')

sns.set(style='whitegrid')

# Análisis de Eventos basado en usuarios que visitan el sitio y realizan una conversion en el mismo.

La idea de este notebook es investigar un poco sobre el rendimiento de la página de la empresa.

Lo que nos interesa ver es:

1. De los usuarios que llegan a la instancia de check-out, ¿Cuántos realizan una conversion?

2. ¿Cómo evolucionan en el tiempo las compras, checkouts y vistas de producto?

3. Considerando los usuarios que llegan al sitio a través de una publicidad, ¿Cuántos realizan conversiones?

In [None]:
df = pd.read_csv('events.csv', low_memory=False)

In [None]:
# TODO: Cargar usuarios con conversion y checkout, mostrar que el top tiene conversions sin checkouts
# y plantear la razón posible para esto (compras fuera del sitio),
# a modo de introducción al análisis y filtro que haremos para el mismo.

## De los usuarios que llegan a la instancia de check-out, ¿Cuántos realizan una conversion?

Vamos a obtener a todos los usuarios que tienen conversiones, para luego obtener a aquellos que también
tienen check-outs.

In [None]:
conversiones = df.loc[df['event'] == 'conversion', ['event', 'person', 'sku', 'model']].copy()
conversiones_sin_us_dup = conversiones.drop_duplicates(subset='person')
usuarios_con_conversiones = set(conversiones_sin_us_dup['person'])
len(usuarios_con_conversiones)

Ahora obtenemos los que también tienen check-outs.

In [None]:
usuarios_con_checkout_conversion = df.loc[(df['event'] == 'checkout') &
                                          df['person'].isin(usuarios_con_conversiones), ['person']]
usuarios_con_checkout_conversion.drop_duplicates(subset='person', inplace=True)
usuarios_con_checkout_conversion = set(usuarios_con_checkout_conversion['person'])

Procedemos a quedarnos con aquellos que compraron en el sitio de la empresa, nos basamos en que
exista un check-out previo a una conversion, sobre el mismo SKU.

In [None]:
usuarios_filtrados = df.loc[(df['person'].isin(usuarios_con_checkout_conversion)) &
            (df['event'].isin(['checkout', 'conversion'])), ['timestamp', 'event', 'person', 'sku', 'model']]
usuarios_filtrados.drop_duplicates(subset=['event','person'], inplace=True)
usuarios_filtrados = usuarios_filtrados[usuarios_filtrados.duplicated(subset=['person', 'sku'], keep=False)]
usuarios_filtrados.describe().T

Notemos que algunos usuarios tienen invertido el orden check-out/conversion. Por lo que no sabemos si
la conversion fue realizada en el sitio o fuera del mismo (y presentan una diferencia de tiempo importante
entre ambos eventos)

In [None]:
usuarios_filtrados.head()

Obtenemos una lista de usuarios sin duplicados.

In [None]:
usuarios = set(usuarios_filtrados.drop_duplicates(subset='person')['person'])
len(usuarios)

Ahora nos quedamos con aquellos que tienen conversions pero no tienen check-outs relacionados a estas.

In [None]:
us_conversion_sin_checkout = set([x for x in usuarios_con_conversiones if x not in usuarios])
len(us_conversion_sin_checkout)

Nos quedaría quitar a aquellos usuarios que tienen invertido el orden en el que se realiza una conversion
desde el sitio de la empresa. Es decir, aquellos que primero presenten una conversion y luego un check-out.

In [None]:
usuarios_conflictivos = set()
row_iterator = usuarios_filtrados.iterrows()
for i, row in row_iterator:
    next_row = next(row_iterator)[1]
    if (row['event'] + next_row['event']) == "conversioncheckout":
        usuarios_conflictivos.add(row['person'])
        continue
    if ((pd.to_datetime(next_row['timestamp']) - pd.to_datetime(row['timestamp'])).seconds / 3600.0 > 1):
        usuarios_conflictivos.add(row['person'])
us_conversion_sin_checkout = us_conversion_sin_checkout.union(usuarios_conflictivos)

In [None]:
df_filtrado = df.loc[(~df['person'].isin(us_conversion_sin_checkout))].copy()

In [None]:
funnel = df_filtrado.loc[df['event'].isin(['visited site', 'checkout', 'conversion']), ['person','event']]

In [None]:
funnel_vc = funnel['event'].value_counts()
funnel_vc

Finalmente tenemos los datos filtrados para realizar un diagrama de Sankey, mostrando el flujo de conversiones del sitio.

In [None]:
import plotly.plotly as py
import plotly

data = dict(
    type='sankey',
    arrangement="freeform",
    node = dict(
      pad = 15,
      thickness = 20,
      line = dict(
        color = "black",
        width = 0.5
      ),
      label = ["visited site", "checkout", "conversion","no hacen checkout","no hacen conversion"],
      color = ["blue", "blue", "blue","red","red"]
    ),
    link = dict(
      source = [0,0,1,1],
      target = [3,1,2,4],
      value = [(79239-31621),31621,393,(31621-393)] #alterar aca los valores
  ))

layout =  dict(
    title = "Diagrama sankey del funnel",
    font = dict(
      size = 10
    )
)

plotly.offline.init_notebook_mode(connected=True)
fig = dict(data=[data], layout=layout)
plotly.offline.iplot(fig)

## Observaciones

Finalmente podemos ver que un ~1,38% de los usuarios que llegan a la etapa de checkout, confirman un pago realizando una conversion (el goal de la empresa)

# Evolución en el tiempo de checkouts, compras y vistas de productos, en el sitio.

Aprovechando que filtramos a los usuarios que no realizan sus compras en el sitio de Trocafone, vamos a revisar cómo fue la evolución en el tiempo de compras, checkouts y vistas de productos en el sitio.

En particular nos interesaría encontrar picos importantes de tráfico, o bien ver si se mantuvieron estables estas tres categorías.

In [None]:
def graficar_lineplot(titulo, data):
    g = sns.lineplot(x=data.index, y=data.values)
    g.set(xticklabels=['Enero', 'Febrero', 'Marzo', 'Abril', 'Mayo', 'Junio'])
    g.set_title(titulo, fontsize=18)
    g.set_xlabel('Mes', fontsize=16)
    g.set_ylabel('Frecuencia', fontsize=16)
    return g

In [None]:
df_filtrado['timestamp'] = pd.to_datetime(df_filtrado['timestamp']).dt.date

In [None]:
ts_conversion = df_filtrado.loc[df_filtrado['event'] == 'conversion'].sort_values(by='timestamp')
ts_vc = ts_conversion['timestamp'].value_counts()
plt.figure(figsize=(12,6))
g = graficar_lineplot('Conversiones por día, en el periodo Enero-Junio', ts_vc)
plt.show()

In [None]:
ts_checkout = df_filtrado.loc[df_filtrado['event'] == 'checkout'].sort_values(by='timestamp')
ts_vc = ts_checkout['timestamp'].value_counts()
plt.figure(figsize=(12,6))
g = graficar_lineplot('Check-outs por día, en el periodo Enero-Junio', ts_vc)
plt.show()

In [None]:
ts_viewed_product = df_filtrado.loc[df_filtrado['event'] == 'viewed product'].sort_values(by='timestamp')
ts_vc = ts_viewed_product['timestamp'].value_counts()
plt.figure(figsize=(12,6))
g = graficar_lineplot('Productos vistos por día, en el periodo Enero-Junio', ts_vc)
plt.show()

In [None]:
ts_viewed_product = df_filtrado.loc[df_filtrado['event'] == 'search engine hit'].sort_values(by='timestamp')
ts_vc = ts_viewed_product['timestamp'].value_counts()
plt.figure(figsize=(12,6))
g = graficar_lineplot('Entradas al sitio  por día, en el periodo Enero-Junio', ts_vc)
plt.show()

# Observaciones

Podemos notar un fuerte incremento en la actividad del sitio a partir de la mitad de Mayo hasta el final de los datos que poseemos (Junio). Curiosamente, el movimiento de checkouts y productos vistos es similar, aunque en distinta escala.
Esto podría deberse a algún tipo de _sale event_ o campaña de ads. Analizareoms esta posibilidad a continuación.

En cuanto a las conversiones, también notamos mayor actividad durante el mes de Mayo, en particular tenemos tres picos importantes a comparación del resto de los meses.