### Carga de datos

In [None]:
#Importo librerias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
%matplotlib inline
plt.style.use('default')
sns.set()

In [None]:
#Funciones auxiliares
def mostrar_porcentaje_barplot(ax):
    suma = 0
    for p in ax.patches:
        suma += p.get_height()
    for p in ax.patches:
        ax.annotate(str(np.round(100 *(p.get_height() / suma),decimals=2)) + "%", (p.get_x()+p.get_width()/2., p.get_height()), ha='center', va='center', xytext=(0, 10), textcoords='offset points')
def mostrar_valores_barplot(ax):
    for p in ax.patches:
        ax.annotate(np.round(p.get_height(),decimals=2), (p.get_x()+p.get_width()/2., p.get_height()), ha='center', va='center', xytext=(0, 10), textcoords='offset points')

In [None]:
#Cargo el DataFrame
df = pd.read_csv('events.csv', low_memory = False, parse_dates = ['timestamp'], infer_datetime_format = True,
                    dtype = {'event': 'category','condition': 'category','storage': 'category', 'color': 'category', 'staticpage': 'category', 'campaign_source': 'category', 'search_engine': 'category', 'channel': 'category', 'new_vs_returning': 'category', 'region': 'category', 'country': 'category', 'device_type': 'category'})

### Analisis por dispositivo 

In [None]:
df['device_type'].value_counts()

In [None]:
dispositivos_registrados = df.loc[(df['event']=='visited site'),['person','device_type','new_vs_returning']]
dispositivos_nuevos = dispositivos_registrados.loc[dispositivos_registrados['new_vs_returning']=='New']

dispositivos_nuevos['device_type'].value_counts(normalize = True)

Vemos que aquellos dispositivos no identificados (Unknown) responde a una fraccion muy pequeña de los registros totales. Por lo tanto los desestimaremos en el análisis

In [None]:
dispositivos_nuevos = dispositivos_nuevos.drop((dispositivos_nuevos[dispositivos_nuevos['device_type']=='Unknown']).index)

In [None]:
g_dispositivos_nuevos = dispositivos_nuevos['device_type'].value_counts().iloc[:-1].plot('bar')
g_dispositivos_nuevos.set_title('Dispositivos registrados en nuevas visitas [New Hits]')
g_dispositivos_nuevos.set_xlabel('Tipo de dispositivo')
g_dispositivos_nuevos.set_ylabel('Cantidad de personas')

Podemos visualizar que los unicos dispositivos reelevantes sobre las nuevas visitas al  sitio son los Smartphones y las Computadoras

## Análisis sobre clientes que ingresaron por primera vez con Smartphone 

In [None]:
#Filtro las personas entraron por primera vez por su celular
personas_nuevas_smartphone = dispositivos_nuevos.loc[(dispositivos_nuevos['device_type']=='Smartphone'),['person']]

#Filtro paralelamente las personas que volvieron a entrar desde sus PCs
personas_returning_pc = dispositivos_registrados.loc[(dispositivos_registrados['device_type']=='Computer') & (df['new_vs_returning']=='Returning'),['person']]
personas_returning_pc['Volvieron_en_PC'] = True

In [None]:
personas_new_Smartphone_ret_PC = pd.merge(personas_nuevas_smartphone, personas_returning_pc, on='person', how='left').drop_duplicates()
personas_new_Smartphone_ret_PC['Volvieron_en_PC'].fillna(False,inplace=True)
personas_new_Smartphone_ret_PC.describe()

#### Veo la cantidad de personas que entraron por primera vez a la página desde sus celulares y volvieron desde sus PCs

In [None]:
cantidad_personas_que_volvieron_enPC = personas_new_Smartphone_ret_PC['Volvieron_en_PC'].value_counts()
cantidad_personas_que_volvieron_enPC


In [None]:
g_personas_ret_PC = cantidad_personas_que_volvieron_enPC.plot('bar')
g_personas_ret_PC.set_title('Personas que vuelven a la pagina desde la PC luego de entrar por primera vez desde Smartphone')
g_personas_ret_PC.set_xlabel('Vuelve a la pagina')
g_personas_ret_PC.set_ylabel('Cantidad de personas')
g_personas_ret_PC.set_xticklabels(['No','Sí'])


Se nota que no es representativa el numero de personas que entran primero a la pagina por sus celulares y luego vuelven a entrar desde la PC

#### Analizamos si de las personas que vuelven a entrar desde la PC (y que primero ingresaron con sus Smartphones) terminan realizando alguna compra

In [None]:
personas_que_compraron = df.loc[df['event']=='conversion',['person']].drop_duplicates()
personas_que_compraron['compro'] = True
personas_que_compraron.head()

In [None]:
personas_vuelven_y_compran = pd.merge(personas_new_Smartphone_ret_PC, personas_que_compraron, on='person', how='left').drop_duplicates()
personas_vuelven_y_compran['compro'].fillna(False,inplace=True)
cantidad_personas_que_vuelven_y_compran = personas_vuelven_y_compran.loc[personas_vuelven_y_compran['Volvieron_en_PC']==True]\
                ['compro'].value_counts()
cantidad_personas_que_vuelven_y_compran

In [None]:
g5 = cantidad_personas_que_vuelven_y_compran.plot('bar',)
g5.set_title("Compradores que entraron por primera vez en Smartphone, y luego volvieron en PC ")
g5.set_xlabel("Compraron")
g5.set_ylabel("Cantidad de personas")
g5.set_xticklabels(['No','Sí'])
mostrar_porcentaje_barplot(g5)

Podemos ver que de las personas que volvieron a la pagina desde sus PCs luego de entrar desde sus SmartPhones, un 28,4% realizo compras

## Análisis sobre clientes que ingresaron por primera vez con PC 

In [None]:
#Filtro las personas entraron por primera vez por su celular
personas_nuevas_pc = dispositivos_nuevos.loc[(dispositivos_nuevos['device_type']=='Computer'),['person']]

#Filtro paralelamente las personas que volvieron a entrar desde sus Smartphones
personas_returning_smartphone = dispositivos_registrados.loc[(dispositivos_registrados['device_type']=='Smartphone') & (df['new_vs_returning']=='Returning'),['person']]
personas_returning_smartphone['Volvieron_en_Smartphone'] = True

In [None]:
personas_new_PC_ret_Smartphone = pd.merge(personas_nuevas_pc, personas_returning_smartphone, on='person', how='left').drop_duplicates()
personas_new_PC_ret_Smartphone['Volvieron_en_Smartphone'].fillna(False,inplace=True)
cantidad_personas_que_volvieron_Smartphone = personas_new_PC_ret_Smartphone['Volvieron_en_Smartphone'].value_counts()
cantidad_personas_que_volvieron_Smartphone

In [None]:
g_personas_ret_Smartphones = cantidad_personas_que_volvieron_Smartphone.plot('bar')
g_personas_ret_Smartphones.set_title('Personas que vuelven a la pagina desde Smartphone luego de entrar por primera vez desde PC')
g_personas_ret_Smartphones.set_xlabel('Vuelve a la pagina')
g_personas_ret_Smartphones.set_ylabel('Cantidad de personas')
g_personas_ret_Smartphones.set_xticklabels(['No','Sí'])


In [None]:
personas_vuelven_y_compran2 = pd.merge(personas_new_PC_ret_Smartphone, personas_que_compraron, on='person', how='left').drop_duplicates()
personas_vuelven_y_compran2['compro'].fillna(False,inplace=True)
cantidad_personas_vuelven_y_compran2 = personas_vuelven_y_compran2.loc[personas_vuelven_y_compran2['Volvieron_en_Smartphone']==True]['compro'].value_counts()

In [None]:
g6 = cantidad_personas_vuelven_y_compran2.plot('bar',)
g6.set_title("Compradores que entraron por primera vez en PC, y luego volvieron en Smartphone ")
g6.set_xlabel("Compraron")
g6.set_ylabel("Cantidad de personas")
g6.set_xticklabels(['No','Sí'])
mostrar_porcentaje_barplot(g6)


### Para dar un punto de vista comparativo unificamos los plots anteriores

In [None]:
concatenados_returning = pd.concat([cantidad_personas_que_volvieron_enPC, cantidad_personas_que_volvieron_Smartphone],axis=1)
concatenados_returning.columns = [' Migraron de Smartphone a PC','Migraron de PC a Smartphone']
g6 = concatenados_returning.T.plot(kind='barh')
g6.set_title('Usuarios que migraron desde su dispositivo inicial a otro')
g6.set_xlabel('Cantidad de personas')
g6.set_ylabel('Migracion')
g6.legend(['No', 'Sí'])

In [None]:
concatenados_compra = pd.concat([cantidad_personas_que_vuelven_y_compran, cantidad_personas_vuelven_y_compran2], axis=1, )
concatenados_compra.columns = ['Smartphone a PC','PC a Smartphone']
g7 = concatenados_compra.T.plot(kind='barh')
g7.set_title('Compradores que migraron de un dispositivo a otro')
g7.set_xlabel('Cantidad de personas')
g7.set_ylabel('Migracion')
g7.legend(['No compro', 'Compro'])


#### Con pie chart para comparacion

In [None]:
g = concatenados_returning.plot(kind='pie', subplots=True,labels= ['No', 'Si'],autopct='%1.1f%%' ,figsize=(12, 6),\
                               title='Usuarios que migraron desde su dispositivo inicial a otro')

In [None]:
concatenados_compra.plot(kind='pie', subplots=True,labels= ['No compraron', 'Compraron'],autopct='%1.1f%%' ,figsize=(12, 6),\
                        title = 'Compradores que migraron de un dispositivo a otro')