# Analisis Exploratorio

In [1]:
# importacion general de librerias y de visualizacion (matplotlib y seaborn)
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import datetime

%matplotlib inline

plt.style.use('default') # haciendo los graficos un poco mas bonitos en matplotlib

sns.set(style="whitegrid") # seteando tipo de grid en seaborn


In [6]:
path = '..data/events.csv'
eventos_2018 = pd.read_csv(path)

FileNotFoundError: File b'..data/events.csv' does not exist

# Analisis Previo

In [None]:
#Veo la forma
eventos_2018.shape

In [None]:
#Información sobre el data frame 
eventos_2018.info()

In [None]:
# Damos formato a la fecha.
eventos_2018['timestamp_format'] = pd.to_datetime(eventos_2018['timestamp'])

# Agrego columna fecha
eventos_2018['date'] = eventos_2018['timestamp_format'].dt.date
# Agrego columna para los meses.
eventos_2018['month'] =eventos_2018['timestamp_format'].dt.month
# Agrego columna dias
eventos_2018['day'] = eventos_2018['timestamp_format'].dt.weekday_name
# Agrego columna de horas
eventos_2018['hour'] = eventos_2018['timestamp_format'].dt.hour


In [None]:
# Evento como categoria
eventos_2018['event_category'] = eventos_2018['event'].astype('category')

## Info General

In [None]:
# Top personas con mas eventos
top_personas = eventos_2018.groupby('person')['event_category'].count().sort_values(ascending=False)[:10]

In [None]:
g = sns.barplot(x=top_personas.values, y=top_personas.index, orient='h')
g.set_title("Top Personas que Realizaron mas Eventos", fontsize=15)
g.set_xlabel("Cantidad de Eventos", fontsize=12)
g.set_ylabel("ID Persona", fontsize=12)

In [None]:
# Top eventos
top_eventos = eventos_2018.groupby('event_category')['event_category'].count().sort_values(ascending=False)

In [None]:
g = sns.barplot(x=top_eventos.values, y=top_eventos.index, orient='h')
g.set_title("Top Eventos", fontsize=15)
g.set_xlabel("Cantidad de Eventos", fontsize=12)
g.set_ylabel("Eventos", fontsize=12)

# Analisis Temporal

Primero haremos un primer plot para ver como estan distribuidos los datos, ademas de su frecuencia.

In [None]:
eventos_totales = eventos_2018.groupby('date')['event_category'].count()
g = eventos_totales.plot()
g.set_title("Cantidad de Eventos Totales", fontsize=18)
g.set_xlabel("Tiempo", fontsize=18)
g.set_ylabel("Cantidad de Eventos", fontsize=18)

#g.get_figure().set_size_inches(12, 6)
#g.get_figure().savefig('img/eventos_tiempo.png', dpi=100)

In [None]:
g = sns.countplot(x='month', hue='event_category', data=eventos_2018, palette="hls")
g.set_title("Cantidad de Eventos por mes", fontsize=18)
g.set_xlabel("Mes", fontsize=18)
g.set_ylabel("Cantidad de Eventos", fontsize=18)


#g.get_figure().set_size_inches(18.5, 10.5, forward=True)
#g.get_figure().savefig('eventos_mes.png')

Como se puede observar, el evento mas frecuente realizado por el usiario es la visita a una pagina de producto. 
En general la propocion entre los mismos es muy similar para los meses analizados.

In [None]:
prod_sin_stock = eventos_2018.loc[eventos_2018['event_category'] == 'lead'].groupby('model')['event_category'].count().sort_values(ascending=False)[:10]
prod_sin_stock
#productos_sin_stock = eventos_2018.loc[eventos_2018['event'] == 'lead'].groupby(['model', 'date']).agg({'event' : 'count'})
#productos_sin_stock.reset_index(inplace=True)

In [None]:
g = sns.distplot(eventos_totales.values, color='r')


In [None]:
eventos_2018['event_conversion'] = eventos_2018['event_category'] == 'conversion'
group = eventos_2018.groupby('date')['event_conversion'].sum()

type(eventos_totales)


In [None]:
eventos_2018['event_c'] = 1
for_heatmap = eventos_2018.pivot_table(index='day', columns='month', values='event_c', aggfunc='sum')

In [None]:
for_heatmap

In [None]:
g =  sns.heatmap(for_heatmap , linewidths=.5, cmap="YlGnBu") # annot=True
g.set_title("Cantidad de Eventos Totales por combinacion de Mes y Dia", fontsize=22)
g.set_xlabel("Mes",fontsize=18)
g.set_ylabel("Dia", fontsize=18)

In [None]:
eventos_2018.groupby('browser_version')['browser_version'].count().sort_values(ascending=False)[:10]

In [None]:
for_heatmap_hr_day = eventos_2018.pivot_table(index='hour', columns='day', values='event_c', aggfunc='sum')

In [None]:
g =  sns.heatmap(for_heatmap_hr_day , linewidths=.5, cmap="YlGnBu") # annot=True
g.set_title("Cantidad de Eventos Hora en el Dia", fontsize=22)
g.set_xlabel("Dia",fontsize=18)
g.set_ylabel("Hora", fontsize=18)

#g.get_figure().savefig('img/eventos_dia.png')

# Dispositivos mas relevantes

In [None]:
# Nueva columna con la marca del dispositivo
eventos_2018['trademark'] = eventos_2018['model'].str.split(n=1).str[0]

In [None]:
# Obtengo las marcas mas ocurrentes.
marcas_ordenadas = eventos_2018['trademark'].value_counts().index

In [None]:
model_conversion = pd.DataFrame(eventos_2018.groupby(['trademark', 'month'])['trademark'].agg('count'))
model_conversion.columns = ['count']
model_conversion.reset_index(inplace=True)

In [None]:
# Pivot table, cantidad de ocurrencias por mes.
pivoted = pd.pivot_table(model_conversion,values='count',columns='trademark', \
                         index='month', fill_value=0)
pivoted

In [None]:
# "Normalizo".
pivoted = pivoted.divide(pivoted.sum(axis=1), axis=0)
# Reeorganizo las columnas.
pivoted = pivoted.reindex(marcas_ordenadas[::-1], axis=1)

In [None]:
# Plot 
f = plt.figure()
plt.title('Top Marcas de Dispositivos por mes', fontsize=22)
ax = pivoted.plot(kind='area', stacked=True, colormap='rainbow_r', figsize=(14,8), ax=f.gca())
# Config labels y handels
handles, labels = ax.get_legend_handles_labels()
plt.legend(handles[::-1], labels[::-1], loc='center left', bbox_to_anchor=(1.0, 0.5))
ax.set_ylabel('Porcentaje (%)', fontsize=18);
ax.set_xlabel('Mes', fontsize=18);
# Limites grafico
ax.set_ylim(0,1)
ax.set_xlim(1,6)
plt.show()

## Como se comportan los usuarios que interactuan con la plataforma desde distintos dispositivos?


In [None]:
eventos_2018['operating_system'] = eventos_2018['operating_system_version'].str.split(n=1).str[0]

In [None]:
eventos_por_so = eventos_2018.groupby(['operating_system', 'screen_resolution'], as_index=False)['event'].count()
#info
eventos_por_so['event'].describe()

In [None]:
# Filtramos por el promedio.
minimo = 500
eventos_por_so = eventos_por_so.loc[eventos_por_so['event'] > minimo]

In [None]:
pivoted = pd.pivot_table(eventos_por_so,values='event',columns='screen_resolution', \
                         index='operating_system')

f = plt.figure()
plt.title('Cantidad de Ecentos por Sistema Operativo segun su Resolucion', fontsize=22)
ax = pivoted.plot(kind='bar', stacked=True, colormap='Spectral', figsize=(14,8), ax=f.gca())
ax.set_ylabel('Cantidad Eventos', fontsize=18);
ax.set_xlabel('Sistema Operativo', fontsize=18);
plt.show()

Con este plot podemos deducir que tanto windows como android son los sistemas operativos mas activos en la plataforma.
Ademas con la informacion de la resolucion de pantalla podemos concluir:
    * iOS : iPhone 5/SE	320 x 568
    * Android: Predomina 360x640
    * Windows: 1366x768

## Que horarios frecuenta el usuario segun el sistema operativo?

In [None]:
eventos_so_hora = eventos_2018.groupby(['operating_system', 'hour'], as_index=False)['event'].count()
# Escala logaritmica para visalizar mejor los datos.
eventos_so_hora['event_log'] = np.log(eventos_so_hora['event']+1)
for_heatmap_hr_so = pd.pivot_table(index='hour', columns='operating_system', values='event_log', data=eventos_so_hora)

In [None]:
g =  sns.heatmap(for_heatmap_hr_so , linewidths=.5, cmap="Greens", annot=True) # annot=True
g.set_title("Cantidad de Eventos por Combinacion Hora y SO (Log)", fontsize=22)
g.set_xlabel("Dia",fontsize=18)
g.set_ylabel("Hora (BRA/ARG)", fontsize=18)

Se puede observar como en dispositivos mobiles/portables como lo son SmartPhones/Tables/etc con un SO (Android/iOS)
obtiene su valor maximo a eso delas 23:00 y se matiene hasta 2:00 aprox, en cambio para dispositivos como computadoras
su pico lo alcanza entre las 17 y 20 hs.