# Analisis Exploratorio Trocafone

In [1]:
# importacion general de librerias y de visualizacion (matplotlib y seaborn)
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import datetime

# Nescesario para mapas.
import plotly as py

%matplotlib inline

plt.style.use('default')
sns.set(style="whitegrid") # tipo de grid seaborn

ModuleNotFoundError: No module named 'seaborn'

In [None]:
# Set de datos
path = 'data/events.csv'
eventos_2018 = pd.read_csv(path)

## Previo analisis

In [None]:
#Veo la forma
eventos_2018.shape

In [None]:
#Información sobre el data frame 
eventos_2018.info()

In [None]:
eventos_2018.head()

Podemos ver varios campos nulos, que luego tendremos en cuenta para cada analisis.

In [None]:
# Damos formato a la fecha.
eventos_2018['timestamp_format'] = pd.to_datetime(eventos_2018['timestamp'])

# Agrego columna fecha
eventos_2018['date'] = eventos_2018['timestamp_format'].dt.date
# Agrego columna para los meses.
eventos_2018['month'] = eventos_2018['timestamp_format'].dt.month
# Agrego columna dias
eventos_2018['day'] = eventos_2018['timestamp_format'].dt.weekday_name
# Agrego columna de horas
eventos_2018['hour'] = eventos_2018['timestamp_format'].dt.hour

In [None]:
# Evento como categoria
eventos_2018['event_category'] = eventos_2018['event'].astype('category')

### Topicos generales y previsualizacion de los datos.

In [None]:
# Top personas con mas eventos
top_personas = eventos_2018.groupby('person')['event_category'].count().sort_values(ascending=False)[:10]

g = sns.barplot(x=top_personas.values, y=top_personas.index, orient='h')
g.set_title("Top Personas que Realizaron mas Eventos", fontsize=15)
g.set_xlabel("Cantidad de Eventos", fontsize=12)
g.set_ylabel("ID", fontsize=12)

### Cuales son los eventos mas ocurrentes en la plataforma?

In [None]:
# Top eventos
top_eventos = eventos_2018.groupby('event')['event_category'].count().sort_values(ascending=False)

g = sns.barplot(x=top_eventos.values, y=top_eventos.index, orient='h')
g.set_title("Top Eventos", fontsize=15)
g.set_xlabel("Cantidad de Eventos", fontsize=12)
g.set_ylabel("Eventos", fontsize=12)

### Como se comportan los usuarios que interactuan con la plataforma desde distintos dispositivos?

In [None]:
eventos_2018['operating_system'] = eventos_2018['operating_system_version'].str.split(n=1).str[0]

In [None]:
eventos_por_so = eventos_2018.groupby(['operating_system', 'screen_resolution'], as_index=False)['event_category'].count()
#info
eventos_por_so['event_category'].describe()

In [None]:
# Filtramos para visualizar las mas relevantes.
minimo = 500
eventos_por_so = eventos_por_so.loc[eventos_por_so['event_category'] > minimo]

In [None]:
pivoted = pd.pivot_table(eventos_por_so,values='event_category',columns='screen_resolution', \
                         index='operating_system')

f = plt.figure()
plt.title('Cantidad de Eventos por Sistema Operativo segun su Resolucion', fontsize=22)
ax = pivoted.plot(kind='bar', stacked=True, colormap='Spectral', figsize=(14,8), ax=f.gca())
ax.set_ylabel('Cantidad Eventos', fontsize=18);
ax.set_xlabel('Sistema Operativo', fontsize=18);
plt.show()

Con este plot podemos deducir que tanto windows como android son los sistemas operativos mas activos en la plataforma.
Ademas con la informacion de la resolucion de pantalla podemos ver:
    
<table style="width:100%">
  <tr>
    <th>Marca</th>
    <th>Resolucion Predominante</th>
    <th>Modelo</th>
  </tr>
  <tr>
    <td>iOS</td>
    <td>320 x 568</td>
    <td>iPhone 5/SE</td>
  </tr>
  <tr>
    <td>Android</td>
    <td>360x640</td>
    <td>-</td>
  </tr>
  <tr>
    <td>Windows</td>
    <td>1366x768</td>
    <td>-</td>
  </tr>
</table> 






### Cuales son las marcas de dispositivos mas vendidas?

In [None]:
conversion_e = eventos_2018.loc[eventos_2018['event_category'] == 'conversion']
model_conversion = conversion_e['model'].groupby(conversion_e.model.str.split(n=1).str[0]).agg('count').sort_values(ascending=False)
g = sns.barplot(x=model_conversion.index, y=model_conversion.values, palette='rainbow', orient='v')
g.set_xlabel('Marca')
g.set_ylabel('Cantidad de ventas')
g.set_title('Cantidad de dispositivos vendidos por marca')

# Analisis Geografico de Fuentes

Damos un vistazo general a las localidades en donde se generan los eventos.

In [None]:
# Proporcion de datos reales sobre el total.
eventos_2018['country'].isnull().sum() / eventos_2018['country'].count()

In [None]:
# Id paises (Argentina : ARG 
#            Brasil : BRA
#                      ...) .
id_paises = pd.read_csv('data/id-countries.csv')

In [None]:
# Calculando la cantidad de eventos por pais.
countries_data = pd.DataFrame(eventos_2018['country'].value_counts())
countries_data.reset_index(inplace=True)
countries_data.columns = ['country', 'count']
countries_data.replace({'United States' : 'United States of America'}, inplace= True)

In [None]:
# Cantiadad de eventos sobre todos losc paises.
data_paises = countries_data.merge(id_paises, how='left', on=['country']).fillna(0)

In [None]:
# Top 5 paises con mas eventos. Filtro los indeterminados.
data_paises.loc[data_paises['country'] != 'Unknown'][:5]

Con lo visto anteriormente es nescesario realizar el analisis sobre una escala lograitmica para visualizar mejor los datos.

In [None]:
# Escala logaritmica.
data_paises['count_log'] = np.log(data_paises['count'] + 1)

In [None]:
# Pyplot

df = data_paises

data_x = [ dict(
        type = 'choropleth',
        locations = df['id'],
        z = df['count_log'],
        text = df['country'],
        colorscale = [[0,"rgb(5, 10, 172)"],[0.35,"rgb(40, 60, 190)"],[0.5,"rgb(70, 100, 245)"],\
            [0.6,"rgb(90, 120, 245)"],[0.7,"rgb(106, 137, 247)"],[1,"rgb(220, 220, 220)"]],
        reversescale = True,
        colorbar = dict(
            title = 'Cantidad Eventos (Log)'
        ),
    ) ]

layout = dict(
    title = 'Cantidade Total de Eventos 2018',
    geo = dict(
        showframe = False,
        showcoastlines = False,
    )
)

fig = dict( data=data_x, layout=layout )
py.plotly.iplot(fig)

# Analisis Temporal

Antes de comenzar con el analisis, es nescesario saber en el rango de fechas que estamos trabajando.

In [None]:
# fecha minima
eventos_2018['timestamp_format'].min()

In [None]:
# fecha maxima
eventos_2018['timestamp_format'].max()

Primero haremos un plot para ver como estan distribuidos los datos.

In [None]:
eventos_totales = eventos_2018.groupby('date')['event_category'].count()
g = eventos_totales.plot()
g.set_title("Cantidad de Eventos Totales", fontsize=18)
g.set_xlabel("Tiempo", fontsize=18)
g.set_ylabel("Cantidad", fontsize=18)

Vemos un crecimiento de interacciones con el tiempo, mas que nada de Mayo para Junio.

In [None]:
g = sns.countplot(x='month', hue='event_category', data=eventos_2018, palette="hls")
g.set_title("Cantidad de Eventos por mes", fontsize=18)
g.set_xlabel("Mes", fontsize=18)
g.set_ylabel("Cantidad", fontsize=18)


#g.get_figure().set_size_inches(18.5, 10.5, forward=True)
#g.get_figure().savefig('eventos_mes.png')

In [None]:
### Cantirdad de eventos por combinacion de hora en el dia.

eventos_2018['event_c'] = 1
for_heatmap_hr_day = eventos_2018.pivot_table(index='hour', columns='day', values='event_c', aggfunc='sum')

g =  sns.heatmap(for_heatmap_hr_day , linewidths=.5, cmap="YlGnBu") # annot=True
g.set_title("Cantidad de Eventos Hora en el Dia", fontsize=22)
g.set_xlabel("Dia",fontsize=18)
g.set_ylabel("Hora", fontsize=18)

#g.get_figure().savefig('img/eventos_dia.png')

### Como son las interacciones con respecto a las capanias de publicidad?

En que horario se frecuentan mas?

In [None]:
campaing_hint = eventos_2018.loc[eventos_2018['event_category'] == 'ad campaign hit'].groupby('hour')['event'].count()

In [None]:
g = sns.barplot(x=campaing_hint.index, y=campaing_hint.values, orient='v')

g.set_xlabel("Hora", fontsize=15)
g.set_ylabel("Number of Campaign Hits", fontsize=15)
g.set_title("Campaign Hits per Hour", fontsize=15)

Como se puede osbervar, los usuarios ingresan mediante publicidad en media noche; seria interesante conocer las fuentes de esas publicidades.

In [None]:
# Eventos por hora (campaing source)
eventosPorHourAndCampaignSource = eventos_2018.groupby(['hour', 'campaign_source'], as_index=False)['event'].count()

# Filtro valores no significativos.
minimo = 50
eventosPorHourAndCampaignSource = eventosPorHourAndCampaignSource.loc[eventosPorHourAndCampaignSource['event'] > minimo]

# Pivot table.
pivotedHour = pd.pivot_table(eventosPorHourAndCampaignSource,values='event',columns='campaign_source', \
                         index='hour')
# Plot
f = plt.figure()
plt.title('Cantidad de Campaign Hits por Hora segun Campaign Source', fontsize=22)
ax = pivotedHour.plot(kind='bar', stacked=True, colormap='Spectral', figsize=(14,8), ax=f.gca())
ax.set_ylabel('Campaign Hits', fontsize=18);
ax.set_xlabel('Hour', fontsize=18);
plt.show()

### Dispositivos mas relevantes segun el mes

In [None]:
# Nueva columna con la marca del dispositivo
eventos_2018['trademark'] = eventos_2018['model'].str.split(n=1).str[0]

In [None]:
# Obtengo las marcas mas ocurrentes.
marcas_ordenadas = eventos_2018['trademark'].value_counts().index

In [None]:
model_conversion = pd.DataFrame(eventos_2018.groupby(['trademark', 'month'])['trademark'].agg('count'))
model_conversion.columns = ['count']
model_conversion.reset_index(inplace=True)

In [None]:
# Pivot table, cantidad de ocurrencias por mes.
table_mes_marca = pd.pivot_table(model_conversion,values='count',columns='trademark', \
                         index='month', fill_value=0)
table_mes_marca

In [None]:
# "Normalizo".
table_mes_marca = table_mes_marca.divide(table_mes_marca.sum(axis=1), axis=0)
# Reeorganizo las columnas.
table_mes_marca = table_mes_marca.reindex(marcas_ordenadas[::-1], axis=1)


In [None]:
# Plot 
f = plt.figure()
ax = table_mes_marca.plot(kind='area', stacked=True, colormap='rainbow_r', figsize=(14,8), ax=f.gca())
# Config labels y handels
handles, labels = ax.get_legend_handles_labels()
plt.legend(handles[::-1], labels[::-1], loc='center left', bbox_to_anchor=(1.0, 0.5))
plt.title('Top Marcas de Dispositivos por mes', fontsize=22)
ax.set_ylabel('Porcentaje (%)', fontsize=18);
ax.set_xlabel('Mes', fontsize=18);
# Limites grafico
ax.set_ylim(0,1)
ax.set_xlim(1,6)
plt.show()

### Que horarios frecuenta el usuario segun el sistema operativo?

In [None]:
eventos_so_hora = eventos_2018.groupby(['operating_system', 'hour'], as_index=False)['event'].count()
# Escala logaritmica para visalizar mejor los datos.
eventos_so_hora['event_log'] = np.log(eventos_so_hora['event']+1)
for_heatmap_hr_so = pd.pivot_table(index='hour', columns='operating_system', values='event_log', data=eventos_so_hora)

In [None]:
g =  sns.heatmap(for_heatmap_hr_so , linewidths=.5, cmap="Greens", annot=True) # annot=True
g.set_title("Cantidad de Eventos por Combinacion Hora y SO (Log)", fontsize=22)
g.set_xlabel("Dia",fontsize=18)
g.set_ylabel("Hora (BRA/ARG)", fontsize=18)

Se puede observar como en dispositivos mobiles/portables como lo son SmartPhones/Tables/etc con un SO (Android/iOS)
obtiene su valor maximo a eso delas 23:00 y se matiene hasta 2:00 aprox, en cambio para dispositivos como computadoras
su pico lo alcanza entre las 17 y 20 hs.

### Usuarios nuevos vs regresantes

In [None]:
# Cuento y elimino el mes 6 datos incompletos
us_nuevos_mes = pd.DataFrame(eventos_2018.groupby(['month', 'new_vs_returning'])["new_vs_returning"].agg('count')).drop(6)
us_nuevos_mes.columns = ['count']
us_nuevos_mes.reset_index(inplace=True)

# Plot
f = plt.figure()
pivote_table_us_mes = pd.pivot_table(us_nuevos_mes, index='month', columns='new_vs_returning', values='count')
ax = pivote_table_us_mes.plot(kind='line', stacked=True, colormap='winter_r', figsize=(14,8), ax=f.gca())
plt.title('New vs Returning por Mes', fontsize=22)
ax.set_ylabel('Cantidad de usuarios', fontsize=18);
ax.set_xlabel('Mes', fontsize=18);
# Limites grafico
ax.set_xlim(1,5)

plt.show()