## TP 1
### Objetivo
El objetivo del primer TP es realizar un análisis exploratorio del set de datos del TP. Queremos ver qué cosas podemos descubrir sobre los datos que puedan resultar interesantes. Los requisitos de la primera entrega son los siguientes:

 - El análisis debe estar hecho en Python Pandas o R.
 - El análisis debe entregarse en formato papel en una carpeta en donde se incluya el reporte completo y todas las visualizaciones generadas. Es altamente recomendable que las visualizaciones se impriman en color.
 - Informar el link a un repositorio Github en donde pueda bajarse el código completo para generar el análisis.
 - Agregar en Kaggle un kernel con el análisis exploratorio realizado.
 
### Evaluación

 - Originalidad del análisis exploratorio. 
 - Calidad del reporte. ¿Está bien escrito? ¿Es claro y preciso? 
 - Calidad del análisis exploratorio: qué tipo de preguntas se hacen y de qué forma se responden, ¿es la respuesta clara y concisa con respecto a la pregunta formulada? 
 - Calidad de las visualizaciones presentadas.
 - ¿Tienen todos los ejes su rótulo?
 - ¿Tiene cada visualización un título?
 - ¿Es entendible la visualización sin tener que leer la explicación?
 - ¿El tipo de plot elegido es adecuado para lo que se quiere visualizar?
 - ¿Es una visualización interesante?
 - ¿El uso del color es adecuado?
 - ¿Hay un exceso o falta de elementos visuales en la visualización elegida?
 - ¿La visualización es consistente con los datos?
#### Conclusiones presentadas.
 - ¿Presenta el grupo un listado de "insights" aprendidos sobre los datos en base al análisis realizado? ¿Es interesante?
 - ¿Pudieron descubrir features en el campo ‘model’? ¿Cuales fueron?
 - ¿Identificaron patrones o funnels de usuarios que realizan checkouts/conversiones en Trocafone? 
 - ¿Se comportan de forma distinta dependiendo del tipo de dispositivo desde el cual acceden?
 - ¿Se comportan de forma distinta dependiendo del tipo de fuente de tráfico al que pertenecen?
 - ¿Realizaron algún análisis sobre búsquedas que realizan los usuarios y las keywords que utilizan apoyándose en algún tipo de visualización?
 - ¿Realizaron algún análisis de lugar donde se originan las visitas de los usuarios de Trocafone (a nivel país, regiones más importantes o ciudades más importantes) apoyándose en algún tipo de visualización?
 - ¿Pudieron descubrir features jerarquizando información de alguno de los campos (por ejemplo “screen_resolution”)?
 - ¿El análisis realiza un aporte a Trocafone?




In [4]:
%matplotlib inline

import datetime as datetime
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

plt.style.use('seaborn-darkgrid')
sns.set(rc={'figure.figsize':(15.7,10.27)})

In [5]:
#Cargo los datos en memoria
eventos = pd.read_csv('fiuba-trocafone-tp1-final-set/events.csv', low_memory=False)


In [6]:
eventos.head()

Unnamed: 0,timestamp,event,person,url,sku,model,condition,storage,color,skus,...,search_engine,channel,new_vs_returning,city,region,country,device_type,screen_resolution,operating_system_version,browser_version
0,2018-05-31 23:38:05,ad campaign hit,0004b0a2,/comprar/iphone/iphone-5s,,,,,,,...,,,,,,,,,,
1,2018-05-31 23:38:05,visited site,0004b0a2,,,,,,,,...,,Paid,New,Camaragibe,Pernambuco,Brazil,Smartphone,360x640,Android 6,Chrome Mobile 39
2,2018-05-31 23:38:09,viewed product,0004b0a2,,2694.0,iPhone 5s,Bom,32GB,Cinza espacial,,...,,,,,,,,,,
3,2018-05-31 23:38:40,checkout,0004b0a2,,2694.0,iPhone 5s,Bom,32GB,Cinza espacial,,...,,,,,,,,,,
4,2018-05-29 13:29:25,viewed product,0006a21a,,15338.0,Samsung Galaxy S8,Bom,64GB,Dourado,,...,,,,,,,,,,


In [7]:
#Hay algun dato nulo?
eventos.isnull().any()

timestamp                   False
event                       False
person                      False
url                          True
sku                          True
model                        True
condition                    True
storage                      True
color                        True
skus                         True
search_term                  True
staticpage                   True
campaign_source              True
search_engine                True
channel                      True
new_vs_returning             True
city                         True
region                       True
country                      True
device_type                  True
screen_resolution            True
operating_system_version     True
browser_version              True
dtype: bool

In [8]:
#hay alguna columna completamente nula?
eventos.isnull().all()

timestamp                   False
event                       False
person                      False
url                         False
sku                         False
model                       False
condition                   False
storage                     False
color                       False
skus                        False
search_term                 False
staticpage                  False
campaign_source             False
search_engine               False
channel                     False
new_vs_returning            False
city                        False
region                      False
country                     False
device_type                 False
screen_resolution           False
operating_system_version    False
browser_version             False
dtype: bool

In [20]:
#Vamos a analizar algunas características de las columnas
eventos.describe()

Unnamed: 0,timestamp,event,person,url,sku,model,condition,storage,color,skus,...,search_engine,channel,new_vs_returning,city,region,country,device_type,screen_resolution,operating_system_version,browser_version
count,1011288,1011288,1011288,82756,563838.0,564284,563836,563836,563836,221699,...,50957,87378,87378,87378,87378,87378,87378,87378,87378,87378
unique,793805,11,27624,227,3574.0,202,5,8,63,35310,...,4,7,2,1939,93,46,4,282,121,343
top,2018-05-15 15:56:06,viewed product,71492f2b,/,2830.0,iPhone 6,Bom,16GB,Preto,"2820,6706,6720,2750,6649,7251,6663,12604,7224,...",...,Google,Paid,Returning,Unknown,Sao Paulo,Brazil,Smartphone,360x640,Windows 7,Chrome 66.0
freq,11,528931,2771,28323,4282.0,50916,243014,190833,132960,594,...,50240,44193,60480,15819,24996,84308,44239,30009,19675,22611


In [32]:
#Existen 27624 usuarios únicos

cantidadDeUsuarios = eventos['person'].value_counts().count()
print('Cantidad de usuarios total: ', cantidadDeUsuarios)

Cantidad de usuarios total:  27624


In [10]:
#Existen 11 tipos de eventos distintos
eventos['event'].value_counts().count()

11

In [11]:
eventos['event'].value_counts()

viewed product       528931
brand listing         98635
visited site          87378
ad campaign hit       82827
generic listing       67534
searched products     56073
search engine hit     50957
checkout              33735
staticpage             3598
conversion             1172
lead                    448
Name: event, dtype: int64

In [37]:
#De los 33.735 de checkout, queremos saber si todos los usuarios únicos (27.624) hicieron al menos un checkout.

eventosCheckout = eventos.loc [eventos['event'] == 'checkout','person']
cantidadDeCheckout = eventosCheckout.count()
cantidadDeUsuariosCheckout = eventosCheckout.value_counts().count()
print(cantidadDeUsuariosCheckout,' realizaron al menos un checkout, de un total de ',cantidadDeUsuarios,' usuarios')

27624  realizaron al menos un checkout, de un total de  27624  usuarios


In [36]:
#Viendo que todos hicieron checkout al menos una vez, vemos cuántos realizaron la compra.
#eventosSinCheckout = eventos.loc [eventos['event'] != 'checkout',:]
conversiones = eventos.loc[eventos['event'] == 'conversion','person']
cantidadDeConversiones = conversiones.count()
cantidadDePersonasQueConvierten = conversiones.value_counts().count()
print('Se realizaron',cantidadDeConversiones,'conversiones entre',cantidadDePersonasQueConvierten,'clientes')

Se realizaron  1172  conversiones entre  716  clientes


In [40]:
#De los 27.624 usuarios, 716 hicieron compras
print('Por cada',cantidadDeCheckout,'se realizan',cantidadDeConversiones,'conversiones')
print('La tasa de conversion por checkout es de',(cantidadDeConversiones * 100 / cantidadDeCheckout),'%')
print('El porcentaje de usuarios que concreta una compra es de',\
      (cantidadDePersonasQueConvierten * 100 / cantidadDeUsuariosCheckout),'%')

Por cada 33735 se realizan 1172 conversiones
La tasa de conversion por checkout es de 3.47413665333 %
El porcentaje de usuarios que concreta una compra es de 2.59194902983 %


In [79]:
#Es decir que el 2.6% de usuarios realiza la compra al llegar al checkout.