In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly as plotly

%matplotlib inline

plt.style.use('default')

sns.set(style='whitegrid')
pd.options.mode.chained_assignment = None  # default='warn'

In [None]:
df = pd.read_csv("events.csv",low_memory=False)

# Equipos utilizados

In [None]:
device = df['device_type'].value_counts().to_frame().reset_index()
device.columns = ['Equipo', 'Cant']

In [None]:
ax = sns.barplot(x=device['Equipo'], y=device['Cant'])
ax

In [None]:
df['search_engine'].value_counts()

In [None]:
df['channel'].value_counts()

# Que sistema utilizan al entrar con un Smartphone

In [None]:
df['operating_system_version']
df = df[pd.notnull(df['operating_system_version'])] #Saco los null sistema
df = df[pd.notnull(df['device_type'])] #Saco los null tipo de equipo
df['operating_system_version'] = df['operating_system_version'].map(lambda x: str(x).split()[0])


In [None]:
df_types_op_smart = df.loc[df['device_type'] == 'Smartphone', 'operating_system_version'].to_frame()
df_types_op_smart = df_types_op_smart['operating_system_version'].value_counts().to_frame().reset_index()
df_types_op_smart.columns = ['Sistema','Cant']
df_types_op_smart

In [None]:
clrs = ['green','grey','blue','red']
ax = sns.barplot(x=df_types_op_smart.Sistema, y=df_types_op_smart.Cant, palette=clrs)
ax.set_title('Sistema utilizado al entrar con un Smartphone al sitio')

Como podíamos suponer , la gran mayoría de la gente entra con celulares que poseen un sistema operativo Android. Teniendo los celulares iphone una gran cantidad de ventas , nos preguntamos si la gente que miraba o compraba celulares de esta marca entraba usando un sistema operativo 'Andorid' o 'IOS'.
Esto nos parecia interesante ya que podíamos buscar una conformidad con el sistema de parte de los compradores. Si las mayoría de las visitas con un sistema IOS eran dirijidas a celulares como los Iphone podríamos pensar que los clientes se querían mantener con esta tecnólogia. Por otra parte, si la mayoría mirara Android, algo diferente sería conluído, y es que los usuarios estaban pensando en cambiar de sistema.
El siguiente análisis tenía además un sentido a futuro, la gente está mirando cada vez más celulares Android o IOS, a que debemos darle más importancia en la empresa?
Lamentablemente los datos no nos posibilitaron realizar este análisis, ya que toda persona que compró en el sitio no poseía los datos de sistema ingresado.
Nos pareció de todos modos algo interesante para remarcar, ya que de poseer un set de datos más completo podrí ser posible realizarlo.

# Estado de los top tres tipos de celulares más vendidos

In [None]:
df = pd.read_csv("events.csv",low_memory=False)
df = df[pd.notnull(df['model'])] #Saco los null sistema
df['model'] = df['model'].map(lambda x: str(x).split()[0])
# df.loc[df['device_type'] == 'Computer', :]['model'].value_counts()
df = df.loc[df['event'] == 'conversion', :]
df['model'].value_counts()

In [None]:
df = df.loc[(df['model'] == 'iPhone') | (df['model'] == 'Samsung') | (df['model'] == 'Motorola'), ['model','condition']]

In [None]:
model_cond = df.groupby(['model', 'condition']).agg('size').reset_index()
model_cond.columns = ['Modelo', 'Condición', 'Cant']
model_cond

In [None]:
model_cond['Condición'] = model_cond['Condición'].map(lambda x: 'Bueno' if str(x) == 'Bom' else x)
model_cond['Condición'] = model_cond['Condición'].map(lambda x: 'Muy bueno' if str(x) == 'Muito Bom' else x)
model_cond['Condición'] = model_cond['Condición'].map(lambda x: 'Nuevo' if str(x) == 'Novo' else x)
model_cond['Condición'] = model_cond['Condición'].map(lambda x: 'Bueno- Sin touch ID' if str(x) == 'Bom - Sem Touch ID' else x)
model_cond

In [None]:
ax = sns.catplot(x='Modelo', y='Cant', hue='Condición', data=model_cond, kind='bar')

Aquí se puede observar algo interesante, en las tres marcas de celulares más vendidas Es estado 'Bueno' es el que tiene más ventas, seguido de muy bueno y excelente. Tiene además sentido que el estado Nuevo no tenga aparición, ya que es una compañia que se dedica a comprar celulares usados y restaurarlos para su venta.
A nivel empresa, esta información es importante, ya que pueden derivar a análisis del tipo, 
* Hasta que punto es necesario restaurar el celular que compramos?
* Es lo mismo el estado para cada modelo?

Estas preguntas, de todos modos, también pueden ser respondidas de una manera más certera teniendo además un conocimiento previo de los precio de los celulares. Ya que si la ganancia entre un celular en buen estado y muy bueno o excelente es lo suficientemente considerable para vender meno y seguir ganando más nuesrto análisis, más allá de interesante, no lograría tal vez el reducir en algunos celulares el trabajo de restauración, ya que no sería un negocio para la empresa.

# Sistema utilizado al ingresar con un Computadora

In [None]:
df = df[pd.notnull(df['operating_system_version'])] #Saco los null sistema
df = df[pd.notnull(df['device_type'])] #Saco los null tipo de equipo
df['operating_system_version'] = df['operating_system_version'].map(lambda x: str(x).split()[0])
df_types_op_comp = df.loc[df['device_type'] == 'Computer', 'operating_system_version'].to_frame()
df_types_op_comp['operating_system_version'] = df_types_op_comp['operating_system_version'].map(lambda x: 'Linux' if str(x) == 'Ubuntu' else x)
df_types_op_comp = df_types_op_comp['operating_system_version'].value_counts().to_frame().reset_index()
df_types_op_comp.columns = ['Sistema','Cant']
df_types_op_comp

In [None]:
clrs = ['blue','grey','violet']
ax = sns.barplot(x=df_types_op_comp.Sistema, y=df_types_op_comp.Cant, palette=clrs)
ax.set_title('Sistema utilizado al entrar con una Computadora al sitio')

Se ve una muy clara preferencia a la distribución Windows al ingresar al sitio utilizando una computadora. 

In [None]:
df['screen_resolution'].value_counts().head(5)

# Que miran los que compran

In [None]:
df = pd.read_csv("events.csv",low_memory=False)

In [None]:
# df['operating_system_version'] = df['operating_system_version'].map(lambda x: str(x).split()[0])
df = df[pd.notnull(df['model'])] #Saco los null sistema
df['model'] = df['model'].map(lambda x: str(x).split()[0])
df.loc[df['event'] == 'conversion', :]


In [None]:
frame = df.groupby(['person', 'model']).agg('size').reset_index()
frame.columns = ['person', 'model', 'cant']
frame = frame.groupby('person', group_keys=False).apply(lambda x: x.loc[x.cant.idxmax()])

In [None]:
pd.merge(df, frame, on='person')

Como antes fue mencionado, no se logro ver el tipo de equipo que utilizan las personas que compraron un equipo en el sitio

# Colores 

In [None]:
df = pd.read_csv("events.csv",low_memory=False)

In [None]:
colors = df['color'].value_counts().head(10).to_frame().reset_index()
colors.columns = ['Color','Cant']
colors

In [None]:
dic = {
    'Preto': 'Negro',
    'Dourado': 'Dorado',
    'Branco': 'Blanco',
    'Prata': 'Plata',
    'Preto Matte' : 'Negro Mate',
    'Ouro Rosa':'Rosa Claro',
    'Cinza espacial': 'Gris',
    'Prateado':'Plateado'   
}

colors['Color'] = colors['Color'].map(lambda x: x if not str(x) in dic else dic[str(x)])
colors

Se puede observar una clara preferencia por los tipos de colores negro, gris y plateado.  Este tipo de información, como dijimos ya ates, sirve para elegir que tipo de equipo se va  a comprar para posteriormente vender. Tal vez un celular que sabemos que tiene muchas ventas se venderá no importe el color, pero uno de más bajo mercado, si merece posiblemente tener en cuenta estos pequeños detalles, como el color.