## Missão: Analisar o Comportamento de Compra de Consumidores.

Você recebeu a tarefa de analisar os dados de compras de um web site! Os dados estão no formato JSON e disponíveis junto com este notebook.

No site, cada usuário efetua login usando sua conta pessoal e pode adquirir produtos à medida que navega pela lista de produtos oferecidos. Cada produto possui um valor de venda. Dados de idade e sexo de cada usuário foram coletados e estão fornecidos no arquivo JSON.

Seu trabalho é entregar uma análise de comportamento de compra dos consumidores. Esse é um tipo de atividade comum realizado por Cientistas de Dados e o resultado deste trabalho pode ser usado, por exemplo, para alimentar um modelo de Machine Learning e fazer previsões sobre comportamentos futuros.

Mas nesta missão você vai analisar o comportamento de compra dos consumidores usando o pacote Pandas da linguagem Python e seu relatório final deve incluir cada um dos seguintes itens:

**Contagem de Consumidores**

* Número total de consumidores


**Análise Geral de Compras**

* Número de itens exclusivos
* Preço médio de compra
* Número total de compras
* Rendimento total


**Informações Demográficas Por Gênero**

* Porcentagem e contagem de compradores masculinos
* Porcentagem e contagem de compradores do sexo feminino
* Porcentagem e contagem de outros / não divulgados


**Análise de Compras Por Gênero**

* Número de compras
* Preço médio de compra
* Valor Total de Compra
* Compras for faixa etária


**Identifique os 5 principais compradores pelo valor total de compra e, em seguida, liste (em uma tabela):**

* Login
* Número de compras
* Preço médio de compra
* Valor Total de Compra


**Identifique os 5 itens mais populares por contagem de compras e, em seguida, liste (em uma tabela):**

* ID do item
* Nome do item
* Número de compras
* Preço do item
* Valor Total de Compra
* Itens mais lucrativos


**Identifique os 5 itens mais lucrativos pelo valor total de compra e, em seguida, liste (em uma tabela):**

* ID do item
* Nome do item
* Número de compras
* Preço do item
* Valor Total de Compra


**Como considerações finais:**

* Seu script deve funcionar para o conjunto de dados fornecido.
* Você deve usar a Biblioteca Pandas e o Jupyter Notebook.


In [2]:
# importando pacotes necessários
import numpy as np
import pandas as pd

In [3]:
# Carregando o arquivo JSON com os dados de compras
arquivo_compras = "dados_compras.json"
df_compras = pd.read_json(arquivo_compras)
df_compras.head()

Unnamed: 0,Login,Idade,Sexo,Item ID,Nome do Item,Valor
0,Aelalis34,38,Masculino,165,Bone Crushing Silver Skewer,3.37
1,Eolo46,21,Masculino,119,"Stormbringer, Dark Blade of Ending Misery",2.32
2,Assastnya25,34,Masculino,174,Primitive Blade,2.46
3,Pheusrical25,21,Masculino,92,Final Critic,1.36
4,Aela59,23,Masculino,63,Stormfury Mace,1.27


## Informações Sobre os Consumidores

In [4]:
# Criando um dataframe só com as informações dos compradores
df_consumidores = df_compras.loc[:, ["Login", "Idade", "Sexo"]]
df_consumidores.head()

Unnamed: 0,Login,Idade,Sexo
0,Aelalis34,38,Masculino
1,Eolo46,21,Masculino
2,Assastnya25,34,Masculino
3,Pheusrical25,21,Masculino
4,Aela59,23,Masculino


In [5]:
# Checando a quantidade de registros encontrados
df_consumidores.shape

(780, 3)

In [6]:
# Temos algum valor nulo?
df_consumidores.isnull().values.any()

False

In [7]:
# Vamos tirar valores duplicados, caso existam:
df_consumidores = df_consumidores.drop_duplicates(subset="Login")

In [8]:
# Checando a nova quantidade de registros encontrados após a limpeza
df_consumidores.shape

(573, 3)

In [9]:
# Perceba que tínhamos 780 registros, agora temos 573 usuários únicos.
# Vamos salvar o número de compradores em uma variável.
num_consumidores = df_consumidores.shape[0]
print("O número total de compradores é {0}.".format(num_consumidores))

O número total de compradores é 573.


## Análise Geral de Compras

In [10]:
# Como estão organizadas as compras em um geral?
# Vamos começar separando um dataframe apenas para os produtos.
# Vamos também ordená-lo pelo valor de venda.
df_produtos = df_compras.loc[:, ["Item ID", "Nome do Item", "Valor"]].sort_values("Valor", ascending=False)

df_produtos

Unnamed: 0,Item ID,Nome do Item,Valor
83,32,Orenmir,4.95
50,32,Orenmir,4.95
657,32,Orenmir,4.95
388,32,Orenmir,4.95
227,32,Orenmir,4.95
...,...,...,...
445,95,Singed Onyx Warscythe,1.03
505,15,Soul Infused Crystal,1.03
453,95,Singed Onyx Warscythe,1.03
496,95,Singed Onyx Warscythe,1.03


In [11]:
# Será que houveram muitas compras? Vamos descobrir o total de compras!
total_compras = df_produtos.shape[0]
print("Foram realizadas {0} compras no total.".format(total_compras))

Foram realizadas 780 compras no total.


In [12]:
# Uau! Qual será que foi o valor total de todas essas compras?
valor_total = df_produtos.loc[:, "Valor"].sum()
print("O valor total de todas as compras foi de {0}!".format(valor_total))

O valor total de todas as compras foi de 2286.33!


In [13]:
# Interessante! Será que temos itens que foram vendidos por valores diferentes?
# Podemos fazer isso checando por registros duplicados de ID.
registros_duplicados = df_produtos[df_produtos.duplicated(['Item ID'])]
registros_duplicados

Unnamed: 0,Item ID,Nome do Item,Valor
50,32,Orenmir,4.95
657,32,Orenmir,4.95
388,32,Orenmir,4.95
227,32,Orenmir,4.95
359,32,Orenmir,4.95
...,...,...,...
445,95,Singed Onyx Warscythe,1.03
505,15,Soul Infused Crystal,1.03
453,95,Singed Onyx Warscythe,1.03
496,95,Singed Onyx Warscythe,1.03


In [14]:
# Olhando assim, aparentemente os produtos tem o mesmo preço.
# Sendo assim, acho que estamos seguros para remover os items duplicados por ID!
df_prod_unicos = df_produtos.drop_duplicates(subset="Item ID")
df_prod_unicos

Unnamed: 0,Item ID,Nome do Item,Valor
83,32,Orenmir,4.95
532,177,"Winterthorn, Defender of Shifting Worlds",4.89
471,103,Singed Scalpel,4.87
104,173,Stormfury Longsword,4.83
419,42,The Decapitator,4.82
...,...,...,...
430,74,Yearning Crusher,1.06
723,69,"Frenzy, Defender of the Harvest",1.06
771,25,Hero Cane,1.03
334,15,Soul Infused Crystal,1.03


In [70]:
# Vamos ver um ranking dos top 5 items mais caros?
df_prod_unicos[0:5]

Unnamed: 0,Item ID,Nome do Item,Valor
83,32,Orenmir,4.95
532,177,"Winterthorn, Defender of Shifting Worlds",4.89
471,103,Singed Scalpel,4.87
104,173,Stormfury Longsword,4.83
419,42,The Decapitator,4.82


In [16]:
# Orenmir vence!
# Próximo passo: qual será que foi o valor médio de venda dos itens?
# Vamos descobrir!
media_valores = df_prod_unicos.Valor.mean()
print("Média de valores {0:.2f}".format(media_valores))

Média de valores 2.95


In [17]:
# Uma análise rápida a respeito da média de valores:
dif_maior = ((df_prod_unicos.Valor.iloc[0]/media_valores)-1)*100
print("O item mais caro é {0:.2f}% maior que a média!".format(dif_maior))
df_consumidores["Sexo"].value_counts()

O item mais caro é 67.55% maior que a média!


Masculino                 465
Feminino                  100
Outro / NÃ£o Divulgado      8
Name: Sexo, dtype: int64

## Análise Demográfica

In [45]:
# Vamos explorar um pouco mais nossos dados!
generos = df_compras["Sexo"].unique()

## Informações Demográficas Por Gênero

In [46]:
# Vamos criar uma tabela para visualizar nossos dados de representatividade
gen_count = df_consumidores["Sexo"].value_counts()
gen_porcent = (gen_count/num_consumidores)*100
gen_porcent = ["{0:.2f}%".format(x) for x in gen_porcent]
df_sex = pd.DataFrame({"Sexo": gen_count, "%":gen_porcent})
df_sex

Unnamed: 0,Sexo,%
Masculino,465,81.15%
Feminino,100,17.45%
Outro / NÃ£o Divulgado,8,1.40%


In [124]:
# Criando intervalos de idade para categorização
labels_idade = ["Menos de 10", "10 a 19", "20 a 29", "30 a 39", "40 a 49", "50 a 59", "60 a 69", "70 ou mais"]
df_compras['Intervalo de Idade'] = pd.cut(x=df_compras['Idade'], bins=range(0, 81, 10), labels=labels_idade)
df_compras.head()

Unnamed: 0,Login,Idade,Sexo,Item ID,Nome do Item,Valor,Intervalo de Idade
0,Aelalis34,38,Masculino,165,Bone Crushing Silver Skewer,3.37,30 a 39
1,Eolo46,21,Masculino,119,"Stormbringer, Dark Blade of Ending Misery",2.32,20 a 29
2,Assastnya25,34,Masculino,174,Primitive Blade,2.46,30 a 39
3,Pheusrical25,21,Masculino,92,Final Critic,1.36,20 a 29
4,Aela59,23,Masculino,63,Stormfury Mace,1.27,20 a 29


## Análise de Compras Por Gênero

In [129]:
compras_gen = df_compras.groupby(["Sexo"])["Valor"]
compras_gen_soma = compras_gen.sum()
compras_gen_num = compras_gen.count()
compras_gen_media = compras_gen.mean()
compras_gen_media = ["{0:.2f}".format(x) for x in compras_gen_media]

df_compras_gen = pd.DataFrame({"Compras":compras_gen_num, "Total ($)":compras_gen_soma, "Preço Médio ($)":compras_gen_media})
df_compras_gen

Unnamed: 0_level_0,Compras,Total ($),Preço Médio ($)
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Feminino,136,382.91,2.82
Masculino,633,1867.68,2.95
Outro / NÃ£o Divulgado,11,35.74,3.25


In [188]:
# Listando por idades:
compras_idade = df_compras.groupby(["Intervalo de Idade"])["Valor"]
compras_idade_soma = compras_idade.sum()
compras_idade_num = compras_idade.count()
compras_idade_media = compras_idade.mean()
compras_idade_media = ["{0:.2f}".format(x) for x in compras_idade_media]
df_compras_idade = pd.DataFrame({"Compras":compras_idade_num, "Total ($)":compras_idade_soma, "Preço Médio ($)":compras_idade_media})
df_compras_idade["Preço Médio ($)"] = [x if x != "nan" else 0 for x in df_compras_idade["Preço Médio ($)"]]
df_compras_idade

Unnamed: 0_level_0,Compras,Total ($),Preço Médio ($)
Intervalo de Idade,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Menos de 10,32,96.62,3.02
10 a 19,262,752.89,2.87
20 a 29,381,1122.43,2.95
30 a 39,102,305.75,3.0
40 a 49,3,8.64,2.88
50 a 59,0,0.0,0.0
60 a 69,0,0.0,0.0
70 ou mais,0,0.0,0.0


## Consumidores Mais Populares (Top 5)

In [215]:
# Vamos analisar os compradores mais populares!
compras_login = df_compras.groupby("Login")["Valor"]
login_total = compras_login.sum()
login_cont = compras_login.count()
login_media = compras_login.mean()
login_media = ["{0:.2f}".format(x) for x in login_media]
df_compras_login = pd.DataFrame({"Compras":login_cont,"Total ($)":login_total,"Preço Médio ($)":login_media})
df_compras_login.sort_values("Total ($)", ascending=False, inplace=True)
df_compras_login[:5]

Unnamed: 0_level_0,Compras,Total ($),Preço Médio ($)
Login,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Undirrala66,5,17.06,3.41
Saedue76,4,13.56,3.39
Mindimnya67,4,12.74,3.18
Haellysu29,3,12.73,4.24
Eoda93,3,11.58,3.86


## Itens Mais Populares

In [None]:
# A fazer

## Itens Mais Lucrativos

In [None]:
# A fazer

## Fim