In [84]:
# Versão da Linguagem Python
from platform import python_version
print('Versão da Linguagem Python Usada Neste Jupyter Notebook:', python_version())

Versão da Linguagem Python Usada Neste Jupyter Notebook: 3.9.12


## Missão: Analisar o Comportamento de Compra de Consumidores.

## Nível de Dificuldade: Alto

Você recebeu a tarefa de analisar os dados de compras de um web site! Os dados estão no formato JSON e disponíveis junto com este notebook.

No site, cada usuário efetua login usando sua conta pessoal e pode adquirir produtos à medida que navega pela lista de produtos oferecidos. Cada produto possui um valor de venda. Dados de idade e sexo de cada usuário foram coletados e estão fornecidos no arquivo JSON.

Seu trabalho é entregar uma análise de comportamento de compra dos consumidores. Esse é um tipo de atividade comum realizado por Cientistas de Dados e o resultado deste trabalho pode ser usado, por exemplo, para alimentar um modelo de Machine Learning e fazer previsões sobre comportamentos futuros.

Mas nesta missão você vai analisar o comportamento de compra dos consumidores usando o pacote Pandas da linguagem Python e seu relatório final deve incluir cada um dos seguintes itens:

** Contagem de Consumidores **

* Número total de consumidores


** Análise Geral de Compras **

* Número de itens exclusivos
* Preço médio de compra
* Número total de compras
* Rendimento total


** Informações Demográficas Por Gênero **

* Porcentagem e contagem de compradores masculinos
* Porcentagem e contagem de compradores do sexo feminino
* Porcentagem e contagem de outros / não divulgados


** Análise de Compras Por Gênero **

* Número de compras
* Preço médio de compra
* Valor Total de Compra
* Compras for faixa etária


** Identifique os 5 principais compradores pelo valor total de compra e, em seguida, liste (em uma tabela): **

* Login
* Número de compras
* Preço médio de compra
* Valor Total de Compra
* Itens mais populares


** Identifique os 5 itens mais populares por contagem de compras e, em seguida, liste (em uma tabela): **

* ID do item
* Nome do item
* Número de compras
* Preço do item
* Valor Total de Compra
* Itens mais lucrativos


** Identifique os 5 itens mais lucrativos pelo valor total de compra e, em seguida, liste (em uma tabela): **

* ID do item
* Nome do item
* Número de compras
* Preço do item
* Valor Total de Compra


** Como considerações finais: **

* Seu script deve funcionar para o conjunto de dados fornecido.
* Você deve usar a Biblioteca Pandas e o Jupyter Notebook.


In [85]:
# Imports
import pandas as pd
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

In [86]:
# Carrega o arquivo
load_file = "dados_compras.json"
purchase_file = pd.read_json(load_file, orient = "records")
purchase_file.head()

Unnamed: 0,Login,Idade,Sexo,Item ID,Nome do Item,Valor
0,Aelalis34,38,Masculino,165,Bone Crushing Silver Skewer,3.37
1,Eolo46,21,Masculino,119,"Stormbringer, Dark Blade of Ending Misery",2.32
2,Assastnya25,34,Masculino,174,Primitive Blade,2.46
3,Pheusrical25,21,Masculino,92,Final Critic,1.36
4,Aela59,23,Masculino,63,Stormfury Mace,1.27


## Informações Sobre os Consumidores

In [87]:
# Implemente aqui sua solução

## Número total de consumidores
totalConsumidores = purchase_file['Login'].drop_duplicates().count()

pd.DataFrame({"Total de consumidores": [totalConsumidores]})


Unnamed: 0,Total de consumidores
0,573


## Análise Geral de Compras

In [88]:
# Implemente aqui sua solução
# ** Análise Geral de Compras **

# * Número de itens exclusivos
totalItensExclusivos = len(purchase_file['Item ID'].unique())
# * Preço médio de compra
precoMedioCompras = purchase_file['Valor'].mean()
# * Número total de compras
totalDeCompras = purchase_file['Valor'].count()
# * Rendimento total
rendimentoTotal = purchase_file['Valor'].sum()


tabela = pd.DataFrame({"Número de Itens Únicos" : totalItensExclusivos,
                                     "Número de Compras" : totalDeCompras, 
                                     "Total de Vendas" : rendimentoTotal,
                                     "Preço médio de compra": [precoMedioCompras]
                                    })

tabela = tabela.round(2)

tabela



Unnamed: 0,Número de Itens Únicos,Número de Compras,Total de Vendas,Preço médio de compra
0,183,780,2286.33,2.93


## Análise Demográfica

In [89]:
formatar = lambda x: '{}%'.format(round(x,2))

# Implemente aqui sua solução

consumidores = purchase_file.loc[:,['Login','Sexo','Idade']].drop_duplicates()

# Conta o total de todos os itens da coluna sexo
totalGender = consumidores['Sexo'].value_counts()

percentGender = (totalGender * 100) / totalConsumidores


tabelaDemoG = pd.DataFrame({ "Sexo":totalGender, "%":percentGender })

tabelaDemoG['%'] = tabelaDemoG['%'].map(formatar)


tabelaDemoG


Unnamed: 0,Sexo,%
Masculino,465,81.15%
Feminino,100,17.45%
Outro / Não Divulgado,8,1.4%


## Análise de Compras Por Gênero

In [97]:
# Implemente aqui sua solução
valorTotalCompras = purchase_file.groupby("Sexo").sum()["Valor"].rename("Valor Total de Vendas")
valorMediaVendas = purchase_file.groupby("Sexo").mean()["Valor"].rename("Preço médio de Vendas")
numeroTotalCompras = purchase_file.groupby("Sexo").count()["Item ID"].rename("Total de Compras")
valorTotalComprasPorSexo = (valorTotalCompras / tabelaDemoG['Sexo']).rename("Total de Compras Genero")

tabela = pd.DataFrame({
valorTotalCompras.name : valorTotalCompras,
valorMediaVendas.name : valorMediaVendas,
numeroTotalCompras.name : numeroTotalCompras,
valorTotalComprasPorSexo.name : valorTotalComprasPorSexo 
})

tabela = tabela.round(2)

tabela








Unnamed: 0,Valor Total de Vendas,Preço médio de Vendas,Total de Compras,Total de Compras Genero
Feminino,382.91,2.82,136,3.83
Masculino,1867.68,2.95,633,4.02
Outro / Não Divulgado,35.74,3.25,11,4.47


## Consumidores Mais Populares (Top 5)

In [91]:
numCompraConsumidor = purchase_file.groupby('Login').count()['Item ID'].rename('Número de Compras')
totalCompraConsumidor = purchase_file.groupby('Login').sum()['Valor'].rename('Total de Compras')
mediaCompraConsumidor = purchase_file.groupby('Login').mean()['Valor'].rename('Média de Compras')

tabela = pd.DataFrame({
    numCompraConsumidor.name: numCompraConsumidor,
    totalCompraConsumidor.name: totalCompraConsumidor,
    mediaCompraConsumidor.name: mediaCompraConsumidor
})

tabela = tabela.round(2)
tabela[totalCompraConsumidor.name] = tabela[totalCompraConsumidor.name].map("${:,.2f}".format)

tabela.sort_values(numCompraConsumidor.name,ascending= False).head(5)


Unnamed: 0_level_0,Número de Compras,Total de Compras,Média de Compras
Login,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Undirrala66,5,$17.06,3.41
Mindimnya67,4,$12.74,3.18
Qarwen67,4,$9.97,2.49
Saedue76,4,$13.56,3.39
Sondastan54,4,$10.24,2.56


## Itens Mais Populares

In [92]:
# Implemente aqui sua solução
itensMaisFreq = purchase_file.groupby("Nome do Item").count()["Valor"].rename("Quantidade de Compras")
mediaValorItensMaisFreq = purchase_file.groupby("Nome do Item").mean()["Valor"].rename("Valor Médio de Compra")
valorTotalItensMaisFreq = purchase_file.groupby("Nome do Item").sum()["Valor"].rename("Valor Total do Compra")

tabela = pd.DataFrame({
    itensMaisFreq.name: itensMaisFreq,
    mediaValorItensMaisFreq.name: mediaValorItensMaisFreq,
    valorTotalItensMaisFreq.name: valorTotalItensMaisFreq
})

tabela = tabela.round(2)
tabela[valorTotalItensMaisFreq.name] = tabela[valorTotalItensMaisFreq.name].map("${:,.2f}".format)
tabela[mediaValorItensMaisFreq.name] = tabela[mediaValorItensMaisFreq.name].map("${:,.2f}".format)
tabela.sort_values(itensMaisFreq.name, ascending= False).head(5)





Unnamed: 0_level_0,Quantidade de Compras,Valor Médio de Compra,Valor Total do Compra
Nome do Item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Final Critic,14,$2.76,$38.60
Arcane Gem,11,$2.23,$24.53
"Betrayal, Whisper of Grieving Widows",11,$2.35,$25.85
Stormcaller,10,$3.47,$34.65
Woeful Adamantite Claymore,9,$1.24,$11.16


## Itens Mais Lucrativos

In [93]:
# Implemente aqui sua solução
itensMaisFreq = purchase_file.groupby("Nome do Item").count()["Valor"].rename("Quantidade de Compras")
mediaValorItensMaisFreq = purchase_file.groupby("Nome do Item").mean()["Valor"].rename("Valor Médio de Compra")
valorTotalItensMaisFreq = purchase_file.groupby("Nome do Item").sum()["Valor"].rename("Valor Total da Compra")

tabela = pd.DataFrame({
    itensMaisFreq.name: itensMaisFreq,
    mediaValorItensMaisFreq.name: mediaValorItensMaisFreq,
    valorTotalItensMaisFreq.name: valorTotalItensMaisFreq
})

tabela = tabela.round(2)

tabela[mediaValorItensMaisFreq.name] = tabela[mediaValorItensMaisFreq.name].map("${:,.2f}".format)
tabela[valorTotalItensMaisFreq.name] = tabela[valorTotalItensMaisFreq.name].map("${:,.2f}".format)



display(tabela.sort_values(itensMaisFreq.name, ascending=False).head(5)[ \
    [valorTotalItensMaisFreq.name,mediaValorItensMaisFreq.name,itensMaisFreq.name]])




Unnamed: 0_level_0,Valor Total da Compra,Valor Médio de Compra,Quantidade de Compras
Nome do Item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Final Critic,$38.60,$2.76,14
Arcane Gem,$24.53,$2.23,11
"Betrayal, Whisper of Grieving Widows",$25.85,$2.35,11
Stormcaller,$34.65,$3.47,10
Woeful Adamantite Claymore,$11.16,$1.24,9
