# <font color='blue'>Data Science Academy - Python Fundamentos - Capítulo 7</font>

## Download: http://github.com/dsacademybr

In [1]:
# Versão da Linguagem Python
from platform import python_version
print('Versão da Linguagem Python Usada Neste Jupyter Notebook:', python_version())

Versão da Linguagem Python Usada Neste Jupyter Notebook: 3.7.6


## Missão: Analisar o Comportamento de Compra de Consumidores.

## Nível de Dificuldade: Alto

Você recebeu a tarefa de analisar os dados de compras de um web site! Os dados estão no formato JSON e disponíveis junto com este notebook.

No site, cada usuário efetua login usando sua conta pessoal e pode adquirir produtos à medida que navega pela lista de produtos oferecidos. Cada produto possui um valor de venda. Dados de idade e sexo de cada usuário foram coletados e estão fornecidos no arquivo JSON.

Seu trabalho é entregar uma análise de comportamento de compra dos consumidores. Esse é um tipo de atividade comum realizado por Cientistas de Dados e o resultado deste trabalho pode ser usado, por exemplo, para alimentar um modelo de Machine Learning e fazer previsões sobre comportamentos futuros.

Mas nesta missão você vai analisar o comportamento de compra dos consumidores usando o pacote Pandas da linguagem Python e seu relatório final deve incluir cada um dos seguintes itens:

** Contagem de Consumidores **

* Número total de consumidores


** Análise Geral de Compras **

* Número de itens exclusivos
* Preço médio de compra
* Número total de compras
* Rendimento total


** Informações Demográficas Por Gênero **

* Porcentagem e contagem de compradores masculinos
* Porcentagem e contagem de compradores do sexo feminino
* Porcentagem e contagem de outros / não divulgados


** Análise de Compras Por Gênero **

* Número de compras
* Preço médio de compra
* Valor Total de Compra
* Compras for faixa etária


** Identifique os 5 principais compradores pelo valor total de compra e, em seguida, liste (em uma tabela): **

* Login
* Número de compras
* Preço médio de compra
* Valor Total de Compra
* Itens mais populares


** Identifique os 5 itens mais populares por contagem de compras e, em seguida, liste (em uma tabela): **

* ID do item
* Nome do item
* Número de compras
* Preço do item
* Valor Total de Compra
* Itens mais lucrativos


** Identifique os 5 itens mais lucrativos pelo valor total de compra e, em seguida, liste (em uma tabela): **

* ID do item
* Nome do item
* Número de compras
* Preço do item
* Valor Total de Compra


** Como considerações finais: **

* Seu script deve funcionar para o conjunto de dados fornecido.
* Você deve usar a Biblioteca Pandas e o Jupyter Notebook.


In [2]:
# Imports
import pandas as pd
import numpy as np

In [3]:
# Carrega o arquivo
load_file = "dados_compras.json"
purchase_file = pd.read_json(load_file, orient = "records")
purchase_file.head(15)

Unnamed: 0,Login,Idade,Sexo,Item ID,Nome do Item,Valor
0,Aelalis34,38,Masculino,165,Bone Crushing Silver Skewer,3.37
1,Eolo46,21,Masculino,119,"Stormbringer, Dark Blade of Ending Misery",2.32
2,Assastnya25,34,Masculino,174,Primitive Blade,2.46
3,Pheusrical25,21,Masculino,92,Final Critic,1.36
4,Aela59,23,Masculino,63,Stormfury Mace,1.27
5,Tanimnya91,20,Masculino,10,Sleepwalker,1.73
6,Undjaskla97,20,Masculino,153,Mercenary Sabre,4.57
7,Iathenudil29,29,Feminino,169,"Interrogator, Blood Blade of the Queen",3.32
8,Sondenasta63,25,Masculino,118,"Ghost Reaver, Longsword of Magic",2.77
9,Hilaerin92,31,Masculino,99,"Expiration, Warscythe Of Lost Worlds",4.53


## Informações Sobre os Consumidores

In [4]:
# Exibindo informações pertinentes acerca dos compradores 
consumidores = purchase_file.loc[:, ["Login", "Idade", "Sexo"]]
consumidores.head(15)

Unnamed: 0,Login,Idade,Sexo
0,Aelalis34,38,Masculino
1,Eolo46,21,Masculino
2,Assastnya25,34,Masculino
3,Pheusrical25,21,Masculino
4,Aela59,23,Masculino
5,Tanimnya91,20,Masculino
6,Undjaskla97,20,Masculino
7,Iathenudil29,29,Feminino
8,Sondenasta63,25,Masculino
9,Hilaerin92,31,Masculino


In [5]:
# Calculo do número total de consumidores 
#Filtra e limpa os dados
consumidores = purchase_file.loc[:,["Login", "Sexo", "Idade"]]
consumidores = consumidores.drop_duplicates()
contagem = consumidores.count()[0]
contagem

573

In [6]:
# Salvando a informação em um novo df
pd.DataFrame({"Total de Compradores" : [contagem]})

Unnamed: 0,Total de Compradores
0,573


## Análise Geral de Compras

* Número de itens exclusivos
* Preço médio de compra
* Número total de compras
* Rendimento total

In [7]:
# Calculos
# Nº de Itens 
itens = len(pd.unique(purchase_file["Item ID"]))
# Preço médio 
preco = purchase_file["Valor"].mean()
# Nº de Compras
compras = purchase_file["Valor"].count()
# Rendimento
rend = purchase_file["Valor"].sum()

In [8]:
# Armazenando infos em um df 
analise = pd.DataFrame({"Número de Itens Vendidos" : [itens],
             "Preço Médio dos Itens" : [preco],
              "Número Total de Compras" : [compras],
              "Rendimento Total" : [rend]
             })

# Melhorando a apresentação dos dados
analise = analise.round(2)
analise["Preço Médio dos Itens"] = analise["Preço Médio dos Itens"].map("${:,.2f}".format)
analise["Rendimento Total"] = analise["Rendimento Total"].map("${:,.2f}".format)

analise

Unnamed: 0,Número de Itens Vendidos,Preço Médio dos Itens,Número Total de Compras,Rendimento Total
0,183,$2.93,780,"$2,286.33"


## Análise Demográfica por Gênero 
* Porcentagem e contagem de compradores masculinos
* Porcentagem e contagem de compradores do sexo feminino
* Porcentagem e contagem de outros / não divulgados

In [8]:
# Cálculos de gênero 
genero_cont = consumidores["Sexo"].value_counts()
genero_perc = (genero_cont / contagem) * 100

# Armazenando em um df 
genero = pd.DataFrame({"Compradores por Sexo": genero_cont,
                       "Percentual" : genero_perc})

# Melhorando apresentação 
genero = genero.round(2)
genero["Percentual"] = genero["Percentual"].map("{:,.1f}%".format)

genero

Unnamed: 0,Compradores por Sexo,Percentual
Masculino,465,81.2%
Feminino,100,17.4%
Outro / Não Divulgado,8,1.4%


## Análise de Compras Por Gênero
* Número de compras
* Preço médio de compra
* Valor Total de Compra
* Compras por faixa etária

In [9]:
# Agrupando os dados de Gênero
rend_genero = purchase_file.groupby(["Sexo"]).sum()["Valor"].rename("Total de Vendas por Gênero")
preco_genero = purchase_file.groupby(["Sexo"]).mean()["Valor"].rename("Preço Médio por Gênero")
compras_genero = purchase_file.groupby(["Sexo"]).count()["Valor"].rename("Compras por Gênero")

# Criando o novo df
analise_genero = pd.DataFrame({"Total de Vendas por Gênero" : rend_genero,
                               "Preço Médio por Gênero" : preco_genero,
                               "Compras por Gênero" : compras_genero})
# Melhorando a apresentação 
analise_genero = analise_genero.round(2)
analise_genero["Preço Médio por Gênero"] = analise_genero["Preço Médio por Gênero"].map("${:,.2f}".format)
analise_genero["Total de Vendas por Gênero"] = analise_genero["Total de Vendas por Gênero"].map("${:,.2f}".format)

analise_genero

Unnamed: 0_level_0,Total de Vendas por Gênero,Preço Médio por Gênero,Compras por Gênero
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Feminino,$382.91,$2.82,136
Masculino,"$1,867.68",$2.95,633
Outro / Não Divulgado,$35.74,$3.25,11


In [10]:
# Compras por faixa etária 
# Definindo os ranges de idade
age_bins = [0, 9.99, 14.99, 19.99, 24.99, 29.99, 34.99, 39.99, 999]
age_bracket = ["Menos de 10", "10 a 14", "15 a 19", "20 a 24", "25 a 29", "30 a 34", "35 a 39", "Mais de 40"]

purchase_file["Range de Idades"] = pd.cut(purchase_file["Idade"], age_bins, labels=age_bracket)

# Cálculos básicos
idade_conta = purchase_file["Range de Idades"].value_counts()
idade_precomedio = purchase_file.groupby(["Range de Idades"]).mean()["Valor"]
idade_total = purchase_file.groupby(["Range de Idades"]).sum()["Valor"] 

# Dataframe para os resultados
idade = pd.DataFrame({"Contagem": idade_conta, 
                      "Valor Unitario": idade_precomedio, 
                      "Valor Total de Compra": idade_total})

# Melhorando a apresentação
idade["Valor Unitario"] = idade["Valor Unitario"].map("${:,.2f}".format)
idade["Valor Total de Compra"] = idade["Valor Total de Compra"].map("${:,.2f}".format)

idade

Unnamed: 0,Contagem,Valor Unitario,Valor Total de Compra
Menos de 10,28,$2.98,$83.46
10 a 14,35,$2.77,$96.95
15 a 19,133,$2.91,$386.42
20 a 24,336,$2.91,$978.77
25 a 29,125,$2.96,$370.33
30 a 34,64,$3.08,$197.25
35 a 39,42,$2.84,$119.40
Mais de 40,17,$3.16,$53.75


## Consumidores Mais Populares (Top 5)
* Login
* Número de compras
* Preço médio de compra
* Valor Total de Compra

In [18]:
# Cálculos básicos 
# Usar value_counts para contar cada vez que aparece os mais populares compradores 
populares = purchase_file["Login"].value_counts()
populares.head(5)

# Somar as compras e o valor e a média de gasto 
top_compra = purchase_file.groupby(["Login"]).count()["Valor"].rename("Nº de Compras")
top_medio = purchase_file.groupby(["Login"]).mean()["Valor"].rename("Valor Médio")
top_total = purchase_file.groupby(["Login"]).sum()["Valor"].rename("Total Gasto")

# Criar um novo df 
top = pd.DataFrame({"Nº de Compras" : top_compra,
                    "Valor Médio" : top_medio,
                    "Total Gasto" : top_total})

# Arrumar os dados por
top["Total Gasto"] = top["Total Gasto"].map("${:,.2f}".format)
top["Valor Médio"] = top["Valor Médio"].map("${:,.2f}".format)
# Fizeram mais compras 
top5 = top.sort_values("Nº de Compras", ascending = False).head(5)

In [19]:
top5

Unnamed: 0_level_0,Nº de Compras,Valor Médio,Total Gasto
Login,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Undirrala66,5,$3.41,$17.06
Mindimnya67,4,$3.18,$12.74
Qarwen67,4,$2.49,$9.97
Saedue76,4,$3.39,$13.56
Sondastan54,4,$2.56,$10.24


## Itens Mais Populares
* ID do item
* Nome do item
* Número de compras
* Preço do item
* Valor Total de Compra

In [27]:
# Cálculos Básicos 
# Somar as compras e o valor e a média de gasto 
item_top = purchase_file.groupby(["Item ID"]).count()["Valor"].rename("Nº de Vendas")
item_top_valor = purchase_file.loc[:,"Valor"].rename("Valor do Item")
item_top_total = purchase_file.groupby(["Item ID"]).sum()["Valor"].rename("Total de Venda")
item_top_nome = purchase_file.loc[:,"Nome do Item"]

# Criar um novo df 
topitem = pd.DataFrame({"Item" : item_top_nome,
                    "Nº de Vendas" : item_top,
                    "Valor do Item" : item_top_valor,
                    "Total de Venda" : item_top_total})

# Arrumar os dados por
topitem["Valor do Item"] = topitem["Valor do Item"].map("${:,.2f}".format)
topitem["Total de Venda"] = topitem["Total de Venda"].map("${:,.2f}".format)
# Fizeram mais compras 
topitem = topitem.sort_values("Nº de Vendas", ascending = False).head(5)

topitem 

Unnamed: 0,Item,Nº de Vendas,Valor do Item,Total de Venda
39,Stormfury Mace,11.0,$1.27,$25.85
84,"Thorn, Satchel of Dark Souls",11.0,$4.51,$24.53
31,"Shadow Strike, Glory of Ending Hope",9.0,$1.93,$18.63
175,Retribution Axe,9.0,$4.14,$11.16
13,"Piety, Guardian of Riddles",9.0,$3.68,$13.41


In [28]:
# Se eu mudo de ID do item para nome do item a coluna de seleção do df, os resultados mudam. 
# Onde está o erro?? 
# Cálculos Básicos 
# Somar as compras e o valor e a média de gasto 
item_top2 = purchase_file.groupby(["Nome do Item"]).count()["Valor"].rename("Nº de Vendas")
item_top_valor2 = purchase_file.loc[:,"Valor"].rename("Valor do Item")
item_top_total2 = purchase_file.groupby(["Nome do Item"]).sum()["Valor"].rename("Total de Venda")
item_top_id = purchase_file.loc[:,"Item ID"]

# Criar um novo df 
topitem2 = pd.DataFrame({"Item ID" : item_top_id,
                    "Nº de Vendas" : item_top2,
                    "Valor do Item" : item_top_valor2,
                    "Total de Venda" : item_top_total2})

# Arrumar os dados por
topitem2["Valor do Item"] = topitem2["Valor do Item"].map("${:,.2f}".format)
topitem2["Total de Venda"] = topitem2["Total de Venda"].map("${:,.2f}".format)
# Fizeram mais compras 
topitem2 = topitem2.sort_values("Nº de Vendas", ascending = False).head(5)

topitem2 
# Além de mudar, alguns não aparecem, sendo que nessas linhas nada mudou (??)

Unnamed: 0,Item ID,Nº de Vendas,Valor do Item,Total de Venda
Final Critic,,14.0,$nan,$38.60
Arcane Gem,,11.0,$nan,$24.53
"Betrayal, Whisper of Grieving Widows",,11.0,$nan,$25.85
Stormcaller,,10.0,$nan,$34.65
Woeful Adamantite Claymore,,9.0,$nan,$11.16


## Itens Mais Lucrativos
* ID do item
* Nome do item
* Número de compras
* Preço do item
* Valor Total de Compra

In [32]:
topitem_venda = topitem.sort_values("Total de Venda", ascending=False).head(5)

topitem_venda

Unnamed: 0,Item,Nº de Vendas,Valor do Item,Total de Venda
39,Stormfury Mace,11.0,$1.27,$25.85
84,"Thorn, Satchel of Dark Souls",11.0,$4.51,$24.53
31,"Shadow Strike, Glory of Ending Hope",9.0,$1.93,$18.63
13,"Piety, Guardian of Riddles",9.0,$3.68,$13.41
175,Retribution Axe,9.0,$4.14,$11.16


In [33]:
topitem_venda2 = topitem2.sort_values("Total de Venda", ascending=False).head(5)

topitem_venda2

Unnamed: 0,Item ID,Nº de Vendas,Valor do Item,Total de Venda
Final Critic,,14.0,$nan,$38.60
Stormcaller,,10.0,$nan,$34.65
"Betrayal, Whisper of Grieving Widows",,11.0,$nan,$25.85
Arcane Gem,,11.0,$nan,$24.53
Woeful Adamantite Claymore,,9.0,$nan,$11.16


## Fim

### Obrigado - Data Science Academy - <a href="http://facebook.com/dsacademybr">facebook.com/dsacademybr</a>