# <font color='blue'>Data Science Academy - Python Fundamentos - Capítulo 7</font>

## Download: http://github.com/dsacademybr

## Missão: Analisar o Comportamento de Compra de Consumidores.

## Nível de Dificuldade: Alto

Você recebeu a tarefa de analisar os dados de compras de um web site! Os dados estão no formato JSON e disponíveis junto com este notebook.

No site, cada usuário efetua login usando sua conta pessoal e pode adquirir produtos à medida que navega pela lista de produtos oferecidos. Cada produto possui um valor de venda. Dados de idade e sexo de cada usuário foram coletados e estão fornecidos no arquivo JSON.

Seu trabalho é entregar uma análise de comportamento de compra dos consumidores. Esse é um tipo de atividade comum realizado por Cientistas de Dados e o resultado deste trabalho pode ser usado, por exemplo, para alimentar um modelo de Machine Learning e fazer previsões sobre comportamentos futuros.

Mas nesta missão você vai analisar o comportamento de compra dos consumidores usando o pacote Pandas da linguagem Python e seu relatório final deve incluir cada um dos seguintes itens:

**Contagem de Consumidores**

* Número total de consumidores


**Análise Geral de Compras**

* Número de itens exclusivos
* Preço médio de compra
* Número total de compras
* Rendimento total


**Informações Demográficas Por Gênero**

* Porcentagem e contagem de compradores masculinos
* Porcentagem e contagem de compradores do sexo feminino
* Porcentagem e contagem de outros / não divulgados


**Análise de Compras Por Gênero**

* Número de compras
* Preço médio de compra
* Valor Total de Compra
* Compras for faixa etária


**Identifique os 5 principais compradores pelo valor total de compra e, em seguida, liste (em uma tabela):**

* Login
* Número de compras
* Preço médio de compra
* Valor Total de Compra
* Itens mais populares


**Identifique os 5 itens mais populares por contagem de compras e, em seguida, liste (em uma tabela):**

* ID do item
* Nome do item
* Número de compras
* Preço do item
* Valor Total de Compra
* Itens mais lucrativos


**Identifique os 5 itens mais lucrativos pelo valor total de compra e, em seguida, liste (em uma tabela):**

* ID do item
* Nome do item
* Número de compras
* Preço do item
* Valor Total de Compra


**Como considerações finais:**

* Seu script deve funcionar para o conjunto de dados fornecido.
* Você deve usar a Biblioteca Pandas e o Jupyter Notebook.


In [1]:
# Imports
import pandas as pd
import numpy as np

In [2]:
# Carrega o arquivo
load_file = "dados_compras.json"
purchase_file = pd.read_json(load_file, orient = "records")
purchase_file.head()

Unnamed: 0,Idade,Item ID,Login,Nome do Item,Sexo,Valor
0,38,165,Aelalis34,Bone Crushing Silver Skewer,Masculino,3.37
1,21,119,Eolo46,"Stormbringer, Dark Blade of Ending Misery",Masculino,2.32
2,34,174,Assastnya25,Primitive Blade,Masculino,2.46
3,21,92,Pheusrical25,Final Critic,Masculino,1.36
4,23,63,Aela59,Stormfury Mace,Masculino,1.27


## Informações Sobre os Consumidores

In [62]:
# Busca todas as linhas do JSON somente com as colunas Idade, Login e Senha
lista_de_compras = purchase_file.loc[:, ["Idade", "Login", "Sexo"]]

# Apresenta somente as 10 primeiras linhas
lista_de_compras.head(10)


Unnamed: 0,Idade,Login,Sexo
0,38,Aelalis34,Masculino
1,21,Eolo46,Masculino
2,34,Assastnya25,Masculino
3,21,Pheusrical25,Masculino
4,23,Aela59,Masculino
5,20,Tanimnya91,Masculino
6,20,Undjaskla97,Masculino
7,29,Iathenudil29,Feminino
8,25,Sondenasta63,Masculino
9,31,Hilaerin92,Masculino


In [64]:
# Limpeza dos dados e remoção de duplicatas
lista_de_compras = lista_de_compras.drop_duplicates()
consumidores = lista_de_compras.count()[0]
consumidores

573

In [65]:
# Converter saída para DF para uso posterior em análise
pd.DataFrame({"Total de Compradores" : [consumidores]})

Unnamed: 0,Total de Compradores
0,573


## Análise Geral de Compras

In [77]:
# Cálculos
preco_medio_compra = purchase_file.Valor.mean()
rendimento_total = purchase_file.Valor.sum()
num_total_compras = purchase_file.Valor.count()
num_itens_exclusivos = purchase_file['Item ID'].nunique()

# Teste de Saída
print('Número de itens exclusivos: %d' %num_itens_exclusivos)
print('Preço médio de compra: %d' %preco_medio_compra)
print('Número total de compras: %d' %num_total_compras)
print('Rendimento total: %d' %rendimento_total)

# Dataframe para os resultados
sumario_compras = pd.DataFrame({"Número de Itens Únicos" : num_itens_exclusivos,
                                     "Número de Compras" : num_total_compras, 
                                     "Total de Vendas" : rendimento_total, 
                                     "Preço Médio" : [preco_medio_compra]})

# Data Munging
sumario_compras = sumario_compras.round(2)
sumario_compras["Preço Médio"] = sumario_compras["Preço Médio"].map("R$ {:,.2f}".format)
sumario_compras["Total de Vendas"] = sumario_compras["Total de Vendas"].map("R$ {:,.2f}".format)
sumario_compras = sumario_compras.loc[:, ["Número de Itens Únicos", "Preço Médio", "Número de Compras", "Total de Vendas"]]

sumario_compras

Número de itens exclusivos: 183
Preço médio de compra: 2
Número total de compras: 780
Rendimento total: 2286


Unnamed: 0,Número de Itens Únicos,Preço Médio,Número de Compras,Total de Vendas
0,183,R$ 2.93,780,"R$ 2,286.33"


## Informações Demográficas Por Gênero

In [72]:
# Cálculos
contador_sexo = lista_de_compras["Sexo"].value_counts()
percent_sexo = (contador_sexo / consumidores) * 100

# Dataframe para os resultados
analise_sexo = pd.DataFrame({"Sexo" : contador_sexo, 
                                    "%" : percent_sexo})

# Data Munging
analise_sexo = analise_sexo.round(2)
analise_sexo["%"] = analise_sexo["%"].map("{:,.1f}%".format)

In [73]:
# Teste de Saída
contador_sexo

Masculino                 465
Feminino                  100
Outro / NÃ£o Divulgado      8
Name: Sexo, dtype: int64

In [74]:
# Teste de Saída
percent_sexo

Masculino                 81.151832
Feminino                  17.452007
Outro / NÃ£o Divulgado     1.396161
Name: Sexo, dtype: float64

In [75]:
# Análise
analise_sexo

Unnamed: 0,Sexo,%
Masculino,465,81.2%
Feminino,100,17.4%
Outro / NÃ£o Divulgado,8,1.4%


## Análise de Compras Por Gênero

In [85]:
# Agrupamentos
preco_total_por_sexo = purchase_file.groupby(["Sexo"]).sum()["Valor"].rename("Total de Vendas")
preco_medio_por_sexo = purchase_file.groupby(["Sexo"]).mean()["Valor"].rename("Preço Médio")
total_compras_por_sexo = purchase_file.groupby(["Sexo"]).count()["Valor"].rename("Número de Compras")
total = preco_total_por_sexo / analise_sexo["Sexo"]

# Armazenando o resultado em um Dataframe
analise_compras_por_sexo = pd.DataFrame({"Número de Compras" : total_compras_por_sexo, 
                                           "Valor Médio Por Item" : preco_medio_por_sexo, 
                                           "Total de Vendas" : total_compras_por_sexo, 
                                           "Total" : total})

# Data Munging
analise_compras_por_sexo = analise_compras_por_sexo.round(2)
analise_compras_por_sexo["Valor Médio Por Item"] = analise_compras_por_sexo["Valor Médio Por Item"].map("R$ {:,.2f}".format)
analise_compras_por_sexo["Total de Vendas"] = analise_compras_por_sexo["Total de Vendas"].map("R$ {:,.2f}".format)
analise_compras_por_sexo["Total"] = analise_compras_por_sexo["Total"].map("R$ {:,.2f}".format)

In [79]:
# Teste de Saída
preco_total_por_sexo

Sexo
Feminino                   382.91
Masculino                 1867.68
Outro / NÃ£o Divulgado      35.74
Name: Total de Vendas, dtype: float64

In [80]:
# Teste de Saída
preco_medio_por_sexo

Sexo
Feminino                  2.815515
Masculino                 2.950521
Outro / NÃ£o Divulgado    3.249091
Name: Preço Médio, dtype: float64

In [81]:
# Teste de Saída
total_compras_por_sexo

Sexo
Feminino                  136
Masculino                 633
Outro / NÃ£o Divulgado     11
Name: Número de Compras, dtype: int64

In [87]:
# Teste de Saída
total

Feminino                  3.829100
Masculino                 4.016516
Outro / NÃ£o Divulgado    4.467500
dtype: float64

In [86]:
# Análise
analise_compras_por_sexo

Unnamed: 0_level_0,Número de Compras,Valor Médio Por Item,Total de Vendas,Total
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Feminino,136,R$ 2.82,R$ 136.00,R$ 3.83
Masculino,633,R$ 2.95,R$ 633.00,R$ 4.02
Outro / NÃ£o Divulgado,11,R$ 3.25,R$ 11.00,R$ 4.47


## Análise Demográfica

In [89]:
lista_de_compras

Unnamed: 0,Idade,Login,Sexo
0,38,Aelalis34,Masculino
1,21,Eolo46,Masculino
2,34,Assastnya25,Masculino
3,21,Pheusrical25,Masculino
4,23,Aela59,Masculino
5,20,Tanimnya91,Masculino
6,20,Undjaskla97,Masculino
7,29,Iathenudil29,Feminino
8,25,Sondenasta63,Masculino
9,31,Hilaerin92,Masculino


In [None]:
# Cálculos básicos
age_bins = [0, 9.99, 14.99, 19.99, 24.99, 29.99, 34.99, 39.99, 999]
age_bracket = ["Menos de 10", "10 a 14", "15 a 19", "20 a 24", "25 a 29", "30 a 34", "35 a 39", "Mais de 40"]

purchase_file["Range de Idades"] = pd.cut(purchase_file["Idade"], age_bins, labels=age_bracket)

# Cálculos básicos
age_demographics_count = purchase_file["Range de Idades"].value_counts()
age_demographics_average_item_price = purchase_file.groupby(["Range de Idades"]).mean()["Valor"]
age_demographics_total_item_price = purchase_file.groupby(["Range de Idades"]).sum()["Valor"]
age_demographics_percent = (age_demographics_count / player_count) * 100

# Dataframe para os resultados
age_demographics = pd.DataFrame({"Contagem": age_demographics_count, "%": age_demographics_percent, "Valor Unitario": age_demographics_average_item_price, "Valor Total de Compra": age_demographics_total_item_price})

# Data Munging
age_demographics ["Valor Unitario"] = age_demographics["Valor Unitario"].map("${:,.2f}".format)
age_demographics ["Valor Total de Compra"] = age_demographics["Valor Total de Compra"].map("${:,.2f}".format)
age_demographics ["%"] = age_demographics["%"].map("{:,.2f}%".format)

## Consumidores Mais Populares (Top 5)

In [90]:
# Cálculos básicos
total_por_usuario = purchase_file.groupby(["Login"]).sum()["Valor"].rename("Valor Total de Compra")
media_por_usuario = purchase_file.groupby(["Login"]).mean()["Valor"].rename("Valor Médio de Compra")
numero_compras_por_usuario = purchase_file.groupby(["Login"]).count()["Valor"].rename("Número de Compras")

# Dataframe para os resultados
analise_usuario = pd.DataFrame({"Valor Total de Compra": total_por_usuario, 
                                "Valor Médio de Compra": media_por_usuario, 
                                "Número de Compras": numero_compras_por_usuario})

# Data Munging
analise_usuario["Valor Total de Compra"] = analise_usuario["Valor Total de Compra"].map("R$ {:,.2f}".format)
analise_usuario["Valor Médio de Compra"] = analise_usuario["Valor Médio de Compra"].map("R$ {:,.2f}".format)
analise_usuario.sort_values("Valor Total de Compra", ascending=False).head(5)

Unnamed: 0_level_0,Valor Total de Compra,Valor Médio de Compra,Número de Compras
Login,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Qarwen67,R$ 9.97,R$ 2.49,4
Sondim43,R$ 9.38,R$ 3.13,3
Tillyrin30,R$ 9.19,R$ 3.06,3
Lisistaya47,R$ 9.19,R$ 3.06,3
Tyisriphos58,R$ 9.18,R$ 4.59,2


In [91]:
# Análise 
analise_usuario

Unnamed: 0_level_0,Valor Total de Compra,Valor Médio de Compra,Número de Compras
Login,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Adairialis76,R$ 2.46,R$ 2.46,1
Aduephos78,R$ 6.70,R$ 2.23,3
Aeduera68,R$ 5.80,R$ 1.93,3
Aela49,R$ 2.46,R$ 2.46,1
Aela59,R$ 1.27,R$ 1.27,1
Aelalis34,R$ 5.06,R$ 2.53,2
Aelin32,R$ 3.14,R$ 3.14,1
Aeliriam77,R$ 6.72,R$ 3.36,2
Aeliriarin93,R$ 2.04,R$ 2.04,1
Aeliru63,R$ 8.98,R$ 4.49,2


## Itens Mais Populares

In [92]:
# Cálculos básicos
total_por_usuario = purchase_file.groupby(["Nome do Item"]).sum()["Valor"].rename("Valor Total de Compra")
media_por_usuario = purchase_file.groupby(["Nome do Item"]).mean()["Valor"].rename("Valor Médio de Compra")
numero_compras_por_usuario = purchase_file.groupby(["Nome do Item"]).count()["Valor"].rename("Número de Compras")

# Dataframe para os resultados
analise_usuario = pd.DataFrame({"Valor Total de Compra": total_por_usuario, 
                          "Valor Médio de Compra": media_por_usuario, 
                          "Número de Compras": numero_compras_por_usuario})

# Data Munging
analise_usuario["Valor Total de Compra"] = analise_usuario["Valor Total de Compra"].map("R$ {:,.2f}".format)
analise_usuario["Valor Médio de Compra"] = analise_usuario["Valor Médio de Compra"].map("R$ {:,.2f}".format)
analise_usuario.sort_values("Número de Compras", ascending=False).head(5)

Unnamed: 0_level_0,Valor Total de Compra,Valor Médio de Compra,Número de Compras
Nome do Item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Final Critic,R$ 38.60,R$ 2.76,14
Arcane Gem,R$ 24.53,R$ 2.23,11
"Betrayal, Whisper of Grieving Widows",R$ 25.85,R$ 2.35,11
Stormcaller,R$ 34.65,R$ 3.46,10
Woeful Adamantite Claymore,R$ 11.16,R$ 1.24,9


## Itens Mais Lucrativos

In [93]:
# Cálculos básicos
total_por_usuario = purchase_file.groupby(["Nome do Item"]).sum()["Valor"].rename("Valor Total de Compra")
media_por_usuario = purchase_file.groupby(["Nome do Item"]).mean()["Valor"].rename("Valor Médio de Compra")
numero_compras_por_usuario = purchase_file.groupby(["Nome do Item"]).count()["Valor"].rename("Número de Compras")

# Dataframe para os resultados
analise_usuario = pd.DataFrame({"Valor Total de Compra": total_por_usuario, 
                                "Valor Médio de Compra": media_por_usuario, 
                                "Número de Compras": numero_compras_por_usuario})

# Data Munging
analise_usuario["Valor Total de Compra"] = analise_usuario["Valor Total de Compra"].map("R$ {:,.2f}".format)
analise_usuario["Valor Médio de Compra"] = analise_usuario["Valor Médio de Compra"].map("R$ {:,.2f}".format)
analise_usuario.sort_values("Valor Total de Compra", ascending=False).head(5)

Unnamed: 0_level_0,Valor Total de Compra,Valor Médio de Compra,Número de Compras
Nome do Item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Shadowsteel,R$ 9.90,R$ 1.98,5
Souleater,R$ 9.81,R$ 3.27,3
"Shadow Strike, Glory of Ending Hope",R$ 9.65,R$ 1.93,5
"Heartseeker, Reaver of Souls",R$ 9.63,R$ 3.21,3
Agatha,R$ 9.55,R$ 1.91,5


## Fim

### Obrigado - Data Science Academy - <a href="http://facebook.com/dsacademybr">facebook.com/dsacademybr</a>