# <font color='blue'>Data Science Academy - Python Fundamentos - Capítulo 7</font>

## Download: http://github.com/dsacademybr

## Missão: Analisar o Comportamento de Compra de Consumidores.

## Nível de Dificuldade: Alto

Você recebeu a tarefa de analisar os dados de compras de um web site! Os dados estão no formato JSON e disponíveis junto com este notebook.

No site, cada usuário efetua login usando sua conta pessoal e pode adquirir produtos à medida que navega pela lista de produtos oferecidos. Cada produto possui um valor de venda. Dados de idade e sexo de cada usuário foram coletados e estão fornecidos no arquivo JSON.

Seu trabalho é entregar uma análise de comportamento de compra dos consumidores. Esse é um tipo de atividade comum realizado por Cientistas de Dados e o resultado deste trabalho pode ser usado, por exemplo, para alimentar um modelo de Machine Learning e fazer previsões sobre comportamentos futuros.

Mas nesta missão você vai analisar o comportamento de compra dos consumidores usando o pacote Pandas da linguagem Python e seu relatório final deve incluir cada um dos seguintes itens:

** Contagem de Consumidores **

* Número total de consumidores


** Análise Geral de Compras **

* Número de itens exclusivos
* Preço médio de compra
* Número total de compras
* Rendimento total


** Informações Demográficas Por Gênero **

* Porcentagem e contagem de compradores masculinos
* Porcentagem e contagem de compradores do sexo feminino
* Porcentagem e contagem de outros / não divulgados


** Análise de Compras Por Gênero **

* Número de compras
* Preço médio de compra
* Valor Total de Compra
* Compras for faixa etária


** Identifique os 5 principais compradores pelo valor total de compra e, em seguida, liste (em uma tabela): **

* Login
* Número de compras
* Preço médio de compra
* Valor Total de Compra
* Itens mais populares


** Identifique os 5 itens mais populares por contagem de compras e, em seguida, liste (em uma tabela): **

* ID do item
* Nome do item
* Número de compras
* Preço do item
* Valor Total de Compra
* Itens mais lucrativos


** Identifique os 5 itens mais lucrativos pelo valor total de compra e, em seguida, liste (em uma tabela): **

* ID do item
* Nome do item
* Número de compras
* Preço do item
* Valor Total de Compra


** Como considerações finais: **

* Seu script deve funcionar para o conjunto de dados fornecido.
* Você deve usar a Biblioteca Pandas e o Jupyter Notebook.


In [1]:
# Imports
import pandas as pd
import numpy as np

In [2]:
# Carrega o arquivo
load_file = "dados_compras.json"
purchase_file = pd.read_json(load_file, orient = "records")
purchase_file.head()

Unnamed: 0,Idade,Item ID,Login,Nome do Item,Sexo,Valor
0,38,165,Aelalis34,Bone Crushing Silver Skewer,Masculino,3.37
1,21,119,Eolo46,"Stormbringer, Dark Blade of Ending Misery",Masculino,2.32
2,34,174,Assastnya25,Primitive Blade,Masculino,2.46
3,21,92,Pheusrical25,Final Critic,Masculino,1.36
4,23,63,Aela59,Stormfury Mace,Masculino,1.27


## Informações Sobre os Consumidores

In [4]:
consumidores = purchase_file.loc[:, ['Sexo', 'Login', 'Idade']]
consumidores.head()

Unnamed: 0,Sexo,Login,Idade
0,Masculino,Aelalis34,38
1,Masculino,Eolo46,21
2,Masculino,Assastnya25,34
3,Masculino,Pheusrical25,21
4,Masculino,Aela59,23


In [5]:
# numero Total de Consumidores
consumidores = consumidores.drop_duplicates()
contaConsumidor = consumidores.count()[0]

pd.DataFrame({"Total Consumidores": [contaConsumidor]})

Unnamed: 0,Total Consumidores
0,573


## Análise Geral de Compras

In [6]:
# Número de itens exclusivos
# Preço médio de compra
# Número total de compras
# Rendimento total

media_valor = purchase_file['Valor'].mean()
valor_total = purchase_file['Valor'].sum()
qtd_items = purchase_file['Valor'].count()
qtd_unicos = len(purchase_file['Item ID'].unique())

# DataFrame para os resultados
frameResultado = pd.DataFrame( {"Itens Unicos": qtd_unicos,
                               "Qtd Copras": qtd_items,
                               "Total": valor_total,
                               "Preço Medio": [media_valor]} )


frameResultado = frameResultado.round(2)
frameResultado['Preço Medio'] = frameResultado['Preço Medio'].map("${:,.2f}".format)
frameResultado['Total'] = frameResultado['Total'].map("${:,.2f}".format)
frameResultado = frameResultado.loc[:, ["Itens Unicos", "Preço Medio", "Qtd Copras", "Total"  ]]

frameResultado


Unnamed: 0,Itens Unicos,Preço Medio,Qtd Copras,Total
0,183,$2.93,780,"$2,286.33"


In [7]:
purchase_file['Item ID'].unique()

array([165, 119, 174,  92,  63,  10, 153, 169, 118,  99,  57,  47,  81,
        77,  44,  96, 123,  59,  91, 177,  78,   3,  11, 183,  65, 132,
       106,  49,  45, 155,  37,  48,  90,  13, 171,  25,   7, 124,  68,
        85, 120,  17, 141,  73, 151,  32,  51, 101, 140,  31,  34,   2,
        86,  39,  28, 160, 134,  83,  38, 158, 110, 122,  54, 105,  87,
        23, 144, 128, 175,  46, 150, 152, 108, 172, 167, 181,  20, 130,
       111, 103,  30, 139, 173,  55, 115,  35,  42,   9,  84, 180, 102,
        53,  18,  74, 126,  50,  62, 125, 121, 129, 149,  12,  71,  14,
        58,  27,  52,  66, 100, 112,  24,  94, 107,   0, 182,  97,  70,
        89,   1, 170,  93, 179,  36,  75, 143, 137, 176, 148, 127, 147,
       161, 154, 157, 116,  61, 131,  41, 145,  60, 162, 135,   8,  40,
        15,  29,  72, 114, 117,  79,  88, 104,  95,  64,  98,  33,  76,
       146, 166,  56,  22,  21,  16,  67, 133,  69, 159,  82, 113, 164,
         6, 163,   5,  19, 168, 136,  80,  26, 142, 178, 156, 10

## Análise Demográfica

In [8]:
# Implemente aqui sua solução
contaGenero = consumidores['Sexo'].value_counts()
percGenero = (contaGenero / contaConsumidor) * 100

frameDemograph = pd.DataFrame({"Sexo": contaGenero,
                              "%": percGenero})

frameDemograph = frameDemograph.round(2)
frameDemograph["%"] = frameDemograph["%"].map("{:,.1f}%".format)

In [9]:
contaGenero

Masculino                 465
Feminino                  100
Outro / NÃ£o Divulgado      8
Name: Sexo, dtype: int64

In [10]:
percGenero

Masculino                 81.151832
Feminino                  17.452007
Outro / NÃ£o Divulgado     1.396161
Name: Sexo, dtype: float64

In [11]:
frameDemograph

Unnamed: 0,Sexo,%
Masculino,465,81.2%
Feminino,100,17.4%
Outro / NÃ£o Divulgado,8,1.4%


## Análise de Compras Por Gênero

In [12]:
# Número de compras
# Preço médio de compra
# Valor Total de Compra
# Compras for faixa etária

total_vendas = purchase_file.groupby(["Sexo"]).sum()["Valor"].rename("Total de Vendas")
media_preco = purchase_file.groupby(["Sexo"]).mean()["Valor"].rename("Media Preco")
qtd_venda = purchase_file.groupby(["Sexo"]).count()["Valor"].rename("Qtd Compras")
total_normalizado = total_vendas / frameDemograph["Sexo"]

# armazena Resultado em DataFrame
frameCompraGenero = pd.DataFrame({"Qtd Compras": qtd_venda,
                                 "Valor Medio Item": media_preco,
                                 "Total de Vendas": total_vendas,
                                 "Total Normalizado": total_normalizado})


frameCompraGenero = frameCompraGenero.round(2)
# frameCompraGenero["Qtd Compras"] = frameCompraGenero["Qtd Compras"].map("{:,.0f}".format)
frameCompraGenero["Valor Medio Item"] = frameCompraGenero["Valor Medio Item"].map("${:,.2f}".format)
frameCompraGenero["Total de Vendas"] = frameCompraGenero["Total de Vendas"].map("${:,.2f}".format)
frameCompraGenero["Total Normalizado"] = frameCompraGenero["Total Normalizado"].map("${:,.2f}".format)

In [13]:
total_vendas

Sexo
Feminino                   382.91
Masculino                 1867.68
Outro / NÃ£o Divulgado      35.74
Name: Total de Vendas, dtype: float64

In [14]:
media_preco

Sexo
Feminino                  2.815515
Masculino                 2.950521
Outro / NÃ£o Divulgado    3.249091
Name: Media Preco, dtype: float64

In [15]:
qtd_venda

Sexo
Feminino                  136
Masculino                 633
Outro / NÃ£o Divulgado     11
Name: Qtd Compras, dtype: int64

In [16]:
total_normalizado

Feminino                  3.829100
Masculino                 4.016516
Outro / NÃ£o Divulgado    4.467500
dtype: float64

In [17]:
frameCompraGenero

Unnamed: 0_level_0,Qtd Compras,Valor Medio Item,Total de Vendas,Total Normalizado
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Feminino,136,$2.82,$382.91,$3.83
Masculino,633,$2.95,"$1,867.68",$4.02
Outro / NÃ£o Divulgado,11,$3.25,$35.74,$4.47


## Demografica

In [18]:
# calculo basico
idade_faixa = [0, 9.99, 14.99, 19.99, 24.99, 29.99, 34.99, 39.99, 999]
idade_faixa_nome = ["Menos de 10", "10 a 14", "15 a 19", "20 a 24", "25 a 29", "30 a 34", "35 a 39", "Mais de 40"]


# Cria uma nova coluna no DataFrame com o Range
purchase_file["Range de Idades"] = pd.cut(purchase_file["Idade"], idade_faixa, labels=idade_faixa_nome  )


# Calculos Basicos
qtd_idade = purchase_file["Range de Idades"].value_counts()
preco_unitario = purchase_file.groupby(["Range de Idades"]).mean()["Valor"]
valor_total = purchase_file.groupby(["Range de Idades"]).sum()["Valor"]
percentual = (qtd_idade / contaConsumidor) * 100

# DataFrame para os resultados
idadeDemograph = pd.DataFrame({"Contagem": qtd_idade, "%": percentual, "Valor Unitario": preco_unitario, "Valor Total Compra": valor_total})

# Data Munging
idadeDemograph = idadeDemograph.round(2)
idadeDemograph["Valor Unitario"] = idadeDemograph["Valor Unitario"].map("${:,.2f}".format)
idadeDemograph["Valor Total Compra"] = idadeDemograph["Valor Total Compra"].map("${:,.2f}".format)
idadeDemograph["%"] = idadeDemograph["%"].map("{:,.2f}%".format)


In [19]:
idadeDemograph.head()

Unnamed: 0,Contagem,%,Valor Unitario,Valor Total Compra
10 a 14,35,6.11%,$2.77,$96.95
15 a 19,133,23.21%,$2.91,$386.42
20 a 24,336,58.64%,$2.91,$978.77
25 a 29,125,21.82%,$2.96,$370.33
30 a 34,64,11.17%,$3.08,$197.25


In [20]:
# Resultado
idadeDemograph = idadeDemograph.sort_index()
idadeDemograph

Unnamed: 0,Contagem,%,Valor Unitario,Valor Total Compra
10 a 14,35,6.11%,$2.77,$96.95
15 a 19,133,23.21%,$2.91,$386.42
20 a 24,336,58.64%,$2.91,$978.77
25 a 29,125,21.82%,$2.96,$370.33
30 a 34,64,11.17%,$3.08,$197.25
35 a 39,42,7.33%,$2.84,$119.40
Mais de 40,17,2.97%,$3.16,$53.75
Menos de 10,28,4.89%,$2.98,$83.46


## Consumidores Mais Populares (Top 5)

In [22]:
# Identifique os 5 principais compradores pelo valor total de compra e, em seguida, liste (em uma tabela):
# Login
# Número de compras
# Preço médio de compra
# Valor Total de Compra
# Itens mais populares

# Armazena os totais
user_total = purchase_file.groupby(["Login"]).sum()["Valor"].rename("Valor Total de Compra")
user_average = purchase_file.groupby(["Login"]).mean()["Valor"].rename("Valor Médio de Compras")
user_count = purchase_file.groupby(["Login"]).count()["Valor"].rename("QTD Compras")

# Data Frame dos resultados
userTotal = pd.DataFrame({"Valor Total de Compra": user_total, "Valor Médio de Compras": user_average, "QTD Compras": user_count})

# Data Munging
# userTotal = userTotal.round(2)
userTotal["Valor Total de Compra"] = userTotal["Valor Total de Compra"].map("${:,.2f}".format)
userTotal["Valor Médio de Compras"] = userTotal["Valor Médio de Compras"].map("${:,.2f}".format)

# Ordena e mostra somente os 5 primeiros
userTotal.sort_values("Valor Total de Compra", ascending=False).head()


Unnamed: 0_level_0,Valor Total de Compra,Valor Médio de Compras,QTD Compras
Login,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Qarwen67,$9.97,$2.49,4
Sondim43,$9.38,$3.13,3
Tillyrin30,$9.19,$3.06,3
Lisistaya47,$9.19,$3.06,3
Tyisriphos58,$9.18,$4.59,2


In [23]:
userTotal

Unnamed: 0_level_0,Valor Total de Compra,Valor Médio de Compras,QTD Compras
Login,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Adairialis76,$2.46,$2.46,1
Aduephos78,$6.70,$2.23,3
Aeduera68,$5.80,$1.93,3
Aela49,$2.46,$2.46,1
Aela59,$1.27,$1.27,1
Aelalis34,$5.06,$2.53,2
Aelin32,$3.14,$3.14,1
Aeliriam77,$6.72,$3.36,2
Aeliriarin93,$2.04,$2.04,1
Aeliru63,$8.98,$4.49,2


## Itens Mais Populares

In [28]:
# Identifique os 5 itens mais populares por contagem de compras e, em seguida, liste (em uma tabela):
# ID do item
# Nome do item
# Número de compras
# Preço do item
# Valor Total de Compra
# Itens mais lucrativos

# Armazena os agrupamentos
item_total = purchase_file.groupby(["Nome do Item"]).sum()["Valor"].rename("Valor Total de Compra")
item_unitario = purchase_file.groupby(["Nome do Item"]).mean()["Valor"].rename("Valor Unitario")
item_qtd = purchase_file.groupby(["Nome do Item"]).count()["Valor"].rename("QTD Compra")


#Data Frame Resultados
itemFrame = pd.DataFrame({"Valor Total de Compra": item_total, "Valor Unitario": item_unitario, "QTD Compra": item_qtd})


# Data Munging
itemFrame["Valor Total de Compra"] = itemFrame["Valor Total de Compra"].map("${:,.2f}".format)
itemFrame["Valor Unitario"] = itemFrame["Valor Unitario"].map("${:,.2f}".format)

# Ordena os itens e mostra os 5 primeiros
itemFrame.sort_values("QTD Compra", ascending=False).head(5)

Unnamed: 0_level_0,Valor Total de Compra,Valor Unitario,QTD Compra
Nome do Item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Final Critic,$38.60,$2.76,14
Arcane Gem,$24.53,$2.23,11
"Betrayal, Whisper of Grieving Widows",$25.85,$2.35,11
Stormcaller,$34.65,$3.46,10
Woeful Adamantite Claymore,$11.16,$1.24,9


## Itens Mais Lucrativos

In [29]:
# Implemente aqui sua solução
# Identifique os 5 itens mais lucrativos pelo valor total de compra e, em seguida, liste (em uma tabela):
# ID do item
# Nome do item
# Número de compras
# Preço do item
# Valor Total de Compra

item_total = purchase_file.groupby(["Nome do Item"]).sum()["Valor"].rename("Valor Total de Compra")
item_unitario = purchase_file.groupby(["Nome do Item"]).mean()["Valor"].rename("Valor Unitario")
item_qtd = purchase_file.groupby(["Nome do Item"]).count()["Valor"].rename("QTD Compras")

itemQTDFrame = pd.DataFrame({"Valor Total de Compra": item_total, "Valor Unitario": item_unitario, "QTD Compras": item_qtd})

# Data Munging
itemQTDFrame["Valor Total de Compra"] = itemQTDFrame["Valor Total de Compra"].map("${:,.2f}".format)
itemQTDFrame["Valor Unitario"] = itemQTDFrame["Valor Unitario"].map("${:,.2f}".format)

# Ordena e mostra somente os 5 primeiros
itemQTDFrame.sort_values("QTD Compras", ascending=False).head(5)

Unnamed: 0_level_0,Valor Total de Compra,Valor Unitario,QTD Compras
Nome do Item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Final Critic,$38.60,$2.76,14
Arcane Gem,$24.53,$2.23,11
"Betrayal, Whisper of Grieving Widows",$25.85,$2.35,11
Stormcaller,$34.65,$3.46,10
Woeful Adamantite Claymore,$11.16,$1.24,9


## Fim

### Obrigado - Data Science Academy - <a href="http://facebook.com/dsacademybr">facebook.com/dsacademybr</a>