# <font color='blue'>Data Science Academy - Python Fundamentos - Capítulo 7</font>

## Download: http://github.com/dsacademybr

In [1]:
# Versão da Linguagem Python
from platform import python_version
print('Versão da Linguagem Python Usada Neste Jupyter Notebook:', python_version())

Versão da Linguagem Python Usada Neste Jupyter Notebook: 3.9.7


## Missão: Analisar o Comportamento de Compra de Consumidores.

## Nível de Dificuldade: Alto

Você recebeu a tarefa de analisar os dados de compras de um web site! Os dados estão no formato JSON e disponíveis junto com este notebook.

No site, cada usuário efetua login usando sua conta pessoal e pode adquirir produtos à medida que navega pela lista de produtos oferecidos. Cada produto possui um valor de venda. Dados de idade e sexo de cada usuário foram coletados e estão fornecidos no arquivo JSON.

Seu trabalho é entregar uma análise de comportamento de compra dos consumidores. Esse é um tipo de atividade comum realizado por Cientistas de Dados e o resultado deste trabalho pode ser usado, por exemplo, para alimentar um modelo de Machine Learning e fazer previsões sobre comportamentos futuros.

Mas nesta missão você vai analisar o comportamento de compra dos consumidores usando o pacote Pandas da linguagem Python e seu relatório final deve incluir cada um dos seguintes itens:

** Contagem de Consumidores **

* Número total de consumidores


** Análise Geral de Compras **

* Número de itens exclusivos
* Preço médio de compra
* Número total de compras
* Rendimento total


** Informações Demográficas Por Gênero **

* Porcentagem e contagem de compradores masculinos
* Porcentagem e contagem de compradores do sexo feminino
* Porcentagem e contagem de outros / não divulgados


** Análise de Compras Por Gênero **

* Número de compras
* Preço médio de compra
* Valor Total de Compra
* Compras for faixa etária


** Identifique os 5 principais compradores pelo valor total de compra e, em seguida, liste (em uma tabela): **

* Login
* Número de compras
* Preço médio de compra
* Valor Total de Compra
* Itens mais populares


** Identifique os 5 itens mais populares por contagem de compras e, em seguida, liste (em uma tabela): **

* ID do item
* Nome do item
* Número de compras
* Preço do item
* Valor Total de Compra
* Itens mais lucrativos


** Identifique os 5 itens mais lucrativos pelo valor total de compra e, em seguida, liste (em uma tabela): **

* ID do item
* Nome do item
* Número de compras
* Preço do item
* Valor Total de Compra


** Como considerações finais: **

* Seu script deve funcionar para o conjunto de dados fornecido.
* Você deve usar a Biblioteca Pandas e o Jupyter Notebook.


In [2]:
# Imports
import pandas as pd
import numpy as np

In [3]:
# Carrega o arquivo
load_file = "dados_compras.json"
purchase_file = pd.read_json(load_file, orient = "records")
purchase_file.head()

Unnamed: 0,Login,Idade,Sexo,Item ID,Nome do Item,Valor
0,Aelalis34,38,Masculino,165,Bone Crushing Silver Skewer,3.37
1,Eolo46,21,Masculino,119,"Stormbringer, Dark Blade of Ending Misery",2.32
2,Assastnya25,34,Masculino,174,Primitive Blade,2.46
3,Pheusrical25,21,Masculino,92,Final Critic,1.36
4,Aela59,23,Masculino,63,Stormfury Mace,1.27


## Informações Sobre os Consumidores

In [10]:
# Implemente aqui sua solução
consumidores_info = purchase_file.loc[:, ['Login', 'Idade', 'Sexo']]
display(consumidores_info)

Unnamed: 0,Login,Idade,Sexo
0,Aelalis34,38,Masculino
1,Eolo46,21,Masculino
2,Assastnya25,34,Masculino
3,Pheusrical25,21,Masculino
4,Aela59,23,Masculino
...,...,...,...
775,Eural50,22,Masculino
776,Lirtossa78,14,Masculino
777,Tillyrin30,20,Masculino
778,Quelaton80,20,Masculino


In [45]:
# Limpeza dos dados e remoção de duplicatas
consumidores_info = consumidores_info.drop_duplicates()
player_count = consumidores_info.count()[0]
player_count

573

## Análise Geral de Compras

In [30]:
# Implemente aqui sua solução
avg_compras = purchase_file['Valor'].mean()
total_item_price = purchase_file['Valor'].sum()
total_item_count = purchase_file['Valor'].count()
item_id = len(purchase_file['Item ID'].unique())

df1 = pd.DataFrame({"Número de Itens Únicos" : item_id,
                                     "Número de Compras" : total_item_count, 
                                     "Total de Vendas" : total_item_price, 
                                     "Preço Médio" : [avg_compras]})

df1 = df1.round(2)
df1 ["Preço Médio"] = df1["Preço Médio"].map("${:,.2f}".format)
df1 ["Total de Vendas"] = df1["Total de Vendas"].map("${:,.2f}".format)
df1 = df1.loc[:, ["Número de Itens Únicos", "Preço Médio", "Número de Compras", "Total de Vendas"]]

df1



Unnamed: 0,Número de Itens Únicos,Preço Médio,Número de Compras,Total de Vendas
0,183,$2.93,780,"$2,286.33"


## Análise Demográfica

In [43]:
# Implemente aqui sua solução
consumidores_info

Unnamed: 0,Login,Idade,Sexo
0,Aelalis34,38,Masculino
1,Eolo46,21,Masculino
2,Assastnya25,34,Masculino
3,Pheusrical25,21,Masculino
4,Aela59,23,Masculino
...,...,...,...
775,Eural50,22,Masculino
776,Lirtossa78,14,Masculino
777,Tillyrin30,20,Masculino
778,Quelaton80,20,Masculino


In [117]:
# Cálculos básicos
age_bins = [0, 9.99, 14.99, 19.99, 24.99, 29.99, 34.99, 39.99, 999]
age_bracket = ["Menos de 10", "10 a 14", "15 a 19", "20 a 24", "25 a 29", "30 a 34", "35 a 39", "Mais de 40"]

purchase_file["Range de Idades"] = pd.cut(purchase_file["Idade"], age_bins, labels=age_bracket)

# Cálculos básicos
age_demographics_count = purchase_file["Range de Idades"].value_counts()
age_demographics_average_item_price = purchase_file.groupby(["Range de Idades"]).mean()["Valor"]
age_demographics_total_item_price = purchase_file.groupby(["Range de Idades"]).sum()["Valor"]
age_demographics_percent = (age_demographics_count / player_count) * 100

# Dataframe para os resultados
age_demographics = pd.DataFrame({"Contagem": age_demographics_count, "%": age_demographics_percent, "Valor Unitario": age_demographics_average_item_price, "Valor Total de Compra": age_demographics_total_item_price})

# Data Munging
age_demographics ["Valor Unitario"] = age_demographics["Valor Unitario"].map("${:,.2f}".format)
age_demographics ["Valor Total de Compra"] = age_demographics["Valor Total de Compra"].map("${:,.2f}".format)
age_demographics ["%"] = age_demographics["%"].map("{:,.2f}%".format)

In [118]:
# Resultado ordem decrescente
age_demographics = age_demographics.sort_index()
age_demographics

Unnamed: 0,Contagem,%,Valor Unitario,Valor Total de Compra
Menos de 10,28,4.89%,$2.98,$83.46
10 a 14,35,6.11%,$2.77,$96.95
15 a 19,133,23.21%,$2.91,$386.42
20 a 24,336,58.64%,$2.91,$978.77
25 a 29,125,21.82%,$2.96,$370.33
30 a 34,64,11.17%,$3.08,$197.25
35 a 39,42,7.33%,$2.84,$119.40
Mais de 40,17,2.97%,$3.16,$53.75


## Informações Demográficas Por Gênero

In [57]:
# Implemente aqui sua solução
genero_contar = purchase_file['Sexo'].value_counts()
genero_percentual = (genero_contar / player_count) * 100
demografia_genero = pd.DataFrame({"Sexo" : genero_contar,
                                     "%" : genero_percentual })

demografia_genero = demografia_genero.round(2)
demografia_genero ["%"] = demografia_genero["%"].map("{:,.2f}%".format)


In [58]:
genero_contar

Masculino                633
Feminino                 136
Outro / Não Divulgado     11
Name: Sexo, dtype: int64

In [59]:
genero_percentual

Masculino                110.471204
Feminino                  23.734729
Outro / Não Divulgado      1.919721
Name: Sexo, dtype: float64

In [60]:
demografia_genero

Unnamed: 0,Sexo,%
Masculino,633,110.47%
Feminino,136,23.73%
Outro / Não Divulgado,11,1.92%


## Análise de Compras Por Gênero

In [71]:
# Implemente aqui sua solução
genero_contar = purchase_file.groupby(['Sexo']).sum()['Valor'].rename('Total Vendas')
genero_media = purchase_file.groupby(['Sexo']).mean()['Valor'].rename('Preço Medio')
genero_compra = purchase_file.groupby(['Sexo']).count()['Valor'].rename('Compras Total')
total = genero_contar / demografia_genero['Sexo']

# Armazenando o resultado em um Dataframe
compras_genero = pd.DataFrame({"Compras Total" : genero_compra,
                               "Preço Medio" : genero_media,
                               "Total Vendas" : genero_contar,
                               "Total Normalizado" : total})


compras_genero = compras_genero.round(2)
compras_genero ['Compras Total'] = compras_genero ['Compras Total'].map("${:,.2f}".format)
compras_genero ['Preço Medio'] = compras_genero ['Preço Medio'].map("${:,.2f}".format)
compras_genero ['Total Vendas'] = compras_genero ['Total Vendas'].map("${:,.2f}".format)
compras_genero ['Total Normalizado'] = compras_genero ['Total Normalizado'].map("${:,.2f}".format)


In [68]:
genero_contar

Sexo
Feminino                  382.91
Masculino                1867.68
Outro / Não Divulgado      35.74
Name: Total Vendas, dtype: float64

In [67]:
genero_media

Sexo
Feminino                 2.815515
Masculino                2.950521
Outro / Não Divulgado    3.249091
Name: Preço Medio, dtype: float64

In [72]:
compras_genero

Unnamed: 0,Compras Total,Preço Medio,Total Vendas,Total Normalizado
Feminino,$136.00,$2.82,$382.91,$2.82
Masculino,$633.00,$2.95,"$1,867.68",$2.95
Outro / Não Divulgado,$11.00,$3.25,$35.74,$3.25


## Consumidores Mais Populares (Top 5)

In [81]:
# Implemente aqui sua solução
consumidor_total = purchase_file.groupby(['Login']).sum()['Valor'].rename('Total Compras')
consumidor_medio = purchase_file.groupby(['Login']).mean()['Valor'].rename('Media de Compras')
consumidor_count = purchase_file.groupby(['Login']).count()['Valor'].rename('Numeros de compras')

consumidor_top = pd.DataFrame({"Total Compras" : consumidor_total,
                               "Media de Compras" : consumidor_medio,
                               "Numeros de compras" : consumidor_count})

consumidor_top ['Total Compras'] = consumidor_top ['Total Compras'].map("${:,.2f}".format)
consumidor_top ['Media de Compras'] = consumidor_top ['Media de Compras'].map("${:,.2f}".format)
consumidor_top.sort_values('Total Compras', ascending=False).head(5)

Unnamed: 0_level_0,Total Compras,Media de Compras,Numeros de compras
Login,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Qarwen67,$9.97,$2.49,4
Sondim43,$9.38,$3.13,3
Tillyrin30,$9.19,$3.06,3
Lisistaya47,$9.19,$3.06,3
Tyisriphos58,$9.18,$4.59,2


In [82]:
consumidor_top

Unnamed: 0_level_0,Total Compras,Media de Compras,Numeros de compras
Login,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Adairialis76,$2.46,$2.46,1
Aduephos78,$6.70,$2.23,3
Aeduera68,$5.80,$1.93,3
Aela49,$2.46,$2.46,1
Aela59,$1.27,$1.27,1
...,...,...,...
Yasurra52,$3.14,$3.14,1
Yathecal72,$7.77,$3.88,2
Yathecal82,$2.41,$2.41,1
Zhisrisu83,$2.46,$1.23,2


## Itens Mais Populares

In [85]:
# Implemente aqui sua solução
Item_popular_total = purchase_file.groupby(['Nome do Item']).sum()['Valor'].rename('Total Compras')
Item_popular_media = purchase_file.groupby(['Nome do Item']).mean()['Valor'].rename('Media de Compras')
Item_popular_count = purchase_file.groupby(['Nome do Item']).count()['Valor'].rename('Numeros de compras')

item_popular = pd.DataFrame({"Total Compras" : Item_popular_total,
                               "Media de Compras" : Item_popular_media,
                               "Numeros de compras" : Item_popular_count})

item_popular ['Total Compras'] = item_popular ['Total Compras'].map("${:,.2f}".format)
item_popular ['Media de Compras'] = item_popular ['Media de Compras'].map("${:,.2f}".format)
item_popular.sort_values('Numeros de compras', ascending=False).head(5)

Unnamed: 0_level_0,Total Compras,Media de Compras,Numeros de compras
Nome do Item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Final Critic,$38.60,$2.76,14
Arcane Gem,$24.53,$2.23,11
"Betrayal, Whisper of Grieving Widows",$25.85,$2.35,11
Stormcaller,$34.65,$3.47,10
Woeful Adamantite Claymore,$11.16,$1.24,9


## Itens Mais Lucrativos

In [116]:
# Implemente aqui sua solução
Item_lucrativos_total = purchase_file.groupby(['Nome do Item']).sum()['Valor'].rename('Total Compras')
Item_lucrativos_media = purchase_file.groupby(['Nome do Item']).mean()['Valor'].rename('Media de Compras')
Item_lucrativos_count = purchase_file.groupby(['Nome do Item']).count()['Valor'].rename('Numeros de compras')

Item_lucrativos = pd.DataFrame({"Total Compras" : Item_lucrativos_total,
                               "Media de Compras" : Item_lucrativos_media,
                               "Numeros de compras" : Item_lucrativos_count})

Item_lucrativos ['Total'] = Item_lucrativos ['Total Compras']
Item_lucrativos ['Total Compras'] = Item_lucrativos ['Total Compras'].map("${:,.2f}".format)
Item_lucrativos ['Media de Compras'] = Item_lucrativos ['Media de Compras'].map("${:,.2f}".format)

display(Item_lucrativos.sort_values("Total", ascending=False).head(5)[ \
    ['Total Compras','Media de Compras','Numeros de compras']])

Unnamed: 0_level_0,Total Compras,Media de Compras,Numeros de compras
Nome do Item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Final Critic,$38.60,$2.76,14
Retribution Axe,$37.26,$4.14,9
Stormcaller,$34.65,$3.47,10
Spectral Diamond Doomblade,$29.75,$4.25,7
Orenmir,$29.70,$4.95,6


## Fim


### Obrigado

### Visite o Blog da Data Science Academy - <a href="http://blog.dsacademy.com.br">Blog DSA</a>
