## Missão: Analisar o Comportamento de Compra de Consumidores.

## Nível de Dificuldade: Alto

Você recebeu a tarefa de analisar os dados de compras de um web site! Os dados estão no formato JSON e disponíveis junto com este notebook.

No site, cada usuário efetua login usando sua conta pessoal e pode adquirir produtos à medida que navega pela lista de produtos oferecidos. Cada produto possui um valor de venda. Dados de idade e sexo de cada usuário foram coletados e estão fornecidos no arquivo JSON.

Seu trabalho é entregar uma análise de comportamento de compra dos consumidores. Esse é um tipo de atividade comum realizado por Cientistas de Dados e o resultado deste trabalho pode ser usado, por exemplo, para alimentar um modelo de Machine Learning e fazer previsões sobre comportamentos futuros.

Mas nesta missão você vai analisar o comportamento de compra dos consumidores usando o pacote Pandas da linguagem Python e seu relatório final deve incluir cada um dos seguintes itens:

** Contagem de Consumidores **

* Número total de consumidores


** Análise Geral de Compras **

* Número de itens exclusivos
* Preço médio de compra
* Número total de compras
* Rendimento total


** Informações Demográficas Por Gênero **

* Porcentagem e contagem de compradores masculinos
* Porcentagem e contagem de compradores do sexo feminino
* Porcentagem e contagem de outros / não divulgados


** Análise de Compras Por Gênero **

* Número de compras
* Preço médio de compra
* Valor Total de Compra
* Compras for faixa etária


** Identifique os 5 principais compradores pelo valor total de compra e, em seguida, liste (em uma tabela): **

* Login
* Número de compras
* Preço médio de compra
* Valor Total de Compra
* Itens mais populares


** Identifique os 5 itens mais populares por contagem de compras e, em seguida, liste (em uma tabela): **

* ID do item
* Nome do item
* Número de compras
* Preço do item
* Valor Total de Compra
* Itens mais lucrativos


** Identifique os 5 itens mais lucrativos pelo valor total de compra e, em seguida, liste (em uma tabela): **

* ID do item
* Nome do item
* Número de compras
* Preço do item
* Valor Total de Compra


** Como considerações finais: **

* Seu script deve funcionar para o conjunto de dados fornecido.
* Você deve usar a Biblioteca Pandas e o Jupyter Notebook.


## Solução desenvolvida abaixo

In [236]:
# imports
import pandas as pd
import numpy as np
import json

In [237]:
# faz a leitura do arquivo JSON
load_file = 'dados_compras.json'
purchase_file = pd.read_json(load_file, orient = 'records')
purchase_file.head()

display(purchase_file.head())

Unnamed: 0,Login,Idade,Sexo,Item ID,Nome do Item,Valor
0,Aelalis34,38,Masculino,165,Bone Crushing Silver Skewer,3.37
1,Eolo46,21,Masculino,119,"Stormbringer, Dark Blade of Ending Misery",2.32
2,Assastnya25,34,Masculino,174,Primitive Blade,2.46
3,Pheusrical25,21,Masculino,92,Final Critic,1.36
4,Aela59,23,Masculino,63,Stormfury Mace,1.27


## Informações Sobre os Consumidores

In [238]:
# cria um outro dataframe apenas com as colunas 'Login', 'Idade' e 'Sexo'
user_bio = purchase_file.loc[:, ['Login', 'Idade', 'Sexo']]
user_bio = user_bio.drop_duplicates() # remove linhas duplicadas
total_users = user_bio.count()[0]

print('Total de usuários: ', total_players)
display(player_bio.head())

Total de usuários:  573


Unnamed: 0,Login,Idade,Sexo
0,Aelalis34,38,Masculino
1,Eolo46,21,Masculino
2,Assastnya25,34,Masculino
3,Pheusrical25,21,Masculino
4,Aela59,23,Masculino


## Análise Geral de Compras

In [228]:
# cria um outro dataframe apenas com as colunas 'Item ID', 'Nome do Item' e 'Valor'
products_info = purchase_file.loc[:, ['Item ID', 'Nome do Item', 'Valor']]

products_exclusive_total = products_info.drop_duplicates().count()[0]
products_value_sum = products_info[['Valor']].sum()[0]
products_total_sum = products_info.count()[0]
products_value_average = products_value_sum / products_total_sum

print(f'Número de itens exclusivos: {products_exclusive_total}')
print(f'Preço médio de compra: ${products_value_average:,.2f}')
print(f'Número total de compras: {products_total_sum}')
print(f'Rendimento total: ${products_value_sum:,.2f}')

display(products_info.head())

Número de itens exclusivos: 184
Preço médio de compra: $2.93
Número total de compras: 780
Rendimento total: $2,286.33


Unnamed: 0,Item ID,Nome do Item,Valor
0,165,Bone Crushing Silver Skewer,3.37
1,119,"Stormbringer, Dark Blade of Ending Misery",2.32
2,174,Primitive Blade,2.46
3,92,Final Critic,1.36
4,63,Stormfury Mace,1.27


## Informações Demográficas Por Gênero

In [229]:
# cria um data frame para os usuarios do sexo 'Masculino'
user_bio_m = user_bio[user_bio['Sexo'] == 'Masculino'].drop_duplicates()
user_bio_m_average = user_bio_m.count()[0] / total_users * 100

# cria um data frame para os usuarios do sexo 'Feminino'
player_bio_f = player_bio[player_bio['Sexo'] == 'Feminino'].drop_duplicates()
player_bio_f_average = player_bio_f.count()[0] / total_players * 100

# cria um data frame para os usuarios do sexo 'Outro / Não Divulgado'
user_bio_ni = user_bio[user_bio['Sexo'] == 'Outro / Não Divulgado'].drop_duplicates()
user_bio_ni_average = user_bio_ni.count()[0] / total_users * 100

print(f'Porcentagem e contagem de compradores do sexo masculino: {player_bio_m_average:.2f}%', )
print(f'Porcentagem e contagem de compradores do sexo feminino: {player_bio_f_average:.2f}%')
print(f'Porcentagem e contagem de "outros / não divulgados": {player_bio_ni_average:.2f}%')

Porcentagem e contagem de compradores do sexo masculino: 81.15%
Porcentagem e contagem de compradores do sexo feminino: 17.45%
Porcentagem e contagem de "outros / não divulgados": 1.40%



## Análise de Compras Por Gênero


In [230]:
# cria um novo dataframe com os dados de compras dos usuario com o sexo 'Masculino'
purchases_m = purchase_file[purchase_file['Sexo'] == 'Masculino']
purchases_m_total_purchases = purchases_m.count()[0]
purchases_m_purchases_sum = purchases_m[['Valor']].sum()[0]
purchases_m_purchases_average = purchases_m_purchases_sum / purchases_m_total_purchases

# cria um novo dataframe com os dados de compras dos usuario com o sexo 'Masculino'
purchases_f = purchase_file[purchase_file['Sexo'] == 'Feminino']
purchases_f_total_purchases = purchases_f.count()[0]
purchases_f_purchases_sum = purchases_f[['Valor']].sum()[0]
purchases_f_purchases_average = purchases_f_purchases_sum / purchases_f_total_purchases

# cria um novo dataframe com os dados de compras dos usuario com o sexo 'Masculino'
purchases_ni = purchase_file[purchase_file['Sexo'] == 'Outro / Não Divulgado']
purchases_ni_total_purchases = purchases_ni.count()[0]
purchases_ni_purchases_sum = purchases_ni[['Valor']].sum()[0]
purchases_ni_purchases_average = purchases_ni_purchases_sum / purchases_ni_total_purchases

# cria um novo dataframe para guardar as informacoes de compra por genero
purchases_by_gender = pd.DataFrame([{'Quantidade': purchases_m_total_purchases, 
                                        'Preco Medio': purchases_m_purchases_average, 
                                        'Total': purchases_m_purchases_sum}, 
                                    {'Quantidade': purchases_f_total_purchases, 
                                        'Preco Medio': purchases_f_purchases_average, 
                                        'Total': purchases_f_purchases_sum},
                                    {'Quantidade': purchases_ni_total_purchases, 
                                        'Preco Medio': purchases_ni_purchases_average, 
                                        'Total': purchases_ni_purchases_sum
                                    }],
                                    index=['Masculino','Feminino','Outro / Não Divulgado'])

# formatando os campos com valores monetarios, 'R$' de prefixo e mostrar apenas 2 casas decimais 
purchases_by_gender['Preco Medio'] = purchases_by_gender['Preco Medio'].map(lambda item: f'${item:,.2f}')
purchases_by_gender['Total'] = purchases_by_gender['Total'].map(lambda item: f'${item:,.2f}')

print('Compras por genero: ')
display(purchases_by_gender)

# compras for faixa etaria
age_bins = [0, 9, 14, 19, 24, 29, 34, 39, 999]
age_bracket = ['<= 10', '10 a 14', '15 a 19', '20 a 24', '25 a 29', '30 a 34', '35 a 39', '>= 40']
purchase_file['Range de Idade'] = pd.cut(purchase_file["Idade"], age_bins, labels=age_bracket)
purchases_age_count = purchase_file['Range de Idade'].value_counts()

# novo dataframe para guardar as informações de compra por faixa etaria
purchases_age_range = pd.DataFrame({'Quantidade': purchases_age_count})

print('\n\nCompras for faixa etária:')
display(purchases_age_range.sort_index())

Compras por genero: 


Unnamed: 0,Quantidade,Preco Medio,Total
Masculino,633,$2.95,"$1,867.68"
Feminino,136,$2.82,$382.91
Outro / Não Divulgado,11,$3.25,$35.74




Compras for faixa etária:


Unnamed: 0,Quantidade
<= 10,28
10 a 14,35
15 a 19,133
20 a 24,336
25 a 29,125
30 a 34,64
35 a 39,42
>= 40,17


## Consumidores Mais Populares (Top 5)

In [231]:
user_total = purchase_file.groupby(['Login']).sum()['Valor']
user_average = purchase_file.groupby(['Login']).mean()['Valor']
user_count = purchase_file.groupby(['Login']).count()['Valor']

# cria um novo dataframe para guardar os dados dos usuarios
user_data = pd.DataFrame({'Total Gasto': user_total,
                          'Valor Medio': user_average,
                          'N de Compras': user_count})


user_data['Total Gasto'] = user_data['Total Gasto'].map(lambda item: f'${item:,.2f}')
user_data['Valor Medio'] = user_data['Valor Medio'].map(lambda item: f'${item:,.2f}')
print('Consumidores mais populares (Top 5): ')
display(user_data.sort_values('Total Gasto', ascending=False).head(5))

Consumidores mais populares (Top 5): 


Unnamed: 0_level_0,Total Gasto,Valor Medio,N de Compras
Login,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Qarwen67,$9.97,$2.49,4
Sondim43,$9.38,$3.13,3
Tillyrin30,$9.19,$3.06,3
Lisistaya47,$9.19,$3.06,3
Tyisriphos58,$9.18,$4.59,2


## Itens Mais Populares

In [232]:
product_total = purchase_file.groupby(['Nome do Item']).sum()['Valor']
product_average = purchase_file.groupby(['Nome do Item']).mean()['Valor']
product_count = purchase_file.groupby(['Nome do Item']).count()['Valor']

# cria um novo dataframe para guardar os dados dos produtos
product_data = pd.DataFrame({'Total Gasto': product_total,
                          'Valor Medio': product_average,
                          'N de Compras': product_count})


product_data['Total Gasto'] = product_data['Total Gasto'].map(lambda item: f'${item:,.2f}')
product_data['Valor Medio'] = product_data['Valor Medio'].map(lambda item: f'${item:,.2f}')
print('Itens mais populares (Top 5): ')
display(product_data.sort_values('N de Compras', ascending=False).head(5))

Itens mais populares (Top 5): 


Unnamed: 0_level_0,Total Gasto,Valor Medio,N de Compras
Nome do Item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Final Critic,$38.60,$2.76,14
Arcane Gem,$24.53,$2.23,11
"Betrayal, Whisper of Grieving Widows",$25.85,$2.35,11
Stormcaller,$34.65,$3.46,10
Woeful Adamantite Claymore,$11.16,$1.24,9


## Itens Mais Lucrativos

In [234]:
print('Itens mais lucrativos (Top 5): ')
display(product_data.sort_values('Valor Medio', ascending=False).head(5))

Itens mais lucrativos (Top 5): 


Unnamed: 0_level_0,Total Gasto,Valor Medio,N de Compras
Nome do Item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Singed Onyx Warscythe,$5.15,$1.03,5
Hero Cane,$4.12,$1.03,4
Soul Infused Crystal,$6.18,$1.03,6
"Frenzy, Defender of the Harvest",$3.18,$1.06,3
Yearning Crusher,$2.12,$1.06,2
