In [1]:
# Versão da Linguagem Python
from platform import python_version
print('Versão da Linguagem Python Usada Neste Jupyter Notebook:', python_version())

Versão da Linguagem Python Usada Neste Jupyter Notebook: 3.9.7


## Missão: Analisar o Comportamento de Compra de Consumidores.

Você recebeu a tarefa de analisar os dados de compras de um web site! Os dados estão no formato JSON e disponíveis junto com este notebook.

No site, cada usuário efetua login usando sua conta pessoal e pode adquirir produtos à medida que navega pela lista de produtos oferecidos. Cada produto possui um valor de venda. Dados de idade e sexo de cada usuário foram coletados e estão fornecidos no arquivo JSON.

Seu trabalho é entregar uma análise de comportamento de compra dos consumidores. Esse é um tipo de atividade comum realizado por Cientistas de Dados e o resultado deste trabalho pode ser usado, por exemplo, para alimentar um modelo de Machine Learning e fazer previsões sobre comportamentos futuros.

Mas nesta missão você vai analisar o comportamento de compra dos consumidores usando o pacote Pandas da linguagem Python e seu relatório final deve incluir cada um dos seguintes itens:

** Contagem de Consumidores **

* Número total de consumidores


** Análise Geral de Compras **

* Número de itens exclusivos
* Preço médio de compra
* Número total de compras
* Rendimento total


** Informações Demográficas Por Gênero **

* Porcentagem e contagem de compradores masculinos
* Porcentagem e contagem de compradores do sexo feminino
* Porcentagem e contagem de outros / não divulgados


** Análise de Compras Por Gênero **

* Número de compras
* Preço médio de compra
* Valor Total de Compra
* Compras for faixa etária


** Identifique os 5 principais compradores pelo valor total de compra e, em seguida, liste (em uma tabela): **

* Login
* Número de compras
* Preço médio de compra
* Valor Total de Compra
* Itens mais populares


** Identifique os 5 itens mais populares por contagem de compras e, em seguida, liste (em uma tabela): **

* ID do item
* Nome do item
* Número de compras
* Preço do item
* Valor Total de Compra
* Itens mais lucrativos


** Identifique os 5 itens mais lucrativos pelo valor total de compra e, em seguida, liste (em uma tabela): **

* ID do item
* Nome do item
* Número de compras
* Preço do item
* Valor Total de Compra


** Como considerações finais: **

* Seu script deve funcionar para o conjunto de dados fornecido.
* Você deve usar a Biblioteca Pandas e o Jupyter Notebook.


In [2]:
# Imports
import pandas as pd
import numpy as np

In [3]:
# Carrega o arquivo
load_file = "dados_compras.json"
purchase_file = pd.read_json(load_file, orient = "records")
purchase_file.head(10)

Unnamed: 0,Login,Idade,Sexo,Item ID,Nome do Item,Valor
0,Aelalis34,38,Masculino,165,Bone Crushing Silver Skewer,3.37
1,Eolo46,21,Masculino,119,"Stormbringer, Dark Blade of Ending Misery",2.32
2,Assastnya25,34,Masculino,174,Primitive Blade,2.46
3,Pheusrical25,21,Masculino,92,Final Critic,1.36
4,Aela59,23,Masculino,63,Stormfury Mace,1.27
5,Tanimnya91,20,Masculino,10,Sleepwalker,1.73
6,Undjaskla97,20,Masculino,153,Mercenary Sabre,4.57
7,Iathenudil29,29,Feminino,169,"Interrogator, Blood Blade of the Queen",3.32
8,Sondenasta63,25,Masculino,118,"Ghost Reaver, Longsword of Magic",2.77
9,Hilaerin92,31,Masculino,99,"Expiration, Warscythe Of Lost Worlds",4.53


In [4]:
purchase_file.describe()

Unnamed: 0,Idade,Item ID,Valor
count,780.0,780.0,780.0
mean,22.729487,91.292308,2.931192
std,6.930604,52.707897,1.11578
min,7.0,0.0,1.03
25%,19.0,44.0,1.96
50%,22.0,91.0,2.88
75%,25.0,135.0,3.91
max,45.0,183.0,4.95


In [5]:
purchase_file = purchase_file.round(2)

In [6]:
purchase_file.to_csv('dados_compras.csv')

## Informações Sobre os Consumidores

In [12]:
# Número total de consumidores
total_consumidores = print(len(purchase_file['Login'].unique()))

573


## Análise Geral de Compras

    Número de itens exclusivos
    Preço médio de compra
    Número total de compras
    Rendimento total


In [13]:
# Número de itens exclusivos
print(len(purchase_file['Item ID'].unique()))

183


In [14]:
# Preço médio de compra
media = purchase_file['Valor'].mean()
print('{:.3}'.format(media))

2.93


In [15]:
# Número total de compras
total = print(len(purchase_file['Item ID']))

780


In [16]:
#Rendimento total
rend = purchase_file['Valor'].sum()
print(rend)

2286.33


## Análise Demográfica

## Informações Demográficas Por Gênero

    Porcentagem e contagem de compradores masculinos
    Porcentagem e contagem de compradores do sexo feminino
    Porcentagem e contagem de outros / não divulgados

In [19]:
contagem_generos = print(purchase_file['Sexo'].value_counts())

Masculino                633
Feminino                 136
Outro / Não Divulgado     11
Name: Sexo, dtype: int64


In [20]:
total_masc = []
for i in purchase_file['Item ID'].unique():
    for masc in purchase_file['Sexo'] == 'Masculino':
        total_masc.append()
print(len(total_masc))

TypeError: list.append() takes exactly one argument (0 given)

In [19]:
#Porcentagem e contagem de compradores masculinos
masculino = purchase_file['Sexo'] == 'Masculino'
filter_masculino = purchase_file[masculino]
porce_masculino = (len(filter_masculino) / len(purchase_file['Item ID']))
print('{:.4}%'.format(porce_masculino * 100))
print(len(filter_masculino))

81.15%
633


In [13]:
#Porcentagem e contagem de compradores do sexo feminino
feminino = purchase_file['Sexo'] == 'Feminino'
filter_feminino = purchase_file[feminino]
porce_feminino = (len(filter_feminino) / len(purchase_file['Item ID']))
print('{:.4}%'.format(porce_feminino * 100))
print(len(filter_feminino))

17.44%
136


In [14]:
#Porcentagem e contagem de outros / não divulgados
outros = len(purchase_file['Item ID']) - len(filter_feminino) - len(filter_masculino)
porce_outros = outros / len(purchase_file['Item ID'])
print('{:.4}%'.format(porce_outros * 100))
print(outros)

1.41%
11


## Análise de Compras Por Gênero

    Número de compras
    Preço médio de compra
    Valor Total de Compra
    Compras for faixa etária


In [15]:
#Preço médio de compra Masculino
masculino = purchase_file['Sexo'] == 'Masculino'
filter_masculino = purchase_file[masculino]
media_compras_masc = filter_masculino['Valor'].mean()
valor_total_masc = filter_masculino['Valor'].sum()

print('{:.3} é o preço médio de compra masculino'.format(media_compras_masc))
print('{} é o valor total de compra masculina'.format(valor_total_masc))

2.95 é o preço médio de compra masculino
1867.68 é o valor total de compra masculina


In [16]:
#Preço médio de compra Feminino
feminino = purchase_file['Sexo'] == 'Feminino'
filter_feminino = purchase_file[feminino]
media_compras_fem = filter_feminino['Valor'].mean()
valor_total_fem = filter_feminino['Valor'].sum()

print('{:.3} é o preço médio de compra feminino'.format(media_compras_fem))
print('{:.4} é o valor total de compra feminina'.format(valor_total_fem))

2.82 é o preço médio de compra feminino
382.9 é o valor total de compra feminina


In [17]:
#Preço médio de compra Outro
outro = purchase_file['Sexo'] == 'Outro / Não Divulgado'
filter_outro = purchase_file[outro]
media_compras_outros = filter_outro['Valor'].mean()
valor_total_outros = filter_outro['Valor'].sum()

print('{:.3} é o preço médio de compra outros'.format(media_compras_outros))
print('{:.4} é o valor total de compra outros'.format(valor_total_outros))

3.25 é o preço médio de compra outros
35.74 é o valor total de compra outros


In [20]:
#Compras for faixa etária
faixas_etarias = np.arange(0, purchase_file['Idade'].max()+1, 6)
purchase_file['faixa_etaria'] = pd.cut(purchase_file['Idade'], faixas_etarias)

# A partir daqui, use `df.groupby` para agrupar pela coluna 'faixa_etaria'
df_agrupado = purchase_file.groupby('faixa_etaria')


In [22]:
df_agrupado.mean()

Unnamed: 0_level_0,Idade,Item ID,Valor
faixa_etaria,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
"(0, 6]",,,
"(6, 12]",8.913043,86.543478,3.099783
"(12, 18]",15.789062,90.929688,2.790156
"(18, 24]",21.698324,87.5,2.921425
"(24, 30]",26.678322,92.664336,2.981399
"(30, 36]",33.153846,100.630769,3.052308
"(36, 42]",38.736842,112.894737,2.880526


In [23]:
df_agrupado.sum()

Unnamed: 0_level_0,Idade,Item ID,Valor
faixa_etaria,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
"(0, 6]",0,0,0.0
"(6, 12]",410,3981,142.59
"(12, 18]",2021,11639,357.14
"(18, 24]",7768,31325,1045.87
"(24, 30]",3815,13251,426.34
"(30, 36]",2155,6541,198.4
"(36, 42]",1472,4290,109.46


## Consumidores Mais Populares (Top 5)


    Login
    Número de compras
    Preço médio de compra
    Valor Total de Compra
    Itens mais populares
    
    Identifique os 5 principais compradores pelo valor total de compra e, em seguida, liste (em uma tabela):

## Itens Mais Populares

In [None]:
# Implemente aqui sua solução

## Itens Mais Lucrativos

In [None]:
# Implemente aqui sua solução

## Fim


### Obrigado

### Visite o Blog da Data Science Academy - <a href="http://blog.dsacademy.com.br">Blog DSA</a>
