# <font color='blue'>Data Science Academy - Python Fundamentos - Capítulo 7</font>

## Download: http://github.com/dsacademybr

## Missão: Analisar o Comportamento de Compra de Consumidores.

## Nível de Dificuldade: Alto

Você recebeu a tarefa de analisar os dados de compras de um web site! Os dados estão no formato JSON e disponíveis junto com este notebook.

No site, cada usuário efetua login usando sua conta pessoal e pode adquirir produtos à medida que navega pela lista de produtos oferecidos. Cada produto possui um valor de venda. Dados de idade e sexo de cada usuário foram coletados e estão fornecidos no arquivo JSON.

Seu trabalho é entregar uma análise de comportamento de compra dos consumidores. Esse é um tipo de atividade comum realizado por Cientistas de Dados e o resultado deste trabalho pode ser usado, por exemplo, para alimentar um modelo de Machine Learning e fazer previsões sobre comportamentos futuros.

Mas nesta missão você vai analisar o comportamento de compra dos consumidores usando o pacote Pandas da linguagem Python e seu relatório final deve incluir cada um dos seguintes itens:

** Contagem de Consumidores **

* Número total de consumidores


** Análise Geral de Compras **

* Número de itens exclusivos
* Preço médio de compra
* Número total de compras
* Rendimento total


** Informações Demográficas Por Gênero **

* Porcentagem e contagem de compradores masculinos
* Porcentagem e contagem de compradores do sexo feminino
* Porcentagem e contagem de outros / não divulgados


** Análise de Compras Por Gênero **

* Número de compras
* Preço médio de compra
* Valor Total de Compra
* Compras for faixa etária


** Identifique os 5 principais compradores pelo valor total de compra e, em seguida, liste (em uma tabela): **

* Login
* Número de compras
* Preço médio de compra
* Valor Total de Compra
* Itens mais populares


** Identifique os 5 itens mais populares por contagem de compras e, em seguida, liste (em uma tabela): **

* ID do item
* Nome do item
* Número de compras
* Preço do item
* Valor Total de Compra
* Itens mais lucrativos


** Identifique os 5 itens mais lucrativos pelo valor total de compra e, em seguida, liste (em uma tabela): **

* ID do item
* Nome do item
* Número de compras
* Preço do item
* Valor Total de Compra


** Como considerações finais: **

* Seu script deve funcionar para o conjunto de dados fornecido.
* Você deve usar a Biblioteca Pandas e o Jupyter Notebook.


In [1]:
# Imports
import pandas as pd
import numpy as np

In [2]:
# Carrega o arquivo
load_file = "dados_compras.json"
purchase_file = pd.read_json(load_file, orient = "records")
purchase_file.head()

Unnamed: 0,Idade,Item ID,Login,Nome do Item,Sexo,Valor
0,38,165,Aelalis34,Bone Crushing Silver Skewer,Masculino,3.37
1,21,119,Eolo46,"Stormbringer, Dark Blade of Ending Misery",Masculino,2.32
2,34,174,Assastnya25,Primitive Blade,Masculino,2.46
3,21,92,Pheusrical25,Final Critic,Masculino,1.36
4,23,63,Aela59,Stormfury Mace,Masculino,1.27


## Informações Sobre os Consumidores

In [4]:
consumidores = purchase_file.copy()

consumidores = consumidores.loc[:, ['Sexo', 'Login', 'Idade']]
consumidores.head()

Unnamed: 0,Sexo,Login,Idade
0,Masculino,Aelalis34,38
1,Masculino,Eolo46,21
2,Masculino,Assastnya25,34
3,Masculino,Pheusrical25,21
4,Masculino,Aela59,23


In [5]:
# numero Total de Consumidores
consumidores = consumidores.drop_duplicates()
contaConsumidor = consumidores.count()[0]
'Qtd Consumidores: ' + str(contaConsumidor)

'Qtd Consumidores: 573'

## Análise Geral de Compras

In [9]:
# Número de itens exclusivos
# Preço médio de compra
# Número total de compras
# Rendimento total

qtd_itens_exclusv = set(purchase_file.get('Item ID'))
print(f'Qtd Itens Exclusivos: {len(qtd_itens_exclusv)}')

pMediaVenda = np.mean(purchase_file.get('Valor'))
print(f'Preço Médio Venda: ${pMediaVenda:.2f}')

totCompras = purchase_file.count(0)[1]
print(f'Num Total de Compras: {totCompras}')

rendTotal = purchase_file.get('Valor')
rendTotal = np.sum(rendTotal)
print(f'Rendimento Total: ${rendTotal:.2f}')

Qtd Itens Exclusivos: 183
Preço Médio Venda: $2.93
Num Total de Compras: 780
Rendimento Total: $2286.33


## Análise Demográfica

In [5]:
# Implemente aqui sua solução

## Informações Demográficas Por Gênero

In [6]:
# Porcentagem e contagem de compradores masculinos
# Porcentagem e contagem de compradores do sexo feminino
# Porcentagem e contagem de outros / não divulgados

demographFile = pd.read_json(load_file, orient = "records")

# print(demographFile.head())

# Total de Pessoas
qtdTotPessoas = len(set(demographFile.get('Login')))
print(f'Tot Pessoas: {qtdTotPessoas}')

# Total Compradores Masculinos
CompradoresMasc = demographFile.loc[demographFile['Sexo'] == 'Masculino']
qtdMasc = len(set(CompradoresMasc.get('Login')))
print(f'Qtd Total Masculino: {qtdMasc}')

# % Compradores Masculinos
percMasc = (qtdMasc * 100) / qtdTotPessoas
print(f'% Compradores Masculinos: {percMasc:.2f}%')

# Total Compradores Femininos
CompradoresFem = demographFile.loc[demographFile['Sexo'] == 'Feminino']
qtdFem = len(set(CompradoresFem.get('Login')))
print(f'Qtd Total Feminino: {qtdFem}')

# % Compradores Femininos
percFem = (qtdFem * 100) / qtdTotPessoas
print(f'% Compradores Femininos: {percFem:.2f}%')

# Total Compradores Sem Sexo Informado
CompradoresSemGenero = demographFile.loc[~demographFile['Sexo'].isin(['Masculino', 'Feminino'])]
qtdSemGenero = len(set(CompradoresSemGenero.get('Login')))
print(f'Qtd Total Sem Genero: {qtdSemGenero}')

# % Compradores Sem Genero
percSemGenero = (qtdSemGenero * 100) / qtdTotPessoas
print(f'% Compradores Sem Genero: {percSemGenero:.2f}%')

Tot Pessoas: 573
Qtd Total Masculino: 465
% Compradores Masculinos: 81.15%
Qtd Total Feminino: 100
% Compradores Femininos: 17.45%
Qtd Total Sem Genero: 8
% Compradores Sem Genero: 1.40%


## Análise de Compras Por Gênero

In [107]:
# Número de compras
# Preço médio de compra
# Valor Total de Compra
# Compras for faixa etária
fileGenero = pd.read_json(load_file, orient='records')
# print(fileGenero.head())

# Numero de Compras por Genero
print('Qtd Compras por Genero: ')
print(fileGenero.groupby('Sexo').count()[['Item ID']])
print()

# Preco Medio de Compras por Genero
print('Preço Medio por Genero: ')
print(fileGenero.groupby('Sexo').mean()[['Valor']])
print()

# Valor Total de Compra por Genero
print('Valor Total de Compra por Genero: ')
print(fileGenero.groupby('Sexo').sum()[['Valor']])
print()

# Compras por Faixa Etaria
print('Compras por Faixa Etaria: ')
print(fileGenero.groupby('Idade').count()[['Item ID']])
print()

Qtd Compras por Genero: 
                        Item ID
Sexo                           
Feminino                    136
Masculino                   633
Outro / NÃ£o Divulgado       11

Preço Medio por Genero: 
                           Valor
Sexo                            
Feminino                2.815515
Masculino               2.950521
Outro / NÃ£o Divulgado  3.249091

Valor Total de Compra por Genero: 
                          Valor
Sexo                           
Feminino                 382.91
Masculino               1867.68
Outro / NÃ£o Divulgado    35.74

Compras por Faixa Etaria: 
       Item ID
Idade         
7           19
8            3
9            6
10           4
11           9
12           5
13          11
14           6
15          47
16          23
17          17
18          24
19          22
20          98
21          43
22          68
23          57
24          70
25          67
26          13
27          19
28           5
29          21
30          18
31        

## Consumidores Mais Populares (Top 5)

In [121]:
# Identifique os 5 principais compradores pelo valor total de compra e, em seguida, liste (em uma tabela):
# Login
# Número de compras
# Preço médio de compra
# Valor Total de Compra
# Itens mais populares
fileCompradores = pd.read_json(load_file, orient = 'records')
fileCompradores.head()

clienteMaiorValor = fileCompradores.copy()

# Identifica os Top 5 Clientes
clienteMaiorValor = clienteMaiorValor.groupby('Login').sum()[['Valor']].sort_values(['Valor'], ascending=False)
top5ClienteMaiorValor = clienteMaiorValor[:5]
# Precisa resetar o Indice para poder trabalhar com o DataFrame
top5ClienteMaiorValor.reset_index(inplace=True)
top5ClienteMaiorValor = fileCompradores.loc[fileCompradores['Login'].isin([x for x in top5ClienteMaiorValor.Login])]

print(top5ClienteMaiorValor.groupby('Login').agg({"Item ID": "count", 
                                            "Valor": {"Media P Venda": "mean", 
                                                      "Valor Total": "sum"}}) )


# Itens mais populares
print()
items5Populares = top5ClienteMaiorValor.copy()
items5Populares.reset_index(inplace=True)
print(items5Populares.groupby('Nome do Item').count()[['Item ID']].sort_values(['Item ID'], ascending=False)[:5])

            Item ID         Valor            
              count Media P Venda Valor Total
Login                                        
Eoda93            3      3.860000       11.58
Haellysu29        3      4.243333       12.73
Mindimnya67       4      3.185000       12.74
Saedue76          4      3.390000       13.56
Undirrala66       5      3.412000       17.06

                              Item ID
Nome do Item                         
Striker                             2
Blood Infused Guardian              1
Blood-Forged Skeletal Spine         1
Thunderfury Scimitar                1
Thorn, Satchel of Dark Souls        1


  return super(DataFrameGroupBy, self).aggregate(arg, *args, **kwargs)


## Itens Mais Populares

In [140]:
# Identifique os 5 itens mais populares por contagem de compras e, em seguida, liste (em uma tabela):
# ID do item
# Nome do item
# Número de compras
# Preço do item
# Valor Total de Compra
# Itens mais lucrativos

itemsPopularesQTD = purchase_file.copy()
top5Items = itemsPopularesQTD.groupby(['Item ID', 'Nome do Item', 'Valor']).agg({"Valor": {"Qtd_Compras": "count", 
                                                                  "Valor_Total": "sum"}  })# .sort_values(['Qtd Compras'], ascending=False)
# Renomeia as colunas
top5Items.columns = ["_".join(x) for x in top5Items.columns.ravel()]

top5Items = top5Items.sort_values(['Valor_Qtd_Compras'], ascending=False)[:5]

# print(top5Items)
top5Items

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Valor_Qtd_Compras,Valor_Valor_Total
Item ID,Nome do Item,Valor,Unnamed: 3_level_1,Unnamed: 4_level_1
39,"Betrayal, Whisper of Grieving Widows",2.35,11,25.85
84,Arcane Gem,2.23,11,24.53
31,Trickster,2.07,9,18.63
175,Woeful Adamantite Claymore,1.24,9,11.16
13,Serenity,1.49,9,13.41


## Itens Mais Lucrativos

In [146]:
# Implemente aqui sua solução
# Identifique os 5 itens mais lucrativos pelo valor total de compra e, em seguida, liste (em uma tabela):
# ID do item
# Nome do item
# Número de compras
# Preço do item
# Valor Total de Compra

ItemsPopularesValor = purchase_file.copy()

top5Valor = ItemsPopularesValor.groupby(['Item ID', 'Nome do Item', 'Valor']).agg({"Valor": {"QTD_Compras": "count",
                                                                                            "Total": "sum"} } )
# Renomeia as Colunas
top5Valor.columns = ["_".join(x) for x in top5Valor.columns.ravel()]

top5Valor = top5Valor.sort_values(['Valor_Total'], ascending=False)[:5]

top5Valor


Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Valor_QTD_Compras,Valor_Total
Item ID,Nome do Item,Valor,Unnamed: 3_level_1,Unnamed: 4_level_1
34,Retribution Axe,4.14,9,37.26
115,Spectral Diamond Doomblade,4.25,7,29.75
32,Orenmir,4.95,6,29.7
103,Singed Scalpel,4.87,6,29.22
107,"Splitter, Foe Of Subtlety",3.61,8,28.88


## Fim

### Obrigado - Data Science Academy - <a href="http://facebook.com/dsacademybr">facebook.com/dsacademybr</a>