## Tarefa: Analisar o Comportamento de Compra de Consumidores.

Você recebeu a tarefa de analisar os dados de compras de um web site! Os dados estão no formato JSON.

No site, cada usuário efetua login usando sua conta pessoal e pode adquirir produtos à medida que navega pela lista de produtos oferecidos. Cada produto possui um valor de venda. Dados de idade e sexo de cada usuário foram coletados e estão fornecidos no arquivo JSON.

Seu trabalho é entregar uma análise de comportamento de compra dos consumidores. Esse é um tipo de atividade comum realizado por Cientistas de Dados e o resultado deste trabalho pode ser usado, por exemplo, para alimentar um modelo de Machine Learning e fazer previsões sobre comportamentos futuros.

Mas nesta missão você vai analisar o comportamento de compra dos consumidores na linguagem Python e seu relatório final deve incluir cada um dos seguintes itens:

** Contagem de Compradores **

* Número total de compradores


** Análise Geral de Compras **

* Número de itens exclusivos
* Preço médio de compra
* Número total de compras
* Rendimento total


** Informações Demográficas Por Gênero **

* Porcentagem e contagem de compradores masculinos
* Porcentagem e contagem de compradores do sexo feminino
* Porcentagem e contagem de outros / não divulgados


** Análise de Compras Por Gênero **

* Número de compras
* Preço médio de compra
* Valor Total de Compra
* Compras for faixa etária


** Identifique os 5 principais compradores pelo valor total de compra e, em seguida, liste: **

* Login
* Número de compras
* Preço médio de compra
* Valor Total de Compra
* Itens mais populares


** Identifique os 5 itens mais populares por contagem de compras e, em seguida, liste: **

* ID do item
* Nome do item
* Número de compras
* Preço do item
* Valor Total de Compra


** Identifique os 5 itens mais lucrativos pelo valor total de compra e, em seguida, liste: **

* ID do item
* Nome do item
* Número de compras
* Preço do item
* Valor Total de Compra


** Como considerações finais: **

* Seu script deve funcionar para o conjunto de dados fornecido.
* Eu sugiro o uso dos pacotes numpy e pandas, porém serão aceitos quaisquer outros pacotes utilizados.
* A biblioteca pandas possui funções implementadas que permitem a realização de quase todas as tarefas desse exercício sem necessidade de utilizar comandos de repetição (for ou while). Portanto procurem as funções desse pacote que melhor auxiliem na resolução dessa atividade.  


## Informações Sobre os Consumidores

In [246]:
# Imports
import pandas as pd
import numpy as np


In [212]:
# Endereco do arquivo
endereco = 'dados_compras.json'

dados_compras = pd.read_json(endereco, orient = "values")
dados_compras.head()#Para ver toda a tabela de valores basta remover o head()

Unnamed: 0,Idade,Item ID,Login,Nome do Item,Sexo,Valor
0,38,165,Aelalis34,Bone Crushing Silver Skewer,Masculino,3.37
1,21,119,Eolo46,"Stormbringer, Dark Blade of Ending Misery",Masculino,2.32
2,34,174,Assastnya25,Primitive Blade,Masculino,2.46
3,21,92,Pheusrical25,Final Critic,Masculino,1.36
4,23,63,Aela59,Stormfury Mace,Masculino,1.27


In [213]:
#Para acessar as posições da variavel
dados_compras['Login'][0]

u'Aelalis34'

## Análise Geral de Compras

In [214]:
#Total Exclusivos 

In [215]:
dados_compras['Item ID'].value_counts()

84     11
39     11
31      9
34      9
175     9
13      9
106     8
44      8
92      8
65      8
152     8
107     8
172     7
179     7
115     7
154     7
79      7
158     7
108     7
66      7
11      7
130     7
18      7
124     6
103     6
101     6
121     6
102     6
73      6
145     6
       ..
116     2
89      2
64      2
9       2
167     2
80      2
74      2
72      2
146     2
149     2
150     2
178     2
62      2
58      2
56      2
55      2
4       1
2       1
3       1
59      1
28      1
168     1
164     1
43      1
156     1
147     1
136     1
126     1
109     1
0       1
Name: Item ID, dtype: int64

In [216]:
total_exclusivos = pd.DataFrame(dados_compras['Item ID'].unique())

In [217]:
len(total_exclusivos )

183

In [218]:
#Preço Medio de Compra 

In [219]:
total_vendas= dados_compras['Valor'].count()

In [220]:
total_tabela = round(dados_compras['Valor'].sum(),2)

In [221]:
Preco_Medio = round(total_tabela/total_vendas, 2)

In [222]:
print(Preco_Medio)

2.93


In [223]:
#Numero Total de Compras 

In [224]:
print(total_vendas)

780


In [225]:
#Rendimento Total
print(total_tabela)

2286.33


In [226]:
# Implemente aqui sua solução

## Análise Demográfica

## Informações Demográficas Por Gênero

In [578]:
duplicados_pessoas = dados_compras.drop_duplicates(['Login'], keep ='last')

In [579]:
login_contador = len(dados_compras['Login'].unique())

In [580]:
contar_generos = duplicados_pessoas['Sexo'].value_counts().reset_index()

In [581]:
contar_generos['% De Generos'] = contar_generos['Sexo']/login_contador* 100

In [582]:
contar_generos.rename(columns = {'index': 'Sexo', 'Sexo': 'Quantidade de Pessoas '}, inplace = True)

In [583]:
contar_generos.set_index(['Sexo'], inplace = True)

In [584]:
contar_generos.style.format({"% Logins": "{:.1f}%"})

Unnamed: 0_level_0,Quantidade de Pessoas,% De Generos
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1
Masculino,465,81.1518
Feminino,100,17.452
Outro / Não Divulgado,8,1.39616


In [585]:
# Implemente aqui sua solução

In [586]:
# Implemente aqui sua solução

## Análise de Compras Por Gênero

In [587]:
# Implemente aqui sua solução

In [588]:
contar_compra_genero = pd.DataFrame(dados_compras.groupby('Sexo')['Sexo'].count())

In [589]:
total_compra_genero = pd.DataFrame(dados_compras.groupby('Sexo')['Valor'].sum())

In [590]:
analise_por_Genero = pd.merge(contar_compra_genero, total_compra_genero, left_index = True, right_index = True)

In [591]:
analise_por_Genero.rename(columns = {'Sexo': 'QTD de Compras', 'Valor':'Valor Total de Compra'}, inplace=True)

In [592]:
analise_por_Genero['Preco medio de compra'] = analise_por_Genero['Valor Total de Compra']/analise_por_Genero['QTD de Compras']

In [593]:
analise_por_Genero = analise_por_Genero.merge(contar_generos, left_index = True, right_index = True)

In [594]:
analise_por_Genero

Unnamed: 0_level_0,QTD de Compras,Valor Total de Compra,Preco medio de compra,Quantidade de Pessoas,% De Generos
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Masculino,633,1867.68,2.950521,465,81.151832
Feminino,136,382.91,2.815515,100,17.452007
Outro / Não Divulgado,11,35.74,3.249091,8,1.396161


In [595]:
del analise_por_Genero['% De Generos']

In [596]:
del analise_por_Genero['QTD de Compras']

In [597]:
analise_por_Genero.style.format({'Valor Total de Compra ': '${:.2f}', 'Preco medio de compra': '${:.2f}', 'Totais normalizados': '${:.2f}'})

Unnamed: 0_level_0,Valor Total de Compra,Preco medio de compra,Quantidade de Pessoas
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Masculino,1867.68,$2.95,465
Feminino,382.91,$2.82,100
Outro / Não Divulgado,35.74,$3.25,8


In [598]:
#FAIXA ETARIA 

In [599]:

dados_compras.loc[(dados_compras['Idade'] < 10), 'Idade_bin'] = "< 10"
dados_compras.loc[(dados_compras['Idade'] >= 10) & (dados_compras['Idade'] <= 14), 'Idade_bin'] = "10 - 14"
dados_compras.loc[(dados_compras['Idade'] >= 15) & (dados_compras['Idade'] <= 19), 'Idade_bin'] = "15 - 19"
dados_compras.loc[(dados_compras['Idade'] >= 20) & (dados_compras['Idade'] <= 24), 'Idade_bin'] = "20 - 24"
dados_compras.loc[(dados_compras['Idade'] >= 25) & (dados_compras['Idade'] <= 29), 'Idade_bin'] = "25 - 29"
dados_compras.loc[(dados_compras['Idade'] >= 30) & (dados_compras['Idade'] <= 34), 'Idade_bin'] = "30 - 34"
dados_compras.loc[(dados_compras['Idade'] >= 35) & (dados_compras['Idade'] <= 39), 'Idade_bin'] = "35 - 39"
dados_compras.loc[(dados_compras['Idade'] >= 40), 'Idade_bin'] = ">= 40"


In [600]:
contar_idade = pd.DataFrame(dados_compras.groupby('Idade_bin')['Login'].count())

In [601]:
media_Preco_idade = pd.DataFrame(dados_compras.groupby('Idade_bin')['Valor'].mean())

In [602]:
Total_idade = pd.DataFrame(dados_compras.groupby('Idade_bin')['Valor'].sum())

In [603]:
delete_multi_idade = pd.DataFrame(dados_compras.drop_duplicates('Login', keep = 'last').groupby('Idade_bin')['Login'].count())

In [604]:
mesclar_idade = pd.merge(contar_idade , media_Preco_idade, left_index = True, right_index = True).merge(Total_idade, 
left_index = True, right_index = True).merge(delete_multi_idade, left_index = True, right_index = True)


In [605]:
mesclar_idade.rename(columns = {"Login_x": "QTD de Compras", "Valor_x": "Preco medio de compra", "Valor_y": "Valor Total de Compra", "Sexo_y":
    "QTD de Compras"}, inplace = True)


In [606]:
mesclar_idade.index.rename("Idade", inplace = True)

In [607]:
mesclar_idade.style.format({'Preço medio de compra': '${:.2f}', 'Valor Total de Compra': '${:.2f}'})

Unnamed: 0_level_0,QTD de Compras,Preco medio de compra,Valor Total de Compra,Login_y
Idade,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
10 - 14,35,2.77,$96.95,23
15 - 19,133,2.90541,$386.42,100
20 - 24,336,2.91301,$978.77,259
25 - 29,125,2.96264,$370.33,87
30 - 34,64,3.08203,$197.25,47
35 - 39,42,2.84286,$119.40,27
< 10,28,2.98071,$83.46,19
>= 40,17,3.16176,$53.75,11


## Consumidores Mais Populares (Top 5)

In [608]:
compra_login = pd.DataFrame(dados_compras.groupby('Login')['Valor'].sum())
numero_compra = pd.DataFrame(dados_compras.groupby('Login')['Valor'].count())
media_compra = pd.DataFrame(dados_compras.groupby('Login')['Valor'].mean())

In [609]:
top5 = pd.merge(compra_login , numero_compra, left_index = True, right_index = True).merge(media_compra, left_index=True, right_index=True)

In [610]:
top5.rename(columns = {'Valor_x': 'Valor Total de Compra', 'Valor_y':'Contagem de compras', 'Valor':'Preco Media Compra'}, inplace = True)

In [611]:
top5.sort_values('Valor Total de Compra', ascending = False, inplace=True)

In [612]:
top5 = top5.head()

In [613]:
top5.style.format({'Valor Total de Compra': '${:.2f}', 'Preco Media Compra': '${:.2f}'})

Unnamed: 0_level_0,Valor Total de Compra,Contagem de compras,Preco Media Compra
Login,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Undirrala66,$17.06,5,$3.41
Saedue76,$13.56,4,$3.39
Mindimnya67,$12.74,4,$3.18
Haellysu29,$12.73,3,$4.24
Eoda93,$11.58,3,$3.86


## Itens Mais Populares

In [614]:
#Itens Mais Populares 

In [615]:
top5_items_ID = pd.DataFrame(dados_compras.groupby('Item ID')['Item ID'].count())

In [616]:
top5_items_ID.sort_values('Item ID', ascending = False, inplace = True)

In [617]:
top5_items_ID = top5_items_ID.iloc[0:6][:]

In [618]:
top5_items_total = pd.DataFrame(dados_compras.groupby('Item ID')['Valor'].sum())

In [619]:
top5_items = pd.merge(top5_items_ID, top5_items_total, left_index = True, right_index = True)

In [620]:
no_dup_items = dados_compras.drop_duplicates(['Item ID'], keep = 'last')

In [621]:
top5_merge_ID = pd.merge(top5_items, no_dup_items, left_index = True, right_on = 'Item ID')

In [622]:
top5_merge_ID = top5_merge_ID[['Item ID', 'Nome do Item', 'Item ID_x', 'Valor_y', 'Valor_x']]

In [623]:
top5_merge_ID.set_index(['Item ID'], inplace = True)

In [624]:
top5_merge_ID.rename(columns =  {'Item ID_x': 'Contagem de compras', 'Valor_y': 'Valor do Item', 'Valor_x': 'Valor Total de Compra'}, inplace=True)

In [625]:
top5_merge_ID.style.format({'Valor do Item': '${:.2f}', 'Valor Total de Compra': '${:.2f}'})

Unnamed: 0_level_0,Nome do Item,Contagem de compras,Valor do Item,Valor Total de Compra
Item ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
13,Serenity,9,$1.49,$13.41
31,Trickster,9,$2.07,$18.63
34,Retribution Axe,9,$4.14,$37.26
39,"Betrayal, Whisper of Grieving Widows",11,$2.35,$25.85
84,Arcane Gem,11,$2.23,$24.53
175,Woeful Adamantite Claymore,9,$1.24,$11.16


## Itens Mais Lucrativos

In [626]:
top5_lucro = pd.DataFrame(dados_compras.groupby('Item ID')['Valor'].sum())

In [627]:
top5_lucro.sort_values('Valor', ascending = False, inplace = True)

In [628]:
top5_lucro = top5_lucro.iloc[0:5][:]

In [629]:
contar_lucro = pd.DataFrame(dados_compras.groupby('Item ID')['Item ID'].count())

In [630]:
top5_lucro = pd.merge(top5_lucro, contar_lucro, left_index = True, right_index = True, how = 'left')

In [631]:
top5_juntar_lucro = pd.merge(top5_lucro, no_dup_items, left_index = True, right_on = 'Item ID', how = 'left')

In [632]:
top5_juntar_lucro = top5_juntar_lucro[['Item ID', 'Nome do Item', 'Item ID_x', 'Valor_y','Valor_x']]

In [633]:
top5_juntar_lucro.set_index(['Item ID'], inplace=True)

In [634]:
top5_juntar_lucro.rename(columns = {'Item ID_x': 'Contagem Compras', 'Valor_y': 'Item Valor', 'Valor_x': 'Valor Total de Compra'}, inplace = True)

In [635]:
top5_juntar_lucro.style.format({'Item Valor': '${:.2f}', 'Valor Total de Compra': '${:.2f}'})

Unnamed: 0_level_0,Nome do Item,Contagem Compras,Item Valor,Valor Total de Compra
Item ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
34,Retribution Axe,9,$4.14,$37.26
115,Spectral Diamond Doomblade,7,$4.25,$29.75
32,Orenmir,6,$4.95,$29.70
103,Singed Scalpel,6,$4.87,$29.22
107,"Splitter, Foe Of Subtlety",8,$3.61,$28.88


In [636]:
# Implemente aqui sua solução

In [637]:
# Implemente aqui sua solução

In [638]:
# Implemente aqui sua solução

## Fim