# <font color='blue'>Data Science Academy - Python Fundamentos - Capítulo 7</font>

## Download: http://github.com/dsacademybr

## Missão: Analisar o Comportamento de Compra de Consumidores.

## Nível de Dificuldade: Alto

Você recebeu a tarefa de analisar os dados de compras de um web site! Os dados estão no formato JSON e disponíveis junto com este notebook.

No site, cada usuário efetua login usando sua conta pessoal e pode adquirir produtos à medida que navega pela lista de produtos oferecidos. Cada produto possui um valor de venda. Dados de idade e sexo de cada usuário foram coletados e estão fornecidos no arquivo JSON.

Seu trabalho é entregar uma análise de comportamento de compra dos consumidores. Esse é um tipo de atividade comum realizado por Cientistas de Dados e o resultado deste trabalho pode ser usado, por exemplo, para alimentar um modelo de Machine Learning e fazer previsões sobre comportamentos futuros.

Mas nesta missão você vai analisar o comportamento de compra dos consumidores usando o pacote Pandas da linguagem Python e seu relatório final deve incluir cada um dos seguintes itens:

** Contagem de Consumidores **

* Número total de consumidores


** Análise Geral de Compras **

* Número de itens exclusivos
* Preço médio de compra
* Número total de compras
* Rendimento total


** Informações Demográficas Por Gênero **

* Porcentagem e contagem de compradores masculinos
* Porcentagem e contagem de compradores do sexo feminino
* Porcentagem e contagem de outros / não divulgados


** Análise de Compras Por Gênero **

* Número de compras
* Preço médio de compra
* Valor Total de Compra
* Compras for faixa etária


** Identifique os 5 principais compradores pelo valor total de compra e, em seguida, liste (em uma tabela): **

* Login
* Número de compras
* Preço médio de compra
* Valor Total de Compra
* Itens mais populares


** Identifique os 5 itens mais populares por contagem de compras e, em seguida, liste (em uma tabela): **

* ID do item
* Nome do item
* Número de compras
* Preço do item
* Valor Total de Compra
* Itens mais lucrativos


** Identifique os 5 itens mais lucrativos pelo valor total de compra e, em seguida, liste (em uma tabela): **

* ID do item
* Nome do item
* Número de compras
* Preço do item
* Valor Total de Compra


** Como considerações finais: **

* Seu script deve funcionar para o conjunto de dados fornecido.
* Você deve usar a Biblioteca Pandas e o Jupyter Notebook.


In [1]:
# Imports
import pandas as pd
import numpy as np

In [2]:
# Carrega o arquivo
load_file = "dados_compras.json"
purchase_file = pd.read_json(load_file, orient = "records")
purchase_file.head(8)

Unnamed: 0,Login,Idade,Sexo,Item ID,Nome do Item,Valor
0,Aelalis34,38,Masculino,165,Bone Crushing Silver Skewer,3.37
1,Eolo46,21,Masculino,119,"Stormbringer, Dark Blade of Ending Misery",2.32
2,Assastnya25,34,Masculino,174,Primitive Blade,2.46
3,Pheusrical25,21,Masculino,92,Final Critic,1.36
4,Aela59,23,Masculino,63,Stormfury Mace,1.27
5,Tanimnya91,20,Masculino,10,Sleepwalker,1.73
6,Undjaskla97,20,Masculino,153,Mercenary Sabre,4.57
7,Iathenudil29,29,Feminino,169,"Interrogator, Blood Blade of the Queen",3.32


## Informações Sobre os Consumidores

In [17]:
# Implemente aqui sua solução

# ** Contagem de Consumidores **
# Número total de consumidores

# Remove registros duplicados a partir da coluna login
# purchase_file.drop_duplicates(subset ="Login", keep = 'first', inplace = True)
# print(purchase_file.count()[0])

player_demographics = purchase_file.loc[:, ["Sexo", "Login", "Idade"]]
player_demographics.head()

# Limpeza dos dados e remoção de duplicatas
player_demographics = player_demographics.drop_duplicates()
#player_demographics
player_count = player_demographics.count()[0]
player_count
#print (player_count)

# Converter saída para DF para uso posterior em análise
pd.DataFrame({"Total de Compradores" : [player_count]})

Unnamed: 0,Total de Compradores
0,573


## Análise Geral de Compras

In [18]:
# Implemente aqui sua solução

# Número de itens exclusivos
total_itens_unicos = len(purchase_file["Item ID"].unique())
# Preço médio de compra
preco_medio_compras = purchase_file["Valor"].mean()
# Número total de compras
qtd_compras = purchase_file["Valor"].count()
# Rendimento total
total_das_compras = purchase_file["Valor"].sum()

# Dataframe para os resultados
resultados_compras = pd.DataFrame({"Número de Itens Únicos" : total_itens_unicos,
                                   "Número de Compras" : qtd_compras, 
                                   "Total de Vendas" : total_das_compras, 
                                   "Preço Médio" : [preco_medio_compras]})

# Data Munging
resultados_compras = resultados_compras.round(2)
resultados_compras ["Preço Médio"] = resultados_compras["Preço Médio"].map("${:,.2f}".format)
resultados_compras ["Total de Vendas"] = resultados_compras["Total de Vendas"].map("${:,.2f}".format)
resultados_compras = resultados_compras.loc[:, ["Número de Itens Únicos", "Preço Médio", "Número de Compras", "Total de Vendas"]]

resultados_compras

Unnamed: 0,Número de Itens Únicos,Preço Médio,Número de Compras,Total de Vendas
0,183,$2.93,780,"$2,286.33"


## Análise Demográfica

In [19]:
# Implemente aqui sua solução
player_demographics

# Define as faixas de idade
age_bins = [0, 9.99, 14.99, 19.99, 24.99, 29.99, 34.99, 39.99, 999]
age_bracket = ["Menos de 10", "10 a 14", "15 a 19", "20 a 24", "25 a 29", "30 a 34", "35 a 39", "Mais de 40"]

# cut = segmentação e classificação valores de dados em compartimentos
purchase_file["Range de Idades"] = pd.cut(purchase_file["Idade"], age_bins, labels=age_bracket)

# Quantidade de compras por gênero
age_demographics_count = purchase_file["Range de Idades"].value_counts()
# Média do valor de compras por gênero
age_demographics_average_item_price = purchase_file.groupby(["Range de Idades"]).mean()["Valor"]
# Total de compras por gênero
age_demographics_total_item_price = purchase_file.groupby(["Range de Idades"]).sum()["Valor"]
# Percentual de compras por gênero
age_demographics_percent = (age_demographics_count / player_count) * 100

# Cria Dataframe para os resultados
age_demographics = pd.DataFrame({"Contagem": age_demographics_count, 
                                 "%": age_demographics_percent, 
                                 "Valor Unitario": age_demographics_average_item_price, 
                                 "Valor Total de Compra": age_demographics_total_item_price})

# Monta exibição dos dados
age_demographics ["Valor Unitario"] = age_demographics["Valor Unitario"].map("${:,.2f}".format)
age_demographics ["Valor Total de Compra"] = age_demographics["Valor Total de Compra"].map("${:,.2f}".format)
age_demographics ["%"] = age_demographics["%"].map("{:,.2f}%".format)

age_demographics

Unnamed: 0,Contagem,%,Valor Unitario,Valor Total de Compra
Menos de 10,28,4.89%,$2.98,$83.46
10 a 14,35,6.11%,$2.77,$96.95
15 a 19,133,23.21%,$2.91,$386.42
20 a 24,336,58.64%,$2.91,$978.77
25 a 29,125,21.82%,$2.96,$370.33
30 a 34,64,11.17%,$3.08,$197.25
35 a 39,42,7.33%,$2.84,$119.40
Mais de 40,17,2.97%,$3.16,$53.75


## Informações Demográficas Por Gênero

In [20]:
# Implemente aqui sua solução

qtd_clientes = purchase_file.loc[:, ["Sexo", "Login", "Idade"]]
qtd_clientes.head()

# Limpeza dos dados e remoção de duplicatas
qtd_clientes = qtd_clientes.drop_duplicates()
player_count = qtd_clientes.count()[0]

# Total de clientes por gênero
total_genero = qtd_clientes["Sexo"].value_counts()
# Percentual de clientes por gênero
percentual_genero = (total_genero / player_count)*100

# DataFrame com os dados dos clientes por gênero
dados_genero = pd.DataFrame({'Sexo': total_genero,
                             'Percentual': percentual_genero})

dados_genero = dados_genero.round(2)
dados_genero ["Percentual"] = dados_genero["Percentual"].map("{:,.1f}%".format)

dados_genero

Unnamed: 0,Sexo,Percentual
Masculino,465,81.2%
Feminino,100,17.4%
Outro / NÃ£o Divulgado,8,1.4%


## Análise de Compras Por Gênero

In [21]:
# Implemente aqui sua solução

# Número de compras
purchase_count = purchase_file.groupby(["Sexo"]).count()["Valor"].rename("Número de Compras")
# Preço médio de compra
gender_average_item_price = purchase_file.groupby(["Sexo"]).mean()["Valor"].rename("Preço Médio")
# Valor Total de Compra
gender_total_item_price = purchase_file.groupby(["Sexo"]).sum()["Valor"].rename("Total de Vendas")
# Compras for faixa etária
normalized_total = gender_total_item_price / dados_genero["Sexo"]


# Armazenando o resultado em um Dataframe
analise_compras_por_genero = pd.DataFrame({"Número de Compras" : purchase_count, 
                                           "Valor Médio Por Item" : gender_average_item_price, 
                                           "Total de Vendas" : gender_total_item_price, 
                                           "Total Normalizado" : normalized_total})

# Data Munging
analise_compras_por_genero = analise_compras_por_genero.round(2)
analise_compras_por_genero ["Valor Médio Por Item"] = analise_compras_por_genero["Valor Médio Por Item"].map("${:,.2f}".format)
analise_compras_por_genero ["Total de Vendas"] = analise_compras_por_genero["Total de Vendas"].map("${:,.2f}".format)
analise_compras_por_genero ["Total Normalizado"] = analise_compras_por_genero["Total Normalizado"].map("${:,.2f}".format)

analise_compras_por_genero

Unnamed: 0_level_0,Número de Compras,Valor Médio Por Item,Total de Vendas,Total Normalizado
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Feminino,136,$2.82,$382.91,$3.83
Masculino,633,$2.95,"$1,867.68",$4.02
Outro / NÃ£o Divulgado,11,$3.25,$35.74,$4.47


## Consumidores Mais Populares (Top 5)

In [22]:
# Implemente aqui sua solução

# Valor total das compras por usuário
user_total = purchase_file.groupby(["Login"]).sum()["Valor"].rename("Valor Total de Compra")
# Valor médio de compras por usuário
user_average = purchase_file.groupby(["Login"]).mean()["Valor"].rename("Valor Médio de Compra")
# Quantidade de compras por usuário
user_count = purchase_file.groupby(["Login"]).count()["Valor"].rename("Número de Compras")

# Monta o DataFrame de dados
user_data = pd.DataFrame({"Valor Total de Compra": user_total, 
                          "Valor Médio de Compra": user_average, 
                          "Número de Compras": user_count})

# Monta a exibição dos dados
user_data ["Valor Total de Compra"] = user_data["Valor Total de Compra"].map("${:,.2f}".format)
user_data ["Valor Médio de Compra"] = user_data["Valor Médio de Compra"].map("${:,.2f}".format)
user_data.sort_values("Valor Total de Compra", ascending=False).head(5)

#user_data

Unnamed: 0_level_0,Valor Total de Compra,Valor Médio de Compra,Número de Compras
Login,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Qarwen67,$9.97,$2.49,4
Sondim43,$9.38,$3.13,3
Tillyrin30,$9.19,$3.06,3
Lisistaya47,$9.19,$3.06,3
Tyisriphos58,$9.18,$4.59,2


## Itens Mais Populares

In [25]:
# Implemente aqui sua solução

# Cálculos básicos
user_total = purchase_file.groupby(["Nome do Item"]).sum()["Valor"].rename("Valor Total de Compra")
user_average = purchase_file.groupby(["Nome do Item"]).mean()["Valor"].rename("Valor Médio de Compra")
user_count = purchase_file.groupby(["Nome do Item"]).count()["Valor"].rename("Número de Compras")

# Dataframe para os resultados
user_data = pd.DataFrame({"Valor Total de Compra": user_total, 
                          "Valor Médio de Compra": user_average, 
                          "Número de Compras": user_count})

# Data Munging
user_data ["Valor Total de Compra"] = user_data["Valor Total de Compra"].map("${:,.2f}".format)
user_data ["Valor Médio de Compra"] = user_data["Valor Médio de Compra"].map("${:,.2f}".format)
user_data.sort_values("Número de Compras", ascending=False).head(5)

Unnamed: 0_level_0,Valor Total de Compra,Valor Médio de Compra,Número de Compras
Nome do Item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Final Critic,$38.60,$2.76,14
Arcane Gem,$24.53,$2.23,11
"Betrayal, Whisper of Grieving Widows",$25.85,$2.35,11
Stormcaller,$34.65,$3.46,10
Woeful Adamantite Claymore,$11.16,$1.24,9


## Itens Mais Lucrativos

In [26]:
# Implemente aqui sua solução

# Cálculos básicos
user_total = purchase_file.groupby(["Nome do Item"]).sum()["Valor"].rename("Valor Total de Compra")
user_average = purchase_file.groupby(["Nome do Item"]).mean()["Valor"].rename("Valor Médio de Compra")
user_count = purchase_file.groupby(["Nome do Item"]).count()["Valor"].rename("Número de Compras")

# Dataframe para os resultados
user_data = pd.DataFrame({"Valor Total de Compra": user_total,
                          "Valor Médio de Compra": user_average, \
                          "Número de Compras": user_count})

# Data Munging
user_data ["Valor Total Compra"] = user_data["Valor Total de Compra"]
user_data ["Valor Total de Compra"] = user_data["Valor Total de Compra"].map("${:,.2f}".format)
user_data ["Valor Médio de Compra"] = user_data["Valor Médio de Compra"].map("${:,.2f}".format)


display(user_data.sort_values("Valor Total Compra", ascending=False).head(5)[ \
    ['Valor Total de Compra','Valor Médio de Compra','Número de Compras']])

Unnamed: 0_level_0,Valor Total de Compra,Valor Médio de Compra,Número de Compras
Nome do Item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Final Critic,$38.60,$2.76,14
Retribution Axe,$37.26,$4.14,9
Stormcaller,$34.65,$3.46,10
Spectral Diamond Doomblade,$29.75,$4.25,7
Orenmir,$29.70,$4.95,6


## Fim

### Obrigado - Data Science Academy - <a href="http://facebook.com/dsacademybr">facebook.com/dsacademybr</a>