# <font color='blue'>Data Science Academy - Python Fundamentos - Capítulo 7</font>

## Download: http://github.com/dsacademybr

In [None]:
# Versão da Linguagem Python
from platform import python_version
print('Versão da Linguagem Python Usada Neste Jupyter Notebook:', python_version())

## Missão: Analisar o Comportamento de Compra de Consumidores.

## Nível de Dificuldade: Alto

Você recebeu a tarefa de analisar os dados de compras de um web site! Os dados estão no formato JSON e disponíveis junto com este notebook.

No site, cada usuário efetua login usando sua conta pessoal e pode adquirir produtos à medida que navega pela lista de produtos oferecidos. Cada produto possui um valor de venda. Dados de idade e sexo de cada usuário foram coletados e estão fornecidos no arquivo JSON.

Seu trabalho é entregar uma análise de comportamento de compra dos consumidores. Esse é um tipo de atividade comum realizado por Cientistas de Dados e o resultado deste trabalho pode ser usado, por exemplo, para alimentar um modelo de Machine Learning e fazer previsões sobre comportamentos futuros.

Mas nesta missão você vai analisar o comportamento de compra dos consumidores usando o pacote Pandas da linguagem Python e seu relatório final deve incluir cada um dos seguintes itens:

** Contagem de Consumidores **

* Número total de consumidores


** Análise Geral de Compras **

* Número de itens exclusivos
* Preço médio de compra
* Número total de compras
* Rendimento total


** Informações Demográficas Por Gênero **

* Porcentagem e contagem de compradores masculinos
* Porcentagem e contagem de compradores do sexo feminino
* Porcentagem e contagem de outros / não divulgados


** Análise de Compras Por Gênero **

* Número de compras
* Preço médio de compra
* Valor Total de Compra
* Compras for faixa etária


** Identifique os 5 principais compradores pelo valor total de compra e, em seguida, liste (em uma tabela): **

* Login
* Número de compras
* Preço médio de compra
* Valor Total de Compra
* Itens mais populares


** Identifique os 5 itens mais populares por contagem de compras e, em seguida, liste (em uma tabela): **

* ID do item
* Nome do item
* Número de compras
* Preço do item
* Valor Total de Compra
* Itens mais lucrativos


** Identifique os 5 itens mais lucrativos pelo valor total de compra e, em seguida, liste (em uma tabela): **

* ID do item
* Nome do item
* Número de compras
* Preço do item
* Valor Total de Compra


** Como considerações finais: **

* Seu script deve funcionar para o conjunto de dados fornecido.
* Você deve usar a Biblioteca Pandas e o Jupyter Notebook.


In [1]:
# Imports
import pandas as pd
import numpy as np

In [2]:
# Carrega o arquivo
load_file = "dados_compras.json"
purchase_file = pd.read_json(load_file, orient = "records")
purchase_file.head()

Unnamed: 0,Login,Idade,Sexo,Item ID,Nome do Item,Valor
0,Aelalis34,38,Masculino,165,Bone Crushing Silver Skewer,3.37
1,Eolo46,21,Masculino,119,"Stormbringer, Dark Blade of Ending Misery",2.32
2,Assastnya25,34,Masculino,174,Primitive Blade,2.46
3,Pheusrical25,21,Masculino,92,Final Critic,1.36
4,Aela59,23,Masculino,63,Stormfury Mace,1.27


## Informações Sobre os Consumidores

In [None]:
# Número total de consumidores
consumidores = purchase_file["Login"]
consumidores = consumidores.drop_duplicates()

print("Quantidade de consumidores:", consumidores.count())

## Análise Geral de Compras

In [None]:
#Número de itens exclusivos
itemCount = purchase_file["Item ID"].drop_duplicates().count()
print("Número de itens exclusivos:", itemCount)


#Preço médio de compra
averagePrice = purchase_file["Valor"].mean()
formatter = "${:,.2f}".format
print("Preço médio de compra:",formatter(averagePrice))

#Número total de compras
print("Número total de compras:",len(purchase_file["Valor"]))

#Rendimento total
totalCompras = purchase_file["Valor"].sum()
print("Rendimento total:",formatter(totalCompras))

## Análise Demográfica

In [None]:
usuarios = purchase_file.loc[:, ["Sexo", "Login", "Idade"]]
usuarios.head()

In [None]:
usuarios = usuarios.drop_duplicates()
usersGenrer = usuarios["Sexo"].value_counts()
print(usersGenrer)
usersGengerPercent = usuarios["Sexo"].value_counts(normalize=True)
print(usersGengerPercent)

## Informações Demográficas Por Gênero

In [None]:
# Porcentagem e contagem de compradores masculinos
usersMale = usersGenrer["Masculino"]
usersMalePercent = usersGengerPercent["Masculino"]
print("Compradores masculinos:", usersMale, "(",100*usersMalePercent,"%)")

# Porcentagem e contagem de compradores do sexo feminino
usersFemale = usersGenrer["Feminino"]
usersFemalePercent = usersGengerPercent["Feminino"]
print("Compradores feminino:", usersFemale, "(",100*usersFemalePercent,"%)")

# Porcentagem e contagem de outros / não divulgados
usersOthers = usersGenrer["Outro / Não Divulgado"]
usersOthersPercent = usersGengerPercent["Outro / Não Divulgado"]
print("Compradores Outro / Não Divulgado:", usersOthers, "(",100*usersOthersPercent,"%)")


## Análise de Compras Por Gênero

In [None]:
menPurchases = purchase_file.where(purchase_file["Sexo"] == "Masculino")
menPurchases = menPurchases.dropna()

womenPurchases = purchase_file.where(purchase_file["Sexo"] == "Feminino")
womenPurchases = womenPurchases.dropna()

othersPurchases = purchase_file.where(purchase_file["Sexo"] == "Outro / Não Divulgado")
othersPurchases = othersPurchases.dropna()

# Número de compras
print("Número de compras por homens:", len(menPurchases["Valor"]))

print("Número de compras por mulheres:", len(womenPurchases["Valor"]))

print("Número de compras por Outro / Não Divulgado:", len(othersPurchases["Valor"]))

# Preço médio de compra
averagePriceMen = menPurchases["Valor"].mean()
formatter = "${:,.2f}".format
print("Preço médio de compra por homens:",formatter(averagePriceMen))

averagePriceWomen = womenPurchases["Valor"].mean()
formatter = "${:,.2f}".format
print("Preço médio de compra por mulheres:",formatter(averagePriceWomen))

averagePriceOthers = othersPurchases["Valor"].mean()
formatter = "${:,.2f}".format
print("Preço médio de compra por Outro / Não Divulgado:",formatter(averagePriceOthers))

# Valor Total de Compra
menPurchasesTotal = menPurchases["Valor"].sum()
print("Rendimento total por homens:",formatter(menPurchasesTotal))
      
womenPurchasesTotal = womenPurchases["Valor"].sum()
print("Rendimento total por homens:",formatter(womenPurchasesTotal))
      
othersPurchasesTotal = othersPurchases["Valor"].sum()
print("Rendimento total por homens:",formatter(othersPurchasesTotal))

# Compras for faixa etária
menPurchasesByAge = menPurchases[["Login","Idade"]].drop_duplicates()
menPurchasesByAge = menPurchasesByAge["Idade"].astype(np.int64).value_counts()

womenPurchasesByAge = womenPurchases[["Login","Idade"]].drop_duplicates()
womenPurchasesByAge = womenPurchasesByAge["Idade"].astype(np.int64).value_counts()

othersPurchasesByAge = othersPurchases[["Login","Idade"]].drop_duplicates()
othersPurchasesByAge = othersPurchasesByAge["Idade"].astype(np.int64).value_counts()


In [None]:
graphMen = menPurchasesByAge.plot.barh(x= 'Idades', y= 'compras')


In [None]:
graphWomen = womenPurchasesByAge.plot.barh(x= 'Idades', y= 'compras')


In [None]:
graphOthers = othersPurchasesByAge.plot.barh(x= 'Idades', y= 'compras')


## Consumidores Mais Populares (Top 5)

In [None]:
#Identifique os 5 principais compradores pelo valor total de compra e, em seguida, liste (em uma tabela): **
#Login
#Número de compras
#Preço médio de compra
#Valor Total de Compra
purchasesSum = purchase_file.groupby(['Login']).sum()['Valor']
purchasesCount = purchase_file.groupby(['Login']).count()['Valor']
purchasesMean = purchase_file.groupby(['Login']).mean()['Valor']
df_top5 = pd.DataFrame(data = {'Número de compras': purchasesCount, 'Preço médio de compra': purchasesMean, 'Valor Total de Compra': purchasesSum})



In [None]:
df_top5 = df_top5.sort_values(by=['Valor Total de Compra'], ascending = False).head()
df_top5

## Itens Mais Populares

In [23]:
#** Identifique os 5 itens mais populares por contagem de compras e, em seguida, liste (em uma tabela): **
# ID do item
#Nome do item
#Número de compras
#Preço do item
#Valor Total de Compra
prods = purchase_file[['Item ID','Nome do Item',"Valor"]]
prods = prods.set_index('Nome do Item').dropna()
prdtosCnt = purchase_file.groupby(["Nome do Item"]).count()["Valor"]
prdtosSum = purchase_file.groupby(["Nome do Item"]).sum()['Valor']
prods['Número de compras'] = prdtosCnt
prods['Valor Total de Compra'] = prdtosSum
prods ["Valor Total de Compra"] = prods["Valor Total de Compra"].map("${:,.2f}".format)
prods ["Valor"] = prods["Valor"].map("${:,.2f}".format)
prods = prods.rename(columns={"Valor": "Preço do item"})
pop5 = prods.sort_values(by=['Número de compras'], ascending = False).drop_duplicates().head()

In [24]:
pop5

Unnamed: 0_level_0,Item ID,Preço do item,Número de compras,Valor Total de Compra
Nome do Item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Final Critic,101,$4.62,14,$38.60
Final Critic,92,$1.36,14,$38.60
"Betrayal, Whisper of Grieving Widows",39,$2.35,11,$25.85
Arcane Gem,84,$2.23,11,$24.53
Stormcaller,180,$2.78,10,$34.65


## Itens Mais Lucrativos

In [21]:
# ** Identifique os 5 itens mais lucrativos pelo valor total de compra e, em seguida, liste (em uma tabela): **

'''ID do item
Nome do item
Número de compras
Preço do item
Valor Total de Compra'''
prods.sort_values(by=['Valor Total de Compra'], ascending = False)

Unnamed: 0_level_0,Item ID,Preço do item,Número de compras,Valor Total de Compra
Nome do Item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Shadowsteel,170,$1.98,5,$9.90
Shadowsteel,170,$1.98,5,$9.90
Shadowsteel,170,$1.98,5,$9.90
Shadowsteel,170,$1.98,5,$9.90
Shadowsteel,170,$1.98,5,$9.90
...,...,...,...,...
Exiled Doomblade,164,$1.92,1,$1.92
Splinter,0,$1.82,1,$1.82
Phantomlight,3,$1.79,1,$1.79
"Lightning, Etcher of the King",59,$1.65,1,$1.65


## Fim


### Obrigado

### Visite o Blog da Data Science Academy - <a href="http://blog.dsacademy.com.br">Blog DSA</a>
