# <font color='blue'>Data Science Academy - Python Fundamentos - Capítulo 7</font>

## Download: http://github.com/dsacademybr

In [None]:
# Versão da Linguagem Python
from platform import python_version
print('Versão da Linguagem Python Usada Neste Jupyter Notebook:', python_version())

## Missão: Analisar o Comportamento de Compra de Consumidores.

## Nível de Dificuldade: Alto

Você recebeu a tarefa de analisar os dados de compras de um web site! Os dados estão no formato JSON e disponíveis junto com este notebook.

No site, cada usuário efetua login usando sua conta pessoal e pode adquirir produtos à medida que navega pela lista de produtos oferecidos. Cada produto possui um valor de venda. Dados de idade e sexo de cada usuário foram coletados e estão fornecidos no arquivo JSON.

Seu trabalho é entregar uma análise de comportamento de compra dos consumidores. Esse é um tipo de atividade comum realizado por Cientistas de Dados e o resultado deste trabalho pode ser usado, por exemplo, para alimentar um modelo de Machine Learning e fazer previsões sobre comportamentos futuros.

Mas nesta missão você vai analisar o comportamento de compra dos consumidores usando o pacote Pandas da linguagem Python e seu relatório final deve incluir cada um dos seguintes itens:

** Contagem de Consumidores **

* Número total de consumidores


** Análise Geral de Compras **

* Número de itens exclusivos
* Preço médio de compra
* Número total de compras
* Rendimento total


** Informações Demográficas Por Gênero **

* Porcentagem e contagem de compradores do sexo masculino
* Porcentagem e contagem de compradores do sexo feminino
* Porcentagem e contagem de outros / não divulgados


** Análise de Compras Por Gênero **

* Número de compras
* Preço médio de compra
* Valor Total de Compra
* Compras for faixa etária


** Identifique os 5 principais compradores pelo valor total de compra e, em seguida, liste (em uma tabela): **

* Login
* Número de compras
* Preço médio de compra
* Valor Total de Compra
* Itens mais populares


** Identifique os 5 itens mais populares por contagem de compras e, em seguida, liste (em uma tabela): **

* ID do item
* Nome do item
* Número de compras
* Preço do item
* Valor Total de Compra
* Itens mais lucrativos


** Identifique os 5 itens mais lucrativos pelo valor total de compra e, em seguida, liste (em uma tabela): **

* ID do item
* Nome do item
* Número de compras
* Preço do item
* Valor Total de Compra


** Como considerações finais: **

* Seu script deve funcionar para o conjunto de dados fornecido.
* Você deve usar a Biblioteca Pandas e o Jupyter Notebook.


In [1]:
# Imports
import pandas as pd
import numpy as np

In [2]:
# Carrega o arquivo
load_file = "dados_compras.json"
purchase_file = pd.read_json(load_file, orient = "records")
purchase_file.head(10)

Unnamed: 0,Login,Idade,Sexo,Item ID,Nome do Item,Valor
0,Aelalis34,38,Masculino,165,Bone Crushing Silver Skewer,3.37
1,Eolo46,21,Masculino,119,"Stormbringer, Dark Blade of Ending Misery",2.32
2,Assastnya25,34,Masculino,174,Primitive Blade,2.46
3,Pheusrical25,21,Masculino,92,Final Critic,1.36
4,Aela59,23,Masculino,63,Stormfury Mace,1.27
5,Tanimnya91,20,Masculino,10,Sleepwalker,1.73
6,Undjaskla97,20,Masculino,153,Mercenary Sabre,4.57
7,Iathenudil29,29,Feminino,169,"Interrogator, Blood Blade of the Queen",3.32
8,Sondenasta63,25,Masculino,118,"Ghost Reaver, Longsword of Magic",2.77
9,Hilaerin92,31,Masculino,99,"Expiration, Warscythe Of Lost Worlds",4.53


## Informações Sobre os Consumidores e Análise Demográfica

Conta-se um total de 573 consumidores únicos na base de dados com idade média de 22 anos e predominantemente do sexo masculino (81,15%).

In [3]:
# Número total de consumidores únicos
unique_consumers = purchase_file["Login"].unique()
unique_consumers.size

573

In [4]:
# Idade dos consumidores
ages = [purchase_file[purchase_file["Login"] == consumer]["Idade"].values[0] for consumer in unique_consumers]
ages.sort()

print("Média das Idades: ", np.mean(ages))
print("Mediana das Idades: ", np.median(ages))

Média das Idades:  22.603839441535776
Mediana das Idades:  22.0


In [5]:
# Gênero dos consumidores
ages = [purchase_file[purchase_file["Login"] == consumer]["Idade"].values[0] for consumer in unique_consumers]
genders = [purchase_file[purchase_file["Login"] == consumer]["Sexo"].values[0] for consumer in unique_consumers]

print("Gênero Masculino")
print("Quantidade: ", genders.count("Masculino"))
print("Porcentagem: ", round(genders.count("Masculino") / len(genders) * 100, 2))
ages_by_gender = [ages[i] for i, gender in enumerate(genders) if gender == "Masculino"]
ages_by_gender.sort()
print("Média das Idades: ", round(np.mean(ages_by_gender), 2))
print("Mediana das Idades: ", np.median(ages_by_gender))

print("\nGênero Feminino")
print("Quantidade: ", genders.count("Feminino"))
print("Porcentagem: ", round(genders.count("Feminino") / len(genders) * 100, 2))
ages_by_gender = [ages[i] for i, gender in enumerate(genders) if gender == "Feminino"]
ages_by_gender.sort()
print("Média das Idades: ", round(np.mean(ages_by_gender), 2))
print("Mediana das Idades: ", np.median(ages_by_gender))

print("\nOutros / Não Divulgado")
print("Quantidade: ", genders.count("Outro / Não Divulgado"))
print("Porcentagem: ", round(genders.count("Outro / Não Divulgado") / len(genders) * 100, 2))
ages_by_gender = [ages[i] for i, gender in enumerate(genders) if gender == "Outro / Não Divulgado"]
ages_by_gender.sort()
print("Média das Idades: ", round(np.mean(ages_by_gender), 2))
print("Mediana das Idades: ", np.median(ages_by_gender))

Gênero Masculino
Quantidade:  465
Porcentagem:  81.15
Média das Idades:  22.62
Mediana das Idades:  22.0

Gênero Feminino
Quantidade:  100
Porcentagem:  17.45
Média das Idades:  22.26
Mediana das Idades:  22.0

Outros
Quantidade:  8
Porcentagem:  1.4
Média das Idades:  25.88
Mediana das Idades:  26.5


## Análise Geral de Compras

Na base de dados existem 183 itens únicos.

Foram realizadas 780 compras somando 2.286,33 unidades monetárias com valor médio de compra de 2,93 unidades monetárias.

In [32]:
# Número de itens exclusivos
purchase_file["Item ID"].nunique()

183

In [7]:
# Preço médio de compra
round(np.sum(purchase_file["Valor"]) / purchase_file.shape[0], 2)

2.93

In [8]:
# Número total de compras
purchase_file.shape[0]

780

In [9]:
# Rendimento total
np.sum(purchase_file["Valor"]) 

2286.33

## Análise de Compras Por Gênero

In [17]:
# Número de compras
print("Quantidade de compras feitas por consumidores do sexo Masculino: ", purchase_file[purchase_file["Sexo"] == "Masculino"]["Item ID"].count())
print("Quantidade de compras feitas por consumidores do sexo Feminino: ", purchase_file[purchase_file["Sexo"] == "Feminino"]["Item ID"].count())
print("Quantidade de compras feitas por consumidores com outro gênero ou que preferiram não informar: ", purchase_file[purchase_file["Sexo"] == "Outro / Não Divulgado"]["Item ID"].count())

Quantidade de Compras feitas por consumidores do sexo Masculino:  633
Quantidade de Compras feitas por consumidores do sexo Feminino:  136
Quantidade de Compras feitas por consumidores com outro gênero ou que preferiram não informar:  11


In [18]:
# Preço médio de compra
print("Preço médio das compras feitas por consumidores do sexo Masculino: ", round(np.mean(purchase_file[purchase_file["Sexo"] == "Masculino"]["Valor"]), 2))
print("Preço médio das compras feitas por consumidores do sexo Feminino: ", round(np.mean(purchase_file[purchase_file["Sexo"] == "Feminino"]["Valor"]), 2))
print("Preço médio das compras feitas por consumidores com outro gênero ou que preferiram não informar: ", round(np.mean(purchase_file[purchase_file["Sexo"] == "Outro / Não Divulgado"]["Valor"]), 2))

Preço médio das Compras feitas por consumidores do sexo Masculino:  2.95
Preço médio das Compras feitas por consumidores do sexo Feminino:  2.82
Preço médio das Compras feitas por consumidores com outro gênero ou que preferiram não informar:  3.25


In [20]:
# Valor Total de Compra
print("Valor total de compras feitas por consumidores do sexo Masculino: ", round(np.sum(purchase_file[purchase_file["Sexo"] == "Masculino"]["Valor"]), 2))
print("Valor total de compras feitas por consumidores do sexo Feminino: ", round(np.sum(purchase_file[purchase_file["Sexo"] == "Feminino"]["Valor"]), 2))
print("Valor total de compras feitas por consumidores com outro gênero ou que preferiram não informar: ", round(np.sum(purchase_file[purchase_file["Sexo"] == "Outro / Não Divulgado"]["Valor"]), 2))

Valor total de compras feitas por consumidores do sexo Masculino:  1867.68
Valor total de compras feitas por consumidores do sexo Feminino:  382.91
Valor total de compras feitas por consumidores com outro gênero ou que preferiram não informar:  35.74


In [30]:
# Compras for faixa etária
print("Gênero Masculino")
ages_by_gender = [ages[i] for i, gender in enumerate(genders) if gender == "Masculino"]
ages_by_gender.sort()
print("0 - 9 anos: ", len(list(filter(lambda x : x < 10, ages_by_gender))))
print("10 - 19 anos: ", len(list(filter(lambda x : x > 9 and x < 20, ages_by_gender))))
print("20 - 29 anos: ", len(list(filter(lambda x : x > 19 and x < 30, ages_by_gender))))
print("30 - 39 anos: ", len(list(filter(lambda x : x > 29 and x < 40, ages_by_gender))))
print("40 - 49 anos: ", len(list(filter(lambda x : x > 39 and x < 50, ages_by_gender))))
print("50 - 59 anos: ", len(list(filter(lambda x : x > 49 and x < 60, ages_by_gender))))

print("\nGênero Feminino")
ages_by_gender = [ages[i] for i, gender in enumerate(genders) if gender == "Feminino"]
ages_by_gender.sort()
print("0 - 9 anos: ", len(list(filter(lambda x : x < 10, ages_by_gender))))
print("10 - 19 anos: ", len(list(filter(lambda x : x > 9 and x < 20, ages_by_gender))))
print("20 - 29 anos: ", len(list(filter(lambda x : x > 19 and x < 30, ages_by_gender))))
print("30 - 39 anos: ", len(list(filter(lambda x : x > 29 and x < 40, ages_by_gender))))
print("40 - 49 anos: ", len(list(filter(lambda x : x > 39 and x < 50, ages_by_gender))))
print("50 - 59 anos: ", len(list(filter(lambda x : x > 49 and x < 60, ages_by_gender))))

print("\nOutros / Não Divulgado")
ages_by_gender = [ages[i] for i, gender in enumerate(genders) if gender == "Outro / Não Divulgado"]
ages_by_gender.sort()
print("0 - 9 anos: ", len(list(filter(lambda x : x < 10, ages_by_gender))))
print("10 - 19 anos: ", len(list(filter(lambda x : x > 9 and x < 20, ages_by_gender))))
print("20 - 29 anos: ", len(list(filter(lambda x : x > 19 and x < 30, ages_by_gender))))
print("30 - 39 anos: ", len(list(filter(lambda x : x > 29 and x < 40, ages_by_gender))))
print("40 - 49 anos: ", len(list(filter(lambda x : x > 39 and x < 50, ages_by_gender))))
print("50 - 59 anos: ", len(list(filter(lambda x : x > 49 and x < 60, ages_by_gender))))

Gênero Masculino
0 - 9 anos:  15
10 - 19 anos:  98
20 - 29 anos:  283
30 - 39 anos:  60
40 - 49 anos:  9
50 - 59 anos:  0

Gênero Feminino
0 - 9 anos:  4
10 - 19 anos:  24
20 - 29 anos:  59
30 - 39 anos:  11
40 - 49 anos:  2
50 - 59 anos:  0

Outros / Não Divulgado
0 - 9 anos:  0
10 - 19 anos:  1
20 - 29 anos:  4
30 - 39 anos:  3
40 - 49 anos:  0
50 - 59 anos:  0


## Consumidores Mais Populares (Top 5)

**Identifique os 5 principais compradores pelo valor total de compra e, em seguida, liste (em uma tabela):**

* Login
* Número de compras
* Preço médio de compra
* Valor Total de Compra
* Itens mais populares

In [123]:
money_spent = {consumer:np.sum(purchase_file[purchase_file["Login"] == consumer]["Valor"]) for consumer in unique_consumers}
money_spent = sorted(money_spent.items(), key=lambda x: x[1], reverse=True)
money_spent = {k:round(v, 2) for (k, v) in money_spent[:5]}
money_spent

{'Undirrala66': 17.06,
 'Saedue76': 13.56,
 'Mindimnya67': 12.74,
 'Haellysu29': 12.73,
 'Eoda93': 11.58}

In [127]:
num_items = []
mean_price = []
items = []
for k in money_spent:
  num_items.append(purchase_file[purchase_file["Login"] == k].size)
  mean_price.append(round(np.mean(purchase_file[purchase_file["Login"] == k]["Valor"]), 2))
  items.append([x for x in purchase_file[purchase_file["Login"] == k]["Nome do Item"] if x not in items])

top_5 = pd.DataFrame()

top_5["Login"] = money_spent.keys()
top_5["Num de Compras"] = num_items
top_5["Preço Médio"] = mean_price
top_5["Total"] = money_spent.values()
top_5["Itens"] = items

display(top_5)

Unnamed: 0,Login,Num de Compras,Preço Médio,Total,Itens
0,Undirrala66,30,3.41,17.06,"[Blood Infused Guardian, Spectral Diamond Doom..."
1,Saedue76,24,3.39,13.56,"[Serenity, Striker, Thorn, Satchel of Dark Sou..."
2,Mindimnya67,24,3.18,12.74,"[Striker, Thunderfury Scimitar, Fiery Glass Cr..."
3,Haellysu29,18,4.24,12.73,"[Blood-Forged Skeletal Spine, Thirsty Iron Rea..."
4,Eoda93,18,3.86,11.58,"[Heartless Bone Dualblade, Stormfury Longsword..."


## Itens Mais Populares


**Identifique os 5 itens mais populares por contagem de compras e, em seguida, liste (em uma tabela):**

* ID do item
* Nome do item
* Número de compras
* Preço do item
* Valor Total de Compra

In [154]:
unique_items = purchase_file["Item ID"].unique()
items = {item:len(purchase_file[purchase_file["Item ID"] == item].values) for item in unique_items}
items = sorted(items.items(), key=lambda x : x[1], reverse=True)
items = {k:v for (k, v) in items[:5]}

In [163]:
items_name = []
items_price = []
items_total = []
for k in items:
  items_name.append(purchase_file[purchase_file["Item ID"] == k]["Nome do Item"].values[0])
  items_price.append(purchase_file[purchase_file["Item ID"] == k]["Valor"].values[0])
  items_total.append(round(np.sum(purchase_file[purchase_file["Item ID"] == k]["Valor"]), 2))

top_5 = pd.DataFrame()
top_5["Item ID"] = items.keys()
top_5["Nome"] = items_name
top_5["Número de Compras"] = items.values()
top_5["Preço"] = items_price
top_5["Total"] = items_total

display(top_5)


Unnamed: 0,Item ID,Nome,Número de Compras,Preço,Total
0,39,"Betrayal, Whisper of Grieving Widows",11,2.35,25.85
1,84,Arcane Gem,11,2.23,24.53
2,13,Serenity,9,1.49,13.41
3,31,Trickster,9,2.07,18.63
4,34,Retribution Axe,9,4.14,37.26


## Itens Mais Lucrativos

**Identifique os 5 itens mais lucrativos pelo valor total de compra e, em seguida, liste (em uma tabela):**

* ID do item
* Nome do item
* Número de compras
* Preço do item
* Valor Total de Compra

In [167]:
items = {item:round(np.sum(purchase_file[purchase_file["Item ID"] == item]["Valor"]), 2) for item in unique_items}
items = sorted(items.items(), key=lambda x : x[1], reverse=True)
items = {k:v for (k, v) in items[:5]}
items

{34: 37.26, 115: 29.75, 32: 29.7, 103: 29.22, 107: 28.88}

In [168]:
items_name = []
items_price = []
items_quantity = []
for k in items:
  items_name.append(purchase_file[purchase_file["Item ID"] == k]["Nome do Item"].values[0])
  items_price.append(purchase_file[purchase_file["Item ID"] == k]["Valor"].values[0])
  items_quantity.append(len(purchase_file[purchase_file["Item ID"] == k]["Valor"]))

top_5 = pd.DataFrame()
top_5["Item ID"] = items.keys()
top_5["Nome"] = items_name
top_5["Número de Compras"] = items_quantity
top_5["Preço"] = items_price
top_5["Total"] = items.values()

display(top_5)

Unnamed: 0,Item ID,Nome,Número de Compras,Preço,Total
0,34,Retribution Axe,9,4.14,37.26
1,115,Spectral Diamond Doomblade,7,4.25,29.75
2,32,Orenmir,6,4.95,29.7
3,103,Singed Scalpel,6,4.87,29.22
4,107,"Splitter, Foe Of Subtlety",8,3.61,28.88


## Fim


### Obrigado

### Visite o Blog da Data Science Academy - <a href="http://blog.dsacademy.com.br">Blog DSA</a>
