# <font color='blue'>Data Science Academy - Python Fundamentos - Capítulo 7</font>

### Camila Teixeira

In [None]:
# Versão da Linguagem Python
from platform import python_version
print('Versão da Linguagem Python Usada Neste Jupyter Notebook:', python_version())

## Missão: Analisar o Comportamento de Compra de Consumidores.

## Nível de Dificuldade: Alto

Você recebeu a tarefa de analisar os dados de compras de um web site! Os dados estão no formato JSON e disponíveis junto com este notebook.

No site, cada usuário efetua login usando sua conta pessoal e pode adquirir produtos à medida que navega pela lista de produtos oferecidos. Cada produto possui um valor de venda. Dados de idade e sexo de cada usuário foram coletados e estão fornecidos no arquivo JSON.

Seu trabalho é entregar uma análise de comportamento de compra dos consumidores. Esse é um tipo de atividade comum realizado por Cientistas de Dados e o resultado deste trabalho pode ser usado, por exemplo, para alimentar um modelo de Machine Learning e fazer previsões sobre comportamentos futuros.

Mas nesta missão você vai analisar o comportamento de compra dos consumidores usando o pacote Pandas da linguagem Python e seu relatório final deve incluir cada um dos seguintes itens:

** Contagem de Consumidores **

* Número total de consumidores


** Análise Geral de Compras **

* Número de itens exclusivos
* Preço médio de compra
* Número total de compras
* Rendimento total


** Informações Demográficas Por Gênero **

* Porcentagem e contagem de compradores masculinos
* Porcentagem e contagem de compradores do sexo feminino
* Porcentagem e contagem de outros / não divulgados


** Análise de Compras Por Gênero **

* Número de compras
* Preço médio de compra
* Valor Total de Compra
* Compras for faixa etária


** Identifique os 5 principais compradores pelo valor total de compra e, em seguida, liste (em uma tabela): **

* Login
* Número de compras
* Preço médio de compra
* Valor Total de Compra
* Itens mais populares


** Identifique os 5 itens mais populares por contagem de compras e, em seguida, liste (em uma tabela): **

* ID do item
* Nome do item
* Número de compras
* Preço do item
* Valor Total de Compra
* Itens mais lucrativos


** Identifique os 5 itens mais lucrativos pelo valor total de compra e, em seguida, liste (em uma tabela): **

* ID do item
* Nome do item
* Número de compras
* Preço do item
* Valor Total de Compra


** Como considerações finais: **

* Seu script deve funcionar para o conjunto de dados fornecido.
* Você deve usar a Biblioteca Pandas e o Jupyter Notebook.


In [1]:
# Imports
import pandas as pd
import numpy as np

In [2]:
# Carrega o arquivo
load_file = "dados_compras.json"
purchase_file = pd.read_json(load_file, orient = "records")
purchase_file.head()

Unnamed: 0,Login,Idade,Sexo,Item ID,Nome do Item,Valor
0,Aelalis34,38,Masculino,165,Bone Crushing Silver Skewer,3.37
1,Eolo46,21,Masculino,119,"Stormbringer, Dark Blade of Ending Misery",2.32
2,Assastnya25,34,Masculino,174,Primitive Blade,2.46
3,Pheusrical25,21,Masculino,92,Final Critic,1.36
4,Aela59,23,Masculino,63,Stormfury Mace,1.27


In [3]:
purchase_file.tail()

Unnamed: 0,Login,Idade,Sexo,Item ID,Nome do Item,Valor
775,Eural50,22,Masculino,98,"Deadline, Voice Of Subtlety",3.62
776,Lirtossa78,14,Masculino,104,Gladiator's Glaive,1.36
777,Tillyrin30,20,Masculino,117,"Heartstriker, Legacy of the Light",4.15
778,Quelaton80,20,Masculino,75,Brutality Ivory Warmace,1.72
779,Alim85,23,Feminino,107,"Splitter, Foe Of Subtlety",3.61


## Limpeza dos dados

In [4]:
# O "dois pontos" significa que ele quer a coluna inteira

consumidores = purchase_file.loc[:, ["Login", "Sexo", "Idade"]]
consumidores.head()

Unnamed: 0,Login,Sexo,Idade
0,Aelalis34,Masculino,38
1,Eolo46,Masculino,21
2,Assastnya25,Masculino,34
3,Pheusrical25,Masculino,21
4,Aela59,Masculino,23


In [5]:
consumidores.tail()

Unnamed: 0,Login,Sexo,Idade
775,Eural50,Masculino,22
776,Lirtossa78,Masculino,14
777,Tillyrin30,Masculino,20
778,Quelaton80,Masculino,20
779,Alim85,Feminino,23


In [6]:
consumidores.count()

Login    780
Sexo     780
Idade    780
dtype: int64

In [7]:
consumidores = consumidores.drop_duplicates()

In [10]:
consumidorCount = consumidores.count()[0]
consumidorCount

573

In [11]:
# Converter saída para DF para uso posterior em análise

pd.DataFrame({"Total de Consumidores" : [consumidorCount]})

Unnamed: 0,Total de Consumidores
0,573


## Informações Sobre os Consumidores

In [12]:
# Número total de compradores

consumidores.count()

Login    573
Sexo     573
Idade    573
dtype: int64

## Análise Geral de Compras

- Número de itens exclusivos
- Número total de compras
- Preço médio de compra
- Rendimento total

In [13]:
# Número de itens exclusivos

itemUnique = len(purchase_file["Item ID"].unique())
itemUnique

183

In [14]:
# Número total de compras

itemCount = purchase_file["Valor"].count()
itemCount

780

In [15]:
# Preço médio de compra

valueAverage = purchase_file["Valor"].mean()
valueAverage

2.931192307692303

In [16]:
# Rendimento total

income = purchase_file["Valor"].sum()
income

2286.33

In [17]:
# Sumário

summary_calculations = pd.DataFrame({"Número de itens exclusivos": itemUnique,
                                    "Número total de compras": itemCount,
                                    "Preço médio de compra": [valueAverage], #Se estiver usando todos os valores escalares, você deve passar um índice
                                    "Rendimento total": income})

summary_calculations = summary_calculations.round(2)
summary_calculations ["Preço médio de compra"] = summary_calculations ["Preço médio de compra"].map("${:, .2f}".format)
summary_calculations ["Rendimento total"] = summary_calculations ["Rendimento total"].map("${:, .2f}".format)
summary_calculations = summary_calculations.loc[:,["Número de itens exclusivos",  "Número total de compras", "Preço médio de compra",  "Rendimento total"]]

summary_calculations

Unnamed: 0,Número de itens exclusivos,Número total de compras,Preço médio de compra,Rendimento total
0,183,780,$2.93,$2286.33


## Análise Demográfica

- Porcentagem e contagem de compradores do sexo feminino e masculino.
- Porcentagem e contagem de outros / não divulgados

In [21]:
# Porcentagem e contagem de compradores do sexo masculino e feminino

gender_count = consumidores["Sexo"].value_counts()
gender_percent = (gender_count / consumidorCount) * 100

gender_count

Masculino                465
Feminino                 100
Outro / Não Divulgado      8
Name: Sexo, dtype: int64

In [22]:
gender_percent

Masculino                81.151832
Feminino                 17.452007
Outro / Não Divulgado     1.396161
Name: Sexo, dtype: float64

In [23]:
# Dataframe para os resultados
gender_demographics = pd.DataFrame({"Sexo" : gender_count, 
                                    "%" : gender_percent})

# Data Munging
gender_demographics = gender_demographics.round(2)
gender_demographics ["%"] = gender_demographics["%"].map("{:,.1f}%".format)

gender_demographics

Unnamed: 0,Sexo,%
Masculino,465,81.2%
Feminino,100,17.4%
Outro / Não Divulgado,8,1.4%


## Análise de Compras Por Gênero

- Número de compras
- Preço médio de compra
- Valor Total de Compra
- Compras for faixa etária

In [24]:
# Número de compras

purchaseCount = purchase_file.groupby(["Sexo"]).count()["Valor"].rename("Número de Compras")
purchaseCount

Sexo
Feminino                 136
Masculino                633
Outro / Não Divulgado     11
Name: Número de Compras, dtype: int64

In [25]:
# Preço médio de compra

valuepurchaseMean = purchase_file.groupby(["Sexo"]).mean()["Valor"].rename("Preço Médio de Compras")
valuepurchaseMean

Sexo
Feminino                 2.815515
Masculino                2.950521
Outro / Não Divulgado    3.249091
Name: Preço Médio de Compras, dtype: float64

In [26]:
# Valor Total de Compra

incomeTotal = purchase_file.groupby(["Sexo"]).sum()["Valor"].rename("Total de Vendas")
incomeTotal

Sexo
Feminino                  382.91
Masculino                1867.68
Outro / Não Divulgado      35.74
Name: Total de Vendas, dtype: float64

In [27]:
# Compras for faixa etária

age_purchase = incomeTotal / gender_demographics["Sexo"]
age_purchase

Feminino                 3.829100
Masculino                4.016516
Outro / Não Divulgado    4.467500
dtype: float64

In [29]:
#DataFrame

gender_purchasing_analysis = pd.DataFrame({"Número de Compras" : purchaseCount, 
                                           "Preço Médio de Compras" : valuepurchaseMean, 
                                           "Total de Vendas" : incomeTotal, 
                                           "Compras for faixa etária" : age_purchase})

gender_purchasing_analysis = gender_purchasing_analysis.round(2)
gender_purchasing_analysis ["Preço Médio de Compras"] = gender_purchasing_analysis["Preço Médio de Compras"].map("${:,.2f}".format)
gender_purchasing_analysis ["Total de Vendas"] = gender_purchasing_analysis["Total de Vendas"].map("${:,.2f}".format)
gender_purchasing_analysis ["Compras for faixa etária"] = gender_purchasing_analysis["Compras for faixa etária"].map("${:,.2f}".format)


gender_purchasing_analysis

Unnamed: 0,Número de Compras,Preço Médio de Compras,Total de Vendas,Compras for faixa etária
Feminino,136,$2.82,$382.91,$3.83
Masculino,633,$2.95,"$1,867.68",$4.02
Outro / Não Divulgado,11,$3.25,$35.74,$4.47


## Consumidores Mais Populares (Top 5)

- Login
- Valor Total de Compra
- Preço médio de compra
- Número de compras

In [31]:
# Valor Total de Compra
consumidorTotal = purchase_file.groupby(["Login"]).sum()["Valor"].rename("Valor Total de Compra")

# Preço médio de compra
purchaseAverage = purchase_file.groupby(["Login"]).mean()["Valor"].rename("Preço médio de compra")

# Número de compras
purchaseTotal = purchase_file.groupby(["Login"]).count()["Valor"].rename("Número de compras")

# Dataframe
consumidorData = pd.DataFrame({"Valor Total de Compra": consumidorTotal,
                               "Preço médio de compra": purchaseAverage,
                               "Número de Compras": purchaseTotal})

# Data Munging
consumidorData ["Valor Total de Compra"] = consumidorData["Valor Total de Compra"].map("${:,.2f}".format)
consumidorData ["Preço médio de compra"] = consumidorData["Preço médio de compra"].map("${:,.2f}".format)
consumidorData.sort_values("Valor Total de Compra", ascending=False).head(5)


Unnamed: 0_level_0,Valor Total de Compra,Preço médio de compra,Número de Compras
Login,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Qarwen67,$9.97,$2.49,4
Sondim43,$9.38,$3.13,3
Tillyrin30,$9.19,$3.06,3
Lisistaya47,$9.19,$3.06,3
Tyisriphos58,$9.18,$4.59,2


In [32]:
# Resultado
consumidorData

Unnamed: 0_level_0,Valor Total de Compra,Preço médio de compra,Número de Compras
Login,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Adairialis76,$2.46,$2.46,1
Aduephos78,$6.70,$2.23,3
Aeduera68,$5.80,$1.93,3
Aela49,$2.46,$2.46,1
Aela59,$1.27,$1.27,1
...,...,...,...
Yasurra52,$3.14,$3.14,1
Yathecal72,$7.77,$3.88,2
Yathecal82,$2.41,$2.41,1
Zhisrisu83,$2.46,$1.23,2


## Itens Mais Populares

- Nome do Item
- Valor Total de Compra
- Preço médio de compra
- Número de compras

In [33]:
# Valor Total de Compra pelo Nome do item
itemTotal = purchase_file.groupby(["Nome do Item"]).sum()["Valor"].rename("Valor Total de Compra")

# Preço médio de compra
itemMean = purchase_file.groupby(["Nome do Item"]).mean()["Valor"].rename("Preço médio de compra")

# Número de compras
purchaseTotal_a = purchase_file.groupby(["Nome do Item"]).count()["Valor"].rename("Número de Compras")

#DataFrame
user_data = pd.DataFrame({"Valor Total de Compra": itemTotal, 
                          "Preço médio de compra": itemMean,
                          "Número de Compras": purchaseTotal_a})

# Data Munging
user_data ["Valor Total de Compra"] = user_data["Valor Total de Compra"].map("${:,.2f}".format)
user_data ["Preço médio de compra"] = user_data["Preço médio de compra"].map("${:,.2f}".format)


user_data

Unnamed: 0_level_0,Valor Total de Compra,Preço médio de compra,Número de Compras
Nome do Item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Abyssal Shard,$6.12,$2.04,3
"Aetherius, Boon of the Blessed",$19.00,$4.75,4
Agatha,$9.55,$1.91,5
Alpha,$10.92,$1.56,7
"Alpha, Oath of Zeal",$20.16,$2.88,7
...,...,...,...
Wolf,$9.20,$1.84,5
"Wolf, Promise of the Moonwalker",$13.16,$1.88,7
Worldbreaker,$6.58,$3.29,2
Yearning Crusher,$2.12,$1.06,2


## Itens Mais Lucrativos

- Nome do item
- Valor Total de Compra
- Preço médio de compra
- Número de compras

In [34]:
# Valor Total de Compra pelo Nome do item
itemlucroTotal = purchase_file.groupby(["Nome do Item"]).sum()["Valor"].rename("Valor Total de Compra")

# Preço médio de compra
itemlucroMean = purchase_file.groupby(["Nome do Item"]).mean()["Valor"].rename("Preço médio de compra")

# Número de compras
purchaselucroTotal = purchase_file.groupby(["Nome do Item"]).count()["Valor"].rename("Número de Compras")

#DataFrame
user_data = pd.DataFrame({"Valor Total de Compra": itemlucroTotal, 
                          "Preço médio de compra": itemlucroMean,
                          "Número de Compras": purchaselucroTotal})

# Data Munging
user_data ["Valor Total de Compra"] = user_data["Valor Total de Compra"].map("${:,.2f}".format)
user_data ["Preço médio de compra"] = user_data["Preço médio de compra"].map("${:,.2f}".format)


user_data

Unnamed: 0_level_0,Valor Total de Compra,Preço médio de compra,Número de Compras
Nome do Item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Abyssal Shard,$6.12,$2.04,3
"Aetherius, Boon of the Blessed",$19.00,$4.75,4
Agatha,$9.55,$1.91,5
Alpha,$10.92,$1.56,7
"Alpha, Oath of Zeal",$20.16,$2.88,7
...,...,...,...
Wolf,$9.20,$1.84,5
"Wolf, Promise of the Moonwalker",$13.16,$1.88,7
Worldbreaker,$6.58,$3.29,2
Yearning Crusher,$2.12,$1.06,2


## Fim