# <font color='blue'>Data Science Academy - Python Fundamentos - Capítulo 7</font>

## Download: http://github.com/dsacademybr

In [1]:
# Versão da Linguagem Python
from platform import python_version
print('Versão da Linguagem Python Usada Neste Jupyter Notebook:', python_version())

Versão da Linguagem Python Usada Neste Jupyter Notebook: 3.9.7


## Missão: Analisar o Comportamento de Compra de Consumidores.

## Nível de Dificuldade: Alto

Você recebeu a tarefa de analisar os dados de compras de um web site! Os dados estão no formato JSON e disponíveis junto com este notebook.

No site, cada usuário efetua login usando sua conta pessoal e pode adquirir produtos à medida que navega pela lista de produtos oferecidos. Cada produto possui um valor de venda. Dados de idade e sexo de cada usuário foram coletados e estão fornecidos no arquivo JSON.

Seu trabalho é entregar uma análise de comportamento de compra dos consumidores. Esse é um tipo de atividade comum realizado por Cientistas de Dados e o resultado deste trabalho pode ser usado, por exemplo, para alimentar um modelo de Machine Learning e fazer previsões sobre comportamentos futuros.

Mas nesta missão você vai analisar o comportamento de compra dos consumidores usando o pacote Pandas da linguagem Python e seu relatório final deve incluir cada um dos seguintes itens:

** Contagem de Consumidores **

* Número total de consumidores


** Análise Geral de Compras **

* Número de itens exclusivos
* Preço médio de compra
* Número total de compras
* Rendimento total


** Informações Demográficas Por Gênero **

* Porcentagem e contagem de compradores masculinos
* Porcentagem e contagem de compradores do sexo feminino
* Porcentagem e contagem de outros / não divulgados


** Análise de Compras Por Gênero **

* Número de compras
* Preço médio de compra
* Valor Total de Compra
* Compras for faixa etária


** Identifique os 5 principais compradores pelo valor total de compra e, em seguida, liste (em uma tabela): **

* Login
* Número de compras
* Preço médio de compra
* Valor Total de Compra
* Itens mais populares


** Identifique os 5 itens mais populares por contagem de compras e, em seguida, liste (em uma tabela): **

* ID do item
* Nome do item
* Número de compras
* Preço do item
* Valor Total de Compra
* Itens mais lucrativos


** Identifique os 5 itens mais lucrativos pelo valor total de compra e, em seguida, liste (em uma tabela): **

* ID do item
* Nome do item
* Número de compras
* Preço do item
* Valor Total de Compra


** Como considerações finais: **

* Seu script deve funcionar para o conjunto de dados fornecido.
* Você deve usar a Biblioteca Pandas e o Jupyter Notebook.


In [2]:
# Imports
import pandas as pd
import numpy as np

In [3]:
# Carrega o arquivo
load_file = "dados_compras.json"
purchase_file = pd.read_json(load_file, orient = "records")
purchase_file

Unnamed: 0,Login,Idade,Sexo,Item ID,Nome do Item,Valor
0,Aelalis34,38,Masculino,165,Bone Crushing Silver Skewer,3.37
1,Eolo46,21,Masculino,119,"Stormbringer, Dark Blade of Ending Misery",2.32
2,Assastnya25,34,Masculino,174,Primitive Blade,2.46
3,Pheusrical25,21,Masculino,92,Final Critic,1.36
4,Aela59,23,Masculino,63,Stormfury Mace,1.27
...,...,...,...,...,...,...
775,Eural50,22,Masculino,98,"Deadline, Voice Of Subtlety",3.62
776,Lirtossa78,14,Masculino,104,Gladiator's Glaive,1.36
777,Tillyrin30,20,Masculino,117,"Heartstriker, Legacy of the Light",4.15
778,Quelaton80,20,Masculino,75,Brutality Ivory Warmace,1.72


## Informações Sobre os Consumidores

In [4]:
# Implemente aqui sua solução

# Total de Consumidores
consumidores = purchase_file.loc[:,['Sexo','Login','Idade']]
consumidores.head()
# Removendo duplicatas
consumidores = consumidores.drop_duplicates()
total_consumidores = consumidores.count()[0]
total_consumidores
# Saída em formato de DataFrame para facilitar a análise
pd.DataFrame({"Total de Consumidores" : [total_consumidores]})

Unnamed: 0,Total de Consumidores
0,573


## Análise Geral de Compras

In [5]:
# Implemente aqui sua solução

# Total de Items Exclusivos
items = purchase_file['Item ID']
unique_items = len(items.unique())

# Preço Médio de Compras
avg_item_price = purchase_file['Valor'].mean()

# Total de Vendas
total_item_price = purchase_file['Valor'].sum()

# Total de Compras
total_item_count = purchase_file['Valor'].count()

# Formatando os Valores


# DataFrame
results = pd.DataFrame({'Itens Exclusivos' : [unique_items],
              'Preço Médio de Compra' : [avg_item_price],
              'Total de Compras' : [total_item_count],
              'Rendimento Total' : [total_item_price]})

results['Preço Médio de Compra'] = results['Preço Médio de Compra'].map("${:,.2f}".format)
results['Rendimento Total'] = results['Rendimento Total'].map("${:,.2f}".format)
results

Unnamed: 0,Itens Exclusivos,Preço Médio de Compra,Total de Compras,Rendimento Total
0,183,$2.93,780,"$2,286.33"


## Análise Demográfica

In [6]:
# Implemente aqui sua solução
gender_demographics = consumidores['Sexo'].value_counts()
gender_count = (gender_demographics/consumidores['Sexo'].count()) * 100
gender_count = gender_count.map("{:,.1f}%".format)
demographics_df = pd.DataFrame({"Compradores por Gênero":gender_count})
demographics_df

Unnamed: 0,Compradores por Gênero
Masculino,81.2%
Feminino,17.5%
Outro / Não Divulgado,1.4%


## Informações Demográficas Por Gênero

In [7]:
# Implemente aqui sua solução

## Análise de Compras Por Gênero

In [8]:
# Implemente aqui sua solução
gender_total_item_price = purchase_file.groupby(['Sexo']).sum()['Valor'].rename('Total de Vendas')
gender_avg_item_price = purchase_file.groupby(['Sexo']).mean()['Valor'].rename('Preço Médio de Compra')
purchase_count = purchase_file.groupby(['Sexo']).count()['Valor'].rename('Número de Compras')

gender_purchasing_analysis = pd.DataFrame({"Número de Compras" : purchase_count,
                                          "Preço Médio de Compra" : gender_avg_item_price,
                                          "Total de Vendas" : gender_total_item_price})

gender_purchasing_analysis['Preço Médio de Compra'] = gender_purchasing_analysis['Preço Médio de Compra'].map("${:,.2f}".format)
gender_purchasing_analysis['Total de Vendas'] = gender_purchasing_analysis['Total de Vendas'].map("${:,.2f}".format)
gender_purchasing_analysis

Unnamed: 0_level_0,Número de Compras,Preço Médio de Compra,Total de Vendas
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Feminino,136,$2.82,$382.91
Masculino,633,$2.95,"$1,867.68"
Outro / Não Divulgado,11,$3.25,$35.74


In [9]:
# FAIXA ETARIA
purchase_file.describe()
age_bins = [0, 10, 15, 20, 25, 30, 35, 40, 999]
age_bracket = ['Menos de 10', '10 a 15', '15 a 20', '20 a 25', '25 a 30', '30 a 35', '35 a 40', 'Mais de 40']
purchase_file['Range de Idades'] = pd.cut(purchase_file.Idade, age_bins, labels = age_bracket)

# Calculos Demograficos
age_count = purchase_file['Range de Idades'].value_counts()
age_total_item_price = purchase_file.groupby(['Range de Idades']).sum()['Valor'].rename('Valor Total da Compra')
age_avg_item_price = purchase_file.groupby(['Range de Idades']).mean()['Valor'].rename('Preço Médio de Compra')
age_purchase_count = purchase_file.groupby(['Range de Idades']).count()['Valor'].rename('Número de Compras')
age_percent = (age_count / total_consumidores) * 100

age_results = pd.DataFrame({"Contagem" : age_count,
                            "%" : age_percent,
                            "Valor Total da Compra" : age_total_item_price,
                           "Preço Médio de Compra" : age_avg_item_price,
                           "Número de Compras" : age_purchase_count})

age_results['%'] = age_results['%'].map("{:,.1f}%".format)
age_results['Valor Total da Compra'] = age_results['Valor Total da Compra'].map("${:,.2f}".format)
age_results['Preço Médio de Compra'] = age_results['Preço Médio de Compra'].map("${:,.2f}".format)
age_results

Unnamed: 0,Contagem,%,Valor Total da Compra,Preço Médio de Compra,Número de Compras
Menos de 10,32,5.6%,$96.62,$3.02,32
10 a 15,78,13.6%,$224.15,$2.87,78
15 a 20,184,32.1%,$528.74,$2.87,184
20 a 25,305,53.2%,$902.61,$2.96,305
25 a 30,76,13.3%,$219.82,$2.89,76
30 a 35,58,10.1%,$178.26,$3.07,58
35 a 40,44,7.7%,$127.49,$2.90,44
Mais de 40,3,0.5%,$8.64,$2.88,3


## Consumidores Mais Populares (Top 5)

In [10]:
# Implemente aqui sua solução
top_players = purchase_file.groupby(['Login']).sum()['Valor'].rename('Top 5 Maiores Consumidores')
top_players = top_players.sort_values(ascending = False)
top_players = top_players.head()

top_players_result = pd.DataFrame({"Top 5 Maiores Consumidores" : top_players})
top_players_result["Top 5 Maiores Consumidores"] = top_players_result['Top 5 Maiores Consumidores'].map("${:,.2f}".format)
top_players_result

Unnamed: 0_level_0,Top 5 Maiores Consumidores
Login,Unnamed: 1_level_1
Undirrala66,$17.06
Saedue76,$13.56
Mindimnya67,$12.74
Haellysu29,$12.73
Eoda93,$11.58


## Itens Mais Populares

In [11]:
# Implemente aqui sua solução
top_items_count = purchase_file.groupby(['Nome do Item']).count()['Valor'].rename('Número de Compras')
top_items_avg = purchase_file.groupby(['Nome do Item']).mean()['Valor'].rename('Valor Médio de Compra')
top_items_total = purchase_file.groupby(['Nome do Item']).sum()['Valor'].rename('Total de Compras')
top_items = top_items.sort_values(ascending = False)
top_items = top_items.head()

top_items_result = pd.DataFrame({"Número de Compras" : top_items_count,
                                "Valor Médio de Compra" : top_items_avg,
                                "Valor Total de Compras" : top_items_total})

top_items_result['Valor Médio de Compra'] = top_items_result['Valor Médio de Compra'].map("${:,.2f}".format)
top_items_result['Valor Total de Compras'] = top_items_result['Valor Total de Compras'].map("${:,.2f}".format)

top_items_result.sort_values("Número de Compras", ascending=False).head(5)

NameError: name 'top_items' is not defined

## Itens Mais Lucrativos

In [39]:
# Implemente aqui sua solução
items_lucrativos_avg = purchase_file.groupby(['Nome do Item']).mean()['Valor']
items_lucrativos = purchase_file.groupby(['Nome do Item']).sum()['Valor']
items_lucrativos = items_lucrativos.sort_values(ascending=False)
items_lucrativos = items_lucrativos.head()
items_lucrativos_results = pd.DataFrame({'Top 5 Items Mais Lucrativos':items_lucrativos})
items_lucrativos_results['Top 5 Items Mais Lucrativos'] = items_lucrativos_results['Top 5 Items Mais Lucrativos'].map("${:,.2f}".format)
items_lucrativos_avg

Nome do Item
Abyssal Shard                      2.04
Aetherius, Boon of the Blessed     4.75
Agatha                             1.91
Alpha                              1.56
Alpha, Oath of Zeal                2.88
                                   ... 
Wolf                               1.84
Wolf, Promise of the Moonwalker    1.88
Worldbreaker                       3.29
Yearning Crusher                   1.06
Yearning Mageblade                 1.79
Name: Valor, Length: 179, dtype: float64

## Fim


### Obrigado

### Visite o Blog da Data Science Academy - <a href="http://blog.dsacademy.com.br">Blog DSA</a>
