# <font color='blue'>Data Science Academy - Python Fundamentos - Capítulo 7</font>

## Download: http://github.com/dsacademybr

In [1]:
# Versão da Linguagem Python
from platform import python_version
print('Versão da Linguagem Python Usada Neste Jupyter Notebook:', python_version())

Versão da Linguagem Python Usada Neste Jupyter Notebook: 3.8.8


## Missão: Analisar o Comportamento de Compra de Consumidores.

## Nível de Dificuldade: Alto

Você recebeu a tarefa de analisar os dados de compras de um web site! Os dados estão no formato JSON e disponíveis junto com este notebook.

No site, cada usuário efetua login usando sua conta pessoal e pode adquirir produtos à medida que navega pela lista de produtos oferecidos. Cada produto possui um valor de venda. Dados de idade e sexo de cada usuário foram coletados e estão fornecidos no arquivo JSON.

Seu trabalho é entregar uma análise de comportamento de compra dos consumidores. Esse é um tipo de atividade comum realizado por Cientistas de Dados e o resultado deste trabalho pode ser usado, por exemplo, para alimentar um modelo de Machine Learning e fazer previsões sobre comportamentos futuros.

Mas nesta missão você vai analisar o comportamento de compra dos consumidores usando o pacote Pandas da linguagem Python e seu relatório final deve incluir cada um dos seguintes itens:

** Contagem de Consumidores **

* Número total de consumidores


** Análise Geral de Compras **

* Número de itens exclusivos
* Preço médio de compra
* Número total de compras
* Rendimento total


** Informações Demográficas Por Gênero **

* Porcentagem e contagem de compradores masculinos
* Porcentagem e contagem de compradores do sexo feminino
* Porcentagem e contagem de outros / não divulgados


** Análise de Compras Por Gênero **

* Número de compras
* Preço médio de compra
* Valor Total de Compra
* Compras for faixa etária


** Identifique os 5 principais compradores pelo valor total de compra e, em seguida, liste (em uma tabela): **

* Login
* Número de compras
* Preço médio de compra
* Valor Total de Compra
* Itens mais populares


** Identifique os 5 itens mais populares por contagem de compras e, em seguida, liste (em uma tabela): **

* ID do item
* Nome do item
* Número de compras
* Preço do item
* Valor Total de Compra
* Itens mais lucrativos


** Identifique os 5 itens mais lucrativos pelo valor total de compra e, em seguida, liste (em uma tabela): **

* ID do item
* Nome do item
* Número de compras
* Preço do item
* Valor Total de Compra


** Como considerações finais: **

* Seu script deve funcionar para o conjunto de dados fornecido.
* Você deve usar a Biblioteca Pandas e o Jupyter Notebook.


In [1]:
# Imports
import pandas as pd
import numpy as np

In [93]:
# Carrega o arquivo
load_file = "dados_compras.json"
purchase_file = pd.read_json(load_file, orient = "records")
purchase_file.head()

Unnamed: 0,Login,Idade,Sexo,Item ID,Nome do Item,Valor
0,Aelalis34,38,Masculino,165,Bone Crushing Silver Skewer,3.37
1,Eolo46,21,Masculino,119,"Stormbringer, Dark Blade of Ending Misery",2.32
2,Assastnya25,34,Masculino,174,Primitive Blade,2.46
3,Pheusrical25,21,Masculino,92,Final Critic,1.36
4,Aela59,23,Masculino,63,Stormfury Mace,1.27


## Informações Sobre os Consumidores

In [94]:
#Agrupamento dos consumidores por sexo para observarmos se existe homogeneidade ou não
purchase_consumers_sex = purchase_file.groupby(['Sexo']).Login.aggregate('count').reset_index()

#Alterando o nome da coluna Login para Quantidade
purchase_consumers_sex.rename(columns = {'Login': 'Quantidade'}, inplace=True)
purchase_consumers_sex

Unnamed: 0,Sexo,Quantidade
0,Feminino,136
1,Masculino,633
2,Outro / Não Divulgado,11


In [151]:
#Agrupamento dos consumidores unicos
purchase_consumers_uniques = purchase_file.groupby(['Sexo']).aggregate({'Login': lambda x: x.nunique()}).reset_index()

#Alterando o nome da coluna Login para Logins Unicos
purchase_consumers_uniques.rename(columns = {'Login': 'Logins Unicos'}, inplace=True)

#Criando coluna % Logins Unicos para ver a porcentagem de logins unicos dentro do total de compras
purchase_consumers_uniques['%']=round(
    (purchase_consumers_uniques['Logins Unicos']/purchase_consumers_sex.Quantidade)*100,2)

print(purchase_consumers_uniques)
print('\n')
total_consumidores = purchase_consumers_uniques['Logins Unicos'].sum()
print('Total de consumidores unicos: ', total_consumidores)

                    Sexo  Logins Unicos      %
0               Feminino            100  73.53
1              Masculino            465  73.46
2  Outro / Não Divulgado              8  72.73


Total de consumidores unicos:  573


In [78]:
#Encontrando as idades máxima e minima 
purchase_max_age = purchase_file.Idade.max()
purchase_min_age = purchase_file.Idade.min()
print('Idade minima: {}\nIdade maxima: {}'.format(purchase_min_age, purchase_max_age))

Idade minima: 7
Idade maxima: 45


In [85]:
#Categorizamos a idade e agrupammos as compras por categoria de idade e por sexo do cliente
purchase_age = purchase_file.groupby([pd.cut(purchase_file['Idade'],
                                        np.arange(5, purchase_max_age+5, 10)),
                                      'Sexo']).Login.count()

purchase_age

Idade     Sexo                 
(5, 15]   Feminino                  19
          Masculino                 90
          Outro / Não Divulgado      1
(15, 25]  Feminino                  84
          Masculino                403
          Outro / Não Divulgado      2
(25, 35]  Feminino                  22
          Masculino                104
          Outro / Não Divulgado      8
(35, 45]  Feminino                  11
          Masculino                 36
          Outro / Não Divulgado      0
Name: Login, dtype: int64

## Análise Geral de Compras

In [172]:
#Solução proposta pela DSA
# Cálculos básicos
average_item_price = purchase_file["Valor"].mean()
total_item_price = purchase_file["Valor"].sum()
total_item_count = purchase_file["Valor"].count()
item_id = len(purchase_file["Item ID"].unique())

# Dataframe para os resultados
summary_calculations = pd.DataFrame({"Número de Itens Únicos" : item_id,
                                     "Número de Compras" : total_item_count, 
                                     "Total de Vendas" : total_item_price, 
                                     "Preço Médio" : [average_item_price]})

# Data Munging
summary_calculations = summary_calculations.round(2)
summary_calculations ["Preço Médio"] = summary_calculations["Preço Médio"].map("${:,.2f}".format)
summary_calculations ["Total de Vendas"] = summary_calculations["Total de Vendas"].map("${:,.2f}".format)
summary_calculations = summary_calculations.loc[:, ["Número de Itens Únicos", "Preço Médio", "Número de Compras", "Total de Vendas"]]

summary_calculations

Unnamed: 0,Número de Itens Únicos,Preço Médio,Número de Compras,Total de Vendas
0,183,$2.93,780,"$2,286.33"


In [216]:
#Forma alternativa para se obter a mesma tabela.
#Vejo que é uma alternativa menos interessante pois as variáveis criadas pela DSA poderiam ser usadas em outras partes
#do código. Contudo, se esta alternativa também é valida se a única finalidade for a tabela final

#Calculo basicos
purchase_geral = purchase_file.aggregate({'Item ID': lambda x: x.nunique(), 
                                          'Valor': ['count', 'sum', 'mean']}).T.round(2).reset_index()
purchase_geral

Unnamed: 0,index,<lambda>,count,sum,mean
0,Item ID,183.0,,,
1,Valor,,780.0,2286.33,2.93


In [217]:
#função para preencher os campos vazios utilizando o ultimo valor válido
purchase_geral.fillna(method='ffill', inplace=True)

#Exclusão da coluna index e da primeira linha
purchase_geral.drop(index=0, columns='index', inplace=True)

#Alterando o nome das colunas
purchase_geral.columns = ['Número de Itens Únicos', 'Número de Compras', 'Total de Vendas','Preço Médio' ]

purchase_geral

Unnamed: 0,Número de Itens Únicos,Número de Compras,Total de Vendas,Preço Médio
1,183.0,780.0,2286.33,2.93


## Análise Demográfica

In [101]:
purchase_consumers_sex['%'] = round(100*(purchase_consumers_sex.Quantidade / purchase_consumers_sex.Quantidade.sum()))
purchase_consumers_sex

Unnamed: 0,Sexo,Quantidade,%
0,Feminino,136,17.0
1,Masculino,633,81.0
2,Outro / Não Divulgado,11,1.0


## Informações Demográficas Por Gênero

In [120]:
#Verificando se o valor gasto por mulheres é mais expressivo do que a quantidade que elas compram
purchase_consumers_retorno = purchase_file.groupby(['Sexo']).aggregate({'Item ID': 'count',
                                                                        'Valor':['mean', 'sum']
                                                                        }).reset_index()

#Alterando o nome das colunas
purchase_consumers_retorno.columns = ['Sexo','Número de Compras', 'Valor Médio Por Item', 'Total de Vendas' ]

purchase_consumers_retorno['Total Normalizado'] = purchase_consumers_retorno['Total de Vendas']/purchase_consumers_uniques['Logins Unicos']

purchase_consumers_retorno = purchase_consumers_retorno.round(2)

purchase_consumers_retorno

Unnamed: 0,Sexo,Número de Compras,Valor Médio Por Item,Total de Vendas,Total Normalizado
0,Feminino,136,2.82,382.91,3.83
1,Masculino,633,2.95,1867.68,4.02
2,Outro / Não Divulgado,11,3.25,35.74,4.47


## Análise de Compras Por Gênero

In [163]:
#Categorizamos a idade e agrupammos as compras por categoria de idade e por sexo do cliente
purchase_consumers_age = purchase_file.groupby(pd.cut(purchase_file['Idade'],
                                                      np.arange(5, purchase_max_age+10, 5),
                                                      right=False)).agg({'Item ID': 'count',
                                                                         'Login': lambda x: 100*(x.count()/total_consumidores),
                                                                         'Valor':['mean', 'sum']}).round(2).reset_index()

#Alterando o nome das colunas
purchase_consumers_age.columns = ['Idade', 'Contagem', '%', 'Valor Unitario', 'Valor Total de Compra' ]

purchase_consumers_age

Unnamed: 0,Idade,Contagem,%,Valor Unitario,Valor Total de Compra
0,"[5, 10)",28,4.89,2.98,83.46
1,"[10, 15)",35,6.11,2.77,96.95
2,"[15, 20)",133,23.21,2.91,386.42
3,"[20, 25)",336,58.64,2.91,978.77
4,"[25, 30)",125,21.82,2.96,370.33
5,"[30, 35)",64,11.17,3.08,197.25
6,"[35, 40)",42,7.33,2.84,119.4
7,"[40, 45)",16,2.79,3.19,51.03
8,"[45, 50)",1,0.17,2.72,2.72


## Consumidores Mais Populares (Top 5)

In [168]:
purchase_consumers_top = purchase_file.groupby(['Login']).aggregate({'Valor':['sum','mean','count']}).round(2)

#Alterando o nome das colunas
purchase_consumers_top.columns = ['Valor Total de Compra', 'Valor Médio de Compra', 'Número de Compras']

purchase_consumers_top.sort_values("Valor Total de Compra", ascending=False).head(5)

Unnamed: 0_level_0,Valor Total de Compra,Valor Médio de Compra,Número de Compras
Login,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Undirrala66,17.06,3.41,5
Saedue76,13.56,3.39,4
Mindimnya67,12.74,3.18,4
Haellysu29,12.73,4.24,3
Eoda93,11.58,3.86,3


## Itens Mais Populares

In [169]:
purchase_item_top = purchase_file.groupby(['Nome do Item']).aggregate({'Valor':['sum','mean','count']}).round(2)

#Alterando o nome das colunas
purchase_item_top.columns = ['Valor Total de Compra', 'Valor Médio de Compra', 'Número de Compras']

purchase_item_top.sort_values('Número de Compras', ascending=False).head(5)

Unnamed: 0_level_0,Valor Total de Compra,Valor Médio de Compra,Número de Compras
Nome do Item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Final Critic,38.6,2.76,14
Arcane Gem,24.53,2.23,11
"Betrayal, Whisper of Grieving Widows",25.85,2.35,11
Stormcaller,34.65,3.46,10
Woeful Adamantite Claymore,11.16,1.24,9


## Itens Mais Lucrativos

In [170]:
purchase_item_top.sort_values('Valor Total de Compra', ascending=False).head(5)

Unnamed: 0_level_0,Valor Total de Compra,Valor Médio de Compra,Número de Compras
Nome do Item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Final Critic,38.6,2.76,14
Retribution Axe,37.26,4.14,9
Stormcaller,34.65,3.46,10
Spectral Diamond Doomblade,29.75,4.25,7
Orenmir,29.7,4.95,6


## Fim


### Obrigado

### Visite o Blog da Data Science Academy - <a href="http://blog.dsacademy.com.br">Blog DSA</a>
