# <font color='blue'>Data Science Academy - Python Fundamentos - Capítulo 7</font>

## Download: http://github.com/dsacademybr

In [1]:
# Versão da Linguagem Python
from platform import python_version
print('Versão da Linguagem Python Usada Neste Jupyter Notebook:', python_version())

Versão da Linguagem Python Usada Neste Jupyter Notebook: 3.9.7


## Missão: Analisar o Comportamento de Compra de Consumidores.

## Nível de Dificuldade: Alto

Você recebeu a tarefa de analisar os dados de compras de um web site! Os dados estão no formato JSON e disponíveis junto com este notebook.

No site, cada usuário efetua login usando sua conta pessoal e pode adquirir produtos à medida que navega pela lista de produtos oferecidos. Cada produto possui um valor de venda. Dados de idade e sexo de cada usuário foram coletados e estão fornecidos no arquivo JSON.

Seu trabalho é entregar uma análise de comportamento de compra dos consumidores. Esse é um tipo de atividade comum realizado por Cientistas de Dados e o resultado deste trabalho pode ser usado, por exemplo, para alimentar um modelo de Machine Learning e fazer previsões sobre comportamentos futuros.

Mas nesta missão você vai analisar o comportamento de compra dos consumidores usando o pacote Pandas da linguagem Python e seu relatório final deve incluir cada um dos seguintes itens:

** Contagem de Consumidores **

* Número total de consumidores


** Análise Geral de Compras **

* Número de itens exclusivos
* Preço médio de compra
* Número total de compras
* Rendimento total


** Informações Demográficas Por Gênero **

* Porcentagem e contagem de compradores masculinos
* Porcentagem e contagem de compradores do sexo feminino
* Porcentagem e contagem de outros / não divulgados


** Análise de Compras Por Gênero **

* Número de compras
* Preço médio de compra
* Valor Total de Compra
* Compras for faixa etária


** Identifique os 5 principais compradores pelo valor total de compra e, em seguida, liste (em uma tabela): **

* Login
* Número de compras
* Preço médio de compra
* Valor Total de Compra
* Itens mais populares


** Identifique os 5 itens mais populares por contagem de compras e, em seguida, liste (em uma tabela): **

* ID do item
* Nome do item
* Número de compras
* Preço do item
* Valor Total de Compra
* Itens mais lucrativos


** Identifique os 5 itens mais lucrativos pelo valor total de compra e, em seguida, liste (em uma tabela): **

* ID do item
* Nome do item
* Número de compras
* Preço do item
* Valor Total de Compra


** Como considerações finais: **

* Seu script deve funcionar para o conjunto de dados fornecido.
* Você deve usar a Biblioteca Pandas e o Jupyter Notebook.


In [36]:
# Imports
import pandas as pd
import numpy as np

In [37]:
# Carrega o arquivo
load_file = "dados_compras.json"
purchase_file = pd.read_json(load_file, orient = "records")
purchase_file.head()

Unnamed: 0,Login,Idade,Sexo,Item ID,Nome do Item,Valor
0,Aelalis34,38,Masculino,165,Bone Crushing Silver Skewer,3.37
1,Eolo46,21,Masculino,119,"Stormbringer, Dark Blade of Ending Misery",2.32
2,Assastnya25,34,Masculino,174,Primitive Blade,2.46
3,Pheusrical25,21,Masculino,92,Final Critic,1.36
4,Aela59,23,Masculino,63,Stormfury Mace,1.27


## Informações Sobre os Consumidores

In [38]:
# https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.loc.html
costumers_info = purchase_file.loc[:,['Login', 'Idade', 'Sexo']]
costumers_info.head()

Unnamed: 0,Login,Idade,Sexo
0,Aelalis34,38,Masculino
1,Eolo46,21,Masculino
2,Assastnya25,34,Masculino
3,Pheusrical25,21,Masculino
4,Aela59,23,Masculino


** Contagem de Consumidores **

Número total de consumidores

In [39]:
# # https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop_duplicates.html
costumers_info.drop_duplicates()
costumers_count = costumers_info.count()[0]

pd.DataFrame({'Total Costumers': [costumers_count]})

Unnamed: 0,Total Costumers
0,780


## Análise Geral de Compras

- Número de itens exclusivos
- Preço médio de compra
- Número total de compras
- Rendimento total

In [40]:
# https://cmdlinetips.com/2018/01/how-to-get-unique-values-from-a-column-in-pandas-data-frame/
# https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.mean.html
# https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.count.html
# https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sum.html

unique_items = len(purchase_file['Item ID'].unique())
average_purchase_price = purchase_file['Valor'].mean()
total_purchases = purchase_file['Valor'].count()
total_amount = purchase_file['Valor'].sum()


general_analysis = pd.DataFrame({
    "Number of Unique Items": unique_items,
    "Average Purchase Price": [average_purchase_price],
    "Total Purchases": total_purchases,
    "Total Amount": total_amount
})

general_analysis.round(2)

general_analysis["Average Purchase Price"] = general_analysis["Average Purchase Price"].map("${:,.2f}".format)
general_analysis["Total Amount"] = general_analysis["Total Amount"].map("${:,.2f}".format)

general_analysis = general_analysis.loc[:, [
    "Number of Unique Items",
    "Average Purchase Price",
    "Total Purchases",
    "Total Amount"
]]

general_analysis

Unnamed: 0,Number of Unique Items,Average Purchase Price,Total Purchases,Total Amount
0,183,$2.93,780,"$2,286.33"


## Análise Demográfica

* Porcentagem e contagem de compradores masculinos
* Porcentagem e contagem de compradores do sexo feminino
* Porcentagem e contagem de outros / não divulgados


In [41]:
genders = costumers_info['Sexo'].value_counts()
percents = (genders / costumers_count) * 100

gender_percents = pd.DataFrame({
    'Sexo': genders,
    '%': percents
})

gender_percents = gender_percents.round(3)
gender_percents['%'] = gender_percents['%'].map('{:,.3f}%'.format)

gender_percents


Unnamed: 0,Sexo,%
Masculino,633,81.154%
Feminino,136,17.436%
Outro / Não Divulgado,11,1.410%


## Informações Demográficas Por Gênero

In [42]:
# Implemente aqui sua solução

## Análise de Compras Por Gênero

- Número de compras
- Preço médio de compra
- Valor Total de Compra
- Compras for faixa etária

In [51]:
purchases_count = purchase_file.groupby(['Sexo']).count()['Valor'].rename('Purchases Count')
average_purchases_price = purchase_file.groupby(['Sexo']).mean()['Valor'].rename('Average Price')
total_amount = purchase_file.groupby(['Sexo']).sum()['Valor'].rename('Total Amount')
total_normalized = total_amount / genders

purchases_by_gender_analysis = pd.DataFrame({
    'Purchases Count': purchases_count,
    'Average Item Price': average_purchases_price,
    'Total Amount': total_amount
})

purchases_by_gender_analysis = purchases_by_gender_analysis.round(2)
purchases_by_gender_analysis['Average Item Price'] = purchases_by_gender_analysis['Average Item Price'].map("${:,.2f}".format)
purchases_by_gender_analysis['Total Amount'] = purchases_by_gender_analysis['Total Amount'].map("${:,.2f}".format)

purchases_by_gender_analysis

Unnamed: 0_level_0,Purchases Count,Average Item Price,Total Amount
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Feminino,136,$2.82,$382.91
Masculino,633,$2.95,"$1,867.68"
Outro / Não Divulgado,11,$3.25,$35.74


In [50]:
ages = [0, 9.99, 19.99, 29.99, 39.99, 49.99, 59.99, 1000]
labels = ['< 10', '10 - 19', '20 - 29', '30 - 39', '40 - 49', '50 - 59', ' >= 60']

purchase_file['Ages Range'] = pd.cut(purchase_file['Idade'], ages, labels=labels)

ages_count = purchase_file['Ages Range'].value_counts()
ages_percent = (ages_count / costumers_count) * 100
ages_average_item_price = purchase_file.groupby(['Ages Range']).mean()['Valor']
ages_total_amount = purchase_file.groupby(['Ages Range']).sum()['Valor']

demographic_info_by_age = pd.DataFrame({
    'Count': ages_count,
    '%': ages_percent,
    'Average Item Price': ages_average_item_price,
    'Total Amount': ages_total_amount
})

demographic_info_by_age = demographic_info_by_age.round(2)
demographic_info_by_age['%'] = demographic_info_by_age['%'].map('{:,.2f}%'.format)

#https://www.geeksforgeeks.org/replace-nan-values-with-zeros-in-pandas-dataframe/
demographic_info_by_age['Average Item Price'] = demographic_info_by_age['Average Item Price'].fillna(0)
demographic_info_by_age['Average Item Price'] = demographic_info_by_age['Average Item Price'].map('${:,.2f}'.format)

demographic_info_by_age['Total Amount'] = demographic_info_by_age['Total Amount'].map('${:,.2f}'.format)

demographic_info_by_age

Unnamed: 0,Count,%,Average Item Price,Total Amount
< 10,28,3.59%,$2.98,$83.46
10 - 19,168,21.54%,$2.88,$483.37
20 - 29,461,59.10%,$2.93,"$1,349.10"
30 - 39,106,13.59%,$2.99,$316.65
40 - 49,17,2.18%,$3.16,$53.75
50 - 59,0,0.00%,$0.00,$0.00
>= 60,0,0.00%,$0.00,$0.00


## Consumidores Mais Populares (Top 5)

- Login
- Número de compras
- Preço médio de compra
- Valor Total de Compra

In [57]:
total_by_user = purchase_file.groupby(['Login']).sum()['Valor'].rename('Total Amount')
average_by_user = purchase_file.groupby(['Login']).mean()['Valor'].rename('Average Value')
purchases_by_user_count = purchase_file.groupby(['Login']).count()['Valor'].rename('Purchases Count')

user_data = pd.DataFrame({
    'Total Amount': total_by_user,
    'Average Value': average_by_user,
    'Purchases Count': purchases_by_user_count
})

user_data = user_data.round(2)

user_data ['Total Amount'] = user_data ['Total Amount'].map('${:,.2f}'.format)
user_data ['Average Value'] = user_data ['Average Value'].map('${:,.2f}'.format)

# https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_values.html
user_data = user_data.sort_values('Total Amount', ascending=False)

user_data.head()

Unnamed: 0_level_0,Total Amount,Average Value,Purchases Count
Login,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Qarwen67,$9.97,$2.49,4
Sondim43,$9.38,$3.13,3
Tillyrin30,$9.19,$3.06,3
Lisistaya47,$9.19,$3.06,3
Tyisriphos58,$9.18,$4.59,2


## Itens Mais Populares

In [76]:
total_by_item = purchase_file.groupby(['Nome do Item']).sum()['Valor'].rename('Total Amount')
average_by_item = purchase_file.groupby(['Nome do Item']).mean()['Valor'].rename('Average Value')
purchases_by_item = purchase_file.groupby(['Nome do Item']).count()['Valor'].rename('Purchases Count')

item_data = pd.DataFrame({
    'Total Amount': total_by_item,
    'Average Value': average_by_item,
    'Purchases Count': purchases_by_item
})

item_data = item_data.sort_values('Purchases Count', ascending=False)
item_data = item_data.round(2)

item_data ['Total Amount'] = item_data ['Total Amount'].map('${:,.2f}'.format)
item_data ['Average Value'] = item_data ['Average Value'].map('${:,.2f}'.format)

item_data.head()

Unnamed: 0_level_0,Total Amount,Average Value,Purchases Count
Nome do Item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Final Critic,$38.60,$2.76,14
Arcane Gem,$24.53,$2.23,11
"Betrayal, Whisper of Grieving Widows",$25.85,$2.35,11
Stormcaller,$34.65,$3.47,10
Woeful Adamantite Claymore,$11.16,$1.24,9


## Itens Mais Lucrativos

In [80]:
profitable_items = pd.DataFrame({'Total Purchase Value': total_by_item, 'Average Purchase Value': average_by_item,
                          'Purchase Count': purchases_by_item})

profitable_items = profitable_items.sort_values('Total Purchase Value', ascending=False)

profitable_items ['Total Purchase Value'] = profitable_items['Total Purchase Value']
profitable_items ['Total Purchase Value'] = profitable_items['Total Purchase Value'].map("${:,.2f}".format)
profitable_items ['Average Purchase Value'] = profitable_items['Average Purchase Value'].map("${:,.2f}".format)

profitable_items.head()

Unnamed: 0_level_0,Total Purchase Value,Average Purchase Value,Purchase Count
Nome do Item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Final Critic,$38.60,$2.76,14
Retribution Axe,$37.26,$4.14,9
Stormcaller,$34.65,$3.47,10
Spectral Diamond Doomblade,$29.75,$4.25,7
Orenmir,$29.70,$4.95,6


## Fim


### Obrigado

### Visite o Blog da Data Science Academy - <a href="http://blog.dsacademy.com.br">Blog DSA</a>
