# Tratamento dos dados

In [1]:
#imports
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# Carregando os arquivos e salvando em um dataframe
file = "dados_compras.json"
compras = pd.read_json(file, orient = "records")
compras.head()

In [None]:
#verificar estatísticas das colunas do dataframe (para ser utilizado mais tarde para entedner se os futuros dados obitos fazem sentido)
print(compras.describe())

# Informações dos Consumidores
* Número total de consumidores
* Número total de vendas

In [None]:
#verificar o total de vendas e de consumidores (se há mais de uma venda por consumidor)
demografico = compras.loc[:, ["Login", "Sexo","Idade"]]
demografico.head()

In [None]:
players = demografico.drop_duplicates()
players

# Análise Geral de Compras
* Número de itens exclusivos
* Preço médio de compra
* Número total de compras
* Rendimento total

In [None]:
media_vendas = compras['Valor'].mean()
total_vendas = compras['Valor'].sum()
numero_vendas = compras['Valor'].count()
item_unicos = len(compras["Item ID"].unique())#contagem de str

vendas = pd.DataFrame({"Media de Vendas": [media_vendas],# valores escalares entre []
                      "Total de Vendas": total_vendas,  
                      "Numero de Vendas": numero_vendas,
                      "Itens Únicos": item_unicos})

vendas["Media de Vendas"] = vendas["Media de Vendas"].map("${:,.2f}".format)
vendas["Total de Vendas"] = vendas["Total de Vendas"].map("${:,.2f}".format)
vendas["Numero de Vendas"] = vendas["Numero de Vendas"].map("{:}".format)
vendas["Itens Únicos"] = vendas["Itens Únicos"].map("{:}".format)
vendas


# Informações Demográficas Por Gênero

* Porcentagem e contagem de compradores masculinos
* Porcentagem e contagem de compradores do sexo feminino
* Porcentagem e contagem de outros / não divulgados

In [None]:
masc = len(players.loc[compras['Sexo'] == 'Masculino'])
fem = len(players.loc[compras["Sexo"] == 'Feminino'])
others = len(players.loc[compras['Sexo'] == 'Outro / Não Divulgado'])
total_sex = players['Sexo'].count()
masc_por = (masc / total_sex)*100
fem_por = (fem / total_sex)*100
others_por = (others / total_sex)*100
generos = pd.DataFrame({"Quantidade": [masc, fem, others],
                        "%": [masc_por,fem_por, others_por]}, 
                        index= ["Masculino", "Feminino", "Outros / Não Divulgado"])
generos['%'] = generos['%'].map("{:.2f}%".format)
generos

# Análise de Compras Por Gênero 

* Número de compras
* Preço médio de compra
* Valor Total de Compra
* Compras for faixa etária

In [None]:
total = compras.groupby(['Sexo']).sum()['Valor'].map("$ {:,.2f}".format)
media = compras.groupby(['Sexo']).mean()['Valor'].map("$ {:.2f}".format)
qntd = compras.groupby(['Sexo']).count()['Valor']
genero = pd.DataFrame({"Total de Compras": total,
                        "Preço Médio": media,
                        "Quantidade de Compras": qntd})
genero


In [None]:
#faixa etária ##lemberet tentar groupyby com listas das idades
id1 = [1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20]
id2 = [21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39]
total = compras.groupby(['Idade'], by = [id1]).count()

genero = pd.DataFrame({"Total de Compras": total})  
genero


# Identifique os 5 principais compradores pelo valor total de compra e, em seguida, liste (em uma tabela):

* Login
* Número de compras
* Preço médio de compra
* Valor Total de Compra
* Itens mais populares

In [None]:
total_compras = compras.groupby(["Login"]).sum()["Valor"].map("${:.2f}".format)
media_compras = compras.groupby(["Login"]).mean()["Valor"].map("${:.2f}".format) 
qntd_compras = compras.groupby(["Login"]).count()["Valor"]

tabela = pd.DataFrame({"Total Compras": total_compras,
                       "Numero Compras": qntd_compras,
                       "Media Compras": media_compras,})
tabela.sort_values("Total Compras", ascending=False).head(5)##inserir nome da coluna a ser ordenada

#  Identifique os 5 itens mais populares por contagem de compras e, em seguida, liste (em uma tabela):

* ID do item
* Nome do item
* Número de compras
* Preço do item
* Valor Total de Compra
* Itens mais lucrativos

In [None]:
# Cálculos básicos
item_total = compras.groupby(["Nome do Item"]).sum()["Valor"]
item_medio = compras.groupby(["Nome do Item"]).mean()["Valor"]
item_qntd = compras.groupby(["Nome do Item"]).count()["Valor"]

# Dataframe para os resultados
table = pd.DataFrame({"Valor Total de Compra": item_total,
                      "Valor Médio de Compra": item_medio,
                      "Número de Compra": item_qntd})
table["Valor Total de Compra"] = table["Valor Total de Compra"].map("${:,.2f}".format)
table["Valor Médio de Compra"] = table["Valor Médio de Compra"].map("${:,.2f}".format)
table.sort_values("Número de Compra", ascending=False).head(5)

# Identifique os 5 itens mais lucrativos pelo valor total de compra e, em seguida, liste (em uma tabela):

* ID do item
* Nome do item
* Número de compras
* Preço do item
* Valor Total de Compra

In [None]:
table.sort_values("Valor Total de Compra", ascending=False).head(5)