# Missão: Analisar o Comportamento de Compra de Consumidores.

## Fonte dos dados e origem do exercício:

Esse foi o primeiro exercício de análise de dados que fiz durante o curso de Python Fundamentos oferecido pela Data Science Academy (DSA). Se trata de um exercício simples de importar dados no formato json e realizar alguns filtros para responder algumas perguntas formuladas pela a equipe da DSA.

Site da DSA: https://www.datascienceacademy.com.br/

## Perguntas propostas:

Você recebeu a tarefa de analisar os dados de compras de um web site! Os dados estão no formato JSON e disponíveis junto com este notebook.

No site, cada usuário efetua login usando sua conta pessoal e pode adquirir produtos à medida que navega pela lista de produtos oferecidos. Cada produto possui um valor de venda. Dados de idade e sexo de cada usuário foram coletados e estão fornecidos no arquivo JSON.

Seu trabalho é entregar uma análise de comportamento de compra dos consumidores. Esse é um tipo de atividade comum realizado por Cientistas de Dados e o resultado deste trabalho pode ser usado, por exemplo, para alimentar um modelo de Machine Learning e fazer previsões sobre comportamentos futuros.

Mas nesta missão você vai analisar o comportamento de compra dos consumidores usando o pacote Pandas da linguagem Python e seu relatório final deve incluir cada um dos seguintes itens:

** Contagem de Consumidores **

* Número total de consumidores


** Análise Geral de Compras **

* Número de itens exclusivos
* Preço médio de compra
* Número total de compras
* Rendimento total


** Informações Demográficas Por Gênero **

* Porcentagem e contagem de compradores masculinos
* Porcentagem e contagem de compradores do sexo feminino
* Porcentagem e contagem de outros / não divulgados


** Análise de Compras Por Gênero **

* Número de compras
* Preço médio de compra
* Valor Total de Compra
* Compras for faixa etária


** Identifique os 5 principais compradores pelo valor total de compra e, em seguida, liste (em uma tabela): **

* Login
* Número de compras
* Preço médio de compra
* Valor Total de Compra
* Itens mais populares


** Identifique os 5 itens mais populares por contagem de compras e, em seguida, liste (em uma tabela): **

* ID do item
* Nome do item
* Número de compras
* Preço do item
* Valor Total de Compra
* Itens mais lucrativos


** Identifique os 5 itens mais lucrativos pelo valor total de compra e, em seguida, liste (em uma tabela): **

* ID do item
* Nome do item
* Número de compras
* Preço do item
* Valor Total de Compra


** Como considerações finais: **

* Seu script deve funcionar para o conjunto de dados fornecido.
* Você deve usar a Biblioteca Pandas e o Jupyter Notebook.


### Importando pacotes necessários 

In [1]:
# Imports
import pandas as pd
import numpy as np

### Importando o arquivo

In [2]:
# Carrega o arquivo
diretorio = 'D:/Projetos_Analise_de_dados/Primeiro_Projeto_Dados_de_Compras/Dados/dados_compras.json'
purchase_file = pd.read_json(diretorio, orient = "records")
purchase_file.head()

Unnamed: 0,Login,Idade,Sexo,Item ID,Nome do Item,Valor
0,Aelalis34,38,Masculino,165,Bone Crushing Silver Skewer,3.37
1,Eolo46,21,Masculino,119,"Stormbringer, Dark Blade of Ending Misery",2.32
2,Assastnya25,34,Masculino,174,Primitive Blade,2.46
3,Pheusrical25,21,Masculino,92,Final Critic,1.36
4,Aela59,23,Masculino,63,Stormfury Mace,1.27


### Problema nº 1 

Número total de consumidores

In [3]:
# Implemente aqui sua solução
print(f"O número total de consumidores é: {purchase_file['Login'].drop_duplicates().count()}.")

O número total de consumidores é: 573.


### Problema nº 2 - Análise Geral de Compras 

In [5]:
# Número de itens exclusivos:
num_itens = purchase_file['Item ID'].drop_duplicates().count()

#Preço médio de compra:
preco_medio = purchase_file['Valor'].mean().round(2)

#Rendimento total
rend_total = purchase_file['Valor'].sum().round(2)

#Número total de compras:
num_tot_comp = purchase_file['Item ID'].count()

vendas_gerais = pd.DataFrame({'Nº Itens': [num_itens], 'Preço Médio (R$)': [preco_medio] , 'Rendimento Total (R$)': [rend_total], 'Nº Total de Compras': [num_tot_comp]})
vendas_gerais

Unnamed: 0,Nº Itens,Preço Médio (R$),Rendimento Total (R$),Nº Total de Compras
0,183,2.93,2286.33,780


### Problema nº 3 - Informações Demográficas Por Gênero 

In [6]:
#Criando dataframe em branco:
demo_genero = pd.DataFrame()

#Selecionando colunas:
cols = ['Login', 'Sexo']

demo_genero['Qnt'] = purchase_file[cols].drop_duplicates().groupby('Sexo').count()

demo_genero['Percentagem (%)'] = (demo_genero['Qnt']/demo_genero['Qnt'].sum()).round(4)*100

demo_genero

Unnamed: 0_level_0,Qnt,Percentagem (%)
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1
Feminino,100,17.45
Masculino,465,81.15
Outro / Não Divulgado,8,1.4


### Problema nº 4 -  Análise de Compras Por Gênero e Idade

#### Compras por Gênero 

In [60]:
#Total de unidades vendidas por gênero
demo_genero['qnt_vendida'] = purchase_file[['Sexo', 'Item ID', 'Valor']].groupby(by='Sexo').count()['Item ID']

#Calculando o preço médio de venda por gênero
demo_genero['Valor médio (R$)'] = round(purchase_file[['Sexo', 'Item ID', 'Valor']].groupby(by='Sexo').mean()['Valor'], 2)

#Total vendido por Gênero
demo_genero['Total Vendido (R$)'] = round(purchase_file[['Sexo', 'Item ID', 'Valor']].groupby(by='Sexo').sum()['Valor'], 2)

demo_genero

Unnamed: 0_level_0,Qnt,Percentagem (%),Total Vendido (R$),Valor médio (R$),qnt_vendida
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Feminino,100,17.45,382.91,2.82,136
Masculino,465,81.15,1867.68,2.95,633
Outro / Não Divulgado,8,1.4,35.74,3.25,11


#### Por faixa etária 

In [64]:
#Definindo as faixas etarias
faixas_etarias = [0, 14, 19, 26, 31, 36, 41, 100]

rotulos_faixas_etarias = ['Menor que 13 anos', 'Entre 14 e 18 anos', 'Entre 19 e 25 anos', 'Entre 26 e 30 anos', 
                'Entre 31 e 35 anos', 'Entre 36 e 40 anos', 'Maior que 40 anos']

#Criando copia do dataframe:
purchase_file_copia = purchase_file

#Cortando o dataframe pelas idades:
purchase_file_copia['Faixa Etaria'] = pd.cut(purchase_file['Idade'], bins=faixas_etarias, labels=rotulos_faixas_etarias, right=False)

#Criando dataframe em branco:
demo_faixa_etaria = pd.DataFrame()

#Quantidade de consumidores por faixa etária
demo_faixa_etaria['Qnt'] = purchase_file_copia[['Login', 'Faixa Etaria']].drop_duplicates().groupby('Faixa Etaria').count()

#Porcentagem da quantidade de pessoas por faixa etaria
demo_faixa_etaria['Percentagem (%)'] = (demo_faixa_etaria['Qnt']/demo_faixa_etaria['Qnt'].sum()).round(4)*100

#Total quantidade de unidades vendidas por faixa etária
demo_faixa_etaria['qnt vendida'] = purchase_file_copia[['Faixa Etaria', 'Item ID', 'Valor']].groupby(by='Faixa Etaria').count()['Item ID']

#Valor médio vendido por faixa etária
demo_faixa_etaria['Valor médio (R$)'] = round(purchase_file_copia[['Faixa Etaria', 'Item ID', 'Valor']].groupby(by='Faixa Etaria').mean()['Valor'], 2)

#Quantidade vendida por faixa etária
demo_faixa_etaria['Total Vendido (R$)'] = round(purchase_file_copia[['Faixa Etaria', 'Item ID', 'Valor']].groupby(by='Faixa Etaria').sum()['Valor'], 2)

demo_faixa_etaria

Unnamed: 0_level_0,Qnt,Percentagem (%),qnt vendida,Valor médio (R$),Total Vendido (R$)
Faixa Etaria,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Menor que 13 anos,39,6.81,57,2.91,166.11
Entre 14 e 18 anos,87,15.18,117,2.85,333.62
Entre 19 e 25 anos,323,56.37,425,2.95,1252.39
Entre 26 e 30 anos,52,9.08,76,2.89,219.82
Entre 31 e 35 anos,44,7.68,58,3.07,178.26
Entre 36 e 40 anos,25,4.36,44,2.9,127.49
Maior que 40 anos,3,0.52,3,2.88,8.64


### Problema nº 5 - Consumidores Mais Populares (Top 5)

In [6]:
#Criando dataframe em branco:
cons_top5 = pd.DataFrame()

#Selecionando colunas:
cols = ['Login', 'Item ID', 'Valor']

#Agrupando a soma do valor das vendas pelo Login
cons_top5['Compra Total (R$)'] = purchase_file[cols].groupby('Login').sum().sort_values(by='Valor', ascending=False).head()['Valor']

#Calculando a quantidade de itens vendidos
cons_top5['Nº de Itens'] = purchase_file[cols].groupby('Login').count()['Item ID']

#Calculando o valor médio das compras
cons_top5['Valor médio (R$)'] = purchase_file[cols].groupby('Login').mean()['Valor'].round(2)

cons_top5

Unnamed: 0_level_0,Compra Total (R$),Nº de Itens,Valor médio (R$)
Login,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Undirrala66,17.06,5,3.41
Saedue76,13.56,4,3.39
Mindimnya67,12.74,4,3.18
Haellysu29,12.73,3,4.24
Eoda93,11.58,3,3.86


### Problema nº 6 - Itens Mais Populares

In [7]:
#Criando dataframe em branco:
itens_pop = pd.DataFrame()

#Agrupando a quantidade de itens vendidas pelo nome do item
itens_pop['Qnt'] = purchase_file.groupby('Nome do Item').count().sort_values(by = 'Item ID', ascending = False).head()['Item ID']

#Calculando a média de venda
itens_pop['Preço Médio (R$)'] = purchase_file.groupby('Nome do Item').mean()['Valor'].round(2)

#Calculando o total vendido
itens_pop['Valor Total (R$)'] = purchase_file.groupby('Nome do Item').sum()['Valor'].round(2)

itens_pop

Unnamed: 0_level_0,Qnt,Preço Médio (R$),Valor Total (R$)
Nome do Item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Final Critic,14,2.76,38.6
Arcane Gem,11,2.23,24.53
"Betrayal, Whisper of Grieving Widows",11,2.35,25.85
Stormcaller,10,3.47,34.65
Woeful Adamantite Claymore,9,1.24,11.16


### Problema nº 7 - Itens Mais Lucrativos 

In [8]:
#Criando dataframe em branco:
itens_lucrativos = pd.DataFrame()

#Agrupando a soma das vendas pelo nome dos itens
itens_lucrativos['Valor Total (R$)'] = purchase_file.groupby('Nome do Item').sum().sort_values(by='Valor', ascending = False).head()['Valor']

#Calculando quantidade vendida
itens_lucrativos['Qnt'] = purchase_file.groupby('Nome do Item').count()['Valor']

#Calculando preço médio
itens_lucrativos['Preço médio (R$)'] = purchase_file.groupby('Nome do Item').mean()['Valor'].round(2)

itens_lucrativos

Unnamed: 0_level_0,Valor Total (R$),Qnt,Preço médio (R$)
Nome do Item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Final Critic,38.6,14,2.76
Retribution Axe,37.26,9,4.14
Stormcaller,34.65,10,3.47
Spectral Diamond Doomblade,29.75,7,4.25
Orenmir,29.7,6,4.95
