# <font color='blue'>Data Science Academy - Python Fundamentos - Capítulo 7</font>

## Download: http://github.com/dsacademybr

## Missão: Analisar o Comportamento de Compra de Consumidores.

## Nível de Dificuldade: Alto

Você recebeu a tarefa de analisar os dados de compras de um web site! Os dados estão no formato JSON e disponíveis junto com este notebook.

No site, cada usuário efetua login usando sua conta pessoal e pode adquirir produtos à medida que navega pela lista de produtos oferecidos. Cada produto possui um valor de venda. Dados de idade e sexo de cada usuário foram coletados e estão fornecidos no arquivo JSON.

Seu trabalho é entregar uma análise de comportamento de compra dos consumidores. Esse é um tipo de atividade comum realizado por Cientistas de Dados e o resultado deste trabalho pode ser usado, por exemplo, para alimentar um modelo de Machine Learning e fazer previsões sobre comportamentos futuros.

Mas nesta missão você vai analisar o comportamento de compra dos consumidores usando o pacote Pandas da linguagem Python e seu relatório final deve incluir cada um dos seguintes itens:

** Contagem de Consumidores **

* Número total de consumidores


** Análise Geral de Compras **

* Número de itens exclusivos
* Preço médio de compra
* Número total de compras
* Rendimento total


** Informações Demográficas Por Gênero **

* Porcentagem e contagem de compradores masculinos
* Porcentagem e contagem de compradores do sexo feminino
* Porcentagem e contagem de outros / não divulgados


** Análise de Compras Por Gênero **

* Número de compras
* Preço médio de compra
* Valor Total de Compra
* Compras for faixa etária


** Identifique os 5 principais compradores pelo valor total de compra e, em seguida, liste (em uma tabela): **

* Login
* Número de compras
* Preço médio de compra
* Valor Total de Compra
* Itens mais populares


** Identifique os 5 itens mais populares por contagem de compras e, em seguida, liste (em uma tabela): **

* ID do item
* Nome do item
* Número de compras
* Preço do item
* Valor Total de Compra
* Itens mais lucrativos


** Identifique os 5 itens mais lucrativos pelo valor total de compra e, em seguida, liste (em uma tabela): **

* ID do item
* Nome do item
* Número de compras
* Preço do item
* Valor Total de Compra


** Como considerações finais: **

* Seu script deve funcionar para o conjunto de dados fornecido.
* Você deve usar a Biblioteca Pandas e o Jupyter Notebook.


In [1]:
# Imports
import pandas as pd
import numpy as np

In [2]:
# Carrega o arquivo
load_file = "dados_compras.json"
purchase_file = pd.read_json(load_file, orient = "records")
purchase_file.head()

Unnamed: 0,Idade,Item ID,Login,Nome do Item,Sexo,Valor
0,38,165,Aelalis34,Bone Crushing Silver Skewer,Masculino,3.37
1,21,119,Eolo46,"Stormbringer, Dark Blade of Ending Misery",Masculino,2.32
2,34,174,Assastnya25,Primitive Blade,Masculino,2.46
3,21,92,Pheusrical25,Final Critic,Masculino,1.36
4,23,63,Aela59,Stormfury Mace,Masculino,1.27


## Informações Sobre os Consumidores

### Número total de consumidores

In [27]:
# Implemente aqui sua solução
grouped_logins = purchase_file.groupby('Login')
len(grouped_logins.count())

573

## Análise Geral de Compras

### Número de itens exclusivos

In [28]:
grouped_items = purchase_file.groupby('Item ID')
df = grouped_items.count()
len(df[df['Valor'] == 1])

14

### Preço médio de compra

In [12]:
purchase_file['Valor'].mean()

2.931192307692303

### Número total de compras

In [13]:
len(purchase_file)

780

### Rendimento total

In [14]:
purchase_file['Valor'].sum()

2286.33

## Análise Demográfica

### Porcentagem e contagem de compradores masculinos

In [46]:
df_homens = purchase_file[purchase_file['Sexo'] == 'Masculino']
qtd_homens = len(df_homens['Login'].unique())
print(qtd_homens, "compradores declarados de sexo masculino. Total de", str((qtd_homens / len(grouped_logins.count()))*100) + "%")

465 compradores declarados de sexo masculino. Total de 81.15183246073299%


### Porcentagem e contagem de compradores do sexo feminino

In [48]:
df_molieres = purchase_file[purchase_file['Sexo'] == 'Feminino']
qtd_molieres = len(df_molieres['Login'].unique())
print(qtd_molieres, "compradoras declaradas de sexo feminino. Total de", str((qtd_molieres / len(grouped_logins.count()))*100) + "%")

100 compradoras declaradas de sexo feminino. Total de 17.452006980802793%


### Porcentagem e contagem de outros / não divulgados

In [49]:
df_naodeclarados = purchase_file[(purchase_file['Sexo'] != 'Feminino') & (purchase_file['Sexo'] != 'Masculino')]
qtd_naodeclarados = len(df_naodeclarados['Login'].unique())
print(qtd_naodeclarados, "compradorxs sem sexo declarado. Total de", str((qtd_naodeclarados / len(grouped_logins.count()))*100) + "%")

8 compradorxs sem sexo declarado. Total de 1.3961605584642234%


## Análise de Compras Por Gênero

### Número de compras

In [51]:
print(len(df_homens), "compras de logins declarados do sexo masculino. Total de", str((len(df_homens) / len(purchase_file))*100) + "%")
print(len(df_molieres), "compras de logins declaradas do sexo feminino. Total de", str((len(df_molieres) / len(purchase_file))*100) + "%")
print(len(df_naodeclarados), "compras de logins sem sexo declarado. Total de", str((len(df_naodeclarados) / len(purchase_file))*100) + "%")

633 compras de logins declarados do sexo masculino. Total de 81.15384615384616%
136 compras de logins declaradas do sexo feminino. Total de 17.435897435897434%
11 compras de logins sem sexo declarado. Total de 1.4102564102564104%


### Preço médio de compra

In [52]:
print('Homens: R$', df_homens['Valor'].mean())
print('Mulheres: R$', df_molieres['Valor'].mean())
print('Não-declarados: R$', df_naodeclarados['Valor'].mean())

Homens: R$ 2.9505213270142154
Mulheres: R$ 2.815514705882352
Não-declarados: R$ 3.2490909090909086


### Valor Total de Compra

In [53]:
print('Homens: R$', df_homens['Valor'].sum())
print('Mulheres: R$', df_molieres['Valor'].sum())
print('Não-declarados: R$', df_naodeclarados['Valor'].sum())

Homens: R$ 1867.68
Mulheres: R$ 382.90999999999997
Não-declarados: R$ 35.739999999999995


### Compras for faixa etária

In [74]:
age_range = np.arange(0, purchase_file['Idade'].max() + 15, 15)
age_range_labels = ['0-15', '16-30', '31-45']
df = pd.concat([
    df_homens.groupby(pd.cut(df_homens['Idade'], age_range, labels=age_range_labels)).count()[['Idade']],
    df_molieres.groupby(pd.cut(df_molieres['Idade'], age_range, labels=age_range_labels)).count()[['Idade']],
    df_naodeclarados.groupby(pd.cut(df_naodeclarados['Idade'], age_range, labels=age_range_labels)).count()[['Idade']]
], axis=1)
df.columns = ['Homens', 'Mulheres', 'Não-declarados']
df

Unnamed: 0_level_0,Homens,Mulheres,Não-declarados
Idade,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0-15,90,19,1
16-30,461,99,5
31-45,82,18,5


## Consumidores Mais Populares (Top 5)
**Identifique os 5 principais compradores pelo valor total de compra e, em seguida, liste (em uma tabela):**

### Login

In [77]:
grouped_logins.sum().nlargest(5, 'Valor')[['Valor']]

Unnamed: 0_level_0,Valor
Login,Unnamed: 1_level_1
Undirrala66,17.06
Saedue76,13.56
Mindimnya67,12.74
Haellysu29,12.73
Eoda93,11.58


### Número de compras

In [78]:
grouped_logins.count().nlargest(5, 'Valor')[['Valor']]

Unnamed: 0_level_0,Valor
Login,Unnamed: 1_level_1
Undirrala66,5
Hailaphos89,4
Mindimnya67,4
Qarwen67,4
Saedue76,4


### Preço médio de compra

In [79]:
grouped_logins.mean().nlargest(5, 'Valor')[['Valor']]

Unnamed: 0_level_0,Valor
Login,Unnamed: 1_level_1
Frichaststa61,4.95
Palurrian69,4.95
Qiluard68,4.95
Tyarithn67,4.95
Assossa43,4.89


### Valor Total de Compra

In [None]:
grouped_logins.sum().nlargest(5, 'Valor')[['Valor']]

### Itens mais populares

In [80]:
grouped_items.count().nlargest(5, 'Valor')[['Valor']]

Unnamed: 0_level_0,Valor
Item ID,Unnamed: 1_level_1
39,11
84,11
13,9
31,9
34,9


## Fim

### Obrigado - Data Science Academy - <a href="http://facebook.com/dsacademybr">facebook.com/dsacademybr</a>