# <font color='blue'>Data Science Academy - Python Fundamentos - Capítulo 7</font>

## Download: http://github.com/dsacademybr

## Missão: Analisar o Comportamento de Compra de Consumidores.

## Nível de Dificuldade: Alto

Você recebeu a tarefa de analisar os dados de compras de um web site! Os dados estão no formato JSON e disponíveis junto com este notebook.

No site, cada usuário efetua login usando sua conta pessoal e pode adquirir produtos à medida que navega pela lista de produtos oferecidos. Cada produto possui um valor de venda. Dados de idade e sexo de cada usuário foram coletados e estão fornecidos no arquivo JSON.

Seu trabalho é entregar uma análise de comportamento de compra dos consumidores. Esse é um tipo de atividade comum realizado por Cientistas de Dados e o resultado deste trabalho pode ser usado, por exemplo, para alimentar um modelo de Machine Learning e fazer previsões sobre comportamentos futuros.

Mas nesta missão você vai analisar o comportamento de compra dos consumidores usando o pacote Pandas da linguagem Python e seu relatório final deve incluir cada um dos seguintes itens:

** Contagem de Consumidores **

* Número total de consumidores


** Análise Geral de Compras **

* Número de itens exclusivos
* Preço médio de compra
* Número total de compras
* Rendimento total


** Informações Demográficas Por Gênero **

* Porcentagem e contagem de compradores masculinos
* Porcentagem e contagem de compradores do sexo feminino
* Porcentagem e contagem de outros / não divulgados


** Análise de Compras Por Gênero **

* Número de compras
* Preço médio de compra
* Valor Total de Compra
* Compras for faixa etária


** Identifique os 5 principais compradores pelo valor total de compra e, em seguida, liste (em uma tabela): **

* Login
* Número de compras
* Preço médio de compra
* Valor Total de Compra
* Itens mais populares


** Identifique os 5 itens mais populares por contagem de compras e, em seguida, liste (em uma tabela): **

* ID do item
* Nome do item
* Número de compras
* Preço do item
* Valor Total de Compra
* Itens mais lucrativos


** Identifique os 5 itens mais lucrativos pelo valor total de compra e, em seguida, liste (em uma tabela): **

* ID do item
* Nome do item
* Número de compras
* Preço do item
* Valor Total de Compra


** Como considerações finais: **

* Seu script deve funcionar para o conjunto de dados fornecido.
* Você deve usar a Biblioteca Pandas e o Jupyter Notebook.


In [2]:
# Imports
import pandas as pd
import numpy as np

In [3]:
# Carrega o arquivo
load_file = "dados_compras.json"
purchase_file = pd.read_json(load_file, orient = "records")
purchase_file.head()

Unnamed: 0,Idade,Item ID,Login,Nome do Item,Sexo,Valor
0,38,165,Aelalis34,Bone Crushing Silver Skewer,Masculino,3.37
1,21,119,Eolo46,"Stormbringer, Dark Blade of Ending Misery",Masculino,2.32
2,34,174,Assastnya25,Primitive Blade,Masculino,2.46
3,21,92,Pheusrical25,Final Critic,Masculino,1.36
4,23,63,Aela59,Stormfury Mace,Masculino,1.27


## Informações Sobre os Consumidores

In [4]:
# Implemente aqui sua solução
numCli = len(purchase_file.groupby('Login').count())

print("Número total de consumidores: "+str(numCli))

Número total de consumidores: 573


## Análise Geral de Compras

In [5]:
# Implemente aqui sua solução
#Número de itens exclusivos
numItens = len(purchase_file.groupby('Item ID').count())
print("Número de itens exclusivos: "+str(numItens))

#Preço médio de compra
vlrMedio = np.average(purchase_file.Valor)
print("Preço médio de compra: "+str(vlrMedio))

#Número total de compras
totCompras = purchase_file.Idade.count()
print("Número total de compras: "+str(totCompras))

#Rendimento total
vlrTotal = np.sum(purchase_file.Valor)
print("Rendimento total: "+str(vlrTotal))

Número de itens exclusivos: 183
Preço médio de compra: 2.9311923076923074
Número total de compras: 780
Rendimento total: 2286.33


## Análise Demográfica

In [6]:
## Implemente aqui sua solução

## Informações Demográficas Por Gênero

In [7]:
# Implemente aqui sua solução
#Porcentagem e contagem de compradores masculinos
compMasc = (purchase_file[purchase_file.Sexo == 'Masculino'].Sexo.count()/purchase_file.Sexo.count())*100
print("Porcentagem e contagem de compradores masculinos: "+str(round(compMasc,2)))

#Porcentagem e contagem de compradores do sexo feminino
compFem = (purchase_file[purchase_file.Sexo == 'Feminino'].Sexo.count()/purchase_file.Sexo.count())*100
print("Porcentagem e contagem de compradores do sexo feminino: "+str(round(compFem,2)))

#Porcentagem e contagem de outros / não divulgados
compOutros = (purchase_file[purchase_file.Sexo == 'Outro / NÃ£o Divulgado'].Sexo.count()/purchase_file.Sexo.count())*100
print("Porcentagem e contagem de outros / não divulgados: "+str(round(compOutros,2)))

Porcentagem e contagem de compradores masculinos: 81.15
Porcentagem e contagem de compradores do sexo feminino: 17.44
Porcentagem e contagem de outros / não divulgados: 1.41


## Análise de Compras Por Gênero

In [8]:
# Implemente aqui sua solução
print("Número de compras:")
numComp = purchase_file.groupby("Sexo").Sexo.count()
print(numComp)

print("\nPreço médio de compra:")
vlrMed = purchase_file.groupby("Sexo").Valor.agg('mean')
print(vlrMed)

print("\nValor Total de Compra:")
vlrTot = purchase_file.groupby("Sexo").Valor.sum()
print(vlrTot)

print("\nCompras for faixa etária:")
vlrTot = purchase_file.groupby(['Sexo','Idade']).Idade.count()
print(vlrTot)

Número de compras:
Sexo
Feminino                  136
Masculino                 633
Outro / NÃ£o Divulgado     11
Name: Sexo, dtype: int64

Preço médio de compra:
Sexo
Feminino                  2.815515
Masculino                 2.950521
Outro / NÃ£o Divulgado    3.249091
Name: Valor, dtype: float64

Valor Total de Compra:
Sexo
Feminino                   382.91
Masculino                 1867.68
Outro / NÃ£o Divulgado      35.74
Name: Valor, dtype: float64

Compras for faixa etária:
Sexo                    Idade
Feminino                7         5
                        9         1
                        10        2
                        11        2
                        13        5
                        15        4
                        16        5
                        17        6
                        18        6
                        19        3
                        20       17
                        21        4
                        22        9
               

## Consumidores Mais Populares (Top 5)

In [80]:
# Implemente aqui sua solução
#Identifique os 5 principais compradores pelo valor total de compra e, em seguida, liste (em uma tabela):

#Login
print("5 principais compradores:")
comp = purchase_file.groupby("Login").Valor.sum().sort_values(ascending=False).iloc[0:5]
#converte o resultado de uma Série em DataFrame (Tabela)
df = pd.DataFrame({'Login':comp.index, 'Valor_Total':comp.values})
print(df)
df['Num_compra'] = 0
df['Vlr_medio'] = 0
df['Item'] = ''

for x in df['Login']:
    #Número de compras
    df.loc[df['Login'] == x,'Num_compra'] = purchase_file[purchase_file['Login'] == x].Valor.count()
    #Preço médio de compra
    df.loc[df['Login'] == x,'Vlr_medio'] = purchase_file[purchase_file['Login'] == x].Valor.agg('mean')
    #Itens mais populares
    df.loc[df['Login'] == x,'Item'] = purchase_file[purchase_file['Login'] == x]['Nome do Item'].count()

print(df)

5 principais compradores:
         Login  Valor_Total
0  Undirrala66        17.06
1     Saedue76        13.56
2  Mindimnya67        12.74
3   Haellysu29        12.73
4       Eoda93        11.58
         Login  Valor_Total  Num_compra  Vlr_medio  Item
0  Undirrala66        17.06           5   3.412000     5
1     Saedue76        13.56           4   3.390000     4
2  Mindimnya67        12.74           4   3.185000     4
3   Haellysu29        12.73           3   4.243333     3
4       Eoda93        11.58           3   3.860000     3
780


## Itens Mais Populares

In [104]:
# Implemente aqui sua solução
#Identifique os 5 itens mais populares por contagem de compras e, em seguida, liste (em uma tabela):

#ID do item
#Nome do item
#Número de compras
#Preço do item
#Valor Total de Compra
#Itens mais lucrativos

print("5 principais produtos:")
comp = purchase_file.groupby("Item ID")['Item ID'].count().sort_values(ascending=False).iloc[0:5]
#converte o resultado de uma Série em DataFrame (Tabela)
df = pd.DataFrame({'Item ID':comp.index, 'Qtde_Compras':comp.values})
df['Nome_Item'] = ''
df['Vlr_unitario'] = 0
df['Vlr_total'] = 0

for x in df['Item ID']:
    #Nome do item
    df.loc[df['Item ID'] == x,'Nome_Item'] = purchase_file[purchase_file['Item ID'] == x]['Nome do Item'].iloc[0]
    #Preço do item
    df.loc[df['Item ID'] == x,'Vlr_unitario'] = purchase_file[purchase_file['Item ID'] == x].Valor.iloc[0]
    #Valor Total de Compra
    df.loc[df['Item ID'] == x,'Vlr_total'] = purchase_file[purchase_file['Item ID'] == x].Valor.sum()

print(df)
#print(purchase_file[purchase_file['Item ID'] == 175]['Nome do Item'].iloc[0])

5 principais produtos:
   Item ID  Qtde_Compras                             Nome_Item  Vlr_unitario  \
0       84            11                            Arcane Gem          2.23   
1       39            11  Betrayal, Whisper of Grieving Widows          2.35   
2       31             9                             Trickster          2.07   
3       34             9                       Retribution Axe          4.14   
4      175             9            Woeful Adamantite Claymore          1.24   

   Vlr_total  
0      24.53  
1      25.85  
2      18.63  
3      37.26  
4      11.16  


## Itens Mais Lucrativos

In [107]:
# Implemente aqui sua solução
#Identifique os 5 itens mais lucrativos pelo valor total de compra e, em seguida, liste (em uma tabela):

#ID do item
#Nome do item
#Número de compras
#Preço do item
#Valor Total de Compra

print("5 produtos mais lucrativos:")
comp = purchase_file.groupby("Item ID").Valor.sum().sort_values(ascending=False).iloc[0:5]
#converte o resultado de uma Série em DataFrame (Tabela)
df = pd.DataFrame({'Item ID':comp.index, 'Vlr_total':comp.values})
df['Nome_Item'] = ''
df['Qtde_Compras'] = 0
df['Vlr_unitario'] = 0

for x in df['Item ID']:
    #Nome do item
    df.loc[df['Item ID'] == x,'Nome_Item'] = purchase_file[purchase_file['Item ID'] == x]['Nome do Item'].iloc[0]
    #Número de compras
    df.loc[df['Item ID'] == x,'Qtde_Compras'] = purchase_file[purchase_file['Item ID'] == x]['Nome do Item'].count()
    #Preço do item
    df.loc[df['Item ID'] == x,'Vlr_unitario'] = purchase_file[purchase_file['Item ID'] == x].Valor.iloc[0]

print(df)

5 produtos mais lucrativos:
   Item ID  Vlr_total                   Nome_Item  Qtde_Compras  Vlr_unitario
0       34      37.26             Retribution Axe             9          4.14
1      115      29.75  Spectral Diamond Doomblade             7          4.25
2       32      29.70                     Orenmir             6          4.95
3      103      29.22              Singed Scalpel             6          4.87
4      107      28.88   Splitter, Foe Of Subtlety             8          3.61


## Fim

### Obrigado - Data Science Academy - <a href="http://facebook.com/dsacademybr">facebook.com/dsacademybr</a>