# <font color='blue'>Data Science Academy - Python Fundamentos - Capítulo 7</font>

## Download: http://github.com/dsacademybr

## Missão: Analisar o Comportamento de Compra de Consumidores.

## Nível de Dificuldade: Alto

Você recebeu a tarefa de analisar os dados de compras de um web site! Os dados estão no formato JSON e disponíveis junto com este notebook.

No site, cada usuário efetua login usando sua conta pessoal e pode adquirir produtos à medida que navega pela lista de produtos oferecidos. Cada produto possui um valor de venda. Dados de idade e sexo de cada usuário foram coletados e estão fornecidos no arquivo JSON.

Seu trabalho é entregar uma análise de comportamento de compra dos consumidores. Esse é um tipo de atividade comum realizado por Cientistas de Dados e o resultado deste trabalho pode ser usado, por exemplo, para alimentar um modelo de Machine Learning e fazer previsões sobre comportamentos futuros.

Mas nesta missão você vai analisar o comportamento de compra dos consumidores usando o pacote Pandas da linguagem Python e seu relatório final deve incluir cada um dos seguintes itens:

** Contagem de Consumidores **

* Número total de consumidores


** Análise Geral de Compras **

* Número de itens exclusivos
* Preço médio de compra
* Número total de compras
* Rendimento total


** Informações Demográficas Por Gênero **

* Porcentagem e contagem de compradores masculinos
* Porcentagem e contagem de compradores do sexo feminino
* Porcentagem e contagem de outros / não divulgados


** Análise de Compras Por Gênero **

* Número de compras
* Preço médio de compra
* Valor Total de Compra
* Compras for faixa etária


** Identifique os 5 principais compradores pelo valor total de compra e, em seguida, liste (em uma tabela): **

* Login
* Número de compras
* Preço médio de compra
* Valor Total de Compra
* Itens mais populares


** Identifique os 5 itens mais populares por contagem de compras e, em seguida, liste (em uma tabela): **

* ID do item
* Nome do item
* Número de compras
* Preço do item
* Valor Total de Compra
* Itens mais lucrativos


** Identifique os 5 itens mais lucrativos pelo valor total de compra e, em seguida, liste (em uma tabela): **

* ID do item
* Nome do item
* Número de compras
* Preço do item
* Valor Total de Compra


** Como considerações finais: **

* Seu script deve funcionar para o conjunto de dados fornecido.
* Você deve usar a Biblioteca Pandas e o Jupyter Notebook.


In [1]:
# Imports
import pandas as pd
import numpy as np

In [2]:
# Carrega o arquivo
load_file = "dados_compras.json"
purchase_file = pd.read_json(load_file, orient = "records")
purchase_file.head()

Unnamed: 0,Idade,Item ID,Login,Nome do Item,Sexo,Valor
0,38,165,Aelalis34,Bone Crushing Silver Skewer,Masculino,3.37
1,21,119,Eolo46,"Stormbringer, Dark Blade of Ending Misery",Masculino,2.32
2,34,174,Assastnya25,Primitive Blade,Masculino,2.46
3,21,92,Pheusrical25,Final Critic,Masculino,1.36
4,23,63,Aela59,Stormfury Mace,Masculino,1.27


In [3]:
#Criando um dataframe para trabalhar com os dados
df = pd.DataFrame(purchase_file)
df.head(5)

Unnamed: 0,Idade,Item ID,Login,Nome do Item,Sexo,Valor
0,38,165,Aelalis34,Bone Crushing Silver Skewer,Masculino,3.37
1,21,119,Eolo46,"Stormbringer, Dark Blade of Ending Misery",Masculino,2.32
2,34,174,Assastnya25,Primitive Blade,Masculino,2.46
3,21,92,Pheusrical25,Final Critic,Masculino,1.36
4,23,63,Aela59,Stormfury Mace,Masculino,1.27


## Informações Sobre os Consumidores

In [4]:
# Implemente aqui sua solução
#** Contagem de Consumidores **
#Número total de consumidores
total = len(df['Login'].unique().tolist()) #tolist() transforma o array em uma lista.
print('Numero total de consumidores unicos: ',total)


Numero total de consumidores unicos:  573


## Análise Geral de Compras

In [28]:
#Número de itens exclusivos
total = len(df['Nome do Item'].unique().tolist()) #tolist() transforma o array em uma lista.
print('1 - Número de itens exclusivos: ',total,'\n')

#Preço médio de compra
medio = df['Valor'].mean()
print('2 - Preço médio de compra: %.2f \n' % medio)
    
#Número total de compras
total = len(df.index)
print('3 - Número total de compras: ',total,'\n')

#Rendimento total
soma = df['Valor'].sum()
print('4 - Rendimento total: %.2f ' % soma)

1 - Número de itens exclusivos:  179 

2 - Preço médio de compra: 2.93 

3 - Número total de compras:  780 

4 - Rendimento total: 2286.33 


## Análise Demográfica

## Informações Demográficas Por Gênero

In [60]:
#** Informações Demográficas Por Gênero **
#Porcentagem e contagem de compradores masculinos
#Funcao para cada linha testa o valor da coluna e retorna um boleano
serie_masculino = df.apply(lambda x: True if x['Sexo'] == 'Masculino' else False , axis=1)
qtd_compras_men = len(serie_masculino[serie_masculino == True].index)
total = len(df.index)
percentual = (qtd_compras_men / total) * 100
print('Compradores do sexo masculino:')
print('Percentual: %.2f' % percentual + "%")
print('Quantidade: ', qtd_compras_men)

#Porcentagem e contagem de compradores do sexo feminino
serie_feminino = df.apply(lambda x: True if x['Sexo'] == 'Feminino' else False , axis=1)
qtd_compras_girl = len(serie_feminino[serie_feminino == True].index)
total = len(df.index)
percentual = (qtd_compras_girl / total) * 100
print('\nCompradores do sexo feminino:')
print('Percentual: %.2f' % percentual + "%")
print('Quantidade: ', qtd_compras_girl)

#Porcentagem e contagem de outros / não divulgados
serie_outro = df.apply(lambda x: True if x['Sexo'] not in('Feminino','Masculino') else False , axis=1)
qtd_compras_outro = len(serie_outro[serie_outro == True].index)
total = len(df.index)
percentual = (qtd_compras_outro / total) * 100
print('\nCompradores do sexo outros / não divulgados:')
print('Percentual: %.2f' % percentual + "%")
print('Quantidade: ', qtd_compras_outro)

Compradores do sexo masculino:
Percentual: 81.15%
Quantidade:  633

Compradores do sexo feminino:
Percentual: 17.44%
Quantidade:  136

Compradores do sexo outros / não divulgados:
Percentual: 1.41%
Quantidade:  11


## Análise de Compras Por Gênero

In [119]:
#** Análise de Compras Por Gênero **
#Número de compras
total_compras = df.groupby('Sexo').count().Login
print('Numeros de compras por genero:')
print(total_compras.to_string())

#Preço médio de compra
preco_medio = df.groupby('Sexo').mean().Valor
print('\nPreço médio de compra:')
print(preco_medio.to_string())

#Valor Total de Compra
preco_total = df.groupby('Sexo').sum().Valor
print('\nValor Total de Compra:')
print(preco_total.to_string())



Numeros de compras por genero:
Sexo
Feminino                 136
Masculino                633
Outro / Não Divulgado     11

Preço médio de compra:
Sexo
Feminino                 2.815515
Masculino                2.950521
Outro / Não Divulgado    3.249091

Valor Total de Compra:
Sexo
Feminino                  382.91
Masculino                1867.68
Outro / Não Divulgado      35.74


In [103]:
#funcao para definir a faixa
def faixaEtaria(idade):
  if idade <= 14: return 'Crianças (de 0 a 14 anos)'
  elif 14 > idade <= 24: return 'Jovens (de 15 a 24 anos)'
  elif 24 > idade <= 64: return 'Adultos (de 25 a 64 anos)'
  else: return 'Idosos (a partir de 65 anos)'

In [117]:
#aplicacao da funcao
faixa = lambda x: faixaEtaria(x)
#cria uma nova coluna chamada Faixa
df['Faixa'] = df['Idade'].map(faixa)

In [118]:
#Compras for faixa etária
compra_idade = df.groupby(['Sexo','Faixa']).count().Login
print('\nCompras for faixa etária:')
print(compra_idade.to_string())


Compras for faixa etária:
Sexo                   Faixa                       
Feminino               Adultos (de 25 a 64 anos)        64
                       Crianças (de 0 a 14 anos)        15
                       Idosos (a partir de 65 anos)     57
Masculino              Adultos (de 25 a 64 anos)       333
                       Crianças (de 0 a 14 anos)        47
                       Idosos (a partir de 65 anos)    253
Outro / Não Divulgado  Adultos (de 25 a 64 anos)         2
                       Crianças (de 0 a 14 anos)         1
                       Idosos (a partir de 65 anos)      8


## Consumidores Mais Populares (Top 5)

In [122]:
#tratando o nome das colunas:
df.columns = df.columns.str.strip().str.lower().str.replace(' ', '_').str.replace('(', '').str.replace(')', '')

## Identifique os 5 principais compradores pelo valor total de compra e, em seguida, liste (em uma tabela): **
* Login
* Número de compras
* Preço médio de compra
* Valor Total de Compra
* Itens mais populares

In [None]:
#Agrupando pela quantidade de ocorrencias
top_clientes=df.groupby(['login']).count().item_id
#buscando a lista dos 5 maiores (nlagest()) e buscando o nome do cliente (index)
top_clientes = top_clientes.nlargest(5).index.tolist()
print(top_clientes)
#top_clientes.sort(['pidx','score'],ascending = False)

In [None]:
 #Filtrando os dataframe pela lista.
df_top_cli=df[df['login'].isin(top_clientes)]

In [None]:
df_top_cli

In [203]:
#Número de compras
total_compras = df_top_cli.groupby('login').count().item_id
print('Número de compras:')
print(total_compras.to_string())

#Preço médio de compra
media_compras = df_top_cli.groupby('login').mean().valor
print('\nPreço médio de compra:')
print(media_compras.to_string())

#Valor Total de Compra
preco_total = df_top_cli.groupby('login').sum().valor
print('\nValor Total de Compra:')
print(preco_total.to_string())


Número de compras:
login
Hailaphos89    4
Mindimnya67    4
Qarwen67       4
Saedue76       4
Undirrala66    5

Preço médio de compra:
login
Hailaphos89    1.4675
Mindimnya67    3.1850
Qarwen67       2.4925
Saedue76       3.3900
Undirrala66    3.4120

Valor Total de Compra:
login
Hailaphos89     5.87
Mindimnya67    12.74
Qarwen67        9.97
Saedue76       13.56
Undirrala66    17.06


In [228]:
#Itens mais populares
#Agrupando pela quantidade de ocorrencias
top_itens_by_clientes=df_top_cli.groupby(['login','nome_do_item']).count().item_id
#buscando a lista dos 5 maiores (nlagest()) e buscando o nome do cliente (index)
top_itens_by_clientes = top_itens_by_clientes.nlargest(1)#.index.tolist()
top_itens_by_clientes.index
#Itens mais populares
#print('Itens mais populares:', top_itens_by_clientes[0] )

MultiIndex(levels=[['Hailaphos89', 'Mindimnya67', 'Qarwen67', 'Saedue76', 'Undirrala66'], ['Azurewrath', 'Blood Infused Guardian', 'Conqueror Adamantite Mace', 'Devine', 'Faith's Scimitar', 'Fiery Glass Crusader', 'Netherbane', 'Nirvana', 'Piece Maker', 'Relentless Iron Skewer', 'Ritual Mace', 'Serenity', 'Spectral Diamond Doomblade', 'Striker', 'The Void, Vengeance of Dark Magic', 'Thorn, Satchel of Dark Souls', 'Thunderfury Scimitar', 'Torchlight, Bond of Storms', 'Trickster', 'Unending Tyranny']],
           labels=[[0], [6]],
           names=['login', 'nome_do_item'])

In [224]:
total_compras.index

Index(['Hailaphos89', 'Mindimnya67', 'Qarwen67', 'Saedue76', 'Undirrala66'], dtype='object', name='login')

In [207]:
#tabela
df_resultado = total_compras.index.to_frame()



In [212]:
df_resultado['compras'] = total_compras
df_resultado['medio'] = media_compras
df_resultado['total'] = preco_total
df_resultado['total'] = preco_total

In [None]:
#df_resultado['popular'] = top_itens_by_clientes

In [229]:
df_resultado

Unnamed: 0_level_0,login,compras,medio,total
login,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Hailaphos89,Hailaphos89,4,1.4675,5.87
Mindimnya67,Mindimnya67,4,3.185,12.74
Qarwen67,Qarwen67,4,2.4925,9.97
Saedue76,Saedue76,4,3.39,13.56
Undirrala66,Undirrala66,5,3.412,17.06


## Itens Mais Populares

** Identifique os 5 itens mais populares por contagem de compras e, em seguida, liste (em uma tabela): **

* ID do item
* Nome do item
* Número de compras
* Preço do item
* Valor Total de Compra
* Itens mais lucrativos

In [232]:
df.head(2)

Unnamed: 0,idade,item_id,login,nome_do_item,sexo,valor,faixa
0,38,165,Aelalis34,Bone Crushing Silver Skewer,Masculino,3.37,Idosos (a partir de 65 anos)
1,21,119,Eolo46,"Stormbringer, Dark Blade of Ending Misery",Masculino,2.32,Adultos (de 25 a 64 anos)


In [233]:
#Agrupando pela quantidade de ocorrencias
top_produtos=df.groupby(['item_id']).count().nome_do_item
#buscando a lista dos 5 maiores (nlagest()) e buscando o nome do cliente (index)
top_produtos = top_produtos.nlargest(5).index.tolist()
print(top_produtos)
#top_clientes.sort(['pidx','score'],ascending = False)

[39, 84, 13, 31, 34]


In [234]:
 #Filtrando os dataframe pela lista.
df_top_prd=df[df['item_id'].isin(top_produtos)]

In [238]:
df_top_prd.head(2)

Unnamed: 0,idade,item_id,login,nome_do_item,sexo,valor,faixa
35,21,13,Aisur51,Serenity,Feminino,1.49,Adultos (de 25 a 64 anos)
56,23,31,Marilsasya33,Trickster,Masculino,2.07,Adultos (de 25 a 64 anos)


## Itens Mais Lucrativos

In [None]:
# Implemente aqui sua solução

## Fim

### Obrigado - Data Science Academy - <a href="http://facebook.com/dsacademybr">facebook.com/dsacademybr</a>