# Projeto Final

Você fazem parte do time de Data Science e Analytics da Popolishoshop e receberam uma base de dados contendo as infromações sobre a última Black Friday que ocorreu. O time de negócio solicitou para vocês um relatório, onde especificaram algumas informações e também um estudo para que vocês respondessem utilizando as bases fornecidas.

Para esse desafio, vamos trabalhar com o data set [Black Friday](https://www.kaggle.com/sdolezel/black-friday), que reúne dados sobre transações de compras em uma loja de varejo. Esse dataset está quebrado em diferentes arquivos e é sua função entender como cada um se relaciona com o outro.

Vamos utilizá-lo para praticar a exploração utilizando pandas.

Na tabela a seguir podemos ver os nomes das colunas e as descrições dos campos.

| Coluna                 | Descrição                                                 |
|------------------------|-----------------------------------------------------------|
| User_ID                | ID do usuário                                             |
| Product_ID             | ID do produto                                             |
| Gender                 | Sexo do usuário                                           |
| Age                    | Ano em intervalos                                         |
| Occupation             | Ocupação (mascarada)                                      |
| City_Category          | Categoria da cidade (A, B, C)                             |
| StayInCurrentCityYears | Número de anos de permanência na cidade atual             |
| Marital_Status         | Estado civil                                              |
| ProductCategory1       | Categoria do produto (Mascarada)                          |
| ProductCategory2       | Categoria que o produto pode pertencer também (Mascarada) |
| ProductCategory3       | Categoria que o produto pode pertencer também (Mascarada) |
| Purchase               | Valor da compra                                           | 

Todo o código desenvolvido deve ser pensado para ser reutilizado. A avaliação se dará executando todo o notebook com outra tabela, de mesmas colunas. Sendo assim, pensem na qualidade e reprodução do código.

## _Set up_ da análise OK

Faça a leitura das três bases fornecidas e junte-as em um único DataFrame.

In [2]:
import pandas as pd

In [4]:
df1 = pd.read_csv('product_info.csv', sep=';')
df2 = pd.read_csv('purchase.csv')
df3 = pd.read_csv('user_profile.csv', sep='|')

In [5]:
df1

Unnamed: 0,Product_ID,Product_Category_1,Product_Category_2,Product_Category_3
0,P00069042,3,,
1,P00248942,1,6.0,14.0
2,P00087842,12,,
3,P00085442,12,14.0,
4,P00285442,8,,
...,...,...,...,...
3618,P00065942,8,,
3619,P00329042,8,,
3620,P00038842,7,,
3621,P00295642,2,,


In [6]:
df2

Unnamed: 0,User_ID,Product_ID,Purchase
0,1000001,P00069042,8370
1,1000001,P00248942,15200
2,1000001,P00087842,1422
3,1000001,P00085442,1057
4,1000002,P00285442,7969
...,...,...,...
537572,1004737,P00193542,11664
537573,1004737,P00111142,19196
537574,1004737,P00345942,8043
537575,1004737,P00285842,7172


In [7]:
df1_df2 = pd.merge(df1,df2, on='Product_ID')
df1_df2

Unnamed: 0,Product_ID,Product_Category_1,Product_Category_2,Product_Category_3,User_ID,Purchase
0,P00069042,3,,,1000001,8370
1,P00069042,3,,,1000149,10715
2,P00069042,3,,,1000541,11037
3,P00069042,3,,,1000698,8009
4,P00069042,3,,,1000951,13346
...,...,...,...,...,...,...
537572,P00065942,8,,,1001713,2139
537573,P00329042,8,,,1001748,6037
537574,P00038842,7,,,1001897,16895
537575,P00295642,2,,,1003485,15966


In [8]:
df3

Unnamed: 0,User_ID,Gender,Age,Occupation,City_Category,Stay_In_Current_City_Years,Marital_Status
0,1000001,F,0-17,10,A,2,0
1,1000002,M,55+,16,C,4+,0
2,1000003,M,26-35,15,A,3,0
3,1000004,M,46-50,7,B,2,1
4,1000005,M,26-35,20,A,1,1
...,...,...,...,...,...,...,...
5886,1004588,F,26-35,4,C,0,0
5887,1004871,M,18-25,12,C,2,0
5888,1004113,M,36-45,17,C,3,0
5889,1005391,M,26-35,7,A,0,0


In [9]:
df1_df2_df3 = pd.merge(df1_df2,df3, on='User_ID')
df1_df2_df3

Unnamed: 0,Product_ID,Product_Category_1,Product_Category_2,Product_Category_3,User_ID,Purchase,Gender,Age,Occupation,City_Category,Stay_In_Current_City_Years,Marital_Status
0,P00069042,3,,,1000001,8370,F,0-17,10,A,2,0
1,P00248942,1,6.0,14.0,1000001,15200,F,0-17,10,A,2,0
2,P00087842,12,,,1000001,1422,F,0-17,10,A,2,0
3,P00085442,12,14.0,,1000001,1057,F,0-17,10,A,2,0
4,P00184942,1,8.0,17.0,1000001,19219,F,0-17,10,A,2,0
...,...,...,...,...,...,...,...,...,...,...,...,...
537572,P00353842,15,,,1002204,12965,M,55+,3,B,4+,1
537573,P00311442,11,15.0,,1002204,1714,M,55+,3,B,4+,1
537574,P00325642,11,15.0,,1002204,1561,M,55+,3,B,4+,1
537575,P00341842,15,16.0,,1002204,21172,M,55+,3,B,4+,1


## Questão 1 OK

Quantas observações e quantas colunas há no dataset completo (todas as bases juntas)? Responda no formato de uma tuple `(n_observacoes, n_colunas)`.

In [15]:
df1_df2_df3.shape

(537577, 12)

## Questão 2 OK

Há quantas mulheres com idade entre 26 e 35 anos no dataset? Responda como um único escalar.

In [33]:
df1_df2_df3[df1_df2_df3['Gender'] == 'F']['Age'].value_counts()[0]

49348

## Questão 3 OK

Quantos usuários únicos há no dataset? Responda como um único escalar.

In [44]:
len(pd.unique(df1_df2_df3['User_ID']))

5891

## Questão 4 OK

Qual porcentagem dos registros (percentual de linhas) possui ao menos um valor null (`None`, `NaN` etc)? Responda como um único escalar entre 0 e 1.

In [71]:
df1_df2_df3.isna().sum()/df1_df2_df3.shape[0]

Product_ID                    0.000000
Product_Category_1            0.000000
Product_Category_2            0.310627
Product_Category_3            0.694410
User_ID                       0.000000
Purchase                      0.000000
Gender                        0.000000
Age                           0.000000
Occupation                    0.000000
City_Category                 0.000000
Stay_In_Current_City_Years    0.000000
Marital_Status                0.000000
dtype: float64

## Questão 5 OK

Quantos valores null existem na variável (coluna) com o maior número de null? Responda como um único escalar.

In [79]:
df1_df2_df3.isnull().sum().max()

373299

## Questão 6 OK

Qual o valor mais frequente (sem contar nulls) em `Product_Category_3`? Responda como um único escalar.

In [91]:
df1_df2_df3['Product_Category_3'].dropna().mode()[0]

16.0

## Questão 7 OK

Podemos afirmar que se uma observação é null em `Product_Category_2` ela também o é em `Product_Category_3`? Responda com um bool (`True`, `False`).

In [128]:
(df1_df2_df3['Product_Category_2'].isnull() == df1_df2_df3['Product_Category_3'].isnull()).all()

False

## Questão 8 OK

Qual o ID do usuário que mais gastou na Black Friday?

In [62]:
purchase_by_user = df1_df2_df3[['User_ID']].join(df1_df2_df3[['Purchase']])

In [63]:
purchase_by_user

Unnamed: 0,User_ID,Purchase
0,1000001,8370
1,1000001,15200
2,1000001,1422
3,1000001,1057
4,1000001,19219
...,...,...
537572,1002204,12965
537573,1002204,1714
537574,1002204,1561
537575,1002204,21172


In [64]:
cum_purchase_by_user = purchase_by_user.groupby(by = 'User_ID').sum()

In [78]:
cum_purchase_by_user.idxmax()

Purchase    1004277
dtype: int64

## Questão 9 OK

Qual grupo (homens ou mulheres) mais gastou na Black Friday?

In [73]:
purchase_by_gender = df1_df2_df3[['Gender']].join(df1_df2_df3[['Purchase']])

In [74]:
purchase_by_gender

Unnamed: 0,Gender,Purchase
0,F,8370
1,F,15200
2,F,1422
3,F,1057
4,F,19219
...,...,...
537572,M,12965
537573,M,1714
537574,M,1561
537575,M,21172


In [75]:
cum_purchase_by_gender = purchase_by_gender.groupby(by = 'Gender').sum()

In [77]:
cum_purchase_by_gender.idxmax()

Purchase    M
dtype: object

## Questão 10

Faça uma nova tabela com a categoria mais comprada por cada cliente.

Obs: se ele comprou um produto que possuir valores nas três colunas de categorias, então deve-se considerar todas as categorias.

In [None]:
Categoria_1 é um intervalo de 1 a 12
Categoria_2 é um intervalo de 1 a 12
Categoria_3 é um intervalo de 1 a 12

Categoria_1: 2
Categoria_2: 4
Categoria_3: 1

In [None]:
       1 2 3 4 5 6 7 8 9 10 11 12
739273 1 1 0 1 0 0 0 0 0 0  0  0

## Questão 11 OK?

Normalize a coluna Purchase. A fórmula de normalização é:


$$x_{norm} = \frac{x - x_{min}}{x_{max} - x_{min}} $$

In [80]:
purchase = df1_df2_df3['Purchase']

In [81]:
norm_purchase = (purchase - purchase.min())/(purchase.max() - purchase.min())

In [82]:
norm_purchase

0         0.344255
1         0.631519
2         0.052027
3         0.036676
4         0.800555
            ...   
537572    0.537517
537573    0.064309
537574    0.057873
537575    0.882697
537576    0.538863
Name: Purchase, Length: 537577, dtype: float64

## Questão 12
O estado civil influencia no valor gasto e na categoria de produto comprada? Mostre!

Se eu quisesse vender mais produtos da categoria 14, deveria investir em propagandas para qual estado civil?

1. Estado Civil x Valor Total Gasto
2. Estado Civil x Categoria de Produto (ou Produto Especificamente?)
3. Estado Civil x Produto 14

### Por Valor de Compra

In [85]:
purchase_by_marital_st = df1_df2_df3[['Marital_Status']].join(df1_df2_df3[['Purchase']])
purchase_by_marital_st

Unnamed: 0,Marital_Status,Purchase
0,0,8370
1,0,15200
2,0,1422
3,0,1057
4,0,19219
...,...,...
537572,1,12965
537573,1,1714
537574,1,1561
537575,1,21172


In [97]:
purchase_by_marital_st.groupby(by = 'Marital_Status').sum()

Unnamed: 0_level_0,Purchase
Marital_Status,Unnamed: 1_level_1
0,2966289500
1,2051378878


In [111]:
purchase_by_marital_st.groupby(by = 'Marital_Status').describe()

Unnamed: 0_level_0,Purchase,Purchase,Purchase,Purchase,Purchase,Purchase,Purchase,Purchase
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
Marital_Status,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
0,317817.0,9333.325467,4985.253932,185.0,5850.0,8059.0,12080.0,23961.0
1,219760.0,9334.632681,4974.906972,186.0,5886.0,8066.0,12065.0,23961.0


In [None]:
# 1a impressão: a soma de compras para casados e solteiros é diferente, sendo maior para solteiros, porém,
# nota-se que ao fazer uma descrição mais detalhada, não há praticamente nenhum diferença nos indicadores
# exceto o "count", que é a contagem de ocorrências de cada estado, casado ou solteiro.

### Por Categoria de Produto - ESTE ESTÁ SUPER CONFUSO XD

In [117]:
df1_df2_df3.columns

Index(['Product_ID', 'Product_Category_1', 'Product_Category_2',
       'Product_Category_3', 'User_ID', 'Purchase', 'Gender', 'Age',
       'Occupation', 'City_Category', 'Stay_In_Current_City_Years',
       'Marital_Status'],
      dtype='object')

In [118]:
category_by_marital_st = df1_df2_df3.drop(columns=['Product_ID', 'User_ID', 'Purchase', 'Gender', 'Age',
       'Occupation', 'City_Category', 'Stay_In_Current_City_Years'])

In [119]:
category_by_marital_st

Unnamed: 0,Product_Category_1,Product_Category_2,Product_Category_3,Marital_Status
0,3,,,0
1,1,6.0,14.0,0
2,12,,,0
3,12,14.0,,0
4,1,8.0,17.0,0
...,...,...,...,...
537572,15,,,1
537573,11,15.0,,1
537574,11,15.0,,1
537575,15,16.0,,1


In [172]:
category_by_marital_st.groupby(by = 'Marital_Status').count()

Unnamed: 0_level_0,Product_Category_1,Product_Category_2,Product_Category_3
Marital_Status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,317817,220325,98202
1,219760,150266,66076


In [122]:
category_by_marital_st.groupby(by = 'Marital_Status').describe()

Unnamed: 0_level_0,Product_Category_1,Product_Category_1,Product_Category_1,Product_Category_1,Product_Category_1,Product_Category_1,Product_Category_1,Product_Category_1,Product_Category_2,Product_Category_2,Product_Category_2,Product_Category_2,Product_Category_2,Product_Category_3,Product_Category_3,Product_Category_3,Product_Category_3,Product_Category_3,Product_Category_3,Product_Category_3,Product_Category_3
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,...,75%,max,count,mean,std,min,25%,50%,75%,max
Marital_Status,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
0,317817.0,5.231467,3.725167,1.0,1.0,5.0,8.0,18.0,220325.0,9.778636,...,15.0,18.0,98202.0,12.60403,4.15304,3.0,9.0,14.0,16.0,18.0
1,219760.0,5.388219,3.785414,1.0,1.0,5.0,8.0,18.0,150266.0,9.935261,...,15.0,18.0,66076.0,12.767646,4.079386,3.0,9.0,14.0,16.0,18.0


In [None]:
# nota-se, à primeira vista, que em termos de quantidades de produtos comprados por categoria,
# é sempre maior para solteiros. Vê se que a maior discrepâmncia está nos produtos de categoria 3.

In [None]:
# troquei 1 por 'Married' e 0 por 'Single', para fazer a análise abaixo.

In [178]:
marital_st_categorico = pd.DataFrame(category_by_marital_st['Marital_Status'].map({0: 'single', 1: 'married'}).rename('Mar_St_Str'))

In [179]:
marital_st_categorico

Unnamed: 0,Mar_St_Str
0,single
1,single
2,single
3,single
4,single
...,...
537572,married
537573,married
537574,married
537575,married


In [180]:
category_by_marital_st_2 = category_by_marital_st.join(marital_st_categorico).drop(columns='Marital_Status')
category_by_marital_st_2

Unnamed: 0,Product_Category_1,Product_Category_2,Product_Category_3,Mar_St_Str
0,3,,,single
1,1,6.0,14.0,single
2,12,,,single
3,12,14.0,,single
4,1,8.0,17.0,single
...,...,...,...,...
537572,15,,,married
537573,11,15.0,,married
537574,11,15.0,,married
537575,15,16.0,,married


In [None]:
# daqui pra baixo não faço ideia do que fazer XD, como analisar. Eu queria que nos índices (linhas) aparecessem
# as categorias individuais de produtos, como listado abaixo.

In [167]:
df1_df2_df3['Product_Category_1'].unique()

array([ 3,  1, 12,  2,  5,  8,  4, 16,  6, 14, 15, 11, 10,  7, 17, 13,  9,
       18], dtype=int64)

In [176]:
df1_df2_df3['Product_Category_2'].unique()

array([nan,  6., 14.,  8.,  4.,  2., 17., 15., 16., 11.,  9.,  5., 13.,
        7., 12.,  3., 18., 10.])

In [177]:
df1_df2_df3['Product_Category_3'].unique()

array([nan, 14., 17.,  8.,  5., 12.,  9., 16.,  6.,  3., 15., 10., 13.,
       11.,  4., 18.])

In [None]:
# fazendo essa análise, notem que há, além de NaN, numeros flot nas categorias 2 e 3. Precisamos "fundir"
# todos esse valores, para que possamos ter uma categoria geral, assim podendo fazer um pivot que fique algo
# como

Categorias
        Single        Married
1       40            22
2       35            78
3       109           .
4       83            .
.       .             .
.       .             .
.       .

In [175]:
category_by_marital_st_2.groupby(by = ['Product_Category_1', 'Product_Category_2',
       'Product_Category_3']).describe()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Mar_St_Str,Mar_St_Str,Mar_St_Str,Mar_St_Str
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,count,unique,top,freq
Product_Category_1,Product_Category_2,Product_Category_3,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
1,2.0,3.0,600,2,single,378
1,2.0,4.0,513,2,single,328
1,2.0,5.0,7877,2,single,4874
1,2.0,6.0,1903,2,single,1206
1,2.0,8.0,2765,2,single,1662
...,...,...,...,...,...,...
11,15.0,16.0,843,2,single,488
12,14.0,17.0,157,2,single,84
13,14.0,16.0,507,2,single,296
13,15.0,16.0,528,2,single,341


In [164]:
category_by_marital_st_2.groupby(by = ['Product_Category_1', 'Product_Category_2',
       'Product_Category_3']).describe()['Mar_St_Str']['top'].value_counts()

single     132
married      5
Name: top, dtype: int64

In [None]:
# na análise acima, onde consegui extrair um agrupamento por cat de produto, nota-se que o top (moda)
# tem uma contagem muito maior para solteiros do que para casados. O que significaria que... Sei lá...
# XD não consigo ver no que isso ajudaria. Só serve pra ver que solteiros compraram mais em geral.
# tem serventia nenhuma... acho.

In [None]:
# para fazer a análise do produto cat14

In [167]:
df1_df2_df3['Product_Category_1'].unique()

array([ 3,  1, 12,  2,  5,  8,  4, 16,  6, 14, 15, 11, 10,  7, 17, 13,  9,
       18], dtype=int64)

## Questão 13
Quais as variáveis que mais impactaram no valor da compra? Como você chegou a essa conclusão?