# Desafio 1

Para esse desafio, vamos trabalhar com o data set [Black Friday](https://www.kaggle.com/mehdidag/black-friday), que reúne dados sobre transações de compras em uma loja de varejo.

Vamos utilizá-lo para praticar a exploração de data sets utilizando pandas. Você pode fazer toda análise neste mesmo notebook, mas as resposta devem estar nos locais indicados.

> Obs.: Por favor, não modifique o nome das funções de resposta.

## _Set up_ da análise

In [1]:
import pandas as pd
import numpy as np


In [2]:
black_friday = pd.read_csv("black_friday.csv")

## Inicie sua análise a partir daqui

# Vamos ver como os dados sao distribuidos no dataset

In [3]:
#Como os dados estao no dataframe
black_friday.sample(5)

Unnamed: 0,User_ID,Product_ID,Gender,Age,Occupation,City_Category,Stay_In_Current_City_Years,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Purchase
358342,1001201,P00274942,M,18-25,4,C,4+,0,8,,,9963
236054,1000412,P00025942,M,36-45,15,A,1,1,8,14.0,,9928
305984,1005121,P00265542,M,26-35,7,C,4+,0,5,8.0,,3569
97310,1003080,P00058442,M,26-35,20,A,4+,1,5,14.0,,3581
491862,1003757,P00036842,M,26-35,7,B,1,0,1,14.0,16.0,19480


Qual o tamanho do dataset

In [4]:
# Tamanho do dataset
black_friday.shape

(537577, 12)

Entendendo sobre os tipos de variaveis dentro do dataset

In [5]:
# Vendo as sobre as colunas do dataframe
black_friday.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 537577 entries, 0 to 537576
Data columns (total 12 columns):
 #   Column                      Non-Null Count   Dtype  
---  ------                      --------------   -----  
 0   User_ID                     537577 non-null  int64  
 1   Product_ID                  537577 non-null  object 
 2   Gender                      537577 non-null  object 
 3   Age                         537577 non-null  object 
 4   Occupation                  537577 non-null  int64  
 5   City_Category               537577 non-null  object 
 6   Stay_In_Current_City_Years  537577 non-null  object 
 7   Marital_Status              537577 non-null  int64  
 8   Product_Category_1          537577 non-null  int64  
 9   Product_Category_2          370591 non-null  float64
 10  Product_Category_3          164278 non-null  float64
 11  Purchase                    537577 non-null  int64  
dtypes: float64(2), int64(5), object(5)
memory usage: 49.2+ MB


# Entendendo melhor sobre o perfil de cliente que mais comprou na Black Friday

Valores maximos de cada coluna em destaque

In [6]:
df = black_friday.groupby(['Age', 'Gender']).agg({'User_ID':'nunique', "Purchase":"sum"}).unstack()
df.columns = ['_'.join(col).rstrip('_') for col in [c[::-1] for c in df.columns.values]]
df.columns = ('F_n_users', 'M_n_users', 'F_Purchase_sum', 'M_Purchase_sum')
df.style.highlight_max(axis=0)

Unnamed: 0_level_0,F_n_users,M_n_users,F_Purchase_sum,M_Purchase_sum
Age,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0-17,78,140,41826615,90832391
18-25,287,782,202209450,699459830
26-35,545,1508,433857680,1565891426
36-45,333,834,239010480,771639085
46-50,182,349,114796993,298621230
51-55,142,339,87972407,273935949
55+,99,273,44950396,152664446


Os top 10 clientes que mais compraram na Black Friday

In [7]:
df = black_friday.groupby(["User_ID"]).agg(
        {'Product_ID':'count', 
        "Purchase":"sum"}
        ).sort_values(
            "Product_ID", 
            ascending = False
    ).head(10)

df.columns = ('Number_of_Purchased_itens', 'Purchase_sum')
df.style.highlight_max(axis=0)

Unnamed: 0_level_0,Number_of_Purchased_itens,Purchase_sum
User_ID,Unnamed: 1_level_1,Unnamed: 2_level_1
1001680,1025,8699232
1004277,978,10536783
1001941,898,6817493
1001181,861,6387899
1000889,822,5499812
1003618,766,5961987
1001150,752,4728932
1001015,739,6511302
1002909,717,7577505
1001449,714,5103795


Top 10 profissoes que compraram mais

In [8]:
df = black_friday.groupby(["Occupation"]).agg(
        {'Product_ID':'count', 
        "Purchase":"sum"}
        ).sort_values(
            "Product_ID", 
            ascending = False
    ).head(10)

df.columns = ('Number_of_Purchased_itens', 'Purchase_sum')
df.style.highlight_max(axis=0)

Unnamed: 0_level_0,Number_of_Purchased_itens,Purchase_sum
Occupation,Unnamed: 1_level_1,Unnamed: 2_level_1
4,70862,657530393
0,68120,625814811
7,57806,549282744
1,45971,414552829
17,39090,387240355
20,32910,292276985
12,30423,300672105
14,26712,255594745
2,25845,233275393
16,24790,234442330


Qual estado civil comprou mais?

In [9]:
df = black_friday.groupby(
    ['Marital_Status']
    ).agg(
        {'Product_ID':'count', 
        "Purchase":"sum"}
        )
df.columns = ('Number_of_sales', 'Purchase_sum')
df.style.highlight_max(axis=0)

Unnamed: 0_level_0,Number_of_sales,Purchase_sum
Marital_Status,Unnamed: 1_level_1,Unnamed: 2_level_1
0,317817,2966289500
1,219760,2051378878


Compras por categoria de cidades

In [10]:
df = black_friday.groupby(
    ['City_Category']
    ).agg(
        {'Product_ID':'count', 
        "Purchase":"sum"}
        )
df.columns = ('Number_of_sales', 'Purchase_sum')
df.style.highlight_max(axis=0)

Unnamed: 0_level_0,Number_of_sales,Purchase_sum
City_Category,Unnamed: 1_level_1,Unnamed: 2_level_1
A,144638,1295668797
B,226493,2083431612
C,166446,1638567969


# Entendendo sobre os produtos mais vendidos
top 10 produtos mais vendidos e com maiores faturamentos

In [11]:
#top 10 pridutos mais vendidos e com maiores faturamentos
df = black_friday.groupby(
    ['Product_ID']
    ).agg(
        {'Product_ID':'count', 
        "Purchase":"sum"}
        ).sort_values(
            "Purchase", 
            ascending = False
    ).head(10)
df.columns = ('Number_of_sales', 'Purchase_sum')
df.style.highlight_max(axis=0)

Unnamed: 0_level_0,Number_of_sales,Purchase_sum
Product_ID,Unnamed: 1_level_1,Unnamed: 2_level_1
P00025442,1586,27532426
P00110742,1591,26382569
P00255842,1354,24652442
P00184942,1424,24060871
P00059442,1384,23948299
P00112142,1539,23882624
P00110942,1336,23232538
P00237542,1374,23096487
P00057642,1430,22493690
P00010742,1331,21865042


Categoria primaria mais vendida

In [12]:
#top 10 pridutos mais vendidos e com maiores faturamentos

df = black_friday.groupby(
    ['Product_Category_1']
    ).agg(
        {'Product_ID':'count', 
        "Purchase":"sum"}
        ).sort_values(
            "Purchase", 
            ascending = False
    ).head(10)
df.columns = ('Number_of_sales', 'Purchase_sum')
df.style.highlight_max(axis=0)

Unnamed: 0_level_0,Number_of_sales,Purchase_sum
Product_Category_1,Unnamed: 1_level_1,Unnamed: 2_level_1
1,138353,1882666325
5,148592,926917497
8,112132,840693394
6,20164,319355286
2,23499,264497242
3,19849,200412211
16,9697,143168035
11,23960,112203088
10,5032,99029631
15,6203,91658147


Entrando no detalhe das categoria dos produtos

In [13]:
#top 10 pridutos mais vendidos e com maiores faturamentos
fillnulldf = black_friday.fillna("-")
df = fillnulldf.groupby(
    ['Product_Category_1',"Product_Category_2","Product_Category_3"]
    ).agg(
        {'Product_ID':'count', 
        "Purchase":"sum"}
        ).sort_values(
            "Purchase", 
            ascending = False
    ).head(10)
df.columns = ('Number_of_sales', 'Purchase_sum')
df.style.highlight_max(axis=0)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Number_of_sales,Purchase_sum
Product_Category_1,Product_Category_2,Product_Category_3,Unnamed: 3_level_1,Unnamed: 4_level_1
8,-,-,59828,449437193
5,-,-,62788,383126455
1,16.0,-,14411,198147606
1,2.0,15.0,14657,191990411
5,8.0,-,22816,149089678
16,-,-,9697,143168035
5,14.0,-,22751,141726506
1,15.0,16.0,8875,128434630
8,14.0,-,15674,112743286
1,2.0,5.0,7877,109898345


## Questão 1

Quantas observações e quantas colunas há no dataset? Responda no formato de uma tuple `(n_observacoes, n_colunas)`.

In [14]:
def q1():
    # Retorne aqui o resultado da questão 1.
    # Tamanho do dataset
    return black_friday.shape
    #pass

## Questão 2

Há quantas mulheres com idade entre 26 e 35 anos no dataset? Responda como um único escalar.

In [34]:
def q2():
    # Retorne aqui o resultado da questão 2.
    # Há quantas mulheres com idade entre 26 e 35 anos no dataset? Responda como um único escalar.
    filter1 = (black_friday['Gender'] == 'F') #apenas genero feminino
    filter2 = (black_friday['Age'] == '26-35') # categoria de idade
    return int(black_friday[(filter1) & (filter2)].User_ID.count()) #.nunique()) 
    #pass

## Questão 3

Quantos usuários únicos há no dataset? Responda como um único escalar.

In [16]:
def q3():
    # Retorne aqui o resultado da questão 3.
    return black_friday['User_ID'].nunique()
    #pass

## Questão 4

Quantos tipos de dados diferentes existem no dataset? Responda como um único escalar.

In [17]:
def q4():
    # Retorne aqui o resultado da questão 4.
    return black_friday.dtypes.nunique()
    #pass

## Questão 5

Qual porcentagem dos registros possui ao menos um valor null (`None`, `ǸaN` etc)? Responda como um único escalar entre 0 e 1.

In [18]:
def q5():
    # Retorne aqui o resultado da questão 5.
    return sum(black_friday.isna().any(axis=1))/len(black_friday)
    #pass

## Questão 6

Quantos valores null existem na variável (coluna) com o maior número de null? Responda como um único escalar.

In [19]:
def q6():
    # Retorne aqui o resultado da questão 6.
    return max(black_friday.isna().sum())
    #pass


## Questão 7

Qual o valor mais frequente (sem contar nulls) em `Product_Category_3`? Responda como um único escalar.

In [20]:
def q7():
    # Retorne aqui o resultado da questão 7.
    return black_friday["Product_Category_3"].value_counts().index[0]
    pass

## Questão 8

Qual a nova média da variável (coluna) `Purchase` após sua normalização? Responda como um único escalar.

In [21]:
def q8():
    # Retorne aqui o resultado da questão 8.
#    from sklearn.preprocessing import MinMaxScaler
#    scaler = MinMaxScaler()
#    scaled = scaler.fit_transform(black_friday[['Purchase']].astype('float'))
    scaled = (black_friday['Purchase'] - black_friday['Purchase'].min())/(black_friday['Purchase'].max() - black_friday['Purchase'].min())
    return float(scaled.mean())
    #pass

## Questão 9

Quantas ocorrências entre -1 e 1 inclusive existem da variáel `Purchase` após sua padronização? Responda como um único escalar.

In [22]:
def q9():
    # Retorne aqui o resultado da questão 9.
    #Quantas ocorrências entre -1 e 1 inclusive existem da variáel Purchase após sua padronização? Responda como um único escalar.
#    from sklearn.preprocessing import StandardScaler
#    stdscaler = StandardScaler().fit_transform(black_friday[['Purchase']])
#    return int((np.abs(stdscaler) <= 1).sum())
    return int((abs((black_friday['Purchase'] - black_friday['Purchase'].mean())/black_friday['Purchase'].std())<=1).sum())
    #pass

## Questão 10

Podemos afirmar que se uma observação é null em `Product_Category_2` ela também o é em `Product_Category_3`? Responda com um bool (`True`, `False`).

In [23]:
def q10():
    # Retorne aqui o resultado da questão 10.
    return bool(
                    (
                        black_friday["Product_Category_2"].isna() == # retornar nulls de cat 2
                        (black_friday["Product_Category_2"].isna()) & (black_friday['Product_Category_3'].isna()) # retornar nulls de cat 2 e cat 3
                    ).all()
                )
    # pass