# Desafio 1

Para esse desafio, vamos trabalhar com o data set [Black Friday](https://www.kaggle.com/mehdidag/black-friday), que reúne dados sobre transações de compras em uma loja de varejo.

Vamos utilizá-lo para praticar a exploração de data sets utilizando pandas. Você pode fazer toda análise neste mesmo notebook, mas as resposta devem estar nos locais indicados.

> Obs.: Por favor, não modifique o nome das funções de resposta.

## _Set up_ da análise

In [16]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import minmax_scale 

In [3]:
black_friday = pd.read_csv("black_friday.csv")

## Inicie sua análise a partir daqui

In [4]:
black_friday.head()

Unnamed: 0,User_ID,Product_ID,Gender,Age,Occupation,City_Category,Stay_In_Current_City_Years,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Purchase
0,1000001,P00069042,F,0-17,10,A,2,0,3,,,8370
1,1000001,P00248942,F,0-17,10,A,2,0,1,6.0,14.0,15200
2,1000001,P00087842,F,0-17,10,A,2,0,12,,,1422
3,1000001,P00085442,F,0-17,10,A,2,0,12,14.0,,1057
4,1000002,P00285442,M,55+,16,C,4+,0,8,,,7969


In [5]:
black_friday.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 537577 entries, 0 to 537576
Data columns (total 12 columns):
 #   Column                      Non-Null Count   Dtype  
---  ------                      --------------   -----  
 0   User_ID                     537577 non-null  int64  
 1   Product_ID                  537577 non-null  object 
 2   Gender                      537577 non-null  object 
 3   Age                         537577 non-null  object 
 4   Occupation                  537577 non-null  int64  
 5   City_Category               537577 non-null  object 
 6   Stay_In_Current_City_Years  537577 non-null  object 
 7   Marital_Status              537577 non-null  int64  
 8   Product_Category_1          537577 non-null  int64  
 9   Product_Category_2          370591 non-null  float64
 10  Product_Category_3          164278 non-null  float64
 11  Purchase                    537577 non-null  int64  
dtypes: float64(2), int64(5), object(5)
memory usage: 49.2+ MB


In [6]:
print(f'O valor de observações e colunas é: {black_friday.shape}')

O valor de observações e colunas é: (537577, 12)


In [7]:
black_friday['Age'].value_counts()

26-35    214690
36-45    107499
18-25     97634
46-50     44526
51-55     37618
55+       20903
0-17      14707
Name: Age, dtype: int64

In [8]:
qnt_f = black_friday[(black_friday['Gender'] == 'F') & (black_friday['Age'] == '26-35')].Age.count()
print(f'Existe {qnt_f} mulheres entre 26-35 anos')

Existe 49348 mulheres entre 26-35 anos


In [9]:
print(f'Quantidade de usuário único é de {black_friday["User_ID"].nunique()}')

Quantidade de usuário único é de 5891


In [10]:
print(f'Quantidade de tipos de dados é igual: {black_friday.dtypes.nunique()}')

Quantidade de tipos de dados é igual: 3


In [11]:
# Fiz um dropna,e o valor de registro que sobrou foi exatamente de 164278, significa que todos registros que tem 
# pelo menos tem um valor null, está dentro da variável Product_Category_3
null_porce = black_friday['Product_Category_3'].isna().sum() / black_friday.shape[0]
print(f'A porcentagem dos registros que contém pelo menos um valor null é: {null_porce}')

A porcentagem dos registros que contém pelo menos um valor null é: 0.6944102891306734


In [12]:
# Conseugue ver a variável com maior valores null através da função info acima
print(f'A coluna com maior quantidade de null contém {black_friday["Product_Category_3"].isna().sum()} valores null')

A coluna com maior quantidade de null contém 373299 valores null


In [38]:
prod_3_max = black_friday["Product_Category_3"].value_counts()
print(f'O valor mais frequente em "Product Category 3" é 16')
prod_3_max

O valor mais frequente em "Product Category 3" é 16


16.0    32148
15.0    27611
14.0    18121
17.0    16449
5.0     16380
8.0     12384
9.0     11414
12.0     9094
13.0     5385
6.0      4818
18.0     4563
4.0      1840
11.0     1773
10.0     1698
3.0       600
Name: Product_Category_3, dtype: int64

In [19]:
# Fazendo Padronização manual
black_friday['Purchase Padro'] = minmax_scale(black_friday.Purchase)
black_friday.head()

Unnamed: 0,User_ID,Product_ID,Gender,Age,Occupation,City_Category,Stay_In_Current_City_Years,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Purchase,Purchase Padro
0,1000001,P00069042,F,0-17,10,A,2,0,3,,,8370,0.344255
1,1000001,P00248942,F,0-17,10,A,2,0,1,6.0,14.0,15200,0.631519
2,1000001,P00087842,F,0-17,10,A,2,0,12,,,1422,0.052027
3,1000001,P00085442,F,0-17,10,A,2,0,12,14.0,,1057,0.036676
4,1000002,P00285442,M,55+,16,C,4+,0,8,,,7969,0.327389


In [42]:
mean_padro = black_friday['Purchase Padro'].mean()
print(f'A média da coluna Purchase padronizado é {mean_padro}')

A média da coluna Purchase padronizado é 0.38479390362696736


In [61]:
padro_1 = black_friday[(black_friday['Purchase Padro'] > -1) & (black_friday['Purchase Padro'] < 1)]
padro_1['Purchase Padro'].value_counts()

0.280535    186
0.287096    185
0.282049    182
0.294751    182
0.281544    181
           ... 
0.199192      1
0.787349      1
0.592783      1
0.717867      1
0.982041      1
Name: Purchase Padro, Length: 17958, dtype: int64

## Questão 1

Quantas observações e quantas colunas há no dataset? Responda no formato de uma tuple `(n_observacoes, n_colunas)`.

In [63]:
def q1():
    
    return (537577, 12)

## Questão 2

Há quantas mulheres com idade entre 26 e 35 anos no dataset? Responda como um único escalar.

In [54]:
def q2():
    
    return int(qnt_f)

## Questão 3

Quantos usuários únicos há no dataset? Responda como um único escalar.

In [27]:
def q3():
    
    return black_friday["User_ID"].nunique()

## Questão 4

Quantos tipos de dados diferentes existem no dataset? Responda como um único escalar.

In [28]:
def q4():
    
    return black_friday.dtypes.nunique()

## Questão 5

Qual porcentagem dos registros possui ao menos um valor null (`None`, `ǸaN` etc)? Responda como um único escalar entre 0 e 1.

In [46]:
def q5():
    
    return float(null_porce)

0.6944102891306734

## Questão 6

Quantos valores null existem na variável (coluna) com o maior número de null? Responda como um único escalar.

In [50]:
def q6():
    
    return int(black_friday["Product_Category_3"].isna().sum())

## Questão 7

Qual o valor mais frequente (sem contar nulls) em `Product_Category_3`? Responda como um único escalar.

In [10]:
def q7():
    
    return 16

## Questão 8

Qual a nova média da variável (coluna) `Purchase` após sua normalização? Responda como um único escalar.

In [39]:
def q8():
    return float(mean_padro)

## Questão 9

Quantas ocorrências entre -1 e 1 inclusive existem da variáel `Purchase` após sua padronização? Responda como um único escalar.

In [62]:
def q9():
    
    return 348631

## Questão 10

Podemos afirmar que se uma observação é null em `Product_Category_2` ela também o é em `Product_Category_3`? Responda com um bool (`True`, `False`).

In [13]:
def q10():
    
    return True