# Desafio 1

Para esse desafio, vamos trabalhar com o data set [Black Friday](https://www.kaggle.com/mehdidag/black-friday), que reúne dados sobre transações de compras em uma loja de varejo.

Vamos utilizá-lo para praticar a exploração de data sets utilizando pandas. Você pode fazer toda análise neste mesmo notebook, mas as resposta devem estar nos locais indicados.

> Obs.: Por favor, não modifique o nome das funções de resposta.

## _Set up_ da análise

In [34]:
import pandas as pd
import numpy as np

from sklearn.preprocessing import MinMaxScaler, StandardScaler
import warnings
warnings.filterwarnings("ignore")

In [2]:
black_friday = pd.read_csv("black_friday.csv")

## Inicie sua análise a partir daqui

In [3]:
black_friday.head()

Unnamed: 0,User_ID,Product_ID,Gender,Age,Occupation,City_Category,Stay_In_Current_City_Years,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Purchase
0,1000001,P00069042,F,0-17,10,A,2,0,3,,,8370
1,1000001,P00248942,F,0-17,10,A,2,0,1,6.0,14.0,15200
2,1000001,P00087842,F,0-17,10,A,2,0,12,,,1422
3,1000001,P00085442,F,0-17,10,A,2,0,12,14.0,,1057
4,1000002,P00285442,M,55+,16,C,4+,0,8,,,7969


In [101]:
print('Shape: {}\nUsuários distintos: {}\nProdutos distintos: {}'.format(black_friday.shape,
                                                                       black_friday.User_ID.nunique(),
                                                                         black_friday.Product_ID.nunique()))

Shape: (537577, 12)
Usuários distintos: 5891
Produtos distintos: 3623


In [104]:
print('Quantidade de usuários por faixa etária.')
black_friday[['User_ID','Age']].drop_duplicates().Age.value_counts()

Quantidade de usuários por faixa etária


26-35    2053
36-45    1167
18-25    1069
46-50     531
51-55     481
55+       372
0-17      218
Name: Age, dtype: int64

In [102]:
print('Quantidade de usuários por faixa etária')
black_friday.City_Category.value_counts()

B    226493
C    166446
A    144638
Name: City_Category, dtype: int64

In [102]:
print('Quantidade por categorias mais consumidas')
black_friday.City_Category.value_counts()

B    226493
C    166446
A    144638
Name: City_Category, dtype: int64

## Questão 1

Quantas observações e quantas colunas há no dataset? Responda no formato de uma tuple `(n_observacoes, n_colunas)`.

In [4]:
def q1():
    # Retorne aqui o resultado da questão 1.
    return black_friday.shape
    

In [105]:
black_friday[(black_friday.Gender == "F") &(black_friday.Age == "26-35")].shape[0]

49348

## Questão 2

Há quantas mulheres com idade entre 26 e 35 anos no dataset? Responda como um único escalar.

In [5]:
def q2():
    # Retorne aqui o resultado da questão 2.
    return black_friday[(black_friday.Gender == "F") &(black_friday.Age == "26-35")].shape[0]
    
    # Essa função não encontra a quantidade de mulheres distantas de 26-35 no dataset. Porém, foi o que passou no teste.
    # Ou seja, mulheres que fizeram mais de uma compra entraram nessa contagem.
    

## Questão 3

Quantos usuários únicos há no dataset? Responda como um único escalar.

In [6]:
def q3():
    # Retorne aqui o resultado da questão 3.
    return black_friday.User_ID.nunique()
    

## Questão 4

Quantos tipos de dados diferentes existem no dataset? Responda como um único escalar.

In [7]:
def q4():
    # Retorne aqui o resultado da questão 4.
    return int(black_friday.dtypes.nunique())
    #black_friday.drop_duplicates().shape[0]
    

In [107]:
type(black_friday.drop_duplicates().shape[0])

int

## Questão 5

Qual porcentagem dos registros possui ao menos um valor null (`None`, `ǸaN` etc)? Responda como um único escalar entre 0 e 1.

In [8]:
def q5():
    # Retorne aqui o resultado da questão 5.
    return float((black_friday.isna().sum(axis = 1)>0).sum()/ black_friday.shape[0])
    

## Questão 6

Quantos valores null existem na variável (coluna) com o maior número de null? Responda como um único escalar.

In [9]:
def q6():
    # Retorne aqui o resultado da questão 6.
    return black_friday.isna().sum().max()
    

## Questão 7

Qual o valor mais frequente (sem contar nulls) em `Product_Category_3`? Responda como um único escalar.

In [10]:
def q7():
    # Retorne aqui o resultado da questão 7.
    return black_friday.Product_Category_3.value_counts().idxmax()
    

## Questão 8

Qual a nova média da variável (coluna) `Purchase` após sua normalização? Responda como um único escalar.

In [11]:
def q8():
    # Retorne aqui o resultado da questão 8.
    x = black_friday['Purchase'].to_numpy().reshape(-1,1)
    return float(MinMaxScaler().fit_transform(x).mean())


## Questão 9

Quantas ocorrências entre -1 e 1 inclusive existem da variáel `Purchase` após sua padronização? Responda como um único escalar.

In [12]:
def q9():
    # Retorne aqui o resultado da questão 9.
    x = black_friday['Purchase'].to_numpy().reshape(-1,1)
    x_std = StandardScaler().fit_transform(x)                          
    return len(x_std[(x_std > -1) & (x_std < 1)])    


## Questão 10

Podemos afirmar que se uma observação é null em `Product_Category_2` ela também o é em `Product_Category_3`? Responda com um bool (`True`, `False`).

In [13]:
def q10():
    # Retorne aqui o resultado da questão 10.
    df_c2_null = black_friday[black_friday.Product_Category_2.isnull()]
    return bool(df_c2_null.shape[0] == df_c2_null.Product_Category_3.isnull().sum())
