# Desafio 1

Para esse desafio, vamos trabalhar com o data set [Black Friday](https://www.kaggle.com/mehdidag/black-friday), que reúne dados sobre transações de compras em uma loja de varejo.

Vamos utilizá-lo para praticar a exploração de data sets utilizando pandas. Você pode fazer toda análise neste mesmo notebook, mas as resposta devem estar nos locais indicados.

> Obs.: Por favor, não modifique o nome das funções de resposta.

## _Set up_ da análise

In [1]:
import pandas as pd
import numpy as np

In [2]:
black_friday = pd.read_csv("black_friday.csv")

## Inicie sua análise a partir daqui

In [3]:
black_friday.head(10)

Unnamed: 0,User_ID,Product_ID,Gender,Age,Occupation,City_Category,Stay_In_Current_City_Years,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Purchase
0,1000001,P00069042,F,0-17,10,A,2,0,3,,,8370
1,1000001,P00248942,F,0-17,10,A,2,0,1,6.0,14.0,15200
2,1000001,P00087842,F,0-17,10,A,2,0,12,,,1422
3,1000001,P00085442,F,0-17,10,A,2,0,12,14.0,,1057
4,1000002,P00285442,M,55+,16,C,4+,0,8,,,7969
5,1000003,P00193542,M,26-35,15,A,3,0,1,2.0,,15227
6,1000004,P00184942,M,46-50,7,B,2,1,1,8.0,17.0,19215
7,1000004,P00346142,M,46-50,7,B,2,1,1,15.0,,15854
8,1000004,P0097242,M,46-50,7,B,2,1,1,16.0,,15686
9,1000005,P00274942,M,26-35,20,A,1,1,8,,,7871


In [4]:
black_friday.dtypes

User_ID                         int64
Product_ID                     object
Gender                         object
Age                            object
Occupation                      int64
City_Category                  object
Stay_In_Current_City_Years     object
Marital_Status                  int64
Product_Category_1              int64
Product_Category_2            float64
Product_Category_3            float64
Purchase                        int64
dtype: object

In [5]:
black_friday.shape

(537577, 12)

In [6]:
aux = pd.DataFrame({'colunas' : black_friday.columns , 'tipos' : black_friday.dtypes, 'missing' : black_friday.isna().sum()})
aux

Unnamed: 0,colunas,tipos,missing
User_ID,User_ID,int64,0
Product_ID,Product_ID,object,0
Gender,Gender,object,0
Age,Age,object,0
Occupation,Occupation,int64,0
City_Category,City_Category,object,0
Stay_In_Current_City_Years,Stay_In_Current_City_Years,object,0
Marital_Status,Marital_Status,int64,0
Product_Category_1,Product_Category_1,int64,0
Product_Category_2,Product_Category_2,float64,166986


## Questão 1

Quantas observações e quantas colunas há no dataset? Responda no formato de uma tuple `(n_observacoes, n_colunas)`.

In [7]:
def q1():
    # Retorne aqui o resultado da questão 1.
    return black_friday.shape

## Questão 2

Há quantas mulheres com idade entre 26 e 35 anos no dataset? Responda como um único escalar.

In [8]:
def q2():
    # Retorne aqui o resultado da questão 2.
    aux = black_friday[(black_friday['Gender'] == 'F') & (black_friday['Age'] == '26-35')]
    return(aux.shape[0])

## Questão 3

Quantos usuários únicos há no dataset? Responda como um único escalar.

In [9]:
def q3():
    # Retorne aqui o resultado da questão 3.
    return black_friday['User_ID'].nunique()

## Questão 4

Quantos tipos de dados diferentes existem no dataset? Responda como um único escalar.

In [11]:
def q4():
    # Retorne aqui o resultado da questão 4.
    return black_friday.dtypes.nunique()

## Questão 5

Qual porcentagem dos registros possui ao menos um valor null (`None`, `ǸaN` etc)? Responda como um único escalar entre 0 e 1.

In [13]:
def q5():
    # Retorne aqui o resultado da questão 5.
    return ( len(black_friday) - len(black_friday.dropna()) ) / len(black_friday)

## Questão 6

Quantos valores null existem na variável (coluna) com o maior número de null? Responda como um único escalar.

In [15]:
def q6():
    # Retorne aqui o resultado da questão 6.
    return int(black_friday.isna().sum().max())

## Questão 7

Qual o valor mais frequente (sem contar nulls) em `Product_Category_3`? Responda como um único escalar.

In [17]:
def q7():
    # Retorne aqui o resultado da questão 7.
    return black_friday['Product_Category_3'].value_counts().idxmax()

## Questão 8

Qual a nova média da variável (coluna) `Purchase` após sua normalização? Responda como um único escalar.

In [21]:
def q8():
    # Retorne aqui o resultado da questão 8.
    max_p = max(black_friday['Purchase'])
    min_p = min(black_friday['Purchase'])
    black_friday['Purchase_norm'] = (black_friday['Purchase'] - min_p) / (max_p - min_p)
    
    return float(black_friday['Purchase_norm'].mean())

## Questão 9

Quantas ocorrências entre -1 e 1 inclusive existem da variável `Purchase` após sua padronização? Responda como um único escalar.

In [20]:
def q9():
    # Retorne aqui o resultado da questão 9.
    std_p = black_friday['Purchase'].std()
    mean_p = black_friday['Purchase'].mean()
    black_friday['Purchase_st'] = (black_friday['Purchase'] - mean_p) / std_p
    
    aux = black_friday[(black_friday['Purchase_st'] >= -1) & (black_friday['Purchase_st'] <= 1)]
    return aux.shape[0]

## Questão 10

Podemos afirmar que se uma observação é null em `Product_Category_2` ela também o é em `Product_Category_3`? Responda com um bool (`True`, `False`).

In [72]:
def q10():
    # Retorne aqui o resultado da questão 10.
    aux = black_friday[black_friday['Product_Category_2'].isna()]
    return aux['Product_Category_2'].equals(aux['Product_Category_3'])