# Desafio 1

Para esse desafio, vamos trabalhar com o data set [Black Friday](https://www.kaggle.com/mehdidag/black-friday), que reúne dados sobre transações de compras em uma loja de varejo.

Vamos utilizá-lo para praticar a exploração de data sets utilizando pandas. Você pode fazer toda análise neste mesmo notebook, mas as resposta devem estar nos locais indicados.

> Obs.: Por favor, não modifique o nome das funções de resposta.

## _Set up_ da análise

In [2]:
import pandas as pd
import numpy as np

In [3]:
black_friday = pd.read_csv("black_friday.csv")

## Inicie sua análise a partir daqui

In [3]:
black_friday

Unnamed: 0,User_ID,Product_ID,Gender,Age,Occupation,City_Category,Stay_In_Current_City_Years,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Purchase
0,1000001,P00069042,F,0-17,10,A,2,0,3,,,8370
1,1000001,P00248942,F,0-17,10,A,2,0,1,6.0,14.0,15200
2,1000001,P00087842,F,0-17,10,A,2,0,12,,,1422
3,1000001,P00085442,F,0-17,10,A,2,0,12,14.0,,1057
4,1000002,P00285442,M,55+,16,C,4+,0,8,,,7969
...,...,...,...,...,...,...,...,...,...,...,...,...
537572,1004737,P00193542,M,36-45,16,C,1,0,1,2.0,,11664
537573,1004737,P00111142,M,36-45,16,C,1,0,1,15.0,16.0,19196
537574,1004737,P00345942,M,36-45,16,C,1,0,8,15.0,,8043
537575,1004737,P00285842,M,36-45,16,C,1,0,5,,,7172


## Dataframe com uma resumo quantitativo dos dados do Dataframe black_friday 

In [21]:
df_info = pd.DataFrame({'names': black_friday.columns, 'types': black_friday.dtypes,
                             'NA #': black_friday.isna().sum(),
                             'NA %': (black_friday.isna().sum() / black_friday.shape[0]) * 100})

In [22]:
df_info

Unnamed: 0,names,types,NA #,NA %
User_ID,User_ID,int64,0,0.0
Product_ID,Product_ID,object,0,0.0
Gender,Gender,object,0,0.0
Age,Age,object,0,0.0
Occupation,Occupation,int64,0,0.0
City_Category,City_Category,object,0,0.0
Stay_In_Current_City_Years,Stay_In_Current_City_Years,object,0,0.0
Marital_Status,Marital_Status,int64,0,0.0
Product_Category_1,Product_Category_1,int64,0,0.0
Product_Category_2,Product_Category_2,float64,166986,31.062713


#### uma cópia do Dataframe black_friday para possíveis alterações

In [None]:
bf_copy = pd.DataFrame.copy(black_friday)

## Questão 1

Quantas observações e quantas colunas há no dataset? Responda no formato de uma tuple `(n_observacoes, n_colunas)`.

In [7]:
def q1():
    # Retorne aqui o resultado da questão 1.
    return (black_friday.shape)

q1()

(537577, 12)

## Questão 2

Há quantas mulheres com idade entre 26 e 35 anos no dataset? Responda como um único escalar.

In [8]:
def q2():
    # Retorne aqui o resultado da questão 2.
    return black_friday[ (black_friday['Gender'] == 'F') & (black_friday['Age'] == '26-35') ].shape[0]

q2()

49348

## Questão 3

Quantos usuários únicos há no dataset? Responda como um único escalar.

In [9]:
def q3():
    # Retorne aqui o resultado da questão 3.
    return black_friday['User_ID'].nunique()

q3()

5891

## Questão 4

Quantos tipos de dados diferentes existem no dataset? Responda como um único escalar.

In [23]:
def q4():
    # Retorne aqui o resultado da questão 4.
    return df_info['types'].nunique()

q4()

3

## Questão 5

Qual porcentagem dos registros possui ao menos um valor null (`None`, `ǸaN` etc)? Responda como um único escalar entre 0 e 1.

In [25]:
def q5():
    # Retorne aqui o resultado da questão 5.
    return black_friday[black_friday.isna().any(axis=1)].shape[0] / black_friday.shape[0]

q5()

0.6944102891306734

## Questão 6

Quantos valores null existem na variável (coluna) com o maior número de null? Responda como um único escalar.

In [12]:
def q6():
    # Retorne aqui o resultado da questão 6.
    return df_info['NA #'].max()

q6()

373299

## Questão 7

Qual o valor mais frequente (sem contar nulls) em `Product_Category_3`? Responda como um único escalar.

In [11]:
def q7():
    # Retorne aqui o resultado da questão 7.
    # return int(black_friday['Product_Category_3'].value_counts().idxmax())
    return black_friday['Product_Category_3'].mode(dropna=True).iloc[0]

q7()

16.0

## Questão 8

Qual a nova média da variável (coluna) `Purchase` após sua normalização? Responda como um único escalar.

In [7]:
def q8():
    # Retorne aqui o resultado da questão 8.
    xmin = black_friday.Purchase.min()
    xmax = black_friday.Purchase.max()

    bf_copy['Purchase_normal'] = (black_friday.Purchase - xmin) / (xmax - xmin) 
    
    return round(bf_copy['Purchase_normal'].mean(), 3)

q8()

0.385

## Questão 9

Quantas ocorrências entre -1 e 1 inclusive existem da variáel `Purchase` após sua padronização? Responda como um único escalar.

In [8]:
def q9():
    # Retorne aqui o resultado da questão 9.
    P_mean = black_friday.Purchase.mean()
    P_std = black_friday.Purchase.std()
    
    bf_copy['Purchase_pad'] = (black_friday.Purchase - P_mean) / P_std
    
    return len(bf_copy[abs(bf_copy.Purchase_pad) <= 1])

q9()

348631

## Questão 10

Podemos afirmar que se uma observação é null em `Product_Category_2` ela também o é em `Product_Category_3`? Responda com um bool (`True`, `False`).

In [88]:
def q10():
    # Retorne aqui o resultado da questão 10.
    pc2 = list(bf_copy.Product_Category_2.isnull())
    pc3 = list(bf_copy.Product_Category_2.isnull())

    bf_copy['compare'] = [True if (pc2[x] is True) and (pc3[x] is True) else False for x in range(len(pc2)) ]
    
    return df_info['NA #']['Product_Category_2'] == bf_copy[bf_copy.compare == True].shape[0]


q10()

True