# Desafio 1

Para esse desafio, vamos trabalhar com o data set [Black Friday](https://www.kaggle.com/mehdidag/black-friday), que reúne dados sobre transações de compras em uma loja de varejo.

Vamos utilizá-lo para praticar a exploração de data sets utilizando pandas. Você pode fazer toda análise neste mesmo notebook, mas as resposta devem estar nos locais indicados.

> Obs.: Por favor, não modifique o nome das funções de resposta.

## _Set up_ da análise

In [1]:
import pandas as pd
import numpy as np

In [131]:
black_friday = pd.read_csv("black_friday.csv")

## Inicie sua análise a partir daqui

In [87]:
black_friday.head()

Unnamed: 0,User_ID,Product_ID,Gender,Age,Occupation,City_Category,Stay_In_Current_City_Years,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Purchase
0,1000001,P00069042,F,0-17,10,A,2,0,3,,,8370
1,1000001,P00248942,F,0-17,10,A,2,0,1,6.0,14.0,15200
2,1000001,P00087842,F,0-17,10,A,2,0,12,,,1422
3,1000001,P00085442,F,0-17,10,A,2,0,12,14.0,,1057
4,1000002,P00285442,M,55+,16,C,4+,0,8,,,7969


In [132]:
df = black_friday.copy()

In [133]:
df_info = pd.DataFrame({'Colunas': df.columns, 'types': black_friday.dtypes,
                             'NA #': df.isna().sum(),
                             'NA %': (df.isna().sum() / df.shape[0]) * 100})
df_info

Unnamed: 0,Colunas,types,NA #,NA %
User_ID,User_ID,int64,0,0.0
Product_ID,Product_ID,object,0,0.0
Gender,Gender,object,0,0.0
Age,Age,object,0,0.0
Occupation,Occupation,int64,0,0.0
City_Category,City_Category,object,0,0.0
Stay_In_Current_City_Years,Stay_In_Current_City_Years,object,0,0.0
Marital_Status,Marital_Status,int64,0,0.0
Product_Category_1,Product_Category_1,int64,0,0.0
Product_Category_2,Product_Category_2,float64,166986,31.062713


## Questão 1

Quantas observações e quantas colunas há no dataset? Responda no formato de uma tuple `(n_observacoes, n_colunas)`.

In [135]:
def q1():
    return tuple(black_friday.shape)
q1()

(537577, 12)

## Questão 2

Há quantas mulheres com idade entre 26 e 35 anos no dataset? Responda como um único escalar.

In [91]:
def q2():
    return df[ (df['Gender'] == 'F') & (df['Age'] == '26-35') ].shape[0]
q2()

49348

## Questão 3

Quantos usuários únicos há no dataset? Responda como um único escalar.

In [92]:
def q3():
    return df['User_ID'].nunique()
q3()

5891

## Questão 4

Quantos tipos de dados diferentes existem no dataset? Responda como um único escalar.

In [93]:
def q4():
    types = df.dtypes
    return types.nunique()
q4()

3

## Questão 5

Qual porcentagem dos registros possui ao menos um valor null (`None`, `ǸaN` etc)? Responda como um único escalar entre 0 e 1.

In [94]:
def q5():
    return df[df.isna().any(axis=1)].shape[0] / df.shape[0]

q5()

0.6944102891306734

## Questão 6

Quantos valores null existem na variável (coluna) com o maior número de null? Responda como um único escalar.

In [107]:
def q6():
    return int(df_info['NA #'].max())
q6()

373299

## Questão 7

Qual o valor mais frequente (sem contar nulls) em `Product_Category_3`? Responda como um único escalar.

In [96]:
def q7():
    return df['Product_Category_3'].value_counts().idxmax()
q7()

16.0

## Questão 8

Qual a nova média da variável (coluna) `Purchase` após sua normalização? Responda como um único escalar.

In [111]:
def q8():
    dados = df['Purchase']
    df['Purchase_normalizado']=(dados - dados.min()) / (dados.max() - dados.min())
    return float(df['Purchase_normalizado'].mean())

q8()

0.38479390362696736

## Questão 9

Quantas ocorrências entre -1 e 1 inclusive existem da variáel `Purchase` após sua padronização? Responda como um único escalar.

In [106]:
def q9():
    dados = df['Purchase']
    df['Purchase_padronizado'] = (dados - dados.mean()) / dados.std()
    return len( df[ abs(df['Purchase_padronizado']) <= 1])
q9()

348631

## Questão 10

Podemos afirmar que se uma observação é null em `Product_Category_2` ela também o é em `Product_Category_3`? Responda com um bool (`True`, `False`).

In [129]:
def q10():
    product_category_2 = list(df['Product_Category_2'].isnull())
    product_category_3 = list(df['Product_Category_3'].isnull())
    
    return bool(True if x == y else False for (x,y) in zip(product_category_2, product_category_3))
    
q10()

True