# Desafio 1

Para esse desafio, vamos trabalhar com o data set [Black Friday](https://www.kaggle.com/mehdidag/black-friday), que reúne dados sobre transações de compras em uma loja de varejo.

Vamos utilizá-lo para praticar a exploração de data sets utilizando pandas. Você pode fazer toda análise neste mesmo notebook, mas as resposta devem estar nos locais indicados.

> Obs.: Por favor, não modifique o nome das funções de resposta.

## _Set up_ da análise

In [133]:
import pandas as pd
import numpy as np

In [134]:
black_friday = pd.read_csv("black_friday.csv")

## Inicie sua análise a partir daqui

In [135]:
black_friday.head(5)

Unnamed: 0,User_ID,Product_ID,Gender,Age,Occupation,City_Category,Stay_In_Current_City_Years,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Purchase
0,1000001,P00069042,F,0-17,10,A,2,0,3,,,8370
1,1000001,P00248942,F,0-17,10,A,2,0,1,6.0,14.0,15200
2,1000001,P00087842,F,0-17,10,A,2,0,12,,,1422
3,1000001,P00085442,F,0-17,10,A,2,0,12,14.0,,1057
4,1000002,P00285442,M,55+,16,C,4+,0,8,,,7969


In [136]:
black_friday.shape

(537577, 12)

In [169]:
soma = ((black_friday['Gender'] == 'F') & (black_friday['Age']=='26-35')).sum()

In [170]:
soma

49348

In [139]:
usuarios_unicos = black_friday['User_ID'].nunique()

In [140]:
usuarios_unicos

5891

In [141]:
tipos_dados = black_friday.dtypes.nunique()

In [142]:
tipos_dados

3

In [143]:
percentual_faltante = black_friday.isna().sum().max() / black_friday.shape[0]

In [144]:
percentual_faltante

0.6944102891306734

In [145]:
black_friday.isnull().sum()

User_ID                            0
Product_ID                         0
Gender                             0
Age                                0
Occupation                         0
City_Category                      0
Stay_In_Current_City_Years         0
Marital_Status                     0
Product_Category_1                 0
Product_Category_2            166986
Product_Category_3            373299
Purchase                           0
dtype: int64

In [146]:
valores_nulos = black_friday['Product_Category_3'].isnull().sum()

In [147]:
valores_nulos

373299

In [148]:
valor_mais_frequente = black_friday['Product_Category_3'].mode()

In [149]:
float(valor_mais_frequente) 

16.0

In [150]:
from sklearn import preprocessing
# Create x, where x the 'scores' column's values as floats
x = black_friday[['Purchase']].values.astype(float)

# Create a minimum and maximum processor object
min_max_scaler = preprocessing.MinMaxScaler()

# Create an object to transform the data to fit minmax processor
x_scaled = min_max_scaler.fit_transform(x)

# Run the normalizer on the dataframe
normalized = pd.DataFrame(x_scaled)

In [151]:
float(normalized.mean())

0.38479390362696736

In [152]:
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
sc_normalized = sc.fit_transform(normalized)

In [153]:
sc_normalized

array([[-0.19350662],
       [ 1.17769916],
       [-1.58840234],
       ...,
       [-0.25915586],
       [-0.43401973],
       [-0.4936461 ]])

In [154]:
int(((sc_normalized >= -1) & (sc_normalized <= 1)).sum())

348631

In [155]:
dados_observados = black_friday[black_friday['Product_Category_2'].isnull()]

In [156]:
dados_observados

Unnamed: 0,User_ID,Product_ID,Gender,Age,Occupation,City_Category,Stay_In_Current_City_Years,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Purchase
0,1000001,P00069042,F,0-17,10,A,2,0,3,,,8370
2,1000001,P00087842,F,0-17,10,A,2,0,12,,,1422
4,1000002,P00285442,M,55+,16,C,4+,0,8,,,7969
9,1000005,P00274942,M,26-35,20,A,1,1,8,,,7871
11,1000005,P00014542,M,26-35,20,A,1,1,8,,,3957
...,...,...,...,...,...,...,...,...,...,...,...,...
537563,1004736,P00154642,M,18-25,20,A,1,1,8,,,6074
537565,1004736,P00051142,M,18-25,20,A,1,1,8,,,7934
537566,1004736,P00048742,M,18-25,20,A,1,1,5,,,5350
537568,1004736,P00250642,M,18-25,20,A,1,1,11,,,5930


In [157]:
bool(dados_observados['Product_Category_2'].sum() == dados_observados['Product_Category_3'].sum())

True

## Questão 1

Quantas observações e quantas colunas há no dataset? Responda no formato de uma tuple `(n_observacoes, n_colunas)`.

In [158]:
def q1():
    # Retorne aqui o resultado da questão 2.
    return black_friday.shape
    pass

## Questão 2

Há quantas mulheres com idade entre 26 e 35 anos no dataset? Responda como um único escalar.

In [168]:
def q2():
    # Retorne aqui o resultado da questão 2.
    return int(((black_friday['Gender'] == 'F') & (black_friday['Age'] == '26-35')).sum())
    pass

## Questão 3

Quantos usuários únicos há no dataset? Responda como um único escalar.

In [160]:
def q3():
    # Retorne aqui o resultado da questão 3.
    usuarios_unicos = black_friday['User_ID'].nunique()
    return usuarios_unicos
    pass

## Questão 4

Quantos tipos de dados diferentes existem no dataset? Responda como um único escalar.

In [161]:
def q4():
    # Retorne aqui o resultado da questão 4.
    tipos_dados = black_friday.dtypes.nunique()
    return tipos_dados
    pass

## Questão 5

Qual porcentagem dos registros possui ao menos um valor null (`None`, `ǸaN` etc)? Responda como um único escalar entre 0 e 1.

In [162]:
def q5():
    # Retorne aqui o resultado da questão 5.
    percentual_faltante = black_friday.isna().sum().max() / black_friday.shape[0]
    return percentual_faltante
    pass

## Questão 6

Quantos valores null existem na variável (coluna) com o maior número de null? Responda como um único escalar.

In [163]:
def q6():
    # Retorne aqui o resultado da questão 6.
    valores_nulos = black_friday['Product_Category_3'].isnull().sum()
    return int(valores_nulos)
    pass

## Questão 7

Qual o valor mais frequente (sem contar nulls) em `Product_Category_3`? Responda como um único escalar.

In [164]:
def q7():
    # Retorne aqui o resultado da questão 7.
    valor_mais_frequente = black_friday['Product_Category_3'].mode()
    return float(valor_mais_frequente)
    pass

## Questão 8

Qual a nova média da variável (coluna) `Purchase` após sua normalização? Responda como um único escalar.

In [165]:
def q8():
    # Retorne aqui o resultado da questão 8.
    from sklearn import preprocessing
    # Create x, where x the 'scores' column's values as floats
    x = black_friday[['Purchase']].values.astype(float)
    # Create a minimum and maximum processor object
    min_max_scaler = preprocessing.MinMaxScaler()
    # Create an object to transform the data to fit minmax processor 
    x_scaled = min_max_scaler.fit_transform(x)
    # Run the normalizer on the dataframe
    normalized = pd.DataFrame(x_scaled)
    return float(normalized.mean())
    pass

## Questão 9

Quantas ocorrências entre -1 e 1 inclusive existem da variáel `Purchase` após sua padronização? Responda como um único escalar.

In [166]:
def q9():
    # Retorne aqui o resultado da questão 9.
    from sklearn.preprocessing import StandardScaler
    sc = StandardScaler()
    sc_normalized = sc.fit_transform(normalized)
    return int(((sc_normalized >= -1) & (sc_normalized <= 1)).sum())
    pass

## Questão 10

Podemos afirmar que se uma observação é null em `Product_Category_2` ela também o é em `Product_Category_3`? Responda com um bool (`True`, `False`).

In [167]:
def q10():
    # Retorne aqui o resultado da questão 10.
    dados_observados = black_friday[black_friday['Product_Category_2'].isnull()]
    return bool(dados_observados['Product_Category_2'].sum() == dados_observados['Product_Category_3'].sum())
    pass