# 3º Módulo - Desafio: Pré-processamento em Python

Para esse desafio, vamos trabalhar com o data set [Black Friday](https://www.kaggle.com/mehdidag/black-friday), que reúne dados sobre transações de compras em uma loja de varejo.

Vamos utilizá-lo para praticar a exploração de data sets utilizando pandas. Você pode fazer toda análise neste mesmo notebook, mas as resposta devem estar nos locais indicados.

> Obs.: Por favor, não modifique o nome das funções de resposta.

## _Set up_ da análise

In [3]:
import pandas as pd
import numpy as np

In [4]:
black_friday = pd.read_csv("/home/pryska/codenation/data-science-0/black_friday.csv")

## Inicie sua análise a partir daqui

In [5]:
# questão 1 - quantas observações e quantas colunas
black_friday.shape

(537577, 12)

In [6]:
# questão 2 - quantas mulheres com idade entre 36 e 35 anos
black_friday.query('Gender =="F" and Age=="26-35"').count()

User_ID                       49348
Product_ID                    49348
Gender                        49348
Age                           49348
Occupation                    49348
City_Category                 49348
Stay_In_Current_City_Years    49348
Marital_Status                49348
Product_Category_1            49348
Product_Category_2            33122
Product_Category_3            13364
Purchase                      49348
dtype: int64

In [7]:
# questão 3 - quantos usuários únicos
black_friday['User_ID'].nunique()

5891

In [8]:
# questão 4 - tipos de dados diferentes existem no dataset
black_friday.dtypes.nunique()

3

In [9]:
# questão 5 - porcentagem dos registros possui ao menos um valor null
(black_friday.shape[0] - black_friday.dropna().shape[0]) / black_friday.shape[0]

0.6944102891306734

In [10]:
# questão 6 - valores null existem na variável (coluna) com o maior número de null
(black_friday.isna().sum().max())

373299

In [11]:
# questão 7 - valor mais frequente (sem contar nulls) em Product_Category_3
cleaned_column = black_friday['Product_Category_3'].dropna()
cleaned_column.mode()[0]

16.0

In [12]:
# questão 8 - nova média da variável (coluna) Purchase após sua normalização
min_max = (black_friday['Purchase'] - black_friday['Purchase'].min()) \
            / (black_friday['Purchase'].max() - black_friday['Purchase'].min())
(min_max.mean())

0.3847939036269795

In [13]:
# questão 9 - ocorrências entre -1 e 1 inclusive existem da variáel Purchase após sua padronização
black_friday_normalized = (black_friday['Purchase'] - black_friday['Purchase'].mean()) / black_friday['Purchase'].std()
(black_friday_normalized.between(-1,1).sum())

348631

In [14]:
# questão 10 - observação é null em Product_Category_2 ela também o é em Product_Category_3
black_friday_aux = black_friday[['Product_Category_2','Product_Category_3']] 
black_friday_aux = black_friday_aux[black_friday_aux['Product_Category_2'].isna()]
black_friday_aux['Product_Category_2'].equals(black_friday_aux['Product_Category_3'])

True

## Questão 1

Quantas observações e quantas colunas há no dataset? Responda no formato de uma tuple `(n_observacoes, n_colunas)`.

In [15]:
def q1():
    return black_friday.shape

## Questão 2

Há quantas mulheres com idade entre 26 e 35 anos no dataset? Responda como um único escalar.

In [40]:
def q2():
    female = black_friday.loc[(black_friday['Age'] == '26-35') & (black_friday['Gender'] == 'F')]
    return int(female.shape[0])

## Questão 3

Quantos usuários únicos há no dataset? Responda como um único escalar.

In [17]:
def q3():
    return black_friday['User_ID'].nunique()

## Questão 4

Quantos tipos de dados diferentes existem no dataset? Responda como um único escalar.

In [18]:
def q4():
    return black_friday.dtypes.nunique()

## Questão 5

Qual porcentagem dos registros possui ao menos um valor null (`None`, `ǸaN` etc)? Responda como um único escalar entre 0 e 1.

In [19]:
def q5():
    return (black_friday.shape[0] - black_friday.dropna().shape[0]) / black_friday.shape[0]

## Questão 6

Quantos valores null existem na variável (coluna) com o maior número de null? Responda como um único escalar.

In [20]:
def q6():
    return int(black_friday.isna().sum().max())

## Questão 7

Qual o valor mais frequente (sem contar nulls) em `Product_Category_3`? Responda como um único escalar.

In [21]:
def q7():
    cleaned_column = black_friday['Product_Category_3'].dropna()
    return cleaned_column.mode()[0]

## Questão 8

Qual a nova média da variável (coluna) `Purchase` após sua normalização? Responda como um único escalar.

In [22]:
def q8():
    min_max = (black_friday['Purchase'] - black_friday['Purchase'].min()) \
            / (black_friday['Purchase'].max() - black_friday['Purchase'].min())
    return float(min_max.mean())

## Questão 9

Quantas ocorrências entre -1 e 1 inclusive existem da variáel `Purchase` após sua padronização? Responda como um único escalar.

In [23]:
def q9():
    black_friday_normalized = (black_friday['Purchase'] - black_friday['Purchase'].mean()) / black_friday['Purchase'].std()
    return int(black_friday_normalized.between(-1,1).sum())

## Questão 10

Podemos afirmar que se uma observação é null em `Product_Category_2` ela também o é em `Product_Category_3`? Responda com um bool (`True`, `False`).

In [24]:
def q10():
    black_friday_aux = black_friday[['Product_Category_2','Product_Category_3']] 
    black_friday_aux = black_friday_aux[black_friday_aux['Product_Category_2'].isna()]
    return black_friday_aux['Product_Category_2'].equals(black_friday_aux['Product_Category_3'])