# Desafio 1

Para esse desafio, vamos trabalhar com o data set [Black Friday](https://www.kaggle.com/mehdidag/black-friday), que reúne dados sobre transações de compras em uma loja de varejo.

Vamos utilizá-lo para praticar a exploração de data sets utilizando pandas. Você pode fazer toda análise neste mesmo notebook, mas as resposta devem estar nos locais indicados.

> Obs.: Por favor, não modifique o nome das funções de resposta.

## _Set up_ da análise

In [2]:
import pandas as pd
import numpy as np

In [3]:
black_friday = pd.read_csv("black_friday.csv")

## Inicie sua análise a partir daqui

In [4]:
black_friday.shape

(537577, 12)

In [5]:
aux_F = black_friday[black_friday['Age'] == '26-35']


In [7]:
res = aux_F.groupby('Gender')['User_ID'].nunique()
res[0]

545

In [8]:
len(pd.unique(black_friday['User_ID']))

5891

In [9]:
types = black_friday.dtypes
# len(types)
types

User_ID                         int64
Product_ID                     object
Gender                         object
Age                            object
Occupation                      int64
City_Category                  object
Stay_In_Current_City_Years     object
Marital_Status                  int64
Product_Category_1              int64
Product_Category_2            float64
Product_Category_3            float64
Purchase                        int64
dtype: object

In [52]:
aux_missing = black_friday.isna()
aux_missing = aux_missing[(aux_missing['Product_Category_2'] == True)|(aux_missing['Product_Category_3'] == True)]
aux_missing.shape[0]/black_friday.shape[0]

0.6944102891306734

In [62]:
black_friday['Product_Category_3'].mode()

0    16.0
dtype: float64

In [13]:
black_friday.isna().sum()

User_ID                            0
Product_ID                         0
Gender                             0
Age                                0
Occupation                         0
City_Category                      0
Stay_In_Current_City_Years         0
Marital_Status                     0
Product_Category_1                 0
Product_Category_2            166986
Product_Category_3            373299
Purchase                           0
dtype: int64

## Questão 1

Quantas observações e quantas colunas há no dataset? Responda no formato de uma tuple `(n_observacoes, n_colunas)`.

In [14]:
def q1():
    # Retorne aqui o resultado da questão 1.
    return black_friday.shape

## Questão 2

Há quantas mulheres com idade entre 26 e 35 anos no dataset? Responda como um único escalar.

In [70]:
def q2():
    # Retorne aqui o resultado da questão 2.
    aux_F = black_friday[(black_friday['Age'] == '26-35') &(black_friday['Gender'] == 'F')]
    return aux_F.shape[0]

49348

## Questão 3

Quantos usuários únicos há no dataset? Responda como um único escalar.

In [15]:
def q3():
    # Retorne aqui o resultado da questão 3.
    return len(pd.unique(black_friday['User_ID']))

## Questão 4

Quantos tipos de dados diferentes existem no dataset? Responda como um único escalar.

In [22]:
def q4():
    # Retorne aqui o resultado da questão 4.
    return black_friday.dtypes.nunique()

## Questão 5

Qual porcentagem dos registros possui ao menos um valor null (`None`, `ǸaN` etc)? Responda como um único escalar entre 0 e 1.

In [54]:
def q5():
    # Retorne aqui o resultado da questão 5.
    aux_missing = black_friday.isna()
    aux_missing = aux_missing[(aux_missing['Product_Category_2'] == True)|(aux_missing['Product_Category_3'] == True)]
    res = aux_missing.shape[0]/black_friday.shape[0]
    return res

## Questão 6

Quantos valores null existem na variável (coluna) com o maior número de null? Responda como um único escalar.

In [56]:
def q6():
    # Retorne aqui o resultado da questão 6.
    aux_q6 = black_friday['Product_Category_3'].isna().sum()
    return aux_q6


373299

## Questão 7

Qual o valor mais frequente (sem contar nulls) em `Product_Category_3`? Responda como um único escalar.

In [65]:
def q7():
    # Retorne aqui o resultado da questão 7.
    aux_q7 = black_friday['Product_Category_3'].mode()
    return aux_q7[0]

## Questão 8

Qual a nova média da variável (coluna) `Purchase` após sua normalização? Responda como um único escalar.

In [24]:
def q8():
    # Retorne aqui o resultado da questão 8.
    v_max = black_friday['Purchase'].max()
    v_min = black_friday['Purchase'].min()
    aux_q8 = black_friday['Purchase']
    aux_q8 = aux_q8.apply(lambda x: (x - v_min) / (v_max - v_min))
    return aux_q8.mean()

## Questão 9

Quantas ocorrências entre -1 e 1 inclusive existem da variáel `Purchase` após sua padronização? Responda como um único escalar.

In [74]:
def q9():
    # Retorne aqui o resultado da questão 9.
    std = black_friday['Purchase'].std()
    mean = black_friday['Purchase'].mean()
    black_friday['Purchase_z_score'] = black_friday['Purchase'].apply(lambda x: (x - mean) /(std))
    res = black_friday[black_friday['Purchase_z_score'].between(-1,1,inclusive = True)].shape[0]
    return res

348631

# Questão 10

Podemos afirmar que se uma observação é null em `Product_Category_2` ela também o é em `Product_Category_3`? Responda com um bool (`True`, `False`).

In [89]:
def q10():
    # Retorne aqui o resultado da questão 10.
    aux_10 = black_friday[black_friday['Product_Category_2'].isna()]
    res = aux_10[aux_10['Product_Category_2'].isna() == aux_10['Product_Category_3'].isna()]
    return res.shape[0] == aux_10.shape[0]