# Desafio 1

Para esse desafio, vamos trabalhar com o data set [Black Friday](https://www.kaggle.com/mehdidag/black-friday), que reúne dados sobre transações de compras em uma loja de varejo.

Vamos utilizá-lo para praticar a exploração de data sets utilizando pandas. Você pode fazer toda análise neste mesmo notebook, mas as resposta devem estar nos locais indicados.

> Obs.: Por favor, não modifique o nome das funções de resposta.

## _Set up_ da análise

In [2]:
import pandas as pd
import numpy as np

In [3]:
black_friday = pd.read_csv("black_friday.csv")

## Inicie sua análise a partir daqui

In [4]:
df = black_friday

In [5]:
df.columns

Index(['User_ID', 'Product_ID', 'Gender', 'Age', 'Occupation', 'City_Category',
       'Stay_In_Current_City_Years', 'Marital_Status', 'Product_Category_1',
       'Product_Category_2', 'Product_Category_3', 'Purchase'],
      dtype='object')

In [6]:
# Visualizando os dados
df.tail(5)

Unnamed: 0,User_ID,Product_ID,Gender,Age,Occupation,City_Category,Stay_In_Current_City_Years,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Purchase
537572,1004737,P00193542,M,36-45,16,C,1,0,1,2.0,,11664
537573,1004737,P00111142,M,36-45,16,C,1,0,1,15.0,16.0,19196
537574,1004737,P00345942,M,36-45,16,C,1,0,8,15.0,,8043
537575,1004737,P00285842,M,36-45,16,C,1,0,5,,,7172
537576,1004737,P00118242,M,36-45,16,C,1,0,5,8.0,,6875


## Questão 1

Quantas observações e quantas colunas há no dataset? Responda no formato de uma tuple `(n_observacoes, n_colunas)`.

In [7]:
def q1():
    return tuple(df.shape)

## Questão 2

Há quantas mulheres com idade entre 26 e 35 anos no dataset? Responda como um único escalar.

In [8]:
def q2():
    return len(df[(df['Gender'] == 'F') & (df['Age'] == '26-35')])

In [9]:
len(df[(df['Gender'] == 'F') & (df['Age'] == '26-35')]['User_ID'].unique())

545

## Questão 3

Quantos usuários únicos há no dataset? Responda como um único escalar.

In [10]:
def q3():
    return len(df['User_ID'].value_counts())

## Questão 4

Quantos tipos de dados diferentes existem no dataset? Responda como um único escalar.

In [11]:
def q4():
    return len(df.dtypes.unique())

## Questão 5

Qual porcentagem dos registros possui ao menos um valor null (`None`, `ǸaN` etc)? Responda como um único escalar entre 0 e 1.

In [30]:
total_null = df['Product_Category_3'].isnull().value_counts()[1]
total_null / df.shape[0]


0.6944102891306734

In [17]:
def q5():
    return float(total_null / df.shape[0])

## Questão 6

Quantos valores null existem na variável (coluna) com o maior número de null? Responda como um único escalar.

In [18]:
# Verificando valores nulos nas colunas e armazenando em um dicionário
dictionary_false_values = {}
for col in df.columns:
    if len(df[col].isnull().value_counts()) > 1:
        dictionary_false_values[col] = df[col].isnull().value_counts().to_dict()

dictionary_false_values

{'Product_Category_2': {False: 370591, True: 166986},
 'Product_Category_3': {True: 373299, False: 164278}}

In [19]:
# A quantidade de valores True correspondem à quantidade de valores nulos, 
# então é evidente que a coluna com o maior número de nulos é a Product_Category_3
# abaixo o algoritmo pega o maior número da lista de valores True.
list_true = []
for value in dictionary_false_values.values():
    list_true.append(value[True])
max(list_true)

373299

In [20]:
def q6():
    return max(list_true)

## Questão 7

Qual o valor mais frequente (sem contar nulls) em `Product_Category_3`? Responda como um único escalar.

In [22]:
dict_prod_cat3 = df['Product_Category_3'].value_counts().to_dict()
dict_prod_cat3

{16.0: 32148,
 15.0: 27611,
 14.0: 18121,
 17.0: 16449,
 5.0: 16380,
 8.0: 12384,
 9.0: 11414,
 12.0: 9094,
 13.0: 5385,
 6.0: 4818,
 18.0: 4563,
 4.0: 1840,
 11.0: 1773,
 10.0: 1698,
 3.0: 600}

In [23]:
# Pegando a qtde de ocorrencias mais frequente
max_freq_value = max(dict_prod_cat3.values())

# Agora invertendo o key-value para pegar o valor mais frequente atraves da ocorrencia
aux = {v: k for k, v in dict_prod_cat3.items()}
aux

{32148: 16.0,
 27611: 15.0,
 18121: 14.0,
 16449: 17.0,
 16380: 5.0,
 12384: 8.0,
 11414: 9.0,
 9094: 12.0,
 5385: 13.0,
 4818: 6.0,
 4563: 18.0,
 1840: 4.0,
 1773: 11.0,
 1698: 10.0,
 600: 3.0}

In [24]:
# Agora conseguimos pegar o valores mais frequente através da maior ocorrência
aux[max_freq_value]

16.0

In [25]:
def q7():
    return aux[max_freq_value]

## Questão 8

Qual a nova média da variável (coluna) `Purchase` após sua normalização? Responda como um único escalar.

In [27]:
# Media de Purchase
df['Purchase'].mean()

9333.859852635065

In [29]:
df2 = df.copy()

In [32]:
min_purchase = min(df2['Purchase'])
max_purchase = max(df2['Purchase'])

df2['purchase_norm'] = (df2['Purchase'] - min_purchase) / (max_purchase - min_purchase)
df2[['Purchase', 'purchase_norm']].head(10)

Unnamed: 0,Purchase,purchase_norm
0,8370,0.344255
1,15200,0.631519
2,1422,0.052027
3,1057,0.036676
4,7969,0.327389
5,15227,0.632655
6,19215,0.800387
7,15854,0.659026
8,15686,0.65196
9,7871,0.323267


In [34]:
def q8():
    return float(df2['purchase_norm'].mean())

## Questão 9

Quantas ocorrências entre -1 e 1 inclusive existem da variáel `Purchase` após sua padronização? Responda como um único escalar.

In [36]:
media_purchase = df2['Purchase'].mean()
devpad_purchase = df2['Purchase'].std()

df2['pad_norm'] = (df2['Purchase'] - media_purchase) / devpad_purchase
df2[['Purchase', 'pad_norm']].head(5)

Unnamed: 0,Purchase,pad_norm
0,8370,-0.193506
1,15200,1.177698
2,1422,-1.588401
3,1057,-1.661679
4,7969,-0.274012


In [38]:
df2[(df2['pad_norm'] > -1) & (df2['pad_norm'] < 1)].shape[0]

348631

In [40]:
def q9():
    return df2[(df2['pad_norm'] > -1) & (df2['pad_norm'] < 1)].shape[0]

## Questão 10

Podemos afirmar que se uma observação é null em `Product_Category_2` ela também o é em `Product_Category_3`? Responda com um bool (`True`, `False`).

In [42]:
# Primeiro peguei somente os valores nulos da categoria 2 e depois pego as duas colunas que quero comparar
df_aux = df[df['Product_Category_2'].isnull()][['Product_Category_2', 'Product_Category_3']]
df_aux.head(5)

Unnamed: 0,Product_Category_2,Product_Category_3
0,,
2,,
4,,
9,,
11,,


In [43]:
# Para responder, basta achar um contra-exemplo, ou seja, se encontrarmos um valor diferente de NaN na categoria 3
# a afirmação é Falsa, senão é verdadeira.
df_aux['Product_Category_3'].unique()

# Portanto verificamos que a afirmação é verdadeira

array([nan])

In [44]:
df[['Product_Category_2', 'Product_Category_3']]

Unnamed: 0,Product_Category_2,Product_Category_3
0,,
1,6.0,14.0
2,,
3,14.0,
4,,
...,...,...
537572,2.0,
537573,15.0,16.0
537574,15.0,
537575,,


In [45]:
def q10():
    return True