# Desafio 1

Para esse desafio, vamos trabalhar com o data set [Black Friday](https://www.kaggle.com/mehdidag/black-friday), que reúne dados sobre transações de compras em uma loja de varejo.

Vamos utilizá-lo para praticar a exploração de data sets utilizando pandas. Você pode fazer toda análise neste mesmo notebook, mas as resposta devem estar nos locais indicados.

> Obs.: Por favor, não modifique o nome das funções de resposta.

## _Set up_ da análise

In [4]:
import pandas as pd
import numpy as np

In [5]:
black_friday = pd.read_csv("black_friday.csv")

## Inicie sua análise a partir daqui

In [3]:
black_friday.sample(5)

Unnamed: 0,User_ID,Product_ID,Gender,Age,Occupation,City_Category,Stay_In_Current_City_Years,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Purchase
447278,1002907,P00259942,F,36-45,5,A,4+,0,16,,,8113
380516,1004507,P00065242,M,18-25,4,B,1,1,2,3.0,4.0,9679
311625,1006032,P00307142,M,46-50,7,A,3,0,8,,,6157
533661,1004140,P00112542,M,26-35,0,B,4+,0,1,11.0,15.0,19639
488398,1003311,P00342242,M,26-35,4,A,4+,0,11,15.0,16.0,3104


In [4]:
black_friday.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 537577 entries, 0 to 537576
Data columns (total 12 columns):
 #   Column                      Non-Null Count   Dtype  
---  ------                      --------------   -----  
 0   User_ID                     537577 non-null  int64  
 1   Product_ID                  537577 non-null  object 
 2   Gender                      537577 non-null  object 
 3   Age                         537577 non-null  object 
 4   Occupation                  537577 non-null  int64  
 5   City_Category               537577 non-null  object 
 6   Stay_In_Current_City_Years  537577 non-null  object 
 7   Marital_Status              537577 non-null  int64  
 8   Product_Category_1          537577 non-null  int64  
 9   Product_Category_2          370591 non-null  float64
 10  Product_Category_3          164278 non-null  float64
 11  Purchase                    537577 non-null  int64  
dtypes: float64(2), int64(5), object(5)
memory usage: 49.2+ MB


In [5]:
black_friday.describe()

Unnamed: 0,User_ID,Occupation,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Purchase
count,537577.0,537577.0,537577.0,537577.0,370591.0,164278.0,537577.0
mean,1002992.0,8.08271,0.408797,5.295546,9.842144,12.66984,9333.859853
std,1714.393,6.52412,0.491612,3.750701,5.087259,4.124341,4981.022133
min,1000001.0,0.0,0.0,1.0,2.0,3.0,185.0
25%,1001495.0,2.0,0.0,1.0,5.0,9.0,5866.0
50%,1003031.0,7.0,0.0,5.0,9.0,14.0,8062.0
75%,1004417.0,14.0,1.0,8.0,15.0,16.0,12073.0
max,1006040.0,20.0,1.0,18.0,18.0,18.0,23961.0


In [6]:
black_friday.isna().sum()

User_ID                            0
Product_ID                         0
Gender                             0
Age                                0
Occupation                         0
City_Category                      0
Stay_In_Current_City_Years         0
Marital_Status                     0
Product_Category_1                 0
Product_Category_2            166986
Product_Category_3            373299
Purchase                           0
dtype: int64

## Questão 1

Quantas observações e quantas colunas há no dataset? Responda no formato de uma tuple `(n_observacoes, n_colunas)`.

In [1]:
def q1():
    # answer (537577 , 12)
    return black_friday.shape

## Questão 2

Há quantas mulheres com idade entre 26 e 35 anos no dataset? Responda como um único escalar.

In [11]:
def q2():
    # Answer 49348
    young_woman = black_friday.query("Gender == 'F' & Age == '26-35'")
    return young_woman.shape[0]

## Questão 3

Quantos usuários únicos há no dataset? Responda como um único escalar.

In [9]:
def q3():
    # Answer 5891
    return black_friday['User_ID'].nunique()

## Questão 4

Quantos tipos de dados diferentes existem no dataset? Responda como um único escalar.

In [10]:
def q4():
    # Answer 3
    return black_friday.dtypes.nunique()

## Questão 5

Qual porcentagem dos registros possui ao menos um valor null (`None`, `ǸaN` etc)? Responda como um único escalar entre 0 e 1.

In [11]:
def q5():
    # Answer 0.3055897108693266
    observations_total = black_friday.shape[0]
    observations_wo_na = black_friday.dropna().shape[0]
    return 1 - observations_wo_na / observations_total 

## Questão 6

Quantos valores null existem na variável (coluna) com o maior número de null? Responda como um único escalar.

In [12]:
def q6():
    # Answer 373299
    return  black_friday.isnull().sum().max()

## Questão 7

Qual o valor mais frequente (sem contar nulls) em `Product_Category_3`? Responda como um único escalar.

In [13]:
def q7():
    # Answer 16.0.
    return black_friday["Product_Category_3"].value_counts().idxmax()

## Questão 8

Qual a nova média da variável (coluna) `Purchase` após sua normalização? Responda como um único escalar.

In [15]:
def q8():
    # Answer 0.3925748592124437
    min_at_0 = black_friday["Purchase"] -  black_friday["Purchase"].min()
    max_difference = (black_friday["Purchase"].max() - black_friday["Purchase"].min())
    normalized_purchase = min_at_0 / max_difference
    return normalized_purchase.mean()

## Questão 9

Quantas ocorrências entre -1 e 1 inclusive existem da variáel `Purchase` após sua padronização? Responda como um único escalar.

In [None]:
def q9():
    # Answer 0.3925748592124437
    purchase = black_friday["Purchase"]
    normalized_purchase = (purchase - purchase.mean()) / (purchase.std())
    mask = (normalized_purchase >= -1) & (normalized_purchase <= 1)
    return normalized_purchase[mask].shape[0]

## Questão 10

Podemos afirmar que se uma observação é null em `Product_Category_2` ela também o é em `Product_Category_3`? Responda com um bool (`True`, `False`).

In [31]:
def q10():
    # Answer True
    null_in_both = ((black_friday["Product_Category_2"].isnull()) & (black_friday["Product_Category_3"].isnull())).sum()
    null_in_2_total = black_friday["Product_Category_2"].isnull().sum()
    return bool(null_in_both == null_in_2_total)