# Desafio 1

Para esse desafio, vamos trabalhar com o data set [Black Friday](https://www.kaggle.com/mehdidag/black-friday), que reúne dados sobre transações de compras em uma loja de varejo.

Vamos utilizá-lo para praticar a exploração de data sets utilizando pandas. Você pode fazer toda análise neste mesmo notebook, mas as resposta devem estar nos locais indicados.

> Obs.: Por favor, não modifique o nome das funções de resposta.

## _Set up_ da análise

In [1]:
import pandas as pd
import numpy as np

In [2]:
black_friday = pd.read_csv("black_friday.csv")

## Inicie sua análise a partir daqui

In [37]:
black_friday.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 537577 entries, 0 to 537576
Data columns (total 12 columns):
 #   Column                      Non-Null Count   Dtype  
---  ------                      --------------   -----  
 0   User_ID                     537577 non-null  int64  
 1   Product_ID                  537577 non-null  object 
 2   Gender                      537577 non-null  object 
 3   Age                         537577 non-null  object 
 4   Occupation                  537577 non-null  int64  
 5   City_Category               537577 non-null  object 
 6   Stay_In_Current_City_Years  537577 non-null  object 
 7   Marital_Status              537577 non-null  int64  
 8   Product_Category_1          537577 non-null  int64  
 9   Product_Category_2          370591 non-null  float64
 10  Product_Category_3          164278 non-null  float64
 11  Purchase                    537577 non-null  int64  
dtypes: float64(2), int64(5), object(5)
memory usage: 49.2+ MB


## Questão 1

Quantas observações e quantas colunas há no dataset? Responda no formato de uma tuple `(n_observacoes, n_colunas)`.

In [4]:
def q1():
    return black_friday.shape

In [6]:
# Resposta
q1()

(537577, 12)

## Questão 2

Há quantas mulheres com idade entre 26 e 35 anos no dataset? Responda como um único escalar.

In [5]:
def q2():
    return len(black_friday[(black_friday['Gender'] == 'F')&(black_friday['Age'] == '26-35')])

In [7]:
# Resposta
q2()

49348

## Questão 3

Quantos usuários únicos há no dataset? Responda como um único escalar.

In [9]:
def q3():
    return black_friday['User_ID'].nunique()

In [10]:
# Resposta
q3()

5891

## Questão 4

Quantos tipos de dados diferentes existem no dataset? Responda como um único escalar.

In [13]:
def q4():
    return black_friday.dtypes.nunique()

In [14]:
# Resposta
q4()

3

## Questão 5

Qual porcentagem dos registros possui ao menos um valor null (`None`, `ǸaN` etc)? Responda como um único escalar entre 0 e 1.

In [15]:
def q5():
    return 1-float(len(black_friday.dropna(how='any'))/len(black_friday))

In [16]:
# Resposta
q5()

0.6944102891306734

## Questão 6

Quantos valores null existem na variável (coluna) com o maior número de null? Responda como um único escalar.

In [23]:
def q6():
    return max(black_friday.isna().sum())

In [26]:
# Resposta
q6()

373299

## Questão 7

Qual o valor mais frequente (sem contar nulls) em `Product_Category_3`? Responda como um único escalar.

In [27]:
def q7():
    return int(black_friday['Product_Category_3'].value_counts().idxmax())

In [28]:
# Resposta
q7()

16

## Questão 8

Qual a nova média da variável (coluna) `Purchase` após sua normalização? Responda como um único escalar.

In [29]:
def q8():
    l_min = black_friday['Purchase'].min()
    l_max = black_friday['Purchase'].max()
    return float(((black_friday['Purchase'] - l_min)/(l_max - l_min)).mean())

In [30]:
# Resposta
q8()

0.38479390362696736

## Questão 9

Quantas ocorrências entre -1 e 1 inclusive existem da variáel `Purchase` após sua padronização? Responda como um único escalar.

In [31]:
def q9():
    mean = black_friday['Purchase'].mean()
    std = black_friday['Purchase'].std()
    scaled = (black_friday['Purchase'] - mean)/std
    return sum((scaled >= -1)&(scaled <= 1))

In [32]:
# Resposta
q9()

348631

## Questão 10

Podemos afirmar que se uma observação é null em `Product_Category_2` ela também o é em `Product_Category_3`? Responda com um bool (`True`, `False`).

In [35]:
def q10():
    # Interseccao
    c1 = black_friday[(black_friday['Product_Category_2'].isnull())&(black_friday['Product_Category_3'].isnull())]
    # Singular
    c2 = black_friday[black_friday['Product_Category_2'].isnull()]
    return  c2['Product_Category_2'].equals(c1['Product_Category_3'])

In [36]:
# Resposta
q10()

True