# Desafio 1

Para esse desafio, vamos trabalhar com o data set [Black Friday](https://www.kaggle.com/mehdidag/black-friday), que reúne dados sobre transações de compras em uma loja de varejo.

Vamos utilizá-lo para praticar a exploração de data sets utilizando pandas. Você pode fazer toda análise neste mesmo notebook, mas as resposta devem estar nos locais indicados.

> Obs.: Por favor, não modifique o nome das funções de resposta.

## _Set up_ da análise

In [None]:
import pandas as pd
import numpy as np

In [None]:
black_friday = pd.read_csv("black_friday.csv")

## Inicie sua análise a partir daqui

In [None]:
# Analisando as colunas de nosso data set
black_friday.columns


## Questão 1

Quantas observações e quantas colunas há no dataset? Responda no formato de uma tuple `(n_observacoes, n_colunas)`.

In [None]:
# vamos ver o tamanho deste data set
black_friday.shape

In [None]:
def q1():
    # Retorne aqui o resultado da questão 1.
    return black_friday.shape
    

## Questão 2

Há quantas mulheres com idade entre 26 e 35 anos no dataset? Responda como um único escalar.

In [None]:
#investigando Q2 usando um agrupador...
black_friday.groupby('Gender')['Age'].value_counts()

#nossa resposta está na primeira linha da serie, vamos indexar e passar como return

In [None]:
def q2():
    # Retorne aqui o resultado da questão 2.
    return int(black_friday.groupby('Gender')['Age'].value_counts()[0])

## Questão 3

Quantos usuários únicos há no dataset? Responda como um único escalar.

In [None]:
# Vamos observar a coluna user id usando nunique ou value_counts
black_friday['User_ID'].value_counts()
#neste caso basta perguntar qual o tamanho do data frame
tamanho = len(black_friday['User_ID'].value_counts(dropna=False))
print(tamanho)

# ou mais diretamente
black_friday['User_ID'].nunique()

In [None]:
def q3():
    # Retorne aqui o resultado da questão 3.
    return black_friday['User_ID'].nunique()

## Questão 4

Quantos tipos de dados diferentes existem no dataset? Responda como um único escalar.

In [None]:
# Descrevendo os tipos de dados...
print(black_friday.dtypes)

# e quais são únicos
len(black_friday.dtypes.unique())

In [None]:
def q4():
    # Retorne aqui o resultado da questão 4.
    return len(black_friday.dtypes.unique())

## Questão 5

Qual porcentagem dos registros possui ao menos um valor null (`None`, `ǸaN` etc)? Responda como um único escalar entre 0 e 1.

In [None]:
# Quantos registros no total? Entenda-se 'registro' como numero de linhas...
total_registros = black_friday.shape[0]
print(total_registros)

#Quantos registros nulos em todo data set? vamos remover os 'registros' nulos e depois contar
sem_nulos = black_friday.dropna(axis=0)
print(sem_nulos.shape)

# subtraia e divida pelo total
perc = (black_friday.shape[0] - sem_nulos.shape[0]) / black_friday.shape[0]
print(perc)

In [None]:
def q5():
    # Retorne aqui o resultado da questão 5.
    return float((black_friday.shape[0] - sem_nulos.shape[0]) / black_friday.shape[0])

## Questão 6

Quantos valores null existem na variável (coluna) com o maior número de null? Responda como um único escalar.

In [None]:
# inspecionando quantos valores nulos por coluna
black_friday.isna().sum()

#basta agora retornar o valor máximo desta série

In [None]:
def q6():
    # Retorne aqui o resultado da questão 6.
    return int(black_friday.isnull().sum().max())

## Questão 7

Qual o valor mais frequente (sem contar nulls) em `Product_Category_3`? Responda como um único escalar.

In [None]:
# Construindo uma tabela de frequencia e ordenando do maior para o menor...
black_friday['Product_Category_3'].value_counts().sort_values(ascending=False)

#neste precisamos do indice do maior valor
#black_friday['Product_Category_3'].value_counts().sort_values(ascending=False).index[0]



In [None]:
def q7():
    # Retorne aqui o resultado da questão 7.
    return black_friday['Product_Category_3'].value_counts().sort_values(ascending=False).index[0]

## Questão 8

Qual a nova média da variável (coluna) `Purchase` após sua normalização? Responda como um único escalar.

In [None]:
# Com a colaboração do @dspaulolima da nossa comunidade, soubemos que:
# A normalização fica num range de 0 a 1. Pode-se utilizar a fórmula do MinMax:
# normalizados  = ( dados - min(dados) ) / ( max(dados) - min(dados) ) 

# clone do data frame senão a 1a resposta vai estar sempre errada!!!
df = black_friday.copy()

#criando uma nova coluna
df['Purchase_normalizado'] = (df['Purchase'] - df['Purchase'].min())/(df['Purchase'].max() - df['Purchase'].min())
mean_purchase_normalizado = df['Purchase_normalizado'].mean()
print(mean_purchase_normalizado)

In [None]:
def q8():
    # Retorne aqui o resultado da questão 8.
    return df['Purchase_normalizado'].mean()

## Questão 9

Quantas ocorrências entre -1 e 1 inclusive existem da variáel `Purchase` após sua padronização? Responda como um único escalar.

In [None]:
# A outra definição...
#A padronização pode ser calculada a fórmula do z-score. Ela nos retorna valores em que a média é 0 e o desvio padrão é 1, escalando os valores entre negativos e positivos.
# padronizados = ( dados - dados.mean() ) / dados.std()
df['Purchase_padronizado'] = (df['Purchase'] - df['Purchase'].mean())/df['Purchase'].std()

#vamos contar quantos temos dentro do range definido
range_1 = (df['Purchase_padronizado'] <= 1) & (df['Purchase_padronizado'] >= -1)
print(range_1.sum())

In [None]:
def q9():
    # Retorne aqui o resultado da questão 9.
    return int(range_1.sum())

## Questão 10

Podemos afirmar que se uma observação é null em `Product_Category_2` ela também o é em `Product_Category_3`? Responda com um bool (`True`, `False`).

In [None]:
# Definir onde estão os nulls da category_2 e com eles indexar - criar uma máscara - para category_3

cat2_null = black_friday[black_friday['Product_Category_2'].isnull()]

# existe algum - any - True neste nesta máscara? Inverta para responder
any_true = cat2_null['Product_Category_3'].notnull().any()

print(any_true)

In [None]:
def q10():
    # Retorne aqui o resultado da questão 10.
    return bool(~any_true)