# Desafio 1

Para esse desafio, vamos trabalhar com o data set [Black Friday](https://www.kaggle.com/mehdidag/black-friday), que reúne dados sobre transações de compras em uma loja de varejo.

Vamos utilizá-lo para praticar a exploração de data sets utilizando pandas. Você pode fazer toda análise neste mesmo notebook, mas as resposta devem estar nos locais indicados.

> Obs.: Por favor, não modifique o nome das funções de resposta.

## _Set up_ da análise

In [1]:
import pandas as pd
import numpy as np

In [2]:
black_friday = pd.read_csv("black_friday.csv")

In [3]:
black_friday.head(5)

Unnamed: 0,User_ID,Product_ID,Gender,Age,Occupation,City_Category,Stay_In_Current_City_Years,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Purchase
0,1000001,P00069042,F,0-17,10,A,2,0,3,,,8370
1,1000001,P00248942,F,0-17,10,A,2,0,1,6.0,14.0,15200
2,1000001,P00087842,F,0-17,10,A,2,0,12,,,1422
3,1000001,P00085442,F,0-17,10,A,2,0,12,14.0,,1057
4,1000002,P00285442,M,55+,16,C,4+,0,8,,,7969


## Questão 1

Quantas observações e quantas colunas há no dataset? Responda no formato de uma tuple `(n_observacoes, n_colunas)`.

Para isso, apenas utilizar a função .shape:

In [4]:
print("Formato do dataset:",black_friday.shape)

Formato do dataset: (537577, 12)


## Questão 2

Há quantas mulheres com idade entre 26 e 35 anos no dataset? Responda como um único escalar.

A ideia aqui foi aplicar um filtro para visualizar apenas as variáveis envolvidas na questão:

In [5]:
filtro  = ['User_ID','Age','Gender']
explorer  = black_friday[filtro]
explorer.head(5)

Unnamed: 0,User_ID,Age,Gender
0,1000001,0-17,F
1,1000001,0-17,F
2,1000001,0-17,F
3,1000001,0-17,F
4,1000002,55+,M


Agora, aplicando a função .query, filtrando apenas as mulheres na faixa de idade 26-35 anos. Vale salientar que: FOI PEDIDO A QUANTIDADE PRESENTE NO DATASET, E NÃO A QUANTIDADE DE USUÁRIOS QUE ATENDEM AS CARACTERÍSTICAS.

In [6]:
explorer = explorer.query('Gender == "F" & Age == "26-35"')
print("Quantidade presente no dataset: ",len(explorer))

Quantidade presente no dataset:  49348


## Questão 3

Quantos usuários únicos há no dataset? Responda como um único escalar.

Aqui é bem simples, apenas pegar os elementos únicos na coluna de usuários: User_ID

In [7]:
print("Quantidade de usuários: ",len(black_friday['User_ID'].unique()))

Quantidade de usuários:  5891


## Questão 4

Quantos tipos de dados diferentes existem no dataset? Responda como um único escalar.

Para essa questão, usa-se a função set() para achar os únicos elementos presentes em: black_friday.dtypes, que contém os tipos de dados de todas as features do dataset.

In [8]:
print("Tipos de dados diferentes: ",len(set(black_friday.dtypes.values)))

Tipos de dados diferentes:  3


## Questão 5

Qual porcentagem dos registros possui ao menos um valor null (`None`, `ǸaN` etc)? Responda como um único escalar entre 0 e 1.

Para facilitar a análise, foi feito um dataframe para ilustar o nº de Nan por registro:

In [9]:
explorer = black_friday.isna().sum(axis = 1)
explorer = pd.DataFrame({'Qtd':explorer.values})
explorer.head(5)

Unnamed: 0,Qtd
0,2
1,0
2,2
3,1
4,2


Com esse dataframe, foi aplicado um filtro para ver as linhas com pelo menos uma feature faltante:

In [10]:
explorer = explorer.query('Qtd != 0')
print("Número de linhas com NaN's: ",round(len(explorer)/len(black_friday),3))

Número de linhas com NaN's:  0.694


## Questão 6

Quantos valores null existem na variável (coluna) com o maior número de null? Responda como um único escalar.

Aplicando a ideia análoga de usar dataframes para análise, foi feito o dataframe com o número de NaN's por coluna:

In [11]:
explorer = black_friday.isna().sum(axis=0)
print("Numero máximo de NaN's: ",explorer.max())

Numero máximo de NaN's:  373299


## Questão 7

Qual o valor mais frequente (sem contar nulls) em `Product_Category_3`? Responda como um único escalar.

A ideia é aplicar o método value_counts(). Porque essa função retorna em ordem crescente de frequência, o primeiro elemento é o valor mais frequente:

In [12]:
print("Valor mais frequente em Product_Category_3: ",black_friday['Product_Category_3'].value_counts().index[0])

Valor mais frequente em Product_Category_3:  16.0


## Questão 8

Qual a nova média da variável (coluna) `Purchase` após sua normalização? Responda como um único escalar.

Utilizando a variável Purchase, foi aplicada a função MinMaxScaler, que executa a normalização nos dados, e em seguida, a função .mean() retorna a média:

In [14]:
explorer = black_friday['Purchase'].values
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
explorer  = scaler.fit_transform(explorer.reshape(-1,1))
print("Média da variável Purchase: ",explorer.mean())

Média da variável Purchase:  0.3847939036269795


## Questão 9

Quantas ocorrências entre -1 e 1 inclusive existem da variáel `Purchase` após sua padronização? Responda como um único escalar.

A ideia é aplicar a padronização com a funçao StandardScaler, e filtrar com a função query os valores dentro da faixa:

In [15]:
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
explorer = black_friday['Purchase'].values
explorer  = sc.fit_transform(explorer.reshape(-1,1))
explorer  = pd.DataFrame({'Valor':explorer[:,0]})
explorer = explorer.query('Valor < 1 & Valor > -1')
print("Número de ocorrências: ",len(explorer))

Número de ocorrências:  348631


## Questão 10

Podemos afirmar que se uma observação é null em `Product_Category_2` ela também o é em `Product_Category_3`? Responda com um bool (`True`, `False`).

Para verificar isso, basta apenas ver se a quantidade de NULL em Product_Category_3 é a mesma que Product_Category_2. Caso não, a afirmativa acima é falsa.

In [16]:

a = explorer.iloc[0]
b = explorer.iloc[1]
if a == b:
    r_q10 = True
else:
    r_q10 = False
print("Status da afirmação: ",r_q10)

Status da afirmação:  True
