# Desafio 1

Para esse desafio, vamos trabalhar com o data set [Black Friday](https://www.kaggle.com/mehdidag/black-friday), que reúne dados sobre transações de compras em uma loja de varejo.

Vamos utilizá-lo para praticar a exploração de data sets utilizando pandas. Você pode fazer toda análise neste mesmo notebook, mas as resposta devem estar nos locais indicados.

> Obs.: Por favor, não modifique o nome das funções de resposta.

## _Set up_ da análise

In [4]:
import pandas as pd
import numpy as np

In [5]:
black_friday = pd.read_csv("black_friday.csv")

## Inicie sua análise a partir daqui

In [8]:
black_friday.head()

Unnamed: 0,User_ID,Product_ID,Gender,Age,Occupation,City_Category,Stay_In_Current_City_Years,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Purchase
0,1000001,P00069042,F,0-17,10,A,2,0,3,,,8370
1,1000001,P00248942,F,0-17,10,A,2,0,1,6.0,14.0,15200
2,1000001,P00087842,F,0-17,10,A,2,0,12,,,1422
3,1000001,P00085442,F,0-17,10,A,2,0,12,14.0,,1057
4,1000002,P00285442,M,55+,16,C,4+,0,8,,,7969


In [4]:
black_friday.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 537577 entries, 0 to 537576
Data columns (total 12 columns):
User_ID                       537577 non-null int64
Product_ID                    537577 non-null object
Gender                        537577 non-null object
Age                           537577 non-null object
Occupation                    537577 non-null int64
City_Category                 537577 non-null object
Stay_In_Current_City_Years    537577 non-null object
Marital_Status                537577 non-null int64
Product_Category_1            537577 non-null int64
Product_Category_2            370591 non-null float64
Product_Category_3            164278 non-null float64
Purchase                      537577 non-null int64
dtypes: float64(2), int64(5), object(5)
memory usage: 49.2+ MB


In [5]:
black_friday.describe()

Unnamed: 0,User_ID,Occupation,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Purchase
count,537577.0,537577.0,537577.0,537577.0,370591.0,164278.0,537577.0
mean,1002992.0,8.08271,0.408797,5.295546,9.842144,12.66984,9333.859853
std,1714.393,6.52412,0.491612,3.750701,5.087259,4.124341,4981.022133
min,1000001.0,0.0,0.0,1.0,2.0,3.0,185.0
25%,1001495.0,2.0,0.0,1.0,5.0,9.0,5866.0
50%,1003031.0,7.0,0.0,5.0,9.0,14.0,8062.0
75%,1004417.0,14.0,1.0,8.0,15.0,16.0,12073.0
max,1006040.0,20.0,1.0,18.0,18.0,18.0,23961.0


## Questão 1

Quantas observações e quantas colunas há no dataset? Responda no formato de uma tuple `(n_observacoes, n_colunas)`.

In [7]:
def q1():
    shape = black_friday.shape
    return shape 

## Questão 2

Há quantas mulheres com idade entre 26 e 35 anos no dataset? Responda como um único escalar.

In [13]:
def q2():
    woman_age_between_25_36 = len(black_friday.query('Gender == "F" and Age == "26-35"'))
    return woman_age_between_25_36

## Questão 3

Quantos usuários únicos há no dataset? Responda como um único escalar.

In [20]:
def q3():
    # nunique() conta os valores distintos
    unique_users = black_friday.User_ID.nunique()
    return unique_users

## Questão 4

Quantos tipos de dados diferentes existem no dataset? Responda como um único escalar.

In [52]:
def q4():
    # dtypes retorna os tipos de dados
    unique_data_types = black_friday.dtypes.nunique()
    return unique_data_types

## Questão 5

Qual porcentagem dos registros possui ao menos um valor null (`None`, `ǸaN` etc)? Responda como um único escalar entre 0 e 1.

In [53]:
def q5():
    
    #quantidade de registros nulos = quantidade de registros - quantidade de registros sem nulo
    nan =  len(black_friday) - len(black_friday.dropna())
    
    #porcentagem de registros nulos = quantidade de registros nulos / quantidade de registros
    percentage_nan_registers = nan/len(black_friday)
    return percentage_nan_registers

## Questão 6

Quantos valores null existem na variável (coluna) com o maior número de null? Responda como um único escalar.

In [54]:
def q6():
    
    # count() retorna a contagem de registros não nulos.
    # idxmin() retorna o indice do mínimo valor
    most_nan_colunm = black_friday.count().idxmin()
    
    # isnull() faz a soma dos valores mínimo - nesse caso, será para a coluna calculada previamente
    # sum() faz a soma dos valores - nesse caso, dos valores nulos.
    qtd_nan = black_friday[most_nan_colunm].isnull().sum()
    return int(qtd_nan)

## Questão 7

Qual o valor mais frequente (sem contar nulls) em `Product_Category_3`? Responda como um único escalar.

In [68]:
def q7():
    
    # value_counts() faz a contagem dos valores distintos
    # index[0] retorna o valor com a maior contagem
    mode_Product_Category_3 = black_friday.Product_Category_3.value_counts().index[0]
    return mode_Product_Category_3

## Questão 8

Qual a nova média da variável (coluna) `Purchase` após sua normalização? Responda como um único escalar.

In [1]:
# Segundo calculos para normalização obtidos em https://medium.com/data-hackers/normalizar-ou-padronizar-as-vari%C3%A1veis-3b619876ccc9
# Poderia usar o MinMaxScaler()
def q8():
    
    # X = (X - X.min())/ (X.max() - X.min())
    normalized_purchase = ((black_friday['Purchase'] - black_friday['Purchase'].min())/
                           (black_friday['Purchase'].max() - black_friday['Purchase'].min()))
    return normalized_purchase.mean()

## Questão 9

Quantas ocorrências entre -1 e 1 inclusive existem da variáel `Purchase` após sua padronização? Responda como um único escalar.

In [94]:
from sklearn import preprocessing

In [95]:
def q9():
    
    #criando um objeto para re-escalar os dados, a partir da coluna 'Purchase'
    scaler = preprocessing.StandardScaler().fit(black_friday[['Purchase']])
    
    #tranformando os dados da coluna 'Purchase' de acordo com a escala calculada
    normalized_purchase = scaler.transform(black_friday[['Purchase']])
    
    #calculando quantos registros estão entre os valores -1 e 1 nos dados re-escalados
    required_range = [i for i in normalized_purchase if i>= -1 and i<=1]
    return len(required_range)

## Questão 10

Podemos afirmar que se uma observação é null em `Product_Category_2` ela também o é em `Product_Category_3`? Responda com um bool (`True`, `False`).

In [2]:
def q10():
    
    #criando um dataFrame com as colunas necessárias
    df = black_friday[['Product_Category_2','Product_Category_3']]
    #filtrando e criando um novo df apenas nos registros onde o Product_Category_2 é nulo
    df = df[df['Product_Category_2'].isnull()]
    
    #comparando se quando categoria 2 é nula, a categoria 3 é nula também
    null_comparation = df['Product_Category_2'].equals(df['Product_Category_3'])
    return null_comparation