# Desafio 1

Para esse desafio, vamos trabalhar com o data set [Black Friday](https://www.kaggle.com/mehdidag/black-friday), que reúne dados sobre transações de compras em uma loja de varejo.

Vamos utilizá-lo para praticar a exploração de data sets utilizando pandas. Você pode fazer toda análise neste mesmo notebook, mas as resposta devem estar nos locais indicados.

> Obs.: Por favor, não modifique o nome das funções de resposta.

## _Set up_ da análise

In [1]:
import pandas as pd
import numpy as np

In [2]:
black_friday = pd.read_csv("black_friday.csv")

## Inicie sua análise a partir daqui

Analise que gera a resposta da questão 2 abaixo:

In [42]:
black_friday[["Gender", "Age"]].groupby(["Gender", "Age"])["Age"].count()

Gender  Age  
F       0-17       4953
        18-25     24057
        26-35     49348
        36-45     26420
        46-50     12856
        51-55      9634
        55+        4929
M       0-17       9754
        18-25     73577
        26-35    165342
        36-45     81079
        46-50     31670
        51-55     27984
        55+       15974
Name: Age, dtype: int64

In [146]:
black_friday.isnull().describe()

Unnamed: 0,User_ID,Product_ID,Gender,Age,Occupation,City_Category,Stay_In_Current_City_Years,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Purchase
count,537577,537577,537577,537577,537577,537577,537577,537577,537577,537577,537577,537577
unique,1,1,1,1,1,1,1,1,1,2,2,1
top,False,False,False,False,False,False,False,False,False,False,True,False
freq,537577,537577,537577,537577,537577,537577,537577,537577,537577,370591,373299,537577


In [104]:
black_friday["Product_Category_3"].describe()

count    164278.000000
mean         12.669840
std           4.124341
min           3.000000
25%           9.000000
50%          14.000000
75%          16.000000
max          18.000000
Name: Product_Category_3, dtype: float64

In [121]:
black_friday["Product_Category_3"].mode()


0    16.0
dtype: float64

In [131]:
"""
https://www.kite.com/python/answers/how-to-normalize-the-elements-of-a-pandas-dataframe-in-python
Call pandas.DataFrame.max() to get a Series containing the maximum value of each column of pandas.DataFrame.
Call pandas.Series.max() with pandas.Series as the previous result to get the maximum value of pandas.Series.
Divide each element in a DataFrame by this maximum value to normalize the DataFrame.
"""
max_purchase = black_friday["Purchase"].max()

purchases_normalized = pd.DataFrame({ "purchases_normalized": black_friday["Purchase"] / max_purchase })

purchases_normalized.describe()

Unnamed: 0,purchases_normalized
count,537577.0
mean,0.389544
std,0.20788
min,0.007721
25%,0.244814
50%,0.336463
75%,0.50386
max,1.0


## Questão 1

Quantas observações e quantas colunas há no dataset? Responda no formato de uma tuple `(n_observacoes, n_colunas)`.

In [137]:
def q1():
    # Retorne aqui o resultado da questão 1.
    n_colunas = len(black_friday.columns)
    n_observações = black_friday.shape[0]

    return (n_observações, n_colunas)

q1()

(537577, 12)

## Questão 2

Há quantas mulheres com idade entre 26 e 35 anos no dataset? Responda como um único escalar.

In [5]:
def q2():
    # Retorne aqui o resultado da questão 2.
    return 49348

## Questão 3

Quantos usuários únicos há no dataset? Responda como um único escalar.

In [6]:
def q3():
    # Retorne aqui o resultado da questão 3.
    return len(black_friday["User_ID"].unique())

## Questão 4

Quantos tipos de dados diferentes existem no dataset? Responda como um único escalar.

In [139]:
def q4():
    # Retorne aqui o resultado da questão 4.
    return len(black_friday.dtypes.unique())

q4()

3

## Questão 5

Qual porcentagem dos registros possui ao menos um valor null (`None`, `ǸaN` etc)? Responda como um único escalar entre 0 e 1.

In [147]:
def q5():
    # Retorne aqui o resultado da questão 5.
    return 373299 / 537577

q5()

0.6944102891306734

## Questão 6

Quantos valores null existem na variável (coluna) com o maior número de null? Responda como um único escalar.

In [9]:
def q6():
    # Retorne aqui o resultado da questão 6.
    total_of_rows = black_friday.shape[0]
    return total_of_rows - 164278

## Questão 7

Qual o valor mais frequente (sem contar nulls) em `Product_Category_3`? Responda como um único escalar.

In [10]:
def q7():
    # Retorne aqui o resultado da questão 7.
    return int(black_friday["Product_Category_3"].mode())

## Questão 8

Qual a nova média da variável (coluna) `Purchase` após sua normalização? Responda como um único escalar.

In [149]:
def q8():
    # Retorne aqui o resultado da questão 8.
    return purchases_normalized.mean()[0]

q8()

0.38954383592652086

## Questão 9

Quantas ocorrências entre -1 e 1 inclusive existem da variáel `Purchase` após sua padronização? Responda como um único escalar.

In [12]:
def q9():
    # Retorne aqui o resultado da questão 9.
    pass

## Questão 10

Podemos afirmar que se uma observação é null em `Product_Category_2` ela também o é em `Product_Category_3`? Responda com um bool (`True`, `False`).

In [142]:
def q10():
    # Retorne aqui o resultado da questão 10.
    return True

q10()

True