# Desafio 1

Para esse desafio, vamos trabalhar com o data set [Black Friday](https://www.kaggle.com/mehdidag/black-friday), que reúne dados sobre transações de compras em uma loja de varejo.

Vamos utilizá-lo para praticar a exploração de data sets utilizando pandas. Você pode fazer toda análise neste mesmo notebook, mas as resposta devem estar nos locais indicados.

> Obs.: Por favor, não modifique o nome das funções de resposta.

## _Set up_ da análise

In [1]:
import numpy as np
import pandas as pd

In [2]:
black_friday = pd.read_csv("black_friday.csv")

## Inicie sua análise a partir daqui

In [3]:
# Checking dataset
black_friday.head(5)

Unnamed: 0,User_ID,Product_ID,Gender,Age,Occupation,City_Category,Stay_In_Current_City_Years,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Purchase
0,1000001,P00069042,F,0-17,10,A,2,0,3,,,8370
1,1000001,P00248942,F,0-17,10,A,2,0,1,6.0,14.0,15200
2,1000001,P00087842,F,0-17,10,A,2,0,12,,,1422
3,1000001,P00085442,F,0-17,10,A,2,0,12,14.0,,1057
4,1000002,P00285442,M,55+,16,C,4+,0,8,,,7969


In [4]:
# Retrieving missing data
missing = pd.DataFrame({'Columns': black_friday.columns,
                        'dtype': black_friday.dtypes,
                        'missing nan': black_friday.isna().sum(),
                        'missing null': black_friday.isnull().sum(),
                        'percentage nan': (black_friday.isna().sum()/black_friday.shape[0])*100 })

missing

Unnamed: 0,Columns,dtype,missing nan,missing null,percentage nan
User_ID,User_ID,int64,0,0,0.0
Product_ID,Product_ID,object,0,0,0.0
Gender,Gender,object,0,0,0.0
Age,Age,object,0,0,0.0
Occupation,Occupation,int64,0,0,0.0
City_Category,City_Category,object,0,0,0.0
Stay_In_Current_City_Years,Stay_In_Current_City_Years,object,0,0,0.0
Marital_Status,Marital_Status,int64,0,0,0.0
Product_Category_1,Product_Category_1,int64,0,0,0.0
Product_Category_2,Product_Category_2,float64,166986,166986,31.062713


In [5]:
# Retrieving sum of gender occurences by age
black_friday.groupby('Age')['Gender'].value_counts()

Age    Gender
0-17   M           9754
       F           4953
18-25  M          73577
       F          24057
26-35  M         165342
       F          49348
36-45  M          81079
       F          26420
46-50  M          31670
       F          12856
51-55  M          27984
       F           9634
55+    M          15974
       F           4929
Name: Gender, dtype: int64

In [6]:
# Getting occurances of Woman between Age 26-35 
df_woman_age = black_friday[ (black_friday['Gender'] == 'F' ) & (black_friday['Age'] == '26-35')]
df_woman_age['Age'].count()

49348

## Questão 1

Quantas observações e quantas colunas há no dataset? Responda no formato de uma tuple `(n_observacoes, n_colunas)`.

In [17]:
def q1():
    shape = black_friday.shape
    return shape

## Questão 2

Há quantas mulheres com idade entre 26 e 35 anos no dataset? Responda como um único escalar.

In [8]:
def q2():
    # Retorne aqui o resultado da questão 2.
    woman_filter = black_friday[ (black_friday['Gender'] == 'F' ) & (black_friday['Age'] == '26-35')]
    woman_num = woman_filter['Age'].count()
    return woman_num

## Questão 3

Quantos usuários únicos há no dataset? Responda como um único escalar.

In [9]:
def q3():
    # Retorne aqui o resultado da questão 3.
    user_unique = black_friday['User_ID'].nunique()
    return user_unique

## Questão 4

Quantos tipos de dados diferentes existem no dataset? Responda como um único escalar.

In [10]:
def q4():
    # Retorne aqui o resultado da questão 4.
    dtypes_list = black_friday.dtypes.nunique()
    return dtypes_list

## Questão 5

Qual porcentagem dos registros possui ao menos um valor null (`None`, `ǸaN` etc)? Responda como um único escalar entre 0 e 1.

In [11]:
def q5():
    # Retorne aqui o resultado da questão 5.
    missing_percentage = black_friday.isnull().sum().max()/black_friday.shape[0]
    return missing_percentage

## Questão 6

Quantos valores null existem na variável (coluna) com o maior número de null? Responda como um único escalar.

In [12]:
def q6():
    missing_max = black_friday.isnull().sum().max()
    return missing_max

## Questão 7

Qual o valor mais frequente (sem contar nulls) em `Product_Category_3`? Responda como um único escalar.

In [37]:
def q7():
    # Retorne aqui o resultado da questão 7.
    product3_mode = int(black_friday['Product_Category_3'].mode(dropna=True))
    return product3_mode

## Questão 8

Qual a nova média da variável (coluna) `Purchase` após sua normalização? Responda como um único escalar.

In [42]:
def q8():
    # Retorne aqui o resultado da questão 8.
    normalized = ( (black_friday['Purchase'] - black_friday['Purchase'].min()) / (black_friday['Purchase'].max() - black_friday['Purchase'].min()) )
    normalized = normalized.mean()
    return normalized
    pass

## Questão 9

Quantas ocorrências entre -1 e 1 inclusive existem da variáel `Purchase` após sua padronização? Responda como um único escalar.

In [15]:
def q9():
    # Retorne aqui o resultado da questão 9.
    standartized = (black_friday['Purchase'] - black_friday['Purchase'].mean()) / black_friday['Purchase'].std()
    standartized_range = standartized[(standartized>-1) & (standartized<1)].count()
    return standartized_range
    pass

## Questão 10

Podemos afirmar que se uma observação é null em `Product_Category_2` ela também o é em `Product_Category_3`? Responda com um bool (`True`, `False`).

In [16]:
def q10():
    # Retorne aqui o resultado da questão 10.
    products_missing = black_friday[ (black_friday['Product_Category_2'].isnull()) 
                                & (black_friday['Product_Category_3'].isnull())]

    result = products_missing[['Product_Category_2', 'Product_Category_3']].isnull().all()
    return result[0]