# Desafio 1

Para esse desafio, vamos trabalhar com o data set [Black Friday](https://www.kaggle.com/mehdidag/black-friday), que reúne dados sobre transações de compras em uma loja de varejo.

Vamos utilizá-lo para praticar a exploração de data sets utilizando pandas. Você pode fazer toda análise neste mesmo notebook, mas as resposta devem estar nos locais indicados.

> Obs.: Por favor, não modifique o nome das funções de resposta.

## _Set up_ da análise

In [1]:
import pandas as pd
import numpy as np

In [2]:
black_friday = pd.read_csv("black_friday.csv")

## Inicie sua análise a partir daqui

In [3]:
df = black_friday.copy()
df.head(5)

Unnamed: 0,User_ID,Product_ID,Gender,Age,Occupation,City_Category,Stay_In_Current_City_Years,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Purchase
0,1000001,P00069042,F,0-17,10,A,2,0,3,,,8370
1,1000001,P00248942,F,0-17,10,A,2,0,1,6.0,14.0,15200
2,1000001,P00087842,F,0-17,10,A,2,0,12,,,1422
3,1000001,P00085442,F,0-17,10,A,2,0,12,14.0,,1057
4,1000002,P00285442,M,55+,16,C,4+,0,8,,,7969


In [10]:
# Number of rows
num_rows = df.shape[0]

#dictionary with basic information
aux_dic = {'Type': df.dtypes,
          'MissingValues_percent': df.isna().sum()/ num_rows}
# Dataframe
aux = pd.DataFrame(aux_dic)
aux

Unnamed: 0,Type,MissingValues_percent
User_ID,int64,0.0
Product_ID,object,0.0
Gender,object,0.0
Age,object,0.0
Occupation,int64,0.0
City_Category,object,0.0
Stay_In_Current_City_Years,object,0.0
Marital_Status,int64,0.0
Product_Category_1,int64,0.0
Product_Category_2,float64,0.310627


## Questão 1

Quantas observações e quantas colunas há no dataset? Responda no formato de uma tuple `(n_observacoes, n_colunas)`.

In [12]:
def q1():
    '''Calculates the total number of rows and columns of a given dataframe
    ARG: --
    
    RETURNS: 
    shape(tuple): A tuple with that contains the number of observation and number of columns respectively 
     '''
    # number of observations
    n_observacoes = df.shape[0]
    # Number of columns
    n_colunas = df.shape[1]
    
    shape = (n_observacoes,n_colunas)
    
    return shape
    

## Questão 2

"Há quantas mulheres com idade entre 26 e 35 anos no dataset? Responda como um único escalar."

In [47]:
def q2():
    '''Calculates the number of female aged between 26-35
    ARG: --
    
    RETURNS: 
    F_26_35(integer): The number of female aged between 26-35 
     '''
    
    # Filter unique users
    unique_users_df = df.groupby(["User_ID", "Age"], sort=False, as_index=False).first()
    
    # Filter female aged between 26-35
    aged_26_35 = unique_users_df.loc[ (unique_users_df['Age'] == '26-35') & (unique_users_df['Gender'] == 'F' ), : ]
    
    # Calculate the number of female aged between 26-35
    F_26_35 = aged_26_35.shape[0]
    
    return F_26_35

## Questão 3

Quantos usuários únicos há no dataset? Responda como um único escalar.

In [53]:
def q3():
    
    '''Calculates the number unique users
    ARG: --
    
    RETURNS: 
    unique_users: The number of unique users 
    '''
    # Filter unique users
    unique_users_df = df.groupby(["User_ID"], sort=False, as_index=False).first()
    
    # Number of unique users
    unique_users = unique_users_df.shape[0]
    
    return unique_users


## Questão 4

Quantos tipos de dados diferentes existem no dataset? Responda como um único escalar.

In [74]:
def q4():
    ''' Calculates the number of different variable types in the dataset
    ARG: --
    
    RETURNS: 
    unique_types: The number of unique variable types 
    '''    
    # Unique variables
    unique_types = df.dtypes.unique().shape[0]
    
    return unique_types

## Questão 5

Qual porcentagem dos registros possui ao menos um valor null (`None`, `ǸaN` etc)? Responda como um único escalar entre 0 e 1.

In [94]:
def q5():
    '''Calculates the percentage of variables with missing values
    ARG: --
    
    RETURNS: 
    missing_percent(float): The percenta of variables with missing values
    ''' 
    
    # Number of variables with missing values
    missing_var_count = (df.isna().sum() != 0).sum() 
    # Total variables
    total_columns = len(df.columns)
    # Missing values percentage
    missing_percent = missing_var_count / total_columns
    
    return missing_percent

## Questão 6

Quantos valores null existem na variável (coluna) com o maior número de null? Responda como um único escalar.

In [97]:
def q6():
    ''' Returns the number of nan of the variable with the largest null number
    
    ARG: -- 
    
    RETURNS: 
    max_missing_count(integer): Number of missing values
    ''' 
    max_missing_count = df.isna().sum().max()
    
    return max_missing_count

## Questão 7

Qual o valor mais frequente (sem contar nulls) em `Product_Category_3`? Responda como um único escalar.

In [119]:
def q7():    
    ''' Calculates the most frequent value of Product_Category_3
    
    ARG: -- 
    
    RETURNS: 
    most_freq_cat3(float): Most frequent value of Product_category_3
    '''
    most_freq_cat3 =  df.Product_Category_3.value_counts().sort_values(ascending = False).keys()[0]
    
    return most_freq_cat3
   

## Questão 8

Qual a nova média da variável (coluna) `Purchase` após sua normalização? Responda como um único escalar.

In [11]:
def q8():
    # Retorne aqui o resultado da questão 8.
    pass

## Questão 9

Quantas ocorrências entre -1 e 1 inclusive existem da variáel `Purchase` após sua padronização? Responda como um único escalar.

In [12]:
def q9():
    # Retorne aqui o resultado da questão 9.
    pass

## Questão 10

Podemos afirmar que se uma observação é null em `Product_Category_2` ela também o é em `Product_Category_3`? Responda com um bool (`True`, `False`).

In [13]:
def q10():
    # Retorne aqui o resultado da questão 10.
    pass