# Desafio 1

Para esse desafio, vamos trabalhar com o data set [Black Friday](https://www.kaggle.com/mehdidag/black-friday), que reúne dados sobre transações de compras em uma loja de varejo.

Vamos utilizá-lo para praticar a exploração de data sets utilizando pandas. Você pode fazer toda análise neste mesmo notebook, mas as resposta devem estar nos locais indicados.

> Obs.: Por favor, não modifique o nome das funções de resposta.

https://www.codenation.dev/private-journey/ds-online-1/challenge/data-science-0

## _Set up_ da análise

In [1]:
import pandas as pd
import numpy as np

In [2]:
black_friday = pd.read_csv("black_friday.csv")

## Inicie sua análise a partir daqui

In [3]:
black_friday.head()

Unnamed: 0,User_ID,Product_ID,Gender,Age,Occupation,City_Category,Stay_In_Current_City_Years,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Purchase
0,1000001,P00069042,F,0-17,10,A,2,0,3,,,8370
1,1000001,P00248942,F,0-17,10,A,2,0,1,6.0,14.0,15200
2,1000001,P00087842,F,0-17,10,A,2,0,12,,,1422
3,1000001,P00085442,F,0-17,10,A,2,0,12,14.0,,1057
4,1000002,P00285442,M,55+,16,C,4+,0,8,,,7969


In [4]:
# verifying the type of variables
black_friday.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 537577 entries, 0 to 537576
Data columns (total 12 columns):
User_ID                       537577 non-null int64
Product_ID                    537577 non-null object
Gender                        537577 non-null object
Age                           537577 non-null object
Occupation                    537577 non-null int64
City_Category                 537577 non-null object
Stay_In_Current_City_Years    537577 non-null object
Marital_Status                537577 non-null int64
Product_Category_1            537577 non-null int64
Product_Category_2            370591 non-null float64
Product_Category_3            164278 non-null float64
Purchase                      537577 non-null int64
dtypes: float64(2), int64(5), object(5)
memory usage: 49.2+ MB


In [5]:
# verifying the statistical parameters
black_friday.describe()

Unnamed: 0,User_ID,Occupation,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Purchase
count,537577.0,537577.0,537577.0,537577.0,370591.0,164278.0,537577.0
mean,1002992.0,8.08271,0.408797,5.295546,9.842144,12.66984,9333.859853
std,1714.393,6.52412,0.491612,3.750701,5.087259,4.124341,4981.022133
min,1000001.0,0.0,0.0,1.0,2.0,3.0,185.0
25%,1001495.0,2.0,0.0,1.0,5.0,9.0,5866.0
50%,1003031.0,7.0,0.0,5.0,9.0,14.0,8062.0
75%,1004417.0,14.0,1.0,8.0,15.0,16.0,12073.0
max,1006040.0,20.0,1.0,18.0,18.0,18.0,23961.0


In [6]:
black_friday.Age.unique()

array(['0-17', '55+', '26-35', '46-50', '51-55', '36-45', '18-25'],
      dtype=object)

## Questão 1

Quantas observações e quantas colunas há no dataset? Responda no formato de uma tuple `(n_observacoes, n_colunas)`.

In [7]:
def q1():
    # Retorne aqui o resultado da questão 1.
    return(black_friday.shape)

## Questão 2

Há quantas mulheres com idade entre 26 e 35 anos no dataset? Responda como um único escalar.

In [8]:
def q2():
    # Retorne aqui o resultado da questão 2.
    womens = black_friday[black_friday.Gender == "F"]
    number_womens = (womens[womens.Age == '26-35'].shape)[0]
    return(number_womens)

## Questão 3

Quantos usuários únicos há no dataset? Responda como um único escalar.

In [9]:
def q3():
    # Retorne aqui o resultado da questão 3.
    unique_users = black_friday["User_ID"].unique()
    return(len(unique_users))

## Questão 4

Quantos tipos de dados diferentes existem no dataset? Responda como um único escalar.

In [10]:
def q4():
    # Retorne aqui o resultado da questão 4.
    variable_types = black_friday.dtypes
    number_distinctValues = len(variable_types.value_counts().index)
    return(number_distinctValues)

## Questão 5

Qual porcentagem dos registros possui ao menos um valor null (`None`, `ǸaN` etc)? Responda como um único escalar entre 0 e 1.

In [11]:
def lista_unica(lista):
    result = []
    for item in lista:
        if (isinstance(item, (list, tuple))):
            result = lista.extend(item)
        else:
            result.append(item)
    return result

In [12]:
def q5():
    # Retorne aqui o resultado da questão 5.
    # get only the columns with NA value
    NA_columns = []
    index_columns = []
    na_serie = black_friday.isna().sum()
    for col in na_serie.index:
        if(na_serie[col] > 0):
            NA_columns.append(col)
    
    # get the index from the columns
    for column in NA_columns:
        SerieProduct = black_friday[black_friday[column].isna() == True][column]   
        index_columns.append(SerieProduct.index.tolist())
        
    for indice in range(1, len(index_columns)):
        index_columns[0].extend(index_columns[indice])
    
    
    numberNA = len(set(index_columns[0]))
    numberTotal = black_friday["Purchase"].shape[0]
    
    return(numberNA/numberTotal)

## Questão 6

Quantos valores null existem na variável (coluna) com o maior número de null? Responda como um único escalar.

In [13]:
def q6():
    # Retorne aqui o resultado da questão 6.
    columnWithBiggerNAValue = black_friday.isna().sum().sort_values(ascending=False)[0]
    return(int(columnWithBiggerNAValue))

## Questão 7

Qual o valor mais frequente (sem contar nulls) em `Product_Category_3`? Responda como um único escalar.

In [14]:
def q7():
    # Retorne aqui o resultado da questão 7.
    valuesWithoutNA = black_friday[black_friday["Product_Category_3"].isna() == False]
    frequencyUniqueValues = valuesWithoutNA.Product_Category_3.value_counts().sort_values(ascending=False)
    return(frequencyUniqueValues.index[0])

## Questão 8

Qual a nova média da variável (coluna) `Purchase` após sua normalização? Responda como um único escalar.

In [15]:
def normalizar(x):
    Max = x.max()
    Min = x.min()
    x_normalized = (x - Min)/(Max - Min)
    return(x_normalized)

In [16]:
def q8():
    # Retorne aqui o resultado da questão 8.
    purchase = np.array(black_friday["Purchase"])
    return float(normalizar(purchase).mean())

## Questão 9

Quantas ocorrências entre -1 e 1 inclusive existem da variáel `Purchase` após sua padronização? Responda como um único escalar.

In [17]:
def padronizar(x):
    mean = x.mean()
    sd = x.std()
    return((x - mean)/sd)

def count_between1_less1(x):
    if(x >= -1 and x <= 1):
        return True
    else:
        return(False)

In [18]:
def q9():
    # Retorne aqui o resultado da questão 9.
    purchase_padr = np.array(padronizar(black_friday["Purchase"]))
    count = 0
    for value in purchase_padr:
        if count_between1_less1(value):
            count = count + 1
    return(count)

## Questão 10

Podemos afirmar que se uma observação é null em `Product_Category_2` ela também o é em `Product_Category_3`? Responda com um bool (`True`, `False`).

In [19]:
def q10():
    # Retorne aqui o resultado da questão 10.
    Serie2 = black_friday[(black_friday["Product_Category_2"].isna() == True)].Product_Category_2
    return all(black_friday.loc[Serie2.index, "Product_Category_3"])