# Desafio 1

Para esse desafio, vamos trabalhar com o data set [Black Friday](https://www.kaggle.com/mehdidag/black-friday), que reúne dados sobre transações de compras em uma loja de varejo.

Vamos utilizá-lo para praticar a exploração de data sets utilizando pandas. Você pode fazer toda análise neste mesmo notebook, mas as resposta devem estar nos locais indicados.

> Obs.: Por favor, não modifique o nome das funções de resposta.

## _Set up_ da análise

In [1]:
import pandas as pd
import numpy as np

In [2]:
# Reading dataset .csv file
black_friday = pd.read_csv("black_friday.csv")

## Inicie sua análise a partir daqui

In [3]:
# Checking dataset head
black_friday.head(10)

Unnamed: 0,User_ID,Product_ID,Gender,Age,Occupation,City_Category,Stay_In_Current_City_Years,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Purchase
0,1000001,P00069042,F,0-17,10,A,2,0,3,,,8370
1,1000001,P00248942,F,0-17,10,A,2,0,1,6.0,14.0,15200
2,1000001,P00087842,F,0-17,10,A,2,0,12,,,1422
3,1000001,P00085442,F,0-17,10,A,2,0,12,14.0,,1057
4,1000002,P00285442,M,55+,16,C,4+,0,8,,,7969
5,1000003,P00193542,M,26-35,15,A,3,0,1,2.0,,15227
6,1000004,P00184942,M,46-50,7,B,2,1,1,8.0,17.0,19215
7,1000004,P00346142,M,46-50,7,B,2,1,1,15.0,,15854
8,1000004,P0097242,M,46-50,7,B,2,1,1,16.0,,15686
9,1000005,P00274942,M,26-35,20,A,1,1,8,,,7871


In [4]:
# Checking dataset information
black_friday.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 537577 entries, 0 to 537576
Data columns (total 12 columns):
User_ID                       537577 non-null int64
Product_ID                    537577 non-null object
Gender                        537577 non-null object
Age                           537577 non-null object
Occupation                    537577 non-null int64
City_Category                 537577 non-null object
Stay_In_Current_City_Years    537577 non-null object
Marital_Status                537577 non-null int64
Product_Category_1            537577 non-null int64
Product_Category_2            370591 non-null float64
Product_Category_3            164278 non-null float64
Purchase                      537577 non-null int64
dtypes: float64(2), int64(5), object(5)
memory usage: 49.2+ MB


In [5]:
# Getting info about dtypes, null values and its amount in dataset
dataset_characteristics = pd.DataFrame({'Data_Type': black_friday.dtypes,
                                     'Missing_Values': black_friday.isna().sum(),
                                     '%_Missing_Values': (black_friday.isna().sum() / black_friday.shape[0]) * 100})                          
dataset_characteristics

Unnamed: 0,Data_Type,Missing_Values,%_Missing_Values
User_ID,int64,0,0.0
Product_ID,object,0,0.0
Gender,object,0,0.0
Age,object,0,0.0
Occupation,int64,0,0.0
City_Category,object,0,0.0
Stay_In_Current_City_Years,object,0,0.0
Marital_Status,int64,0,0.0
Product_Category_1,int64,0,0.0
Product_Category_2,float64,166986,31.062713


In [6]:
#Checking some basic statistics by using describe method
black_friday.describe()

Unnamed: 0,User_ID,Occupation,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Purchase
count,537577.0,537577.0,537577.0,537577.0,370591.0,164278.0,537577.0
mean,1002992.0,8.08271,0.408797,5.295546,9.842144,12.66984,9333.859853
std,1714.393,6.52412,0.491612,3.750701,5.087259,4.124341,4981.022133
min,1000001.0,0.0,0.0,1.0,2.0,3.0,185.0
25%,1001495.0,2.0,0.0,1.0,5.0,9.0,5866.0
50%,1003031.0,7.0,0.0,5.0,9.0,14.0,8062.0
75%,1004417.0,14.0,1.0,8.0,15.0,16.0,12073.0
max,1006040.0,20.0,1.0,18.0,18.0,18.0,23961.0


## Questão 1

Quantas observações e quantas colunas há no dataset? Responda no formato de uma tuple `(n_observacoes, n_colunas)`.

In [7]:
def q1():
    return black_friday.shape
q1()

(537577, 12)

## Questão 2

Há quantas mulheres com idade entre 26 e 35 anos no dataset? Responda como um único escalar.

In [8]:
def q2():
    return len(black_friday[(black_friday['Gender'] == 'F') & (black_friday['Age'] == '26-35')])
q2()

49348

## Questão 3


Quantos usuários únicos há no dataset? Responda como um único escalar.

In [9]:
def q3():
    q3 = len(black_friday.groupby('User_ID')['User_ID'])
    return int(q3)
q3()

5891

## Questão 4

Quantos tipos de dados diferentes existem no dataset? Responda como um único escalar.

In [10]:
def q4():
    return black_friday.dtypes.nunique()

## Questão 5

Qual porcentagem dos registros possui ao menos um valor null (`None`, `ǸaN` etc)? Responda como um único escalar entre 0 e 1.

In [11]:
#Option 1
#def q5():
#    return float(1 - len(black_friday.dropna()) / len(black_friday))
#q5()

#Option 2
def q5():
    return float(sum(black_friday.isnull().apply(lambda x: any(x), axis=1))/len(black_friday))
q5()

0.6944102891306734

## Questão 6

Quantos valores null existem na variável (coluna) com o maior número de null? Responda como um único escalar.

In [12]:
def q6():
    na_values = black_friday.isna()
    na_count = na_values.apply(pd.Series.value_counts).loc[True]
    return int(na_count.max())
q6()

373299

## Questão 7

Qual o valor mais frequente (sem contar nulls) em `Product_Category_3`? Responda como um único escalar.

In [13]:
def q7():
    return black_friday['Product_Category_3'].value_counts().idxmax()
q7()

16.0

## Questão 8

Qual a nova média da variável (coluna) `Purchase` após sua normalização? Responda como um único escalar.

In [14]:
# With sklearn
#from sklearn.preprocessing import MinMaxScaler
#purchase_scaled = MinMaxScaler().fit_transform(black_friday[['Purchase']])
#print(float(purchase_scaled.mean()))

def q8():
    data = black_friday['Purchase']
    normalized_data=(data-data.min())/(data.max()-data.min())
    return float(normalized_data.mean())
q8()

0.3847939036269795

## Questão 9

Quantas ocorrências entre -1 e 1 inclusive existem da variáel `Purchase` após sua padronização? Responda como um único escalar.

In [15]:
def q9():
    purchase = black_friday['Purchase']
    purchase_score = (purchase - purchase.mean())/purchase.std(ddof=0)
    return int(len(purchase_score[(purchase_score > -1) & (purchase_score < 1)]))
q9()

348631

## Questão 10

Podemos afirmar que se uma observação é null em `Product_Category_2` ela também o é em `Product_Category_3`? Responda com um bool (`True`, `False`).

In [16]:
def q10():
    compare = black_friday[['Product_Category_2', 'Product_Category_3']]
    compare = compare[compare['Product_Category_2'].isna()]
    return compare['Product_Category_2'].equals(compare['Product_Category_3'])
q10()

True