# Desafio 1

Para esse desafio, vamos trabalhar com o data set [Black Friday](https://www.kaggle.com/mehdidag/black-friday), que reúne dados sobre transações de compras em uma loja de varejo.

Vamos utilizá-lo para praticar a exploração de data sets utilizando pandas. Você pode fazer toda análise neste mesmo notebook, mas as resposta devem estar nos locais indicados.

> Obs.: Por favor, não modifique o nome das funções de resposta.

## _Set up_ da análise

In [1]:
import pandas as pd
import numpy as np

In [2]:
black_friday = pd.read_csv("black_friday.csv")

## Inicie sua análise a partir daqui

In [3]:
black_friday.head()

Unnamed: 0,User_ID,Product_ID,Gender,Age,Occupation,City_Category,Stay_In_Current_City_Years,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Purchase
0,1000001,P00069042,F,0-17,10,A,2,0,3,,,8370
1,1000001,P00248942,F,0-17,10,A,2,0,1,6.0,14.0,15200
2,1000001,P00087842,F,0-17,10,A,2,0,12,,,1422
3,1000001,P00085442,F,0-17,10,A,2,0,12,14.0,,1057
4,1000002,P00285442,M,55+,16,C,4+,0,8,,,7969


In [4]:
black_friday.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 537577 entries, 0 to 537576
Data columns (total 12 columns):
 #   Column                      Non-Null Count   Dtype  
---  ------                      --------------   -----  
 0   User_ID                     537577 non-null  int64  
 1   Product_ID                  537577 non-null  object 
 2   Gender                      537577 non-null  object 
 3   Age                         537577 non-null  object 
 4   Occupation                  537577 non-null  int64  
 5   City_Category               537577 non-null  object 
 6   Stay_In_Current_City_Years  537577 non-null  object 
 7   Marital_Status              537577 non-null  int64  
 8   Product_Category_1          537577 non-null  int64  
 9   Product_Category_2          370591 non-null  float64
 10  Product_Category_3          164278 non-null  float64
 11  Purchase                    537577 non-null  int64  
dtypes: float64(2), int64(5), object(5)
memory usage: 49.2+ MB


In [5]:
black_friday.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
User_ID,537577.0,1002992.0,1714.392695,1000001.0,1001495.0,1003031.0,1004417.0,1006040.0
Occupation,537577.0,8.08271,6.52412,0.0,2.0,7.0,14.0,20.0
Marital_Status,537577.0,0.4087973,0.491612,0.0,0.0,0.0,1.0,1.0
Product_Category_1,537577.0,5.295546,3.750701,1.0,1.0,5.0,8.0,18.0
Product_Category_2,370591.0,9.842144,5.087259,2.0,5.0,9.0,15.0,18.0
Product_Category_3,164278.0,12.66984,4.124341,3.0,9.0,14.0,16.0,18.0
Purchase,537577.0,9333.86,4981.022133,185.0,5866.0,8062.0,12073.0,23961.0


In [6]:
black_friday_info = pd.DataFrame(
    {
        'colunas': black_friday.columns,
        'types': black_friday.dtypes,
        'missing': black_friday.isna().sum(),
        'missing_percentage': black_friday.isna().sum() / black_friday.shape[0]
    })

black_friday_info

Unnamed: 0,colunas,types,missing,missing_percentage
User_ID,User_ID,int64,0,0.0
Product_ID,Product_ID,object,0,0.0
Gender,Gender,object,0,0.0
Age,Age,object,0,0.0
Occupation,Occupation,int64,0,0.0
City_Category,City_Category,object,0,0.0
Stay_In_Current_City_Years,Stay_In_Current_City_Years,object,0,0.0
Marital_Status,Marital_Status,int64,0,0.0
Product_Category_1,Product_Category_1,int64,0,0.0
Product_Category_2,Product_Category_2,float64,166986,0.310627


In [7]:
# Consultar os dados com todos os registros preenchidos
black_friday_not_nan = black_friday.dropna()

black_friday_not_nan.head()

Unnamed: 0,User_ID,Product_ID,Gender,Age,Occupation,City_Category,Stay_In_Current_City_Years,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Purchase
1,1000001,P00248942,F,0-17,10,A,2,0,1,6.0,14.0,15200
6,1000004,P00184942,M,46-50,7,B,2,1,1,8.0,17.0,19215
13,1000005,P00145042,M,26-35,20,A,1,1,1,2.0,5.0,15665
14,1000006,P00231342,F,51-55,9,A,1,0,5,8.0,14.0,5378
16,1000006,P0096642,F,51-55,9,A,1,0,2,3.0,4.0,13055


## Questão 1

Quantas observações e quantas colunas há no dataset? Responda no formato de uma tuple `(n_observacoes, n_colunas)`.

In [8]:
def q1():
    # Retorne aqui o resultado da questão 1.
    return black_friday.shape

## Questão 2

Há quantas mulheres com idade entre 26 e 35 anos no dataset? Responda como um único escalar.

In [9]:
def q2():
    return black_friday[(black_friday.Gender == 'F')
            & (black_friday.Age == '26-35')].User_ID.nunique()

## Questão 3

Quantos usuários únicos há no dataset? Responda como um único escalar.

In [10]:
def q3():
    return black_friday['User_ID'].nunique()

## Questão 4

Quantos tipos de dados diferentes existem no dataset? Responda como um único escalar.

In [11]:
def q4():
    return black_friday.dtypes.nunique()

## Questão 5

Qual porcentagem dos registros possui ao menos um valor null (`None`, `ǸaN` etc)? Responda como um único escalar entre 0 e 1.

In [12]:
def q5():
    black_friday_not_nan = black_friday.dropna()
    return 1 - black_friday_not_nan.shape[0]/black_friday.shape[0]

## Questão 6

Quantos valores null existem na variável (coluna) com o maior número de null? Responda como um único escalar.

In [13]:
def q6():
    black_friday_nan_acc = black_friday.isna().sum()
    return max(black_friday_nan_acc)

## Questão 7

Qual o valor mais frequente (sem contar nulls) em `Product_Category_3`? Responda como um único escalar.

In [19]:
def q7():
    #return black_friday.Product_Category_3.dropna().value_counts().sort_values(ascending=False).index[0]
    return float(black_friday.Product_Category_3.mode())

16.0


## Questão 8

Qual a nova média da variável (coluna) `Purchase` após sua normalização? Responda como um único escalar.

In [15]:
def q8():
    purchase_min = black_friday['Purchase'].min()
    purchase_max = black_friday['Purchase'].max()
    purshase_min_max = purchase_max-purchase_min

    purchase_norm = (black_friday['Purchase'] - purchase_min)/purshase_min_max
    return float(purchase_norm.mean())

## Questão 9

Quantas ocorrências entre -1 e 1 inclusive existem da variável `Purchase` após sua padronização? Responda como um único escalar.

In [16]:
def q9():
    purchase_mean = black_friday['Purchase'].mean()
    purchase_std = black_friday['Purchase'].std()
    black_friday['Purchase_Stand'] = (black_friday['Purchase']-purchase_mean)/purchase_std
    
    purchase_stand_count = black_friday[black_friday['Purchase_Stand'].between(-1, 1)].shape[0]
    return purchase_stand_count

## Questão 10

Podemos afirmar que se uma observação é null em `Product_Category_2` ela também o é em `Product_Category_3`? Responda com um bool (`True`, `False`).

In [17]:
def q10():
    black_friday_products_nan = black_friday.loc[black_friday['Product_Category_2'].isna(), ['Product_Category_2', 'Product_Category_3']]
    return black_friday_products_nan['Product_Category_2'].equals(black_friday_products_nan['Product_Category_3'])