# Desafio 1

Para esse desafio, vamos trabalhar com o data set [Black Friday](https://www.kaggle.com/mehdidag/black-friday), que reúne dados sobre transações de compras em uma loja de varejo.

Vamos utilizá-lo para praticar a exploração de data sets utilizando pandas. Você pode fazer toda análise neste mesmo notebook, mas as resposta devem estar nos locais indicados.

> Obs.: Por favor, não modifique o nome das funções de resposta.

## _Set up_ da análise

In [87]:
import pandas as pd
import numpy as np

In [88]:
black_friday = pd.read_csv("black_friday.csv")

## Inicie sua análise a partir daqui

In [89]:
# copy data frame
df = black_friday.copy()

In [90]:
# data frame info()
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 537577 entries, 0 to 537576
Data columns (total 12 columns):
 #   Column                      Non-Null Count   Dtype  
---  ------                      --------------   -----  
 0   User_ID                     537577 non-null  int64  
 1   Product_ID                  537577 non-null  object 
 2   Gender                      537577 non-null  object 
 3   Age                         537577 non-null  object 
 4   Occupation                  537577 non-null  int64  
 5   City_Category               537577 non-null  object 
 6   Stay_In_Current_City_Years  537577 non-null  object 
 7   Marital_Status              537577 non-null  int64  
 8   Product_Category_1          537577 non-null  int64  
 9   Product_Category_2          370591 non-null  float64
 10  Product_Category_3          164278 non-null  float64
 11  Purchase                    537577 non-null  int64  
dtypes: float64(2), int64(5), object(5)
memory usage: 49.2+ MB


In [91]:
# percent missing values
(df.isnull().sum()/df.shape[0])*100

User_ID                        0.000000
Product_ID                     0.000000
Gender                         0.000000
Age                            0.000000
Occupation                     0.000000
City_Category                  0.000000
Stay_In_Current_City_Years     0.000000
Marital_Status                 0.000000
Product_Category_1             0.000000
Product_Category_2            31.062713
Product_Category_3            69.441029
Purchase                       0.000000
dtype: float64

In [92]:
# data frame first entries
df.head()

Unnamed: 0,User_ID,Product_ID,Gender,Age,Occupation,City_Category,Stay_In_Current_City_Years,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Purchase
0,1000001,P00069042,F,0-17,10,A,2,0,3,,,8370
1,1000001,P00248942,F,0-17,10,A,2,0,1,6.0,14.0,15200
2,1000001,P00087842,F,0-17,10,A,2,0,12,,,1422
3,1000001,P00085442,F,0-17,10,A,2,0,12,14.0,,1057
4,1000002,P00285442,M,55+,16,C,4+,0,8,,,7969


In [93]:
# check column age object
df['Age'].value_counts()

26-35    214690
36-45    107499
18-25     97634
46-50     44526
51-55     37618
55+       20903
0-17      14707
Name: Age, dtype: int64

In [94]:
# column age percent
(df['Age'].value_counts()/df.shape[0])*100

26-35    39.936604
36-45    19.996949
18-25    18.161863
46-50     8.282720
51-55     6.997695
55+       3.888373
0-17      2.735794
Name: Age, dtype: float64

In [95]:
# question 2
woman = df.loc[((df['Gender']=='F') & (df['Age'] =='26-35'))]
len(woman)

49348

In [96]:
# question 3
user = len(df['User_ID'].unique())
user

5891

In [97]:
# question 4
df.dtypes.nunique()

3

In [98]:
# question 5
reg = len(df[df.isnull().any(axis = 1)])
percent = reg/df.shape[0]
float(percent)

0.6944102891306734

In [99]:
# question 6
int(df.isna().sum().max())

373299

In [100]:
# question 7
int(df['Product_Category_3'].value_counts().idxmax())


16

In [101]:
# question 8
norm = (df.Purchase - df.Purchase.min())/(df.Purchase.max() - df.Purchase.min())
float(norm.mean())

0.38479390362696736

In [102]:
# question 9
z = (df['Purchase'] - df['Purchase'].mean())/df['Purchase'].std()
result = z[(z>=-1) & (z<=1)]
int(result.count())

348631

In [103]:
# question 10
p2 = df[df.Product_Category_2.isnull()]
p3 = df[df.Product_Category_2.isnull()]
p2.equals(p3)

True

## Questão 1

Quantas observações e quantas colunas há no dataset? Responda no formato de uma tuple `(n_observacoes, n_colunas)`.

In [104]:
def q1():
    # Retorne aqui o resultado da questão 1.
    shape = df.shape
    return shape
    pass

## Questão 2

Há quantas mulheres com idade entre 26 e 35 anos no dataset? Responda como um único escalar.

In [105]:
def q2():
    # Retorne aqui o resultado da questão 2.
    woman = df.loc[((df['Gender']=='F') & (df['Age'] =='26-35'))]
    return len(woman) 
    pass

## Questão 3

Quantos usuários únicos há no dataset? Responda como um único escalar.

In [106]:
def q3():
    # Retorne aqui o resultado da questão 3.
    user = len(df['User_ID'].unique())
    return int(user)
    pass

## Questão 4

Quantos tipos de dados diferentes existem no dataset? Responda como um único escalar.

In [107]:
def q4():
    # Retorne aqui o resultado da questão 4.
    data_types = df.dtypes.nunique()
    return int(data_types)
    pass

## Questão 5

Qual porcentagem dos registros possui ao menos um valor null (`None`, `ǸaN` etc)? Responda como um único escalar entre 0 e 1.

In [108]:
def q5():
    # Retorne aqui o resultado da questão 5.
    reg = len(df[df.isnull().any(axis = 1)])
    percent = reg/df.shape[0]
    return float(percent)
    pass

## Questão 6

Quantos valores null existem na variável (coluna) com o maior número de null? Responda como um único escalar.

In [109]:
def q6():
    # Retorne aqui o resultado da questão 6.
    max_null = df.isna().sum().max()
    return max_null
    pass

## Questão 7

Qual o valor mais frequente (sem contar nulls) em `Product_Category_3`? Responda como um único escalar.

In [110]:
def q7():
    # Retorne aqui o resultado da questão 7.
    freq_value = int(df['Product_Category_3'].value_counts().idxmax())
    return freq_value
    pass

## Questão 8

Qual a nova média da variável (coluna) `Purchase` após sua normalização? Responda como um único escalar.

In [114]:
def q8():
    # Retorne aqui o resultado da questão 8.
    norm = (df.Purchase - df.Purchase.min())/(df.Purchase.max() - df.Purchase.min())
    return float(norm.mean())
    pass

## Questão 9

Quantas ocorrências entre -1 e 1 inclusive existem da variáel `Purchase` após sua padronização? Responda como um único escalar.

In [112]:
def q9():
    # Retorne aqui o resultado da questão 9.
    z = (df['Purchase'] - df['Purchase'].mean())/df['Purchase'].std()
    result = z[(z >= -1) & (z <= 1)]
    return int(result.count())
    pass

## Questão 10

Podemos afirmar que se uma observação é null em `Product_Category_2` ela também o é em `Product_Category_3`? Responda com um bool (`True`, `False`).

In [113]:
def q10():
    # Retorne aqui o resultado da questão 10.
    p2 = df[df.Product_Category_2.isnull()]
    p3 = df[df.Product_Category_2.isnull()]
    return p2.equals(p3)
    pass