# Desafio 1

Para esse desafio, vamos trabalhar com o data set [Black Friday](https://www.kaggle.com/mehdidag/black-friday), que reúne dados sobre transações de compras em uma loja de varejo.

Vamos utilizá-lo para praticar a exploração de data sets utilizando pandas. Você pode fazer toda análise neste mesmo notebook, mas as resposta devem estar nos locais indicados.

> Obs.: Por favor, não modifique o nome das funções de resposta.

## _Set up_ da análise

In [1]:
import pandas as pd
import numpy as np

In [2]:
black_friday = pd.read_csv("black_friday.csv")

## Inicie sua análise a partir daqui

In [3]:
black_friday.head()

Unnamed: 0,User_ID,Product_ID,Gender,Age,Occupation,City_Category,Stay_In_Current_City_Years,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Purchase
0,1000001,P00069042,F,0-17,10,A,2,0,3,,,8370
1,1000001,P00248942,F,0-17,10,A,2,0,1,6.0,14.0,15200
2,1000001,P00087842,F,0-17,10,A,2,0,12,,,1422
3,1000001,P00085442,F,0-17,10,A,2,0,12,14.0,,1057
4,1000002,P00285442,M,55+,16,C,4+,0,8,,,7969


In [4]:
black_friday.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 537577 entries, 0 to 537576
Data columns (total 12 columns):
 #   Column                      Non-Null Count   Dtype  
---  ------                      --------------   -----  
 0   User_ID                     537577 non-null  int64  
 1   Product_ID                  537577 non-null  object 
 2   Gender                      537577 non-null  object 
 3   Age                         537577 non-null  object 
 4   Occupation                  537577 non-null  int64  
 5   City_Category               537577 non-null  object 
 6   Stay_In_Current_City_Years  537577 non-null  object 
 7   Marital_Status              537577 non-null  int64  
 8   Product_Category_1          537577 non-null  int64  
 9   Product_Category_2          370591 non-null  float64
 10  Product_Category_3          164278 non-null  float64
 11  Purchase                    537577 non-null  int64  
dtypes: float64(2), int64(5), object(5)
memory usage: 49.2+ MB


## Questão 1

Quantas observações e quantas colunas há no dataset? Responda no formato de uma tuple `(n_observacoes, n_colunas)`.

In [5]:
def q1():
    return black_friday.shape

q1()

(537577, 12)

## Questão 2

Há quantas mulheres com idade entre 26 e 35 anos no dataset? Responda como um único escalar.

In [6]:
df = black_friday[['User_ID','Gender','Age']]
df.head()

Unnamed: 0,User_ID,Gender,Age
0,1000001,F,0-17
1,1000001,F,0-17
2,1000001,F,0-17
3,1000001,F,0-17
4,1000002,M,55+


In [7]:
df = df[df.Age == '26-35']
df.head()

Unnamed: 0,User_ID,Gender,Age
5,1000003,M,26-35
9,1000005,M,26-35
10,1000005,M,26-35
11,1000005,M,26-35
12,1000005,M,26-35


In [8]:
df = df[df.Gender == 'F']
df.head()

Unnamed: 0,User_ID,Gender,Age
47,1000011,F,26-35
48,1000011,F,26-35
49,1000011,F,26-35
124,1000024,F,26-35
125,1000024,F,26-35


In [9]:
df['User_ID'].nunique()

545

In [10]:
def q2():
    df = black_friday[['User_ID','Gender','Age']]
    df = df[df.Age == '26-35']
    df = df[df.Gender == 'F']
    return df['User_ID'].nunique()

q2()

545

In [11]:
# Resposta oficial, sem considerar os usuários únicos:
black_friday.query('Gender == "F" & Age == "26-35"').shape[0] 

49348

## Questão 3

Quantos usuários únicos há no dataset? Responda como um único escalar.

In [12]:
black_friday['User_ID'].unique()

array([1000001, 1000002, 1000003, ..., 1004113, 1005391, 1001529])

In [13]:
def q3():
    return black_friday['User_ID'].nunique()

q3()

5891

## Questão 4

Quantos tipos de dados diferentes existem no dataset? Responda como um único escalar.

In [14]:
black_friday.dtypes

User_ID                         int64
Product_ID                     object
Gender                         object
Age                            object
Occupation                      int64
City_Category                  object
Stay_In_Current_City_Years     object
Marital_Status                  int64
Product_Category_1              int64
Product_Category_2            float64
Product_Category_3            float64
Purchase                        int64
dtype: object

In [15]:
def q4():
    return black_friday.dtypes.nunique()
q4()

3

## Questão 5

Qual porcentagem dos registros possui ao menos um valor null (`None`, `NaN` etc)? Responda como um único escalar entre 0 e 1.

In [16]:
#qual linha tem pelo menos um NA?
#total de linhas
linhas = black_friday.shape[0]

In [17]:
linhas_sem_na = black_friday.dropna(axis='index').shape[0]

In [18]:
linhas_na = linhas - linhas_sem_na

In [19]:
linhas_na/linhas

0.6944102891306734

In [20]:
def q5():
    linhas = black_friday.shape[0]
    linhas_sem_na = black_friday.dropna(axis='index').shape[0]
    linhas_na = linhas - linhas_sem_na
    return linhas_na/linhas

q5()

0.6944102891306734

## Questão 6

Quantos valores null existem na variável (coluna) com o maior número de null? Responda como um único escalar.

In [21]:
black_friday.isna().sum()

User_ID                            0
Product_ID                         0
Gender                             0
Age                                0
Occupation                         0
City_Category                      0
Stay_In_Current_City_Years         0
Marital_Status                     0
Product_Category_1                 0
Product_Category_2            166986
Product_Category_3            373299
Purchase                           0
dtype: int64

In [22]:
black_friday.isna().sum().max()

373299

In [23]:
def q6():
    return black_friday.isna().sum().max()

q6()

373299

## Questão 7

Qual o valor mais frequente (sem contar nulls) em `Product_Category_3`? Responda como um único escalar.

In [24]:
black_friday['Product_Category_3'].head()

0     NaN
1    14.0
2     NaN
3     NaN
4     NaN
Name: Product_Category_3, dtype: float64

In [25]:
black_friday['Product_Category_3'].dropna().mode()

0    16.0
dtype: float64

In [26]:
def q7():
    return float(black_friday['Product_Category_3'].dropna().mode())

q7()

16.0

## Questão 8

Qual a nova média da variável (coluna) `Purchase` após sua normalização? Responda como um único escalar.

$$ normalização = (x - min) / (max - min) $$

In [27]:
min_purchase = black_friday.Purchase.min()
max_purchase = black_friday.Purchase.max()

In [28]:
(black_friday.Purchase - min_purchase) / (max_purchase-min_purchase)

0         0.344255
1         0.631519
2         0.052027
3         0.036676
4         0.327389
            ...   
537572    0.482798
537573    0.799588
537574    0.330501
537575    0.293868
537576    0.281376
Name: Purchase, Length: 537577, dtype: float64

In [29]:
def q8():
    min_purchase = black_friday.Purchase.min()
    max_purchase = black_friday.Purchase.max()
    return ((black_friday.Purchase - min_purchase) / (max_purchase-min_purchase)).mean()

q8()  

0.3847939036269795

## Questão 9

Quantas ocorrências entre -1 e 1 inclusive existem da variáel `Purchase` após sua padronização? Responda como um único escalar.

$$ padronização = (x - \bar{x}) / s $$

In [30]:
media = black_friday.Purchase.mean()
desvio = black_friday.Purchase.std()

In [31]:
padrao = pd.DataFrame(black_friday['Purchase'].copy())

In [32]:
padrao.Purchase = (padrao.Purchase - media) / desvio
padrao

Unnamed: 0,Purchase
0,-0.193506
1,1.177698
2,-1.588401
3,-1.661679
4,-0.274012
...,...
537572,0.467804
537573,1.979943
537574,-0.259156
537575,-0.434019


In [33]:
padrao.Purchase = padrao[padrao.Purchase <= 1]
padrao.Purchase = padrao[padrao.Purchase >= -1]

In [34]:
padrao.dropna()

Unnamed: 0,Purchase
0,-0.193506
4,-0.274012
9,-0.293687
10,-0.819081
12,-0.654657
...,...
537571,0.505547
537572,0.467804
537574,-0.259156
537575,-0.434019


In [35]:
padrao.shape[0]

537577

In [36]:
def q9():
    compras = black_friday['Purchase']
    padrao = (compras - compras.mean()) / compras.std()
    return int(((padrao >= -1) & (padrao <= 1)).sum())

q9()

348631

## Questão 10

Podemos afirmar que se uma observação é null em `Product_Category_2` ela também o é em `Product_Category_3`? Responda com um bool (`True`, `False`).

In [37]:
questao10 = black_friday[['Product_Category_2','Product_Category_3']]

In [38]:
nulos = questao10[questao10['Product_Category_2'].isna()]
nulos

Unnamed: 0,Product_Category_2,Product_Category_3
0,,
2,,
4,,
9,,
11,,
...,...,...
537563,,
537565,,
537566,,
537568,,


In [39]:
def q10():
    return black_friday['Product_Category_2'].isna().equals(black_friday['Product_Category_2'].isna())

q10()

True