# Desafio 1

Para esse desafio, vamos trabalhar com o data set [Black Friday](https://www.kaggle.com/mehdidag/black-friday), que reúne dados sobre transações de compras em uma loja de varejo.

Vamos utilizá-lo para praticar a exploração de data sets utilizando pandas. Você pode fazer toda análise neste mesmo notebook, mas as resposta devem estar nos locais indicados.

> Obs.: Por favor, não modifique o nome das funções de resposta.

## _Set up_ da análise

In [1]:
import pandas as pd
import numpy as np

In [2]:
bf = pd.read_csv("black_friday.csv")

## Inicie sua análise a partir daqui

# Perguntas
Quantas observações e quantas colunas há no dataset?
Há quantas mulheres com idade entre 26 e 35 anos no dataset?
Quantos usuários únicos há no dataset? 
Quantos tipos de dados diferentes existem no dataset?
Qual porcentagem dos registros possui ao menos um valor null?
Quantos valores null existem na variável (coluna) com o maior número de null?
Qual o valor mais frequente (sem contar nulls) em Product_Category_3?
Qual a nova média da variável (coluna) Purchase após sua normalização?
Quantas ocorrências entre -1 e 1 inclusive existem da variáel Purchase após sua padronização?
Podemos afirmar que se uma observação é null em Product_Category_2 ela também o é em Product_Category_3? Responda com um bool (True, False).

In [3]:
bf.head()

Unnamed: 0,User_ID,Product_ID,Gender,Age,Occupation,City_Category,Stay_In_Current_City_Years,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Purchase
0,1000001,P00069042,F,0-17,10,A,2,0,3,,,8370
1,1000001,P00248942,F,0-17,10,A,2,0,1,6.0,14.0,15200
2,1000001,P00087842,F,0-17,10,A,2,0,12,,,1422
3,1000001,P00085442,F,0-17,10,A,2,0,12,14.0,,1057
4,1000002,P00285442,M,55+,16,C,4+,0,8,,,7969


In [4]:
bf.columns

Index(['User_ID', 'Product_ID', 'Gender', 'Age', 'Occupation', 'City_Category',
       'Stay_In_Current_City_Years', 'Marital_Status', 'Product_Category_1',
       'Product_Category_2', 'Product_Category_3', 'Purchase'],
      dtype='object')

In [5]:
#Quantas observações e quantas colunas há no dataset?
bf.shape

(537577, 12)

In [6]:
#Há quantas mulheres com idade entre 26 e 35 anos no dataset? Resposta: 49348
bf.groupby('Age')['Gender'].value_counts()

Age    Gender
0-17   M           9754
       F           4953
18-25  M          73577
       F          24057
26-35  M         165342
       F          49348
36-45  M          81079
       F          26420
46-50  M          31670
       F          12856
51-55  M          27984
       F           9634
55+    M          15974
       F           4929
Name: Gender, dtype: int64

In [7]:
#Quantos usuários únicos há no dataset?
bf['User_ID'].nunique()

5891

In [8]:
#Quantos tipos de dados diferentes existem no dataset? 3
bf.dtypes.value_counts()

int64      5
object     5
float64    2
dtype: int64

In [9]:
#Qual porcentagem dos registros possui ao menos um valor null? 0,69
(bf.isnull().sum())/len(bf)

User_ID                       0.000000
Product_ID                    0.000000
Gender                        0.000000
Age                           0.000000
Occupation                    0.000000
City_Category                 0.000000
Stay_In_Current_City_Years    0.000000
Marital_Status                0.000000
Product_Category_1            0.000000
Product_Category_2            0.310627
Product_Category_3            0.694410
Purchase                      0.000000
dtype: float64

In [10]:
#Quantos valores null existem na variável (coluna) com o maior número de null? 373299
bf.isnull().sum()


User_ID                            0
Product_ID                         0
Gender                             0
Age                                0
Occupation                         0
City_Category                      0
Stay_In_Current_City_Years         0
Marital_Status                     0
Product_Category_1                 0
Product_Category_2            166986
Product_Category_3            373299
Purchase                           0
dtype: int64

In [11]:
#Qual o valor mais frequente (sem contar nulls) em Product_Category_3
bf['Product_Category_3'].value_counts()


16.0    32148
15.0    27611
14.0    18121
17.0    16449
5.0     16380
8.0     12384
9.0     11414
12.0     9094
13.0     5385
6.0      4818
18.0     4563
4.0      1840
11.0     1773
10.0     1698
3.0       600
Name: Product_Category_3, dtype: int64

In [12]:
#Qual a nova média da variável (coluna) Purchase após sua normalização?
#Média normal
bf['Purchase'].mean()


9333.859852635065

In [13]:
#Normalizando a coluna
media_purchase_padronizada = (bf['Purchase']-bf['Purchase'].min())/(bf['Purchase'].max()-bf['Purchase'].min())
print(media_purchase_padronizada)

0         0.344255
1         0.631519
2         0.052027
3         0.036676
4         0.327389
            ...   
537572    0.482798
537573    0.799588
537574    0.330501
537575    0.293868
537576    0.281376
Name: Purchase, Length: 537577, dtype: float64


In [14]:
#Média da coluna normalizada
media_purchase_padronizada.mean()

0.38479390362696736

In [15]:
#Quantas ocorrências entre -1 e 1 inclusive existem da variáel Purchase após sua padronização? 348631
bf['purchase_padronizada'] = (bf['Purchase']-bf['Purchase'].mean())/bf['Purchase'].std()
print(bf['purchase_padronizada'])

0        -0.193506
1         1.177698
2        -1.588401
3        -1.661679
4        -0.274012
            ...   
537572    0.467804
537573    1.979943
537574   -0.259156
537575   -0.434019
537576   -0.493646
Name: purchase_padronizada, Length: 537577, dtype: float64


In [16]:
bf['purchase_padronizada_class'] = ['1' if -1<=x<=1 else '0' for x in bf['purchase_padronizada']]

In [17]:
bf.columns

Index(['User_ID', 'Product_ID', 'Gender', 'Age', 'Occupation', 'City_Category',
       'Stay_In_Current_City_Years', 'Marital_Status', 'Product_Category_1',
       'Product_Category_2', 'Product_Category_3', 'Purchase',
       'purchase_padronizada', 'purchase_padronizada_class'],
      dtype='object')

In [18]:
bf['purchase_padronizada_class'].value_counts()

1    348631
0    188946
Name: purchase_padronizada_class, dtype: int64

In [19]:
#Podemos afirmar que se uma observação é null em Product_Category_2 ela também o é em Product_Category_3? 

In [20]:
bf['Product_Category_2'].isnull().sum()

166986

In [21]:
bf['Product_Category_3'].isnull().sum()

373299

In [39]:
bf['Product_Category_3'].head()

0     NaN
1    14.0
2     NaN
3     NaN
4     NaN
Name: Product_Category_3, dtype: float64

In [45]:
bf['Product_Category_2'].head()

0     NaN
1     6.0
2     NaN
3    14.0
4     NaN
Name: Product_Category_2, dtype: float64

In [47]:
bf['nullcat'] = ['null' if x !=x and y != y else 'not_null' for x, y in zip(bf['Product_Category_2'], bf['Product_Category_3'])]

In [48]:
bf['nullcat'].value_counts()

not_null    370591
null        166986
Name: nullcat, dtype: int64

## Questão 1

Quantas observações e quantas colunas há no dataset? Responda no formato de uma tuple `(n_observacoes, n_colunas)`.

In [22]:
def q1():
    #Retorne aqui o resultado da questão 1.
    q1 = (537577,12)
    return q1

## Questão 2

Há quantas mulheres com idade entre 26 e 35 anos no dataset? Responda como um único escalar.

In [23]:
def q2():
    # Retorne aqui o resultado da questão 2.
    q2 = (49348)
    return q2


## Questão 3

Quantos usuários únicos há no dataset? Responda como um único escalar.

In [24]:
def q3():
    # Retorne aqui o resultado da questão 3.
    q3 = (5891)
    return q3

## Questão 4

Quantos tipos de dados diferentes existem no dataset? Responda como um único escalar.

In [25]:
def q4():
    # Retorne aqui o resultado da questão 4.
    q4 = (3)
    return q4

## Questão 5

Qual porcentagem dos registros possui ao menos um valor null (`None`, `ǸaN` etc)? Responda como um único escalar entre 0 e 1.

In [26]:
def q5():
    # Retorne aqui o resultado da questão 5.
    q5 = (0.694410)
    return q5

## Questão 6

Quantos valores null existem na variável (coluna) com o maior número de null? Responda como um único escalar.

In [27]:
def q6():
    # Retorne aqui o resultado da questão 6.
    q6 = (373299)
    return q6

## Questão 7

Qual o valor mais frequente (sem contar nulls) em `Product_Category_3`? Responda como um único escalar.

In [28]:
def q7():
    # Retorne aqui o resultado da questão 7.
    q7 = (16.0)
    return q7

## Questão 8

Qual a nova média da variável (coluna) `Purchase` após sua normalização? Responda como um único escalar.

In [29]:
def q8():
    # Retorne aqui o resultado da questão 8.
    q8 = (0.38479390362696736)
    return q8

## Questão 9

Quantas ocorrências entre -1 e 1 inclusive existem da variáel `Purchase` após sua padronização? Responda como um único escalar.

In [30]:
def q9():
    # Retorne aqui o resultado da questão 9.
    q9 = (348631)
    return q9

## Questão 10

Podemos afirmar que se uma observação é null em `Product_Category_2` ela também o é em `Product_Category_3`? Responda com um bool (`True`, `False`).

In [31]:
def q10():
    # Retorne aqui o resultado da questão 10.
    q10 = True
    return q10