# Desafio 1

Para esse desafio, vamos trabalhar com o data set [Black Friday](https://www.kaggle.com/mehdidag/black-friday), que reúne dados sobre transações de compras em uma loja de varejo.

Vamos utilizá-lo para praticar a exploração de data sets utilizando pandas. Você pode fazer toda análise neste mesmo notebook, mas as resposta devem estar nos locais indicados.

> Obs.: Por favor, não modifique o nome das funções de resposta.

## _Set up_ da análise

In [1]:
import pandas as pd
import numpy as np

In [2]:
black_friday = pd.read_csv("black_friday.csv")

## Inicie sua análise a partir daqui

In [3]:
black_friday.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 537577 entries, 0 to 537576
Data columns (total 12 columns):
 #   Column                      Non-Null Count   Dtype  
---  ------                      --------------   -----  
 0   User_ID                     537577 non-null  int64  
 1   Product_ID                  537577 non-null  object 
 2   Gender                      537577 non-null  object 
 3   Age                         537577 non-null  object 
 4   Occupation                  537577 non-null  int64  
 5   City_Category               537577 non-null  object 
 6   Stay_In_Current_City_Years  537577 non-null  object 
 7   Marital_Status              537577 non-null  int64  
 8   Product_Category_1          537577 non-null  int64  
 9   Product_Category_2          370591 non-null  float64
 10  Product_Category_3          164278 non-null  float64
 11  Purchase                    537577 non-null  int64  
dtypes: float64(2), int64(5), object(5)
memory usage: 49.2+ MB


In [4]:
black_friday[black_friday.Gender=='F'].groupby("Age").count()['User_ID']

Age
0-17      4953
18-25    24057
26-35    49348
36-45    26420
46-50    12856
51-55     9634
55+       4929
Name: User_ID, dtype: int64

In [5]:
print( black_friday.User_ID.count(), black_friday.User_ID.nunique())

537577 5891


In [6]:
((black_friday.Product_Category_2.isnull().sum())+(black_friday.Product_Category_3.isnull().sum()))/(12*537577 )

0.08375311815795691

In [7]:
print(black_friday.Product_Category_2.isnull().sum())
print(black_friday.Product_Category_3.isnull().sum())

166986
373299


In [8]:
black_friday.Product_Category_3.describe()

count    164278.000000
mean         12.669840
std           4.124341
min           3.000000
25%           9.000000
50%          14.000000
75%          16.000000
max          18.000000
Name: Product_Category_3, dtype: float64

In [9]:
black_friday.Product_Category_3.mode()

0    16.0
dtype: float64

In [10]:
black_friday.Product_Category_3.value_counts()

16.0    32148
15.0    27611
14.0    18121
17.0    16449
5.0     16380
8.0     12384
9.0     11414
12.0     9094
13.0     5385
6.0      4818
18.0     4563
4.0      1840
11.0     1773
10.0     1698
3.0       600
Name: Product_Category_3, dtype: int64

In [11]:
df_normalizaPurchase=black_friday[~black_friday.Purchase.isnull()]

In [12]:
df_normalizaPurchase.head()

Unnamed: 0,User_ID,Product_ID,Gender,Age,Occupation,City_Category,Stay_In_Current_City_Years,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Purchase
0,1000001,P00069042,F,0-17,10,A,2,0,3,,,8370
1,1000001,P00248942,F,0-17,10,A,2,0,1,6.0,14.0,15200
2,1000001,P00087842,F,0-17,10,A,2,0,12,,,1422
3,1000001,P00085442,F,0-17,10,A,2,0,12,14.0,,1057
4,1000002,P00285442,M,55+,16,C,4+,0,8,,,7969


In [13]:
print(black_friday.Purchase.min())
print(black_friday.Purchase.max())

def normalizarPurchase(Purchase):
    return ((Purchase - 185)/(23961-185))

185
23961


In [15]:
black_friday['PurchaseNormalizada']=black_friday['Purchase'].apply(normalizarPurchase)

In [16]:
black_friday.PurchaseNormalizada.describe()

count    537577.000000
mean          0.384794
std           0.209498
min           0.000000
25%           0.238938
50%           0.331300
75%           0.500000
max           1.000000
Name: PurchaseNormalizada, dtype: float64

In [17]:
black_friday.PurchaseNormalizada.mean()

0.38479390362696736

In [18]:
black_friday['Purchase'].describe()

count    537577.000000
mean       9333.859853
std        4981.022133
min         185.000000
25%        5866.000000
50%        8062.000000
75%       12073.000000
max       23961.000000
Name: Purchase, dtype: float64

In [34]:
media=df_normalizaPurchase['Purchase'].mean()
desvio=df_normalizaPurchase['Purchase'].std()

def padronizaPurchase(Purchase):
      return (Purchase-media)/desvio

In [35]:
black_friday['PurchasePadronizada']=black_friday['Purchase'].apply(padronizaPurchase)

In [57]:
len(black_friday['PurchasePadronizada'].loc[ (black_friday['PurchasePadronizada']<=1) &(black_friday['PurchasePadronizada']>-1) ])

348631

In [59]:
df_aux=black_friday[['Product_Category_2','Product_Category_3']]

In [61]:
df_aux[df_aux.Product_Category_2.isnull()].describe()

Unnamed: 0,Product_Category_2,Product_Category_3
count,0.0,0.0
mean,,
std,,
min,,
25%,,
50%,,
75%,,
max,,


## Questão 1

Quantas observações e quantas colunas há no dataset? Responda no formato de uma tuple `(n_observacoes, n_colunas)`.

In [4]:
def q1():
    # Retorne aqui o resultado da questão 1.
    return 537577,12
    

## Questão 2

Há quantas mulheres com idade entre 26 e 35 anos no dataset? Responda como um único escalar.

In [5]:
def q2():
    # Retorne aqui o resultado da questão 2.
    return 49348
    

## Questão 3

Quantos usuários únicos há no dataset? Responda como um único escalar.

In [6]:
def q3():
    # Retorne aqui o resultado da questão 3.
    return 5891
    

## Questão 4

Quantos tipos de dados diferentes existem no dataset? Responda como um único escalar.

In [7]:
def q4():
    # Retorne aqui o resultado da questão 4.
    return 3
    

## Questão 5

Qual porcentagem dos registros possui ao menos um valor null (`None`, `ǸaN` etc)? Responda como um único escalar entre 0 e 1.

In [8]:
def q5():
    # Retorne aqui o resultado da questão 5.
    return 0.08375311815795691
    

## Questão 6

Quantos valores null existem na variável (coluna) com o maior número de null? Responda como um único escalar.

In [9]:
def q6():
    # Retorne aqui o resultado da questão 6.
    return 373299
    

## Questão 7

Qual o valor mais frequente (sem contar nulls) em `Product_Category_3`? Responda como um único escalar.

In [10]:
def q7():
    # Retorne aqui o resultado da questão 7.
    return 16
    

## Questão 8

Qual a nova média da variável (coluna) `Purchase` após sua normalização? Responda como um único escalar.

In [11]:
def q8():
    # Retorne aqui o resultado da questão 8.
    return 0.384794
    

## Questão 9

Quantas ocorrências entre -1 e 1 inclusive existem da variáel `Purchase` após sua padronização? Responda como um único escalar.

In [12]:
def q9():
    # Retorne aqui o resultado da questão 9.
    return 348631
    

## Questão 10

Podemos afirmar que se uma observação é null em `Product_Category_2` ela também o é em `Product_Category_3`? Responda com um bool (`True`, `False`).

In [13]:
def q10():
    # Retorne aqui o resultado da questão 10.
    return True
    