# Desafio 1

Para esse desafio, vamos trabalhar com o data set [Black Friday](https://www.kaggle.com/mehdidag/black-friday), que reúne dados sobre transações de compras em uma loja de varejo.

Vamos utilizá-lo para praticar a exploração de data sets utilizando pandas. Você pode fazer toda análise neste mesmo notebook, mas as resposta devem estar nos locais indicados.

> Obs.: Por favor, não modifique o nome das funções de resposta.

## _Set up_ da análise

In [1]:
import pandas as pd
import numpy as np

In [2]:
black_friday = pd.read_csv("black_friday.csv")

## Inicie sua análise a partir daqui

In [3]:
#Tipos de dados
black_friday.describe()

Unnamed: 0,User_ID,Occupation,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Purchase
count,537577.0,537577.0,537577.0,537577.0,370591.0,164278.0,537577.0
mean,1002992.0,8.08271,0.408797,5.295546,9.842144,12.66984,9333.859853
std,1714.393,6.52412,0.491612,3.750701,5.087259,4.124341,4981.022133
min,1000001.0,0.0,0.0,1.0,2.0,3.0,185.0
25%,1001495.0,2.0,0.0,1.0,5.0,9.0,5866.0
50%,1003031.0,7.0,0.0,5.0,9.0,14.0,8062.0
75%,1004417.0,14.0,1.0,8.0,15.0,16.0,12073.0
max,1006040.0,20.0,1.0,18.0,18.0,18.0,23961.0


In [4]:
# COLUNAS EXISTENTES
black_friday.columns

Index(['User_ID', 'Product_ID', 'Gender', 'Age', 'Occupation', 'City_Category',
       'Stay_In_Current_City_Years', 'Marital_Status', 'Product_Category_1',
       'Product_Category_2', 'Product_Category_3', 'Purchase'],
      dtype='object')

In [5]:
black_friday.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 537577 entries, 0 to 537576
Data columns (total 12 columns):
User_ID                       537577 non-null int64
Product_ID                    537577 non-null object
Gender                        537577 non-null object
Age                           537577 non-null object
Occupation                    537577 non-null int64
City_Category                 537577 non-null object
Stay_In_Current_City_Years    537577 non-null object
Marital_Status                537577 non-null int64
Product_Category_1            537577 non-null int64
Product_Category_2            370591 non-null float64
Product_Category_3            164278 non-null float64
Purchase                      537577 non-null int64
dtypes: float64(2), int64(5), object(5)
memory usage: 49.2+ MB


In [6]:
# Quantidade de dados
# Isso vai mostrar a quantidade de dados em cada coluna, se houver colunas sem dados isso deve mostrar agora
black_friday.count()

User_ID                       537577
Product_ID                    537577
Gender                        537577
Age                           537577
Occupation                    537577
City_Category                 537577
Stay_In_Current_City_Years    537577
Marital_Status                537577
Product_Category_1            537577
Product_Category_2            370591
Product_Category_3            164278
Purchase                      537577
dtype: int64

In [7]:
# Total de observações e total de colunas
black_friday.shape

(537577, 12)

In [8]:
# Total de Colunas e Total de Registros
# Armazenando cada inforação em uma variavel 
observacoes,colunas = black_friday.shape

In [9]:
# Dados Unicos por coluna
black_friday.nunique()

User_ID                        5891
Product_ID                     3623
Gender                            2
Age                               7
Occupation                       21
City_Category                     3
Stay_In_Current_City_Years        5
Marital_Status                    2
Product_Category_1               18
Product_Category_2               17
Product_Category_3               15
Purchase                      17959
dtype: int64

In [10]:
black_friday.head(5)

Unnamed: 0,User_ID,Product_ID,Gender,Age,Occupation,City_Category,Stay_In_Current_City_Years,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Purchase
0,1000001,P00069042,F,0-17,10,A,2,0,3,,,8370
1,1000001,P00248942,F,0-17,10,A,2,0,1,6.0,14.0,15200
2,1000001,P00087842,F,0-17,10,A,2,0,12,,,1422
3,1000001,P00085442,F,0-17,10,A,2,0,12,14.0,,1057
4,1000002,P00285442,M,55+,16,C,4+,0,8,,,7969


In [11]:
# Total de Observaçoes
print('Total de Observações : {}'.format(observacoes))

Total de Observações : 537577


In [12]:
print('Total de Colunas : {}'.format(colunas))

Total de Colunas : 12


In [13]:
# Verificamdo valores Unicos em cada coluna : 
for i in black_friday.columns:
    print('Dados unicos da coluna {0} : {1}'.format(i,black_friday[i].nunique()))

Dados unicos da coluna User_ID : 5891
Dados unicos da coluna Product_ID : 3623
Dados unicos da coluna Gender : 2
Dados unicos da coluna Age : 7
Dados unicos da coluna Occupation : 21
Dados unicos da coluna City_Category : 3
Dados unicos da coluna Stay_In_Current_City_Years : 5
Dados unicos da coluna Marital_Status : 2
Dados unicos da coluna Product_Category_1 : 18
Dados unicos da coluna Product_Category_2 : 17
Dados unicos da coluna Product_Category_3 : 15
Dados unicos da coluna Purchase : 17959


In [14]:
# Valores faltantes por Coluna
for i in black_friday.columns:
    print('Total de dados faltantes na coluna {0} : {1}'.format(i,black_friday[i].isna().sum()))

Total de dados faltantes na coluna User_ID : 0
Total de dados faltantes na coluna Product_ID : 0
Total de dados faltantes na coluna Gender : 0
Total de dados faltantes na coluna Age : 0
Total de dados faltantes na coluna Occupation : 0
Total de dados faltantes na coluna City_Category : 0
Total de dados faltantes na coluna Stay_In_Current_City_Years : 0
Total de dados faltantes na coluna Marital_Status : 0
Total de dados faltantes na coluna Product_Category_1 : 0
Total de dados faltantes na coluna Product_Category_2 : 166986
Total de dados faltantes na coluna Product_Category_3 : 373299
Total de dados faltantes na coluna Purchase : 0


In [15]:
# Porcentagem de dados faltantes em cada coluna
for i in black_friday.columns:
    porcentagem = (black_friday[i].isna().sum()/(observacoes))
    print('Porcentagem de dados Faltantes na coluna  {} : {:.4f}%'.format(i,porcentagem))

Porcentagem de dados Faltantes na coluna  User_ID : 0.0000%
Porcentagem de dados Faltantes na coluna  Product_ID : 0.0000%
Porcentagem de dados Faltantes na coluna  Gender : 0.0000%
Porcentagem de dados Faltantes na coluna  Age : 0.0000%
Porcentagem de dados Faltantes na coluna  Occupation : 0.0000%
Porcentagem de dados Faltantes na coluna  City_Category : 0.0000%
Porcentagem de dados Faltantes na coluna  Stay_In_Current_City_Years : 0.0000%
Porcentagem de dados Faltantes na coluna  Marital_Status : 0.0000%
Porcentagem de dados Faltantes na coluna  Product_Category_1 : 0.0000%
Porcentagem de dados Faltantes na coluna  Product_Category_2 : 0.3106%
Porcentagem de dados Faltantes na coluna  Product_Category_3 : 0.6944%
Porcentagem de dados Faltantes na coluna  Purchase : 0.0000%


In [16]:
# Porcentagem de dados Presentes 
# Porcentagem de dados faltantes em cada coluna
for i in black_friday.columns:
    porcentagem = black_friday[i].count()/(observacoes/100)
    print('Porcentagem de dados Faltantes na coluna  {} : {:.2f}%'.format(i,porcentagem))

Porcentagem de dados Faltantes na coluna  User_ID : 100.00%
Porcentagem de dados Faltantes na coluna  Product_ID : 100.00%
Porcentagem de dados Faltantes na coluna  Gender : 100.00%
Porcentagem de dados Faltantes na coluna  Age : 100.00%
Porcentagem de dados Faltantes na coluna  Occupation : 100.00%
Porcentagem de dados Faltantes na coluna  City_Category : 100.00%
Porcentagem de dados Faltantes na coluna  Stay_In_Current_City_Years : 100.00%
Porcentagem de dados Faltantes na coluna  Marital_Status : 100.00%
Porcentagem de dados Faltantes na coluna  Product_Category_1 : 100.00%
Porcentagem de dados Faltantes na coluna  Product_Category_2 : 68.94%
Porcentagem de dados Faltantes na coluna  Product_Category_3 : 30.56%
Porcentagem de dados Faltantes na coluna  Purchase : 100.00%


In [17]:
black_friday[black_friday['Age'] == '26-35'][['User_ID','Age']].head(5)

Unnamed: 0,User_ID,Age
5,1000003,26-35
9,1000005,26-35
10,1000005,26-35
11,1000005,26-35
12,1000005,26-35


In [18]:
black_friday[black_friday['Age'] == '26-35'][['User_ID']].isna().sum()

User_ID    0
dtype: int64

In [19]:
black_friday[black_friday['Age'] == '26-35'][['User_ID']].nunique()

User_ID    2053
dtype: int64

In [20]:
# Contagem de Valores por Coluna

black_friday['Age'].value_counts()

26-35    214690
36-45    107499
18-25     97634
46-50     44526
51-55     37618
55+       20903
0-17      14707
Name: Age, dtype: int64

In [21]:
black_friday.dtypes.nunique()

3

In [22]:
# Média das Colunas Product_Category_3 e Product_Category_2
mean_Product_Category_2 = black_friday['Product_Category_2'].mean()
mean_Product_Category_3 = black_friday['Product_Category_3'].mean()
print("{} - {}".format(mean_Product_Category_2,mean_Product_Category_3))

9.842144034798471 - 12.669840149015693


In [23]:
# Média das Colunas Product_Category_3 e Product_Category_2
std_Product_Category_2 = black_friday['Product_Category_2'].std()
std_Product_Category_3 = black_friday['Product_Category_3'].std()
#print("{} - {}".format(std_Product_Category_2,std_Product_Category_3))
norma_Product_Category_3 = ( black_friday['Product_Category_3'] - mean_Product_Category_3) / std_Product_Category_3
print(norma_Product_Category_3)

0              NaN
1         0.322515
2              NaN
3              NaN
4              NaN
5              NaN
6         1.049903
7              NaN
8              NaN
9              NaN
10             NaN
11             NaN
12             NaN
13       -1.859652
14        0.322515
15             NaN
16       -2.102115
17             NaN
18        0.807440
19        0.564977
20             NaN
21             NaN
22             NaN
23             NaN
24        0.322515
25             NaN
26             NaN
27             NaN
28        0.322515
29       -1.132263
            ...   
537547    0.564977
537548         NaN
537549    0.322515
537550         NaN
537551   -1.132263
537552         NaN
537553         NaN
537554         NaN
537555         NaN
537556         NaN
537557         NaN
537558         NaN
537559         NaN
537560         NaN
537561         NaN
537562    0.322515
537563         NaN
537564         NaN
537565         NaN
537566         NaN
537567         NaN
537568      

## Questão 1

Quantas observações e quantas colunas há no dataset? Responda no formato de uma tuple `(n_observacoes, n_colunas)`.

In [24]:
def q1():
    return black_friday.shape
q1()

(537577, 12)

## Questão 2

Há quantas mulheres com idade entre 26 e 35 anos no dataset? Responda como um único escalar.

In [25]:
def q2():
    # Retorne aqui o resultado da questão 2.
    mulheres26_35 = black_friday.loc[black_friday['Age'] == '26-35'].loc[black_friday['Gender']=='F'][['User_ID']].count()
    return int(mulheres26_35)
q2()

49348

## Questão 3

Quantos usuários únicos há no dataset? Responda como um único escalar.

In [26]:
def q3():
    # Retorne aqui o resultado da questão 3.
    unicos = black_friday['User_ID'].nunique()
    return unicos
q3()

5891

## Questão 4

Quantos tipos de dados diferentes existem no dataset? Responda como um único escalar.

In [27]:
def q4():
    # Retorne aqui o resultado da questão 4.
    tipos = black_friday.dtypes.nunique()
    #pass
    return tipos
q4()

3

## Questão 5

Qual porcentagem dos registros possui ao menos um valor null (`None`, `ǸaN` etc)? Responda como um único escalar entre 0 e 1.

In [28]:
# Qual porcentagem dos registros possui ao menos um valor null
def q5():
    # Retorne aqui o resultado da questão 5.
    # 0.694
    observacoes = q1()[0]
    porcentagem = (black_friday['Product_Category_3'].isna().sum()/(observacoes))
    return porcentagem
q5()

0.6944102891306734

In [42]:
black_friday['Product_Category_3'].isna().sum()

()

## Questão 6

Quantos valores null existem na variável (coluna) com o maior número de null? Responda como um único escalar.


In [29]:
def q6():
    # Retorne aqui o resultado da questão 6.
    maior = black_friday['Product_Category_3'].isna().sum()
    return int(maior)
q6()

373299

## Questão 7

Qual o valor mais frequente (sem contar nulls) em `Product_Category_3`? Responda como um único escalar.

In [30]:
def q7():
    # Retorne aqui o resultado da questão 7.''
    resposta = black_friday['Product_Category_3'].mode()[0]
    return resposta
q7()

16.0

## Questão 8

Qual a nova média da variável (coluna) `Purchase` após sua normalização? Responda como um único escalar.

In [31]:
# Normalizar a variavel Purchase
def q8():
    # Retorne aqui o resultado da questão 8.
    norm_Purchase = (black_friday['Purchase'] - black_friday['Purchase'].min())/(black_friday['Purchase'].max() - black_friday['Purchase'].min())
    norm_mean = norm_Purchase.mean()
    return norm_mean
q8()

0.3847939036269795

## Questão 9

Quantas ocorrências entre -1 e 1 inclusive existem da variáel `Purchase` após sua padronização? Responda como um único escalar.

In [32]:
def q9():        
    #  admissoes[(admissoes.Data > 2017) & (admissoes.Data < 2018)]
    zscore = ((black_friday['Purchase'] - black_friday['Purchase'].mean())/black_friday['Purchase'].std())
    Z = (zscore >-1)&(zscore <1)
    #Z.mean
    #Z = pd.cut(zscore,labels=('menor que 1', 'maior que 1'), bins = (-2,0,2)).value_counts()
    return Z.value_counts()[1]
q9()

348631

## Questão 10

Podemos afirmar que se uma observação é null em `Product_Category_2` ela também o é em `Product_Category_3`? Responda com um bool (`True`, `False`).

In [40]:
def q10():
    # Retorne aqui o resultado da questão 10.
    resp10_a = black_friday['Product_Category_2'].isna().sum() == black_friday['Product_Category_3'].isna().sum()
    resp10_b = black_friday['Product_Category_3'].isna().sum() == black_friday['Product_Category_2'].isna().sum()
    x = (resp10_a,resp10_b)
    return x
q10()

(False, False)