# Exploração do datasets

Aqui, vamos trabalhar com o data set [Black Friday](https://www.kaggle.com/mehdidag/black-friday), que reúne dados sobre transações de compras em uma loja de varejo.

Vamos utilizá-lo para praticar a exploração de data sets utilizando pandas. 

## _Set up_ da análise

In [1]:
import pandas as pd
import numpy as np

In [2]:
black_friday = pd.read_csv("black_friday.csv")

## Iniciando a  análise 

In [4]:
black_friday.head(5)

Unnamed: 0,User_ID,Product_ID,Gender,Age,Occupation,City_Category,Stay_In_Current_City_Years,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Purchase
0,1000001,P00069042,F,0-17,10,A,2,0,3,,,8370
1,1000001,P00248942,F,0-17,10,A,2,0,1,6.0,14.0,15200
2,1000001,P00087842,F,0-17,10,A,2,0,12,,,1422
3,1000001,P00085442,F,0-17,10,A,2,0,12,14.0,,1057
4,1000002,P00285442,M,55+,16,C,4+,0,8,,,7969


### Quantidade de observações e  colunas no dataset

In [8]:
print(black_friday.shape)
print('Observações:', black_friday.shape[0],'Colunas:', black_friday.shape[1])

(537577, 12)
Observações: 537577 Colunas: 12


### Quantidade de usuários únicos no dataset

In [11]:
black_friday['User_ID'].nunique()     

5891

### Exemplo:
#### Quantidade de mulheres com idade entre 26 e 35 anos no dataset 

In [14]:
black_friday.groupby(['Gender','Age'])['User_ID'].nunique()['F','26-35']

545

### Quantidade de tipos de dados diferentes têm no dataset

In [12]:
black_friday.dtypes.nunique() 

3

### Quantidade de cada tipo de dados por variável no dataset

In [29]:
black_friday.dtypes.value_counts()

object     5
int64      5
float64    2
dtype: int64

### Quantidade de valores null  ('None','NaN', etc) em cada variável

In [23]:
black_friday.isna().sum()

User_ID                            0
Product_ID                         0
Gender                             0
Age                                0
Occupation                         0
City_Category                      0
Stay_In_Current_City_Years         0
Marital_Status                     0
Product_Category_1                 0
Product_Category_2            166986
Product_Category_3            373299
Purchase                           0
dtype: int64

### Verificando se uma observação null em `Product_Category_2` também o é em `Product_Category_3`

In [38]:
Product_Category_2_NA = black_friday['Product_Category_2']==np.nan
Product_Category_3_NA = black_friday['Product_Category_3']==np.nan
nullna = Product_Category_2_NA == Product_Category_3_NA
nullna.unique()[0]

True

### Por consequência do item anterior: 
#### A porcentagem dos registros que possuem ao menos um valor null (`None`, `ǸaN` etc)

In [30]:
(black_friday.isna().sum()/black_friday.shape[0]).max()*100 

69.44102891306734

### Quantidade de valores null na variável (coluna) com o maior número de null

In [31]:
black_friday.isna().sum().max() 

373299

### O valor mais frequente (sem contar nulls) na variável `Product_Category_3`

In [32]:
black_friday['Product_Category_3'].mode()[0]

16.0

### A nova média da variável (coluna) `Purchase` após sua normalização

In [34]:
Purchase = (black_friday['Purchase']-black_friday['Purchase'].min()) / (black_friday['Purchase'].max()-black_friday['Purchase'].min())
Purchase.mean()

0.38479390362696736

### Quantidade de ocorrências entre -1 e 1 da variável `Purchase` após sua padronização

In [35]:
Purchase_padrao = (black_friday['Purchase']-black_friday['Purchase'].mean()) / black_friday['Purchase'].std()
mmax =  Purchase_padrao > -1 
mmin = Purchase_padrao < 1
Purchase_padrao[mmax & mmin].count()


348631

### Um Resumo para cada variável do dataset 

In [39]:
df_aux = pd.DataFrame({'Type': black_friday.dtypes,
                      'Missing': black_friday.isna().sum(),
                      'Size': black_friday.shape[0],
                       'Unique': black_friday.nunique()
                     })
df_aux['Missing_%']= df_aux.Missing/df_aux.Size * 100
df_aux.sort_values(by='Missing_%', ascending=False)

Unnamed: 0,Type,Missing,Size,Unique,Missing_%
Product_Category_3,float64,373299,537577,15,69.441029
Product_Category_2,float64,166986,537577,17,31.062713
User_ID,int64,0,537577,5891,0.0
Product_ID,object,0,537577,3623,0.0
Gender,object,0,537577,2,0.0
Age,object,0,537577,7,0.0
Occupation,int64,0,537577,21,0.0
City_Category,object,0,537577,3,0.0
Stay_In_Current_City_Years,object,0,537577,5,0.0
Marital_Status,int64,0,537577,2,0.0
