# Data cleaning - Missing Values

Objetivo: Tratar a tabela de valores vazios

Fonte: Kaggle

Recursos de aprendizado:
Fillna - https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.fillna.html
Dropna - https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.dropna.html
np.prod - https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.prod.html
is.null - https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.isnull.html


## Passo 1 - Importar bibliotecas e ler o arquivo

In [1]:
# importando bibliotecas

import pandas as pd
import numpy as np

In [None]:
# lendo o arquivo

sf_permits = pd.read_csv('Building_Permits.csv')


In [3]:
# set seed for reproducibility

np.random.seed(0)

# 5 últimas linhas 
sf_permits.head()

Unnamed: 0,Permit Number,Permit Type,Permit Type Definition,Permit Creation Date,Block,Lot,Street Number,Street Number Suffix,Street Name,Street Suffix,...,Existing Construction Type,Existing Construction Type Description,Proposed Construction Type,Proposed Construction Type Description,Site Permit,Supervisor District,Neighborhoods - Analysis Boundaries,Zipcode,Location,Record ID
0,201505065519,4,sign - erect,05/06/2015,326,23,140,,Ellis,St,...,3.0,constr type 3,,,,3.0,Tenderloin,94102.0,"(37.785719256680785, -122.40852313194863)",1380611233945
1,201604195146,4,sign - erect,04/19/2016,306,7,440,,Geary,St,...,3.0,constr type 3,,,,3.0,Tenderloin,94102.0,"(37.78733980600732, -122.41063199757738)",1420164406718
2,201605278609,3,additions alterations or repairs,05/27/2016,595,203,1647,,Pacific,Av,...,1.0,constr type 1,1.0,constr type 1,,3.0,Russian Hill,94109.0,"(37.7946573324287, -122.42232562979227)",1424856504716
3,201611072166,8,otc alterations permit,11/07/2016,156,11,1230,,Pacific,Av,...,5.0,wood frame (5),5.0,wood frame (5),,3.0,Nob Hill,94109.0,"(37.79595867909168, -122.41557405519474)",1443574295566
4,201611283529,6,demolitions,11/28/2016,342,1,950,,Market,St,...,3.0,constr type 3,,,,6.0,Tenderloin,94102.0,"(37.78315261897309, -122.40950883997789)",144548169992


As primeiras cinco linhas dos dados mostram que várias colunas têm valores ausentes, nas seguintes colunas: 
"Street Number Suffix", "Proposed Construction Type", Site Permit", entre outras.

## Passo 2 - Quantos pontos de dados ausentes temos?

Que porcentagem dos valores no conjunto de dados está faltando? 

Sua resposta deve ser um número entre 0 e 100. 
(Se 1/4 dos valores no conjunto de dados estiver ausente, a resposta será 25.)

In [4]:
# obtendo o número de pontos de dados ausentes por coluna

missing_values_count = sf_permits.isnull().sum()

# quantos valores ausentes totais temos?

total_cells = np.product(sf_permits.shape)
total_missing = missing_values_count.sum()

# np.product (np.prod)-> Retorna o produto dos elementos da matriz sobre um determinado eixo.
# shape -> Shape no Pandas nos permite obter a forma de um DataFrame. Ex:(80 linhas,10 colunas)


# porcentagem de dados ausentes - 26.26%

percent_missing = (total_missing/total_cells) * 100
percent_missing

26.26002315058403

## Passo 3 - Descobrir por que os dados estão faltando

Observe as colunas **"Street Number Suffix"** e **"Zipcode"**, Ambos contêm valores ausentes.

- Quais, se algum, estão faltando porque não existem?
- Quais, se for o caso, estão faltando porque não foram gravadas?
- Todos os endereços geralmente têm um sufixo de número de rua? Todos os endereços geralmente têm um CEP?

**Resposta:** Se um valor na coluna "Street Number Suffix" estiver faltando, é provável que ele não exista. Se faltar algum valor na coluna "Zipcode", ele não foi registrado.


## Passo 4 - Elimine os valores ausentes: linhas

Se remover todas as linhas de `sf_permits` com valores ausentes, quantas linhas restam?

In [5]:
# removendo todas as linhas de valores ausentes da tabela 
# dropna() - O método dropna() remove as linhas que contêm valores NULL, NaN, etc(vazios).

sf_permits.dropna()

Unnamed: 0,Permit Number,Permit Type,Permit Type Definition,Permit Creation Date,Block,Lot,Street Number,Street Number Suffix,Street Name,Street Suffix,...,Existing Construction Type,Existing Construction Type Description,Proposed Construction Type,Proposed Construction Type Description,Site Permit,Supervisor District,Neighborhoods - Analysis Boundaries,Zipcode,Location,Record ID


Ao utilizar a função Dropna, não se restou linhas no conjunto de dados! Provavelmente há linhas vazias em todas as colunas.


## Passo 5 -  Eliminar valores ausentes: colunas

Tente remover todas as colunas com valores vazios.

Crie um novo DataFrame chamado `sf_permits_with_na_dropped` que tenha todas as colunas com valores vazios removidas.

- Quantas colunas foram removidas do DataFrame `sf_permits` original? Use este número para definir o valor da variável `dropped_columns` abaixo.

In [6]:
# No Pandas:
# axis = 0 refere-se ao eixo horizontal - linhas.
# axis = 1 refere-se ao eixo vertical - colunas.

# removendo todas as colunas com pelo menos um valor ausente

sf_permits_with_na_dropped = sf_permits.dropna(axis=1)

# calculando o número de colunas descartadas

cols_in_original_dataset = sf_permits.shape[1]
cols_in_na_dropped = sf_permits_with_na_dropped.shape[1]

dropped_columns = cols_in_original_dataset - cols_in_na_dropped 
dropped_columns

# shape[0] = 0 - linhas (primeiro parametro da tupla, linhas)
# shape[1] = 1 - colunas (segundo parametro da tupla , colunas)

# 31 colunas descartadas (removidas)

31

## Passo 6 - Preencher os valores ausentes automaticamente

Tente substituir todos os NaN's nos dados `sf_permits` por aquele que vem diretamente depois dele e, em seguida, substitua qualquer NaN's restante por 0. Defina o resultado como um novo DataFrame `sf_permits_with_na_imputed`.

In [7]:
# preenchendo os valores ausentes com 0

# fillna(0)- Preenche os valores com NA/NaN com 0, utilizando um método específico

# method - método {'backfill', 'bfill', 'pad', 'ffill', None}
# Método a ser usado para preencher furos na série reindexada  

# pad / ffill: (repete o valor da linha de cima, mesma coluna) - propagate last valid observation forward to next valid
# backfill / bfill: (repete o valor da linha de baixo, mesma coluna) - use next valid observation to fill gap.

sf_permits_with_na_imputed = sf_permits.fillna(method='bfill', axis=0).fillna(0)

sf_permits_with_na_imputed

Unnamed: 0,Permit Number,Permit Type,Permit Type Definition,Permit Creation Date,Block,Lot,Street Number,Street Number Suffix,Street Name,Street Suffix,...,Existing Construction Type,Existing Construction Type Description,Proposed Construction Type,Proposed Construction Type Description,Site Permit,Supervisor District,Neighborhoods - Analysis Boundaries,Zipcode,Location,Record ID
0,201505065519,4,sign - erect,05/06/2015,0326,023,140,A,Ellis,St,...,3.0,constr type 3,1.0,constr type 1,Y,3.0,Tenderloin,94102.0,"(37.785719256680785, -122.40852313194863)",1380611233945
1,201604195146,4,sign - erect,04/19/2016,0306,007,440,A,Geary,St,...,3.0,constr type 3,1.0,constr type 1,Y,3.0,Tenderloin,94102.0,"(37.78733980600732, -122.41063199757738)",1420164406718
2,201605278609,3,additions alterations or repairs,05/27/2016,0595,203,1647,A,Pacific,Av,...,1.0,constr type 1,1.0,constr type 1,Y,3.0,Russian Hill,94109.0,"(37.7946573324287, -122.42232562979227)",1424856504716
3,201611072166,8,otc alterations permit,11/07/2016,0156,011,1230,A,Pacific,Av,...,5.0,wood frame (5),5.0,wood frame (5),Y,3.0,Nob Hill,94109.0,"(37.79595867909168, -122.41557405519474)",1443574295566
4,201611283529,6,demolitions,11/28/2016,0342,001,950,A,Market,St,...,3.0,constr type 3,1.0,constr type 1,Y,6.0,Tenderloin,94102.0,"(37.78315261897309, -122.40950883997789)",144548169992
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
198895,M862628,8,otc alterations permit,12/05/2017,0113,017A,1228,0,Montgomery,St,...,5.0,wood frame (5),5.0,wood frame (5),0,0.0,0,0.0,0,1489337276729
198896,201712055595,8,otc alterations permit,12/05/2017,0271,014,580,0,Bush,St,...,5.0,wood frame (5),5.0,wood frame (5),0,0.0,0,0.0,0,1489462354993
198897,M863507,8,otc alterations permit,12/06/2017,4318,019,1568,0,Indiana,St,...,0.0,0,0.0,0,0,0.0,0,0.0,0,1489539379952
198898,M863747,8,otc alterations permit,12/06/2017,0298,029,795,0,Sutter,St,...,0.0,0,0.0,0,0,0.0,0,0.0,0,1489608233656
