## Tratando valores nulos (NaN)

In [104]:
import pandas as pd

df = pd.read_csv('aluguel_apartamentos.csv', sep=',')
df.isnull()
# True -> célula nula
# False -> célula não nula

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,True
2,False,False,False,False,False,False,False,True,True
3,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,True,True
...,...,...,...,...,...,...,...,...,...
19527,False,False,False,False,False,False,False,False,True
19528,False,False,False,False,False,False,False,False,False
19529,False,False,False,False,False,False,False,False,False
19530,False,False,False,False,False,False,False,False,False


Quantos dados nulos existem no nosso dataset?

In [105]:
# Total de valores nulos por coluna
df.isnull().sum()

Tipo             0
Bairro           0
Quartos          0
Vagas            0
Suites           0
Area             0
Valor            7
Condominio     745
IPTU          5472
dtype: int64

In [106]:
# Podemos realizar a interpolação
dados_interpolados = df.interpolate()

  dados_interpolados = df.interpolate()


In [107]:
# Aqui podemos ver que todos os dados foram interpolados e não há nenhum valor nulo
dados_interpolados.isnull().sum()

Tipo          0
Bairro        0
Quartos       0
Vagas         0
Suites        0
Area          0
Valor         0
Condominio    0
IPTU          0
dtype: int64

In [108]:
# Também podemos substituir todos os valores nulos por zero, por exemplo:

# Neste contexto de alugueis por região, talvez não faça tanto sentido fazer uma interpolação, pois não se trata de algo linear

dados_substituidos = df.fillna(0)
dados_substituidos.isnull().sum()

Tipo          0
Bairro        0
Quartos       0
Vagas         0
Suites        0
Area          0
Valor         0
Condominio    0
IPTU          0
dtype: int64

Porém também temos casos que não fazem sentido, onde os valores do aluguel e do condomínio são 0 (zero), precisamos remover esses dados inconsistentes.

In [109]:
# Adquire todos os índices das linhas onde o valor == 0 ou condominio == 0
index_remover = dados_substituidos.query('Valor == 0 | Condominio == 0').index

In [110]:
# Axis quando 0 significa que queremos remover LINHAS
# Quando 1, significa que queremos remover COLUNAS
# O inplace aplica as alterações no dataFrame sem a necessidade de realizar a atribuição

dados_substituidos.drop(index_remover, axis=0, inplace=True)

Também não faz sentido manter neste momento a coluna Tipo, pois temos certeza que todas as linhas são deste mesmo tipo.

In [111]:
dados_substituidos.drop('Tipo', axis=1, inplace=True)
dados_substituidos

Unnamed: 0,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Centro,1,0,0,15,800.0,390.0,20.0
1,Higienópolis,1,0,0,48,800.0,230.0,0.0
3,Cachambi,2,0,0,50,1300.0,301.0,17.0
5,Grajaú,2,1,0,70,1500.0,642.0,74.0
6,Lins de Vasconcelos,3,1,1,90,1500.0,455.0,14.0
...,...,...,...,...,...,...,...,...
19527,Vila Valqueire,2,0,0,52,1000.0,550.0,0.0
19528,Méier,2,0,0,70,900.0,490.0,48.0
19529,Jacarepaguá,3,1,2,78,1800.0,800.0,40.0
19530,São Francisco Xavier,2,1,0,48,1400.0,509.0,37.0
