# Relatório - Tratando Dados Faltantes

In [1]:
import pandas as pd
dataset_residencial = pd.read_csv('datasets/aluguel_residencial.csv', sep=';')
dataset_residencial

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
2,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
3,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,
4,Apartamento,Vista Alegre,3,1,0,70,1200.0,,
...,...,...,...,...,...,...,...,...,...
22575,Apartamento,Méier,2,0,0,70,900.0,490.0,48.0
22576,Quitinete,Centro,0,0,0,27,800.0,350.0,25.0
22577,Apartamento,Jacarepaguá,3,1,2,78,1800.0,800.0,40.0
22578,Apartamento,São Francisco Xavier,2,1,0,48,1400.0,509.0,37.0


### Checando valores NaN/Null
Note que temos muitos registros que possuem valores null para algumas colunas/atributos.
Veja o 'Condomínio' e 'IPTU'.

<br/>
Para checar se temos valores _'null'_ no DataFrame, basta usarmos o método `isnull()`.

In [3]:
dataset_residencial.isnull()

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,True,True
2,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,True
4,False,False,False,False,False,False,False,True,True
...,...,...,...,...,...,...,...,...,...
22575,False,False,False,False,False,False,False,False,False
22576,False,False,False,False,False,False,False,False,False
22577,False,False,False,False,False,False,False,False,False
22578,False,False,False,False,False,False,False,False,False


<br/>
Para checar se **não** temos valores _'null'_ no DataFrame, basta usarmos o método `notnull()`

In [6]:
dataset_residencial.notnull()

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,True,True,True,True,True,True,True,True,True
1,True,True,True,True,True,True,True,False,False
2,True,True,True,True,True,True,True,True,True
3,True,True,True,True,True,True,True,True,False
4,True,True,True,True,True,True,True,False,False
...,...,...,...,...,...,...,...,...,...
22575,True,True,True,True,True,True,True,True,True
22576,True,True,True,True,True,True,True,True,True
22577,True,True,True,True,True,True,True,True,True
22578,True,True,True,True,True,True,True,True,True


Conseguimos checar quantos valores _non-null_ temos para cada coluna/atributo do DataFrame, basta usarmos o `info()`

In [8]:
dataset_residencial

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
2,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
3,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,
4,Apartamento,Vista Alegre,3,1,0,70,1200.0,,
...,...,...,...,...,...,...,...,...,...
22575,Apartamento,Méier,2,0,0,70,900.0,490.0,48.0
22576,Quitinete,Centro,0,0,0,27,800.0,350.0,25.0
22577,Apartamento,Jacarepaguá,3,1,2,78,1800.0,800.0,40.0
22578,Apartamento,São Francisco Xavier,2,1,0,48,1400.0,509.0,37.0


In [9]:
dataset_residencial.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 22580 entries, 0 to 22579
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Tipo        22580 non-null  object 
 1   Bairro      22580 non-null  object 
 2   Quartos     22580 non-null  int64  
 3   Vagas       22580 non-null  int64  
 4   Suites      22580 non-null  int64  
 5   Area        22580 non-null  int64  
 6   Valor       22571 non-null  float64
 7   Condominio  20765 non-null  float64
 8   IPTU        15795 non-null  float64
dtypes: float64(3), int64(4), object(2)
memory usage: 1.6+ MB


Para este caso, sabemos que nosso DataFrame tem _22580_ registros. Note que as colunas 'Valor', 'Condomínio', 'IPTU' não possuem _22580_ valores _non-null_.

Para selecionar todos os registros de uma coluna específica que possui valor _null_:

In [12]:
selecao = dataset_residencial['Valor'].isnull()
selecao

0        False
1        False
2        False
3        False
4        False
         ...  
22575    False
22576    False
22577    False
22578    False
22579    False
Name: Valor, Length: 22580, dtype: bool

In [14]:
dataset_residencial.loc[selecao]

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
58,Apartamento,Barra da Tijuca,2,1,1,70,,970.0,68.0
1492,Apartamento,Leme,2,0,0,75,,878.0,
1683,Casa,Campo Grande,3,4,3,363,,,
2012,Apartamento,Botafogo,2,0,0,95,,1010.0,170.0
2034,Apartamento,Copacabana,2,0,0,72,,850.0,
4941,Casa,Campo Grande,3,2,1,100,,,
8568,Apartamento,Leme,2,0,1,75,,878.0,
8947,Apartamento,Glória,3,0,1,135,,910.0,228.0
9149,Apartamento,Gávea,3,1,1,105,,880.0,221.0


### Tratando Valores Faltantes (NaN) para o Atributo 'Valor'
Em um primeiro momento, podemos não estar interessados em imóveis com valor Null (na verdade, NaN = Not a Number). Pode ser que estes são imóveis novos, que ainda não foi definido o preço, ou algo assim.

Então, por ora, vamos eliminar esses registros de nosso dataset ==> `dropna()`

In [15]:
print(f'Número de registros antes da remoção de registros com a coluna Valor com valor Na: {dataset_residencial.shape[0]}')

Número de registros antes da remoção de registros com a coluna Valor com valor Na: 22580


In [16]:
dataset_residencial.dropna(subset=['Valor'])

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
2,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
3,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,
4,Apartamento,Vista Alegre,3,1,0,70,1200.0,,
...,...,...,...,...,...,...,...,...,...
22575,Apartamento,Méier,2,0,0,70,900.0,490.0,48.0
22576,Quitinete,Centro,0,0,0,27,800.0,350.0,25.0
22577,Apartamento,Jacarepaguá,3,1,2,78,1800.0,800.0,40.0
22578,Apartamento,São Francisco Xavier,2,1,0,48,1400.0,509.0,37.0


Sem o parâmetro `inplace=True`, o próprio DataFrame não é alterado

In [17]:
dataset_residencial

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
2,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
3,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,
4,Apartamento,Vista Alegre,3,1,0,70,1200.0,,
...,...,...,...,...,...,...,...,...,...
22575,Apartamento,Méier,2,0,0,70,900.0,490.0,48.0
22576,Quitinete,Centro,0,0,0,27,800.0,350.0,25.0
22577,Apartamento,Jacarepaguá,3,1,2,78,1800.0,800.0,40.0
22578,Apartamento,São Francisco Xavier,2,1,0,48,1400.0,509.0,37.0


In [18]:
dataset_residencial.dropna(subset=['Valor'], inplace=True)
dataset_residencial.shape

(22571, 9)

In [21]:
dataset_residencial['Valor'].isnull().unique()

array([False])

### Tratando Dados Faltantes para o Condomínio
Vamos assumir o seguinte:
- Todo o apartamento deve possuir um valor de condomínio associado. Se não tiver, remova-os da base;
- Casas podem ou não possuir um valor para o condomínio. Se não tiver, coloque 0 no lugar.
- IPTUs faltantes devem ser preenchidos com 0

#### Preenchendo valores NaN com um dado valor

Perceba que apenas as colunas 'Condomínio' e 'IPTU' não possuem todos os registros com valores _non-null_ (compare o número de registros _non-null_ com o número de registros da tabela).<br/>
Que são justamente os casos que queremos atribuir valores zero no lugar.

### Salvando o dataset pré-processado

### Outros métodos de preenchimento de NaN
Existem alguns casos, como em séries temporais, que não queremos preencher todos os dados com um valor fixo. Pode ser interessante, por exemplo, preencher o valor NaN de um registro com o mesmo valor do registro anterior.

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.fillna.html

`ffill`: propagada o último valor válido para os valores NaN (varre preenchendo de cima pra baixo)

`bfill`: preenche os dados NaN, copiando o primeiro valor válido de registros posteriores (varre preenchendo de baixo pra cima)

Outra forma **bem comum** é preencher os dados faltantes com a *média da coluna*: