# Relatório - Tratando Dados Faltantes

In [45]:
import pandas as pd
dataset_residencial = pd.read_csv('datasets/aluguel_residencial.csv', sep=';')
dataset_residencial

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
2,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
3,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,
4,Apartamento,Vista Alegre,3,1,0,70,1200.0,,
...,...,...,...,...,...,...,...,...,...
22575,Apartamento,Méier,2,0,0,70,900.0,490.0,48.0
22576,Quitinete,Centro,0,0,0,27,800.0,350.0,25.0
22577,Apartamento,Jacarepaguá,3,1,2,78,1800.0,800.0,40.0
22578,Apartamento,São Francisco Xavier,2,1,0,48,1400.0,509.0,37.0


In [46]:
dataset_residencial['Tipo'].unique()

array(['Quitinete', 'Casa', 'Apartamento', 'Casa de Condomínio',
       'Casa de Vila'], dtype=object)

### Checando valores NaN/Null
Note que temos muitos registros que possuem valores null para algumas colunas/atributos.
Veja o 'Condomínio' e 'IPTU'.

<br/>
Para checar se temos valores _'null'_ no DataFrame, basta usarmos o método `isnull()`.

In [47]:
dataset_residencial.isnull()

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,True,True
2,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,True
4,False,False,False,False,False,False,False,True,True
...,...,...,...,...,...,...,...,...,...
22575,False,False,False,False,False,False,False,False,False
22576,False,False,False,False,False,False,False,False,False
22577,False,False,False,False,False,False,False,False,False
22578,False,False,False,False,False,False,False,False,False


<br/>
Para checar se **não** temos valores _'null'_ no DataFrame, basta usarmos o método `notnull()`

In [48]:
dataset_residencial.notnull()

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,True,True,True,True,True,True,True,True,True
1,True,True,True,True,True,True,True,False,False
2,True,True,True,True,True,True,True,True,True
3,True,True,True,True,True,True,True,True,False
4,True,True,True,True,True,True,True,False,False
...,...,...,...,...,...,...,...,...,...
22575,True,True,True,True,True,True,True,True,True
22576,True,True,True,True,True,True,True,True,True
22577,True,True,True,True,True,True,True,True,True
22578,True,True,True,True,True,True,True,True,True


Conseguimos checar quantos valores _non-null_ temos para cada coluna/atributo do DataFrame, basta usarmos o `info()`

In [49]:
dataset_residencial

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
2,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
3,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,
4,Apartamento,Vista Alegre,3,1,0,70,1200.0,,
...,...,...,...,...,...,...,...,...,...
22575,Apartamento,Méier,2,0,0,70,900.0,490.0,48.0
22576,Quitinete,Centro,0,0,0,27,800.0,350.0,25.0
22577,Apartamento,Jacarepaguá,3,1,2,78,1800.0,800.0,40.0
22578,Apartamento,São Francisco Xavier,2,1,0,48,1400.0,509.0,37.0


In [50]:
dataset_residencial.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 22580 entries, 0 to 22579
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Tipo        22580 non-null  object 
 1   Bairro      22580 non-null  object 
 2   Quartos     22580 non-null  int64  
 3   Vagas       22580 non-null  int64  
 4   Suites      22580 non-null  int64  
 5   Area        22580 non-null  int64  
 6   Valor       22571 non-null  float64
 7   Condominio  20765 non-null  float64
 8   IPTU        15795 non-null  float64
dtypes: float64(3), int64(4), object(2)
memory usage: 1.6+ MB


Para este caso, sabemos que nosso DataFrame tem _22580_ registros. Note que as colunas 'Valor', 'Condomínio', 'IPTU' não possuem _22580_ valores _non-null_.

Para selecionar todos os registros de uma coluna específica que possui valor _null_:

In [51]:
selecao = dataset_residencial['Valor'].isnull()
selecao

0        False
1        False
2        False
3        False
4        False
         ...  
22575    False
22576    False
22577    False
22578    False
22579    False
Name: Valor, Length: 22580, dtype: bool

In [52]:
dataset_residencial.loc[selecao]

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
58,Apartamento,Barra da Tijuca,2,1,1,70,,970.0,68.0
1492,Apartamento,Leme,2,0,0,75,,878.0,
1683,Casa,Campo Grande,3,4,3,363,,,
2012,Apartamento,Botafogo,2,0,0,95,,1010.0,170.0
2034,Apartamento,Copacabana,2,0,0,72,,850.0,
4941,Casa,Campo Grande,3,2,1,100,,,
8568,Apartamento,Leme,2,0,1,75,,878.0,
8947,Apartamento,Glória,3,0,1,135,,910.0,228.0
9149,Apartamento,Gávea,3,1,1,105,,880.0,221.0


### Tratando Valores Faltantes (NaN) para o Atributo 'Valor'
Em um primeiro momento, podemos não estar interessados em imóveis com valor Null (na verdade, NaN = Not a Number). Pode ser que estes são imóveis novos, que ainda não foi definido o preço, ou algo assim.

Então, por ora, vamos eliminar esses registros de nosso dataset ==> `dropna()`

In [53]:
print(f'Número de registros antes da remoção de registros com a coluna Valor com valor Na: {dataset_residencial.shape[0]}')

Número de registros antes da remoção de registros com a coluna Valor com valor Na: 22580


In [54]:
dataset_residencial.dropna(subset=['Valor'])

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
2,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
3,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,
4,Apartamento,Vista Alegre,3,1,0,70,1200.0,,
...,...,...,...,...,...,...,...,...,...
22575,Apartamento,Méier,2,0,0,70,900.0,490.0,48.0
22576,Quitinete,Centro,0,0,0,27,800.0,350.0,25.0
22577,Apartamento,Jacarepaguá,3,1,2,78,1800.0,800.0,40.0
22578,Apartamento,São Francisco Xavier,2,1,0,48,1400.0,509.0,37.0


Sem o parâmetro `inplace=True`, o próprio DataFrame não é alterado

In [55]:
dataset_residencial

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
2,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
3,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,
4,Apartamento,Vista Alegre,3,1,0,70,1200.0,,
...,...,...,...,...,...,...,...,...,...
22575,Apartamento,Méier,2,0,0,70,900.0,490.0,48.0
22576,Quitinete,Centro,0,0,0,27,800.0,350.0,25.0
22577,Apartamento,Jacarepaguá,3,1,2,78,1800.0,800.0,40.0
22578,Apartamento,São Francisco Xavier,2,1,0,48,1400.0,509.0,37.0


In [56]:
dataset_residencial.dropna(subset=['Valor'], inplace=True)
dataset_residencial.shape

(22571, 9)

In [57]:
dataset_residencial['Valor'].isnull().unique()

array([False])

### Tratando Dados Faltantes para o Condomínio
Vamos assumir o seguinte:
- Todo o apartamento deve possuir um valor de condomínio associado. Se não tiver, remova-os da base;
- Casas podem ou não possuir um valor para o condomínio. Se não tiver, coloque 0 no lugar.
- IPTUs faltantes devem ser preenchidos com 0

In [58]:
selecao = (dataset_residencial['Tipo'] == 'Apartamento') & (dataset_residencial['Condominio'].isnull())
selecao

0        False
1        False
2        False
3        False
4         True
         ...  
22575    False
22576    False
22577    False
22578    False
22579    False
Length: 22571, dtype: bool

In [59]:
# O que queremos é eliminar os dados cuja seleção é verdade, ou seja, queremos selecionar todos os dados onde a seleção é falsa
dataset_residencial[~selecao]  # para negar a Series de boolean, usamos o ~
# isso retornará todos imóveis residenciais, excluindo os apartamentos com 'Condomínio' sem valor

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
2,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
3,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,
5,Apartamento,Cachambi,2,0,0,50,1300.0,301.0,17.0
...,...,...,...,...,...,...,...,...,...
22575,Apartamento,Méier,2,0,0,70,900.0,490.0,48.0
22576,Quitinete,Centro,0,0,0,27,800.0,350.0,25.0
22577,Apartamento,Jacarepaguá,3,1,2,78,1800.0,800.0,40.0
22578,Apartamento,São Francisco Xavier,2,1,0,48,1400.0,509.0,37.0


In [60]:
dataset_residencial = dataset_residencial[~selecao]
dataset_residencial

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
2,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
3,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,
5,Apartamento,Cachambi,2,0,0,50,1300.0,301.0,17.0
...,...,...,...,...,...,...,...,...,...
22575,Apartamento,Méier,2,0,0,70,900.0,490.0,48.0
22576,Quitinete,Centro,0,0,0,27,800.0,350.0,25.0
22577,Apartamento,Jacarepaguá,3,1,2,78,1800.0,800.0,40.0
22578,Apartamento,São Francisco Xavier,2,1,0,48,1400.0,509.0,37.0


In [61]:
dataset_residencial.query('Tipo == "Apartamento"')['Condominio'].isnull().unique()

array([False])

#### Preenchendo valores NaN com um dado valor

In [62]:
dataset_residencial.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21826 entries, 0 to 22579
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Tipo        21826 non-null  object 
 1   Bairro      21826 non-null  object 
 2   Quartos     21826 non-null  int64  
 3   Vagas       21826 non-null  int64  
 4   Suites      21826 non-null  int64  
 5   Area        21826 non-null  int64  
 6   Valor       21826 non-null  float64
 7   Condominio  20758 non-null  float64
 8   IPTU        15685 non-null  float64
dtypes: float64(3), int64(4), object(2)
memory usage: 1.7+ MB


In [63]:
dataset_residencial

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
2,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
3,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,
5,Apartamento,Cachambi,2,0,0,50,1300.0,301.0,17.0
...,...,...,...,...,...,...,...,...,...
22575,Apartamento,Méier,2,0,0,70,900.0,490.0,48.0
22576,Quitinete,Centro,0,0,0,27,800.0,350.0,25.0
22577,Apartamento,Jacarepaguá,3,1,2,78,1800.0,800.0,40.0
22578,Apartamento,São Francisco Xavier,2,1,0,48,1400.0,509.0,37.0


Perceba que apenas as colunas 'Condomínio' e 'IPTU' não possuem todos os registros com valores _non-null_ (compare o número de registros _non-null_ com o número de registros da tabela).<br/>
Que são justamente os casos que queremos atribuir valores zero no lugar.

In [64]:
# preenche todos os valores NaN da tabela com 0... para alterar a própria tabela, precisamos passar o inplace
dataset_residencial.fillna(value=0)

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,0.0,0.0
2,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
3,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,0.0
5,Apartamento,Cachambi,2,0,0,50,1300.0,301.0,17.0
...,...,...,...,...,...,...,...,...,...
22575,Apartamento,Méier,2,0,0,70,900.0,490.0,48.0
22576,Quitinete,Centro,0,0,0,27,800.0,350.0,25.0
22577,Apartamento,Jacarepaguá,3,1,2,78,1800.0,800.0,40.0
22578,Apartamento,São Francisco Xavier,2,1,0,48,1400.0,509.0,37.0


In [65]:
# podemos especificar quais colunas queremos preencher os valores NaN
dataset_residencial = dataset_residencial.fillna({'Condominio': 0,'IPTU': 0})
dataset_residencial

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,0.0,0.0
2,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
3,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,0.0
5,Apartamento,Cachambi,2,0,0,50,1300.0,301.0,17.0
...,...,...,...,...,...,...,...,...,...
22575,Apartamento,Méier,2,0,0,70,900.0,490.0,48.0
22576,Quitinete,Centro,0,0,0,27,800.0,350.0,25.0
22577,Apartamento,Jacarepaguá,3,1,2,78,1800.0,800.0,40.0
22578,Apartamento,São Francisco Xavier,2,1,0,48,1400.0,509.0,37.0


In [70]:
selecao = dataset_residencial['Condominio'].isnull() 
dataset_residencial.loc[selecao].shape  # nenhum valor null para 'Condomínio'

(0, 9)

In [72]:
selecao = dataset_residencial['IPTU'].isnull() 
dataset_residencial.loc[selecao].shape  # nenhum valor null para 'IPTU'

(0, 9)

### Salvando o dataset pré-processado

In [75]:
dataset_residencial.head()

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,0.0,0.0
2,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
3,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,0.0
5,Apartamento,Cachambi,2,0,0,50,1300.0,301.0,17.0


In [78]:
num_linhas = dataset_residencial.shape[0]
num_linhas

21826

In [81]:
# consertando os índices do DataFrame filtrado/preprocessado
dataset_residencial.index = range(num_linhas)
dataset_residencial

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,0.0,0.0
2,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
3,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,0.0
4,Apartamento,Cachambi,2,0,0,50,1300.0,301.0,17.0
...,...,...,...,...,...,...,...,...,...
21821,Apartamento,Méier,2,0,0,70,900.0,490.0,48.0
21822,Quitinete,Centro,0,0,0,27,800.0,350.0,25.0
21823,Apartamento,Jacarepaguá,3,1,2,78,1800.0,800.0,40.0
21824,Apartamento,São Francisco Xavier,2,1,0,48,1400.0,509.0,37.0


In [82]:
dataset_residencial.to_csv('datasets/aluguel_residencial_preprocessado.csv', sep = ';', index=False)

### Outros métodos de preenchimento de NaN
Existem alguns casos, como em séries temporais, que não queremos preencher todos os dados com um valor fixo. Pode ser interessante, por exemplo, preencher o valor NaN de um registro com o mesmo valor do registro anterior.

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.fillna.html

In [87]:
tabela = pd.DataFrame({
    'A': [5, None, None, 6, 7, None, None, 9, 10, None, 10],
    'B': [10, 1, 2, None, 8, None, 5, None, 7, None, 3]
})

tabela

Unnamed: 0,A,B
0,5.0,10.0
1,,1.0
2,,2.0
3,6.0,
4,7.0,8.0
5,,
6,,5.0
7,9.0,
8,10.0,7.0
9,,


#### O que vimos até agora

In [85]:
tabela.fillna(value=999)

Unnamed: 0,A,B
0,5.0,10.0
1,999.0,1.0
2,999.0,2.0
3,6.0,999.0
4,7.0,8.0
5,999.0,999.0
6,999.0,5.0
7,9.0,999.0
8,10.0,7.0
9,999.0,999.0


In [86]:
tabela.fillna({'A': 999, 'B': 777})

Unnamed: 0,A,B
0,5.0,10.0
1,999.0,1.0
2,999.0,2.0
3,6.0,777.0
4,7.0,8.0
5,999.0,777.0
6,999.0,5.0
7,9.0,777.0
8,10.0,7.0
9,999.0,777.0


`ffill`: propaga o último valor válido para os valores NaN (varre preenchendo de cima pra baixo), para cada coluna

In [88]:
tabela

Unnamed: 0,A,B
0,5.0,10.0
1,,1.0
2,,2.0
3,6.0,
4,7.0,8.0
5,,
6,,5.0
7,9.0,
8,10.0,7.0
9,,


In [89]:
tabela.fillna(method='ffill')

Unnamed: 0,A,B
0,5.0,10.0
1,5.0,1.0
2,5.0,2.0
3,6.0,2.0
4,7.0,8.0
5,7.0,8.0
6,7.0,5.0
7,9.0,5.0
8,10.0,7.0
9,10.0,7.0


Podemos ter vários registros consecutivos com valores NaN. Para não repetir o mesmo valor para eles, podemos forçar um limite de preenchimento para o `ffill`:

In [90]:
tabela

Unnamed: 0,A,B
0,5.0,10.0
1,,1.0
2,,2.0
3,6.0,
4,7.0,8.0
5,,
6,,5.0
7,9.0,
8,10.0,7.0
9,,


In [93]:
# permite propagar o valor do último registro válido apenas para 1 valor NaN consecutivo
tabela.fillna(method='ffill', limit=1)

Unnamed: 0,A,B
0,5.0,10.0
1,5.0,1.0
2,,2.0
3,6.0,2.0
4,7.0,8.0
5,7.0,8.0
6,,5.0
7,9.0,5.0
8,10.0,7.0
9,10.0,7.0


`bfill`: preenche os dados NaN, copiando o primeiro valor válido de registros posteriores (varre preenchendo de baixo pra cima), por coluna

In [95]:
print(tabela)
print()
print(tabela.fillna(method='bfill'))

       A     B
0    5.0  10.0
1    NaN   1.0
2    NaN   2.0
3    6.0   NaN
4    7.0   8.0
5    NaN   NaN
6    NaN   5.0
7    9.0   NaN
8   10.0   7.0
9    NaN   NaN
10  10.0   3.0

       A     B
0    5.0  10.0
1    6.0   1.0
2    6.0   2.0
3    6.0   8.0
4    7.0   8.0
5    9.0   5.0
6    9.0   5.0
7    9.0   7.0
8   10.0   7.0
9   10.0   3.0
10  10.0   3.0


In [96]:
# Poderíamos preencher o primeiro valor NaN com o último anterior valido (de cima para baixo),
# e depois os restantes, com o próximo válido (de baixo para cima)
print(tabela)
tabela_filled = tabela.fillna(method='ffill', limit=1)
print(tabela_filled)
tabela_filled = tabela_filled.fillna(method='bfill', limit=1)
print(tabela_filled)

       A     B
0    5.0  10.0
1    NaN   1.0
2    NaN   2.0
3    6.0   NaN
4    7.0   8.0
5    NaN   NaN
6    NaN   5.0
7    9.0   NaN
8   10.0   7.0
9    NaN   NaN
10  10.0   3.0
       A     B
0    5.0  10.0
1    5.0   1.0
2    NaN   2.0
3    6.0   2.0
4    7.0   8.0
5    7.0   8.0
6    NaN   5.0
7    9.0   5.0
8   10.0   7.0
9   10.0   7.0
10  10.0   3.0
       A     B
0    5.0  10.0
1    5.0   1.0
2    6.0   2.0
3    6.0   2.0
4    7.0   8.0
5    7.0   8.0
6    9.0   5.0
7    9.0   5.0
8   10.0   7.0
9   10.0   7.0
10  10.0   3.0


Outra forma **bem comum** é preencher os dados faltantes com a *média da coluna*:

In [99]:
print(tabela)
print()
print(tabela.mean())

       A     B
0    5.0  10.0
1    NaN   1.0
2    NaN   2.0
3    6.0   NaN
4    7.0   8.0
5    NaN   NaN
6    NaN   5.0
7    9.0   NaN
8   10.0   7.0
9    NaN   NaN
10  10.0   3.0

A    7.833333
B    5.142857
dtype: float64


In [100]:
print(tabela)
print()
print(tabela.fillna(tabela.mean()))

       A     B
0    5.0  10.0
1    NaN   1.0
2    NaN   2.0
3    6.0   NaN
4    7.0   8.0
5    NaN   NaN
6    NaN   5.0
7    9.0   NaN
8   10.0   7.0
9    NaN   NaN
10  10.0   3.0

            A          B
0    5.000000  10.000000
1    7.833333   1.000000
2    7.833333   2.000000
3    6.000000   5.142857
4    7.000000   8.000000
5    7.833333   5.142857
6    7.833333   5.000000
7    9.000000   5.142857
8   10.000000   7.000000
9    7.833333   5.142857
10  10.000000   3.000000


<br/>
**OBS**: Estes _métodos de preenchimento_ de dados é chamado **interpolador (_interpolator_)**. Dependendo de sua distribuição de dados e problema, pode ser que seja necessário projetar/criar um interpolador _específico_ para seus dados.