# Relatório de Análise V

Neste quinto relatório, nosso objetivo consistirá em tratar os valores faltantes de nossa base de dados.

## Tratando os Valores Faltantes

In [1]:
# Importa o pandas com o apelido pd
import pandas as pd

# Importa o módulo os
import os

# Muda para o diretório com os dados
os.chdir('dados')

# Importa o CSV com os dados de imóveis residenciais
imoveis = pd.read_csv('imoveis-residenciais.csv', sep=';')

# Exibe as cinco primeiras linhas do dataframe
imoveis.head()

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
2,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
3,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,
4,Apartamento,Vista Alegre,3,1,0,70,1200.0,,


In [2]:
# Cria uma série booleana
# Se o valor do aluguel estiver presente, retorna False
# Se o valor do aluguel não estiver presente, retorna True
imoveis['Valor'].isnull()

0        False
1        False
2        False
3        False
4        False
         ...  
22575    False
22576    False
22577    False
22578    False
22579    False
Name: Valor, Length: 22580, dtype: bool

In [3]:
# Obtém o número de imóveis sem o valor do aluguel
imoveis['Valor'].isnull().sum()

9

In [4]:
# Seleciona todos os registros em que o valor do aluguel está faltando
imoveis[imoveis['Valor'].isnull()]

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
58,Apartamento,Barra da Tijuca,2,1,1,70,,970.0,68.0
1492,Apartamento,Leme,2,0,0,75,,878.0,
1683,Casa,Campo Grande,3,4,3,363,,,
2012,Apartamento,Botafogo,2,0,0,95,,1010.0,170.0
2034,Apartamento,Copacabana,2,0,0,72,,850.0,
4941,Casa,Campo Grande,3,2,1,100,,,
8568,Apartamento,Leme,2,0,1,75,,878.0,
8947,Apartamento,Glória,3,0,1,135,,910.0,228.0
9149,Apartamento,Gávea,3,1,1,105,,880.0,221.0


In [5]:
# Obtém um resumo do dataframe
imoveis.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 22580 entries, 0 to 22579
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Tipo        22580 non-null  object 
 1   Bairro      22580 non-null  object 
 2   Quartos     22580 non-null  int64  
 3   Vagas       22580 non-null  int64  
 4   Suites      22580 non-null  int64  
 5   Area        22580 non-null  int64  
 6   Valor       22571 non-null  float64
 7   Condominio  20765 non-null  float64
 8   IPTU        15795 non-null  float64
dtypes: float64(3), int64(4), object(2)
memory usage: 1.6+ MB


Com este resumo, notamos que a coluna de valor do aluguel possui 9 registros nulos.

In [6]:
# Armazena o número de linhas do dataframe
a = imoveis.shape[0]

# Remove as linhas em que há valores nulos na coluna Valor
imoveis.dropna(subset=['Valor'], inplace=True)

# Armazena o número de linhas do dataframe após a remoção de registros nulos
b = imoveis.shape[0]

# Exibe o número de linhas eliminadas
a - b

9

Os imóveis classificados como 'Apartamento' devem obrigatoriamente possuir o valor de seu condomínio informado. Portanto, vamos remover todos os apartamentos em que o condomínio não foi informado:

In [7]:
# Filtro para selecionar os apartamentos com valores de condomínio nulos
filtro = (imoveis['Tipo'] == 'Apartamento') & (imoveis['Condominio'].isnull())

In [8]:
# Número de imóveis antes de eliminar registros
a = imoveis.shape[0]

# Seleciona todos os imóveis que não são do tipo apartamento ou os apartamentos que possuem valor de condomínio informado
imoveis = imoveis[~filtro]

# Número de imóveis depois de eliminar registros
b = imoveis.shape[0]

# Número de registros eliminados
a - b

745

In [9]:
# Exibe o número de imóveis cujo condomínio é nulo
imoveis[imoveis['Condominio'].isnull()].shape[0]

1068

Para estes imóveis com condomínio nulo, vamos atribuir o valor 0 já que de fato não possuem condomínio:

In [10]:
imoveis = imoveis.fillna({'Condominio': 0, 'IPTU': 0})

In [11]:
# imoveis['Condominio'].fillna(0, inplace=True)
# imoveis['IPTU'].fillna(0, inplace=True)

In [12]:
# Número de imóveis com condomínio nulo
imoveis[imoveis['Condominio'].isnull()].shape[0]

0

In [13]:
# Número de imóveis com IPTU nulo
imoveis[imoveis['IPTU'].isnull()].shape[0]

0

In [14]:
imoveis.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21826 entries, 0 to 22579
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Tipo        21826 non-null  object 
 1   Bairro      21826 non-null  object 
 2   Quartos     21826 non-null  int64  
 3   Vagas       21826 non-null  int64  
 4   Suites      21826 non-null  int64  
 5   Area        21826 non-null  int64  
 6   Valor       21826 non-null  float64
 7   Condominio  21826 non-null  float64
 8   IPTU        21826 non-null  float64
dtypes: float64(3), int64(4), object(2)
memory usage: 1.7+ MB


Agora, notamos que não há mais registros com dados nulos em nossa base de dados. Podemos, pois, exportar esta base para análises posteriores.

In [15]:
imoveis.to_csv('imoveis-residenciais.csv', sep=';', index=False)