# Relatório de Análise  V
## Tratamento de Dados Faltantes 

In [16]:
import pandas as pd

dados = pd.read_csv('dados/aluguel_residencial.csv', sep = ';')
dados.head(10)

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,0.0,0.0
2,Conjunto Comercial/Sala,Barra da Tijuca,0,4,0,150,5200.0,4020.0,1111.0
3,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
4,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,0.0
5,Apartamento,Cachambi,2,0,0,50,1300.0,301.0,17.0
6,Casa de Condomínio,Barra da Tijuca,5,4,5,750,22000.0,0.0,0.0
7,Casa de Condomínio,Ramos,2,2,0,65,1000.0,0.0,0.0
8,Conjunto Comercial/Sala,Centro,0,3,0,695,35000.0,19193.0,3030.0
9,Apartamento,Grajaú,2,1,0,70,1500.0,642.0,74.0


In [17]:
# condomínio e IPTU têm dados faltantes. 
# métodos para realizar a seleção necessária: isnull() e notnull()

# MÉTODO isnull()
# isnull() gera um DataFrame booleano (True/False)
# True: dado faltando (missing)

dados.isnull()


Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...
28631,False,False,False,False,False,False,False,False,False
28632,False,False,False,False,False,False,False,False,False
28633,False,False,False,False,False,False,False,False,False
28634,False,False,False,False,False,False,False,False,False


In [18]:
# MÉTODO notnull()
# Funciona de maneira inversa ao isnull()
# False aparece quando o dado está faltando

dados.notnull()


Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,True,True,True,True,True,True,True,True,True
1,True,True,True,True,True,True,True,True,True
2,True,True,True,True,True,True,True,True,True
3,True,True,True,True,True,True,True,True,True
4,True,True,True,True,True,True,True,True,True
...,...,...,...,...,...,...,...,...,...
28631,True,True,True,True,True,True,True,True,True
28632,True,True,True,True,True,True,True,True,True
28633,True,True,True,True,True,True,True,True,True
28634,True,True,True,True,True,True,True,True,True


In [19]:
# não tem como analisar integralmente ainda, assim, vamos usar o dados.info()

dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 28636 entries, 0 to 28635
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Tipo        28636 non-null  object 
 1   Bairro      28636 non-null  object 
 2   Quartos     28636 non-null  int64  
 3   Vagas       28636 non-null  int64  
 4   Suites      28636 non-null  int64  
 5   Area        28636 non-null  int64  
 6   Valor       28636 non-null  float64
 7   Condominio  28636 non-null  float64
 8   IPTU        28636 non-null  float64
dtypes: float64(3), int64(4), object(2)
memory usage: 2.0+ MB


In [20]:
# para apresentar as variáveis com dados faltantes: 

dados['Valor'].isnull()

0        False
1        False
2        False
3        False
4        False
         ...  
28631    False
28632    False
28633    False
28634    False
28635    False
Name: Valor, Length: 28636, dtype: bool

In [21]:
dados[dados['Valor'].isnull()]

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU


In [22]:
# método para eliminar dados nulos: dropna()

A = dados.shape[0]
dados.dropna(subset = ['Valor'], inplace = True)
B = dados.shape[0]
A - B

0

In [23]:
# verificação de quantas assinaturas nulas há em condomínio:

dados[dados['Condominio'].isnull()].shape[0]

0

In [24]:
# filtragem de dados de acordo com o tipo Apartamento

selecao = (dados['Tipo'] == 'Apartamento') & (dados['Condominio'].isnull())

A = dados.shape[0]
dados = dados[~selecao]
B = dados.shape[0]
A - B

0

In [25]:
# verificação de quantas assinaturas nulas há em condomínio agora:

dados[dados['Condominio'].isnull()].shape[0]

0

In [26]:
# filtragem de dados de acordo do tipo Apartamento com Condomino nulo:

selecao = (dados['Tipo'] == 'Apartamento') & (dados['Condominio'].isnull())

In [27]:
# manter os dados, mas atribuir valor 0 a eles:

dados.fillna(0, inplace = True)

In [28]:
# dicionário: outra maneira de resolver a questão
# o dicionário irá indicar os valores das variáveis

dados = dados.fillna({'Condominio': 0, 'IPTU': 0})

In [29]:
# verificação: 

dados.info() 

<class 'pandas.core.frame.DataFrame'>
Int64Index: 28636 entries, 0 to 28635
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Tipo        28636 non-null  object 
 1   Bairro      28636 non-null  object 
 2   Quartos     28636 non-null  int64  
 3   Vagas       28636 non-null  int64  
 4   Suites      28636 non-null  int64  
 5   Area        28636 non-null  int64  
 6   Valor       28636 non-null  float64
 7   Condominio  28636 non-null  float64
 8   IPTU        28636 non-null  float64
dtypes: float64(3), int64(4), object(2)
memory usage: 2.2+ MB


In [30]:
# atualizando o novo csv:

dados.to_csv('dados/aluguel_residencial.csv', sep = ';', index = False)