# Relatório de Análise V
## Tratamento de dados faltantes
### Preparando o ambiente

In [1]:
import pandas as pd

In [2]:
alugueis_residenciais = pd.read_csv('dados/alugueis_residenciais.csv', sep = ';')
alugueis_residenciais.sample(10)

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
6949,Apartamento,Recreio dos Bandeirantes,3,2,0,133,2190.0,1004.0,
6087,Apartamento,Estácio,2,1,0,72,1300.0,790.0,
13502,Quitinete,Leblon,1,0,0,26,2800.0,600.0,30.0
3248,Apartamento,Cachambi,1,1,0,48,750.0,250.0,
3184,Apartamento,Méier,3,0,0,100,1500.0,100.0,
18442,Apartamento,Copacabana,3,1,0,140,3700.0,1350.0,329.0
22908,Casa de Condomínio,Copacabana,2,1,1,80,3000.0,50.0,
3493,Apartamento,Barra da Tijuca,3,3,1,230,16500.0,,
4640,Apartamento,Méier,2,0,0,92,1400.0,520.0,123.0
19113,Apartamento,Portuguesa,2,1,0,48,1000.0,337.0,


### Executando o tratamento de dados

In [3]:
# Retorna um DataFrame booleano para cada valor, se é nulo ou não
alugueis_residenciais.isnull()

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,True,True
2,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,True
4,False,False,False,False,False,False,False,True,True
...,...,...,...,...,...,...,...,...,...
23102,False,False,False,False,False,False,False,False,False
23103,False,False,False,False,False,False,False,False,False
23104,False,False,False,False,False,False,False,False,False
23105,False,False,False,False,False,False,False,False,False


In [4]:
# Retorna um DataFrame inverso do anterior
alugueis_residenciais.notnull()

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,True,True,True,True,True,True,True,True,True
1,True,True,True,True,True,True,True,False,False
2,True,True,True,True,True,True,True,True,True
3,True,True,True,True,True,True,True,True,False
4,True,True,True,True,True,True,True,False,False
...,...,...,...,...,...,...,...,...,...
23102,True,True,True,True,True,True,True,True,True
23103,True,True,True,True,True,True,True,True,True
23104,True,True,True,True,True,True,True,True,True
23105,True,True,True,True,True,True,True,True,True


In [5]:
# Registros totais vs Registros não-nulos
alugueis_residenciais.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 23107 entries, 0 to 23106
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Tipo        23107 non-null  object 
 1   Bairro      23107 non-null  object 
 2   Quartos     23107 non-null  int64  
 3   Vagas       23107 non-null  int64  
 4   Suites      23107 non-null  int64  
 5   Area        23107 non-null  int64  
 6   Valor       23098 non-null  float64
 7   Condominio  21244 non-null  float64
 8   IPTU        16228 non-null  float64
dtypes: float64(3), int64(4), object(2)
memory usage: 1.6+ MB


In [6]:
ar_valor_nulo = alugueis_residenciais[alugueis_residenciais.Valor.isnull()]
ar_valor_nulo

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
60,Apartamento,Barra da Tijuca,2,1,1,70,,970.0,68.0
1524,Apartamento,Leme,2,0,0,75,,878.0,
1718,Casa,Campo Grande,3,4,3,363,,,
2055,Apartamento,Botafogo,2,0,0,95,,1010.0,170.0
2077,Apartamento,Copacabana,2,0,0,72,,850.0,
5059,Casa,Campo Grande,3,2,1,100,,,
8777,Apartamento,Leme,2,0,1,75,,878.0,
9166,Apartamento,Glória,3,0,1,135,,910.0,228.0
9371,Apartamento,Gávea,3,1,1,105,,880.0,221.0


In [7]:
# No caso da coluna valor, os registros sem esta coluna preenchida não são válidos para nosso conjunto de dados
shape_inicial = alugueis_residenciais.shape[0]
alugueis_residenciais.dropna(subset = ['Valor'], inplace = True)
shape_final = alugueis_residenciais.shape[0]

print(f'Valores removidos: {shape_inicial - shape_final}')

Valores removidos: 9


In [8]:
# Não retorna mais dados
ar_valor_nulo = alugueis_residenciais[alugueis_residenciais.Valor.isnull()]
ar_valor_nulo

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU


### Tratamento condicional

In [9]:
alugueis_residenciais[alugueis_residenciais['Condominio'].isnull()]

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
4,Apartamento,Vista Alegre,3,1,0,70,1200.0,,
6,Casa de Condomínio,Barra da Tijuca,5,4,5,750,22000.0,,
7,Casa de Condomínio,Ramos,2,2,0,65,1000.0,,
8,Apartamento,Centro,1,0,0,36,1200.0,,
...,...,...,...,...,...,...,...,...,...
23037,Casa,Campo Grande,1,0,0,50,600.0,,
23043,Casa de Vila,Pavuna,2,0,0,55,600.0,,
23062,Casa,Recreio dos Bandeirantes,4,2,2,352,6500.0,,
23074,Casa,Bento Ribeiro,2,1,0,60,1400.0,,


In [10]:
ar_valor_nulo = alugueis_residenciais[alugueis_residenciais.Condominio.isnull()]
ar_valor_nulo

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
4,Apartamento,Vista Alegre,3,1,0,70,1200.0,,
6,Casa de Condomínio,Barra da Tijuca,5,4,5,750,22000.0,,
7,Casa de Condomínio,Ramos,2,2,0,65,1000.0,,
8,Apartamento,Centro,1,0,0,36,1200.0,,
...,...,...,...,...,...,...,...,...,...
23037,Casa,Campo Grande,1,0,0,50,600.0,,
23043,Casa de Vila,Pavuna,2,0,0,55,600.0,,
23062,Casa,Recreio dos Bandeirantes,4,2,2,352,6500.0,,
23074,Casa,Bento Ribeiro,2,1,0,60,1400.0,,


In [11]:
# Alugueis de apartamento com condomínios nulos também devem ser descartados
com_condominio = ["Apartamento", "Casa de Condomínio"]
selecao = (alugueis_residenciais.Tipo.isin(com_condominio)) & (alugueis_residenciais.Condominio.isnull())
alugueis_residenciais[selecao]

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
4,Apartamento,Vista Alegre,3,1,0,70,1200.0,,
6,Casa de Condomínio,Barra da Tijuca,5,4,5,750,22000.0,,
7,Casa de Condomínio,Ramos,2,2,0,65,1000.0,,
8,Apartamento,Centro,1,0,0,36,1200.0,,
15,Casa de Condomínio,Taquara,3,1,1,115,2000.0,,
...,...,...,...,...,...,...,...,...,...
22852,Apartamento,Copacabana,3,0,0,130,4600.0,,
22881,Apartamento,Guadalupe,1,0,0,40,550.0,,
22898,Apartamento,Bonsucesso,1,0,0,60,1000.0,,
22928,Apartamento,Flamengo,2,0,0,59,3500.0,,


In [12]:
shape_inicial = alugueis_residenciais.shape[0]
#Inverte a seleção
alugueis_residenciais  = alugueis_residenciais[~selecao]
shape_final = alugueis_residenciais.shape[0]

print(f'Valores removidos: {shape_inicial - shape_final}')

Valores removidos: 840


In [13]:
alugueis_residenciais

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
2,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
3,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,
5,Apartamento,Cachambi,2,0,0,50,1300.0,301.0,17.0
...,...,...,...,...,...,...,...,...,...
23102,Apartamento,Méier,2,0,0,70,900.0,490.0,48.0
23103,Quitinete,Centro,0,0,0,27,800.0,350.0,25.0
23104,Apartamento,Jacarepaguá,3,1,2,78,1800.0,800.0,40.0
23105,Apartamento,São Francisco Xavier,2,1,0,48,1400.0,509.0,37.0


In [14]:
alugueis_residenciais.IPTU.fillna(0, inplace = True)
alugueis_residenciais

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,0.0
2,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
3,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,0.0
5,Apartamento,Cachambi,2,0,0,50,1300.0,301.0,17.0
...,...,...,...,...,...,...,...,...,...
23102,Apartamento,Méier,2,0,0,70,900.0,490.0,48.0
23103,Quitinete,Centro,0,0,0,27,800.0,350.0,25.0
23104,Apartamento,Jacarepaguá,3,1,2,78,1800.0,800.0,40.0
23105,Apartamento,São Francisco Xavier,2,1,0,48,1400.0,509.0,37.0


In [16]:
alugueis_residenciais.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 22258 entries, 0 to 23106
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Tipo        22258 non-null  object 
 1   Bairro      22258 non-null  object 
 2   Quartos     22258 non-null  int64  
 3   Vagas       22258 non-null  int64  
 4   Suites      22258 non-null  int64  
 5   Area        22258 non-null  int64  
 6   Valor       22258 non-null  float64
 7   Condominio  21237 non-null  float64
 8   IPTU        22258 non-null  float64
dtypes: float64(3), int64(4), object(2)
memory usage: 1.7+ MB


In [17]:
# Condomínios nulos são os que não são de imóveis de condomínio. Tratando, então:
alugueis_residenciais.Condominio.fillna(0, inplace = True)
alugueis_residenciais.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 22258 entries, 0 to 23106
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Tipo        22258 non-null  object 
 1   Bairro      22258 non-null  object 
 2   Quartos     22258 non-null  int64  
 3   Vagas       22258 non-null  int64  
 4   Suites      22258 non-null  int64  
 5   Area        22258 non-null  int64  
 6   Valor       22258 non-null  float64
 7   Condominio  22258 non-null  float64
 8   IPTU        22258 non-null  float64
dtypes: float64(3), int64(4), object(2)
memory usage: 1.7+ MB


#### Exportando os dados

In [18]:
alugueis_residenciais.to_csv('dados/alugueis_residenciais_filtrados.csv', sep = ';', index = False)