# Relatório de Analise V

## Tratamento de Dados Faltantes

In [1]:
import pandas as pd
dados = pd.read_csv('dados/aluguel_residencial.csv', sep=';')
dados.head()

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
2,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
3,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,
4,Apartamento,Vista Alegre,3,1,0,70,1200.0,,


##### Visualizando dados nulos

In [2]:
#Estes método mostra no próprio dataframe, colocando True or False onde o valor é faltante
#Porém neste caso não é muito util, pois o nosso dataframe é muito grande e olhar a olho nu não é produtivo.
dados.isnull()
dados.notnull()

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,True,True,True,True,True,True,True,True,True
1,True,True,True,True,True,True,True,False,False
2,True,True,True,True,True,True,True,True,True
3,True,True,True,True,True,True,True,True,False
4,True,True,True,True,True,True,True,False,False
...,...,...,...,...,...,...,...,...,...
23117,True,True,True,True,True,True,True,True,True
23118,True,True,True,True,True,True,True,True,True
23119,True,True,True,True,True,True,True,True,True
23120,True,True,True,True,True,True,True,True,True


In [3]:
#traz as informações do dataset, e nele é possível ver quantos valores estão como nulos
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 23122 entries, 0 to 23121
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Tipo        23122 non-null  object 
 1   Bairro      23122 non-null  object 
 2   Quartos     23122 non-null  int64  
 3   Vagas       23122 non-null  int64  
 4   Suites      23122 non-null  int64  
 5   Area        23122 non-null  int64  
 6   Valor       23113 non-null  float64
 7   Condominio  21246 non-null  float64
 8   IPTU        16237 non-null  float64
dtypes: float64(3), int64(4), object(2)
memory usage: 1.6+ MB


In [4]:
#EM VALOR possuimos somente 9 valores nulos
dados[dados['Valor'].isnull()]

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
60,Apartamento,Barra da Tijuca,2,1,1,70,,970.0,68.0
1525,Apartamento,Leme,2,0,0,75,,878.0,
1719,Casa,Campo Grande,3,4,3,363,,,
2056,Apartamento,Botafogo,2,0,0,95,,1010.0,170.0
2078,Apartamento,Copacabana,2,0,0,72,,850.0,
5063,Casa,Campo Grande,3,2,1,100,,,
8783,Apartamento,Leme,2,0,1,75,,878.0,
9172,Apartamento,Glória,3,0,1,135,,910.0,228.0
9377,Apartamento,Gávea,3,1,1,105,,880.0,221.0


In [5]:
#eliminando os nove valores nulos, já que por se tratar de uma pequena quantidade de dados não vai impactar no nosso target.
dados.dropna(subset=['Valor'], inplace = True)
dados.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 23113 entries, 0 to 23121
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Tipo        23113 non-null  object 
 1   Bairro      23113 non-null  object 
 2   Quartos     23113 non-null  int64  
 3   Vagas       23113 non-null  int64  
 4   Suites      23113 non-null  int64  
 5   Area        23113 non-null  int64  
 6   Valor       23113 non-null  float64
 7   Condominio  21239 non-null  float64
 8   IPTU        16233 non-null  float64
dtypes: float64(3), int64(4), object(2)
memory usage: 1.8+ MB


In [6]:
dados[dados['Condominio'].isnull()].shape[0]

1874

In [7]:
dados[(dados['Tipo'] == 'Apartamento') & (dados['Condominio'].isnull())].shape[0]

745

In [8]:
#vou eliminar esses 745 registros onde ele seja do tipo apartamento e condominio esta nulo
selecao = dados[(dados['Tipo'] == 'Apartamento') & (dados['Condominio'].isnull())].index
a = dados.shape[0]
dados = dados.drop(selecao)
b = dados.shape[0]
a - b

745

In [10]:
dados[dados['Condominio'].isnull()].shape[0]

1129

In [11]:
dados = dados.fillna({'Condominio': 0, 'IPTU': 0})

In [12]:
dados[dados['Condominio'].isnull()].shape[0]

0

In [13]:
dados[dados['IPTU'].isnull()].shape[0]

0

In [14]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 22368 entries, 0 to 23121
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Tipo        22368 non-null  object 
 1   Bairro      22368 non-null  object 
 2   Quartos     22368 non-null  int64  
 3   Vagas       22368 non-null  int64  
 4   Suites      22368 non-null  int64  
 5   Area        22368 non-null  int64  
 6   Valor       22368 non-null  float64
 7   Condominio  22368 non-null  float64
 8   IPTU        22368 non-null  float64
dtypes: float64(3), int64(4), object(2)
memory usage: 1.7+ MB


In [15]:
dados.to_csv('dados/aluguel_residencial.csv', sep=';', index=False)