# Relatório de Análise V

## 06_02 - Tirando Valores Nulos

### Tratamento de Dados Faltantes

In [51]:
import pandas as pd

In [52]:
dados = pd.read_csv('dados/aluguel_residencial.csv', sep=';')
dados.head(10)

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
2,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
3,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,
4,Apartamento,Vista Alegre,3,1,0,70,1200.0,,
5,Apartamento,Cachambi,2,0,0,50,1300.0,301.0,17.0
6,Casa de Condomínio,Barra da Tijuca,5,4,5,750,22000.0,,
7,Casa de Condomínio,Ramos,2,2,0,65,1000.0,,
8,Apartamento,Centro,1,0,0,36,1200.0,,
9,Apartamento,Grajaú,2,1,0,70,1500.0,642.0,74.0


In [53]:
# dados.isnull() - True se o valor é nulo
# dados.notnull() - True se não é nulo

In [54]:
# verificando quais possuem valores nulos
dados.info()  # vimos que Valor, Condominio e IPTU possuem valores nulos

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 22580 entries, 0 to 22579
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Tipo        22580 non-null  object 
 1   Bairro      22580 non-null  object 
 2   Quartos     22580 non-null  int64  
 3   Vagas       22580 non-null  int64  
 4   Suites      22580 non-null  int64  
 5   Area        22580 non-null  int64  
 6   Valor       22571 non-null  float64
 7   Condominio  20765 non-null  float64
 8   IPTU        15795 non-null  float64
dtypes: float64(3), int64(4), object(2)
memory usage: 1.6+ MB


In [55]:
dados['Valor'].isnull()
# cria uma Series com os valores booleanos, True se nulo

0        False
1        False
2        False
3        False
4        False
         ...  
22575    False
22576    False
22577    False
22578    False
22579    False
Name: Valor, Length: 22580, dtype: bool

In [56]:
# Pega somente as linhas onde tem o valor nulo na coluna "Valor"
dados[dados['Valor'].isnull()]

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
58,Apartamento,Barra da Tijuca,2,1,1,70,,970.0,68.0
1492,Apartamento,Leme,2,0,0,75,,878.0,
1683,Casa,Campo Grande,3,4,3,363,,,
2012,Apartamento,Botafogo,2,0,0,95,,1010.0,170.0
2034,Apartamento,Copacabana,2,0,0,72,,850.0,
4941,Casa,Campo Grande,3,2,1,100,,,
8568,Apartamento,Leme,2,0,1,75,,878.0,
8947,Apartamento,Glória,3,0,1,135,,910.0,228.0
9149,Apartamento,Gávea,3,1,1,105,,880.0,221.0


In [57]:
dados.shape[0]

22580

In [58]:
# Apagando as linhas com valor NaN
dados.dropna(subset = ['Valor'], inplace = True)  # dropna = drop NaN. subset = [lista de variáveis que vão ser dropadas]

In [59]:
# Verificando se deu certo
dados[dados['Valor'].isnull()]

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU


In [60]:
# Verificando se foram apagados os 9 registros
dados.shape[0]

22571

## 06_04 - Tratamento Condicional

### Tratamento de Dados Faltantes (continuação)

In [61]:
# Quantos dados de Condomínio estão nulos
dados[dados['Condominio'].isnull()].shape[0]

1813

In [62]:
selecao = (dados['Tipo'] == 'Apartamento') & (dados['Condominio'].isnull())
dados[selecao]

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
4,Apartamento,Vista Alegre,3,1,0,70,1200.0,,
8,Apartamento,Centro,1,0,0,36,1200.0,,
83,Apartamento,Praça Seca,2,0,0,80,1000.0,,
117,Apartamento,Rocha Miranda,2,1,0,50,1100.0,,
133,Apartamento,Barra da Tijuca,1,1,1,65,2350.0,,
...,...,...,...,...,...,...,...,...,...
22328,Apartamento,Copacabana,3,0,0,130,4600.0,,
22356,Apartamento,Guadalupe,1,0,0,40,550.0,,
22373,Apartamento,Bonsucesso,1,0,0,60,1000.0,,
22403,Apartamento,Flamengo,2,0,0,59,3500.0,,


In [63]:
dados.shape[0]

22571

In [64]:
# dados = dados[selecao] -> Dessa forma o DataFrame 'dados' se transforma nese DataFrame exibido na linha acima
dados = dados[~selecao]  # com o '~' a seleção booleana é invertida, 
                         # ou seja 'dados' se transforma no que não foi selecionado em dados[selecao]

In [65]:
# verificando se foram apagados 745 registros
dados.shape[0]

21826

In [66]:
# Preenchendo os valores nulos com '0'
# dados.fillna(0, inplace = True) -> Dessa forma todos valores NaN passam a ser 0
dados = dados.fillna({'Condominio': 0, 'IPTU': 0}) # Dessa forma podemos decidir qual valor será em cada coluna sepadamente

In [73]:
dados[dados['Condominio'].isnull()]
# não a mais valores nulos

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU


In [74]:
dados[dados['IPTU'].isnull()]
# não a mais valores nulos

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU


In [76]:
dados.info()  # não falta nenhum valor 'non-null' nas Variáveis

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21826 entries, 0 to 22579
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Tipo        21826 non-null  object 
 1   Bairro      21826 non-null  object 
 2   Quartos     21826 non-null  int64  
 3   Vagas       21826 non-null  int64  
 4   Suites      21826 non-null  int64  
 5   Area        21826 non-null  int64  
 6   Valor       21826 non-null  float64
 7   Condominio  21826 non-null  float64
 8   IPTU        21826 non-null  float64
dtypes: float64(3), int64(4), object(2)
memory usage: 1.7+ MB


In [77]:
# Exportando
dados.to_csv('dados/aluguel_residencial.csv', sep=';', index=False)