# Relatório de Análise V

## Tratamento de Dados Faltantes

In [1]:
import pandas as pd # noqa E402

In [2]:
dados = pd.read_csv('../data/aluguel-residencial.csv', sep=';')

In [3]:
dados.head(10)

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
2,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
3,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,
4,Apartamento,Vista Alegre,3,1,0,70,1200.0,,
5,Apartamento,Cachambi,2,0,0,50,1300.0,301.0,17.0
6,Casa de Condomínio,Barra da Tijuca,5,4,5,750,22000.0,,
7,Casa de Condomínio,Ramos,2,2,0,65,1000.0,,
8,Apartamento,Centro,1,0,0,36,1200.0,,
9,Apartamento,Grajaú,2,1,0,70,1500.0,642.0,74.0


Podemos criar uma seleção das linhas que contém valores nulos, usando o método `.isnull()`.

In [4]:
dados.isnull()

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,True,True
2,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,True
4,False,False,False,False,False,False,False,True,True
...,...,...,...,...,...,...,...,...,...
22575,False,False,False,False,False,False,False,False,False
22576,False,False,False,False,False,False,False,False,False
22577,False,False,False,False,False,False,False,False,False
22578,False,False,False,False,False,False,False,False,False


Para selecionar linhas que contém valores **não** nulos, usamos o método `.notnull()`.

In [5]:
dados.notnull()

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,True,True,True,True,True,True,True,True,True
1,True,True,True,True,True,True,True,False,False
2,True,True,True,True,True,True,True,True,True
3,True,True,True,True,True,True,True,True,False
4,True,True,True,True,True,True,True,False,False
...,...,...,...,...,...,...,...,...,...
22575,True,True,True,True,True,True,True,True,True
22576,True,True,True,True,True,True,True,True,True
22577,True,True,True,True,True,True,True,True,True
22578,True,True,True,True,True,True,True,True,True


Com as informações mostradas pelo método `.info()`, podemos ver quais colunas
contém valores nulos.


In [6]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 22580 entries, 0 to 22579
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Tipo        22580 non-null  object 
 1   Bairro      22580 non-null  object 
 2   Quartos     22580 non-null  int64  
 3   Vagas       22580 non-null  int64  
 4   Suites      22580 non-null  int64  
 5   Area        22580 non-null  int64  
 6   Valor       22571 non-null  float64
 7   Condominio  20765 non-null  float64
 8   IPTU        15795 non-null  float64
dtypes: float64(3), int64(4), object(2)
memory usage: 1.6+ MB


In [7]:
dados[dados['Valor'].isnull()]

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
58,Apartamento,Barra da Tijuca,2,1,1,70,,970.0,68.0
1492,Apartamento,Leme,2,0,0,75,,878.0,
1683,Casa,Campo Grande,3,4,3,363,,,
2012,Apartamento,Botafogo,2,0,0,95,,1010.0,170.0
2034,Apartamento,Copacabana,2,0,0,72,,850.0,
4941,Casa,Campo Grande,3,2,1,100,,,
8568,Apartamento,Leme,2,0,1,75,,878.0,
8947,Apartamento,Glória,3,0,1,135,,910.0,228.0
9149,Apartamento,Gávea,3,1,1,105,,880.0,221.0


Podemos eliminar as linhas com valores nulos usando o método `.dropna()`

In [8]:
tamanho_inicial = dados.shape[0]
dados.dropna(subset=['Valor'], inplace=True)
tamanho_final = dados.shape[0]
print(f'Tamanho antes de eliminar os nulos: {tamanho_inicial}')
print(f'Tamanho depois de eliminar os nulos: {tamanho_final}')
print(f'Total de registros eliminados: {tamanho_inicial - tamanho_final}')

Tamanho antes de eliminar os nulos: 22580
Tamanho depois de eliminar os nulos: 22571
Total de registros eliminados: 9


In [9]:
dados[dados['Valor'].isnull()]

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU


## Tratamento de Dados Faltantes (continuação)

Problema: vamos assumir que todo imóvel do tipo 'Apartamento' precisa ter valor de condomínio. Dessa forma, qualquer registro de apartamento sem condomínio deve ser excluído do `DataFrame`.

In [10]:
dados[dados['Condominio'].isnull()].shape[0]

1813

Criamos uma seleção que contém os apartamentos cujo condomínio é nulo.

In [11]:
selecao = (dados['Tipo'] == 'Apartamento') & (dados['Condominio'].isnull())

Essa seleção indica os registros que queremos eliminar. Ou seja, o contrário
dessa seleção indica os registros que queremos manter. Podemos usar isso pra 
selecionar apenas os registros que queremos, com o operador de negação 
(`~selecao`).

In [12]:
tamanho_inicial = dados.shape[0]
dados = dados[~selecao]
tamanho_final = dados.shape[0]
print(f'Tamanho antes de eliminar os nulos: {tamanho_inicial}')
print(f'Tamanho depois de eliminar os nulos: {tamanho_final}')
print(f'Total de registros eliminados: {tamanho_inicial - tamanho_final}')

Tamanho antes de eliminar os nulos: 22571
Tamanho depois de eliminar os nulos: 21826
Total de registros eliminados: 745


Nos registros restantes, vamos mudar o campo 'Condominio' de `NaN` para `0`. 
Para isso, nós usamos o método `.fillna()`

In [13]:
dados[dados['Condominio'].isnull()].shape[0]

1068

O método `fillna()` pode receber um dicionário, com as variáveis que devem ter 
seus valores nulos substituídos.

In [14]:
dados = dados.fillna({'Condominio': 0, 'IPTU': 0})

In [15]:
dados[dados['Condominio'].isnull()].shape[0]

0

In [16]:
dados[dados['IPTU'].isnull()].shape[0]

0

In [17]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21826 entries, 0 to 22579
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Tipo        21826 non-null  object 
 1   Bairro      21826 non-null  object 
 2   Quartos     21826 non-null  int64  
 3   Vagas       21826 non-null  int64  
 4   Suites      21826 non-null  int64  
 5   Area        21826 non-null  int64  
 6   Valor       21826 non-null  float64
 7   Condominio  21826 non-null  float64
 8   IPTU        21826 non-null  float64
dtypes: float64(3), int64(4), object(2)
memory usage: 1.7+ MB


In [18]:
dados.to_csv('../data/aluguel-residencial-2.csv', sep=';', index=False)