# Relatório de Análise V

## Tratamento de Dados Faltantes

Importando bibliotecas e dados

In [None]:
import pandas as pd

In [None]:
dados = pd.read_csv('dados/aluguel_residencial.csv', sep=';')

In [None]:
dados.head(10)

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
2,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
3,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,
4,Apartamento,Vista Alegre,3,1,0,70,1200.0,,
5,Apartamento,Cachambi,2,0,0,50,1300.0,301.0,17.0
6,Casa de Condomínio,Barra da Tijuca,5,4,5,750,22000.0,,
7,Casa de Condomínio,Ramos,2,2,0,65,1000.0,,
8,Apartamento,Centro,1,0,0,36,1200.0,,
9,Apartamento,Grajaú,2,1,0,70,1500.0,642.0,74.0


Perceberemos rapidamente que as variáveis 'Condominio' e 'IPTU' apresentam dados faltantes, anotados com o termo *NaN*. 
Não podemos analisar o conjunto de dados inteiro a olho nu, precisamos de um método que nos auxilie nessa tarefa.

Possuímos dois métodos que nos ajudam a realizar a seleção que precisamos. 
O primeiro deles é 'isnull()'. Tal método irá gerar um DataFrame booleano, em que a observação marcada como True caracteriza um dado nulo, isto é, um missing.

In [None]:
dados.isnull()

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,True,True
2,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,True
4,False,False,False,False,False,False,False,True,True
...,...,...,...,...,...,...,...,...,...
22575,False,False,False,False,False,False,False,False,False
22576,False,False,False,False,False,False,False,False,False
22577,False,False,False,False,False,False,False,False,False
22578,False,False,False,False,False,False,False,False,False


Temos, ainda, o método 'notnull()', que funciona exatamente da maneira inversa ao 'isnull()': se a informação for nula, será utilizada a notação False.

In [None]:
dados.notnull()

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,True,True,True,True,True,True,True,True,True
1,True,True,True,True,True,True,True,False,False
2,True,True,True,True,True,True,True,True,True
3,True,True,True,True,True,True,True,True,False
4,True,True,True,True,True,True,True,False,False
...,...,...,...,...,...,...,...,...,...
22575,True,True,True,True,True,True,True,True,True
22576,True,True,True,True,True,True,True,True,True
22577,True,True,True,True,True,True,True,True,True
22578,True,True,True,True,True,True,True,True,True


Para analisar os dados integralmente, utilizaremos o método 'info()'.

In [None]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 22580 entries, 0 to 22579
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Tipo        22580 non-null  object 
 1   Bairro      22580 non-null  object 
 2   Quartos     22580 non-null  int64  
 3   Vagas       22580 non-null  int64  
 4   Suites      22580 non-null  int64  
 5   Area        22580 non-null  int64  
 6   Valor       22571 non-null  float64
 7   Condominio  20765 non-null  float64
 8   IPTU        15795 non-null  float64
dtypes: float64(3), int64(4), object(2)
memory usage: 1.6+ MB


Acima, a segunda linha nos mostra a quantidade de registros disponíveis no DataFrame: **22580**.

Para cada variável, também há um número de registros não nulos, isso nos ajuda a identificar os problemas e onde devemos aplicar soluções.

Notamos que 'Valor', 'Condomínio' e 'IPTU' possuem registros nulos.


Iremos observar as variáveis que apresentam dados faltantes.

Usando o 'isnull()' podemos ver registros que tem algum valor nulo.

In [None]:
dados[dados['Valor'].isnull()]

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
58,Apartamento,Barra da Tijuca,2,1,1,70,,970.0,68.0
1492,Apartamento,Leme,2,0,0,75,,878.0,
1683,Casa,Campo Grande,3,4,3,363,,,
2012,Apartamento,Botafogo,2,0,0,95,,1010.0,170.0
2034,Apartamento,Copacabana,2,0,0,72,,850.0,
4941,Casa,Campo Grande,3,2,1,100,,,
8568,Apartamento,Leme,2,0,1,75,,878.0,
8947,Apartamento,Glória,3,0,1,135,,910.0,228.0
9149,Apartamento,Gávea,3,1,1,105,,880.0,221.0


Criaremos uma variável 'A', que abrigará 'dados', isto é, nosso DataFrame original. 

Em seguida, escreveremos 'dados.dropna()', o método receberá como argumento 'subset', que se trata de uma lista de variáveis.

Em seguida, criaremos uma nova variável 'B', que abrigará o resultado do novo conjunto de dados que não contém valores nulos. 

Então, escreveremos A - B.

In [None]:
A = dados.shape[0]
dados.dropna(subset = ['Valor'], inplace = True)
B = dados.shape[0]
A-B

9

Com isso, vemos que a series possuia 9 dados faltantes.

Verificando novmente se há valores nulos:

In [None]:
dados[dados['Valor'].isnull()]

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU


Temos as variáveis 'Condomínio' e 'IPTU' com alguns problemas. 

No caso de 'Condominio', os dados nulos nem sempre são incorretos, afinal no caso de uma casa, realmente não há esse tipo de tarifa.

Verificando quantas assinaturas nulas temos em Condominio:

In [None]:
dados[dados['Condominio'].isnull()].shape[0]

1813

Filtrando os dados de acordo com o tipo Apartamento:

In [None]:
selecao = (dados['Tipo'] == 'Apartamento') & (dados['Condominio'].isnull())

A "selecao" guarda os valores que não são de interesse (apartamentos com valor nulo de condomínio), portanto vamos eliminar esse valores selecionados.

Dados irá eliminar essa parte (variável selecao), utilizando o sinal de **~**

In [None]:
A = dados.shape[0]
dados =  dados[~selecao]
B = dados.shape[0]
A-B

745

Vamos verificar quantas assinaturas nulas temos em 'Condominio' agora:

In [None]:
dados[dados['Condominio'].isnull()].shape[0]

1068

O que faremos é manter esses dados, e atribuir o valor 0 a eles. 

Temos uma função para esta ação: 'fillna()', que receberá o valor 0 e 'inplance = True'

In [None]:
dados.fillna(0, inplace = True)
#outra forma de fazer:    dados = dados.fillna({'Condominio': 0, 'IPTU': 0})

Ao verificarmos novamente a quantidade de nulos existentes em nosso DataFrame, tanto para variável Condominio quanto para IPTU, o resultado será 0.

In [None]:
dados[dados['Condominio'].isnull()].shape[0]

0

Podemos verificar com mais clareza utilizando o 'info()':

In [None]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21826 entries, 0 to 22579
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Tipo        21826 non-null  object 
 1   Bairro      21826 non-null  object 
 2   Quartos     21826 non-null  int64  
 3   Vagas       21826 non-null  int64  
 4   Suites      21826 non-null  int64  
 5   Area        21826 non-null  int64  
 6   Valor       21826 non-null  float64
 7   Condominio  21826 non-null  float64
 8   IPTU        21826 non-null  float64
dtypes: float64(3), int64(4), object(2)
memory usage: 1.7+ MB


Para finalizar a etapa, substituiremos o dataset anterior pelo atual:

In [None]:
dados.to_csv('dados/aluguel_residencial.csv', sep = ';', index = False)