# Preparação do DataFrame para análise de dados

### Aqui farei a limpeza e preparação dos dados do arquivo bruto .csv para depois iniciar as análise.
### O que farei:
### - Limpar dados faltantes
### - Separar por categorias de imóveis (quero apenas os residenciais)
### - Separar os imóveis residenciais em grupos (Apartamento e Casa)

## Importação das bibliotecas a serem utilizadas e do arquivo .csv

In [1]:
import pandas as pd

dados = pd.read_csv('aluguel.csv', sep = ';')

In [2]:
dados

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
2,Conjunto Comercial/Sala,Barra da Tijuca,0,4,0,150,5200.0,4020.0,1111.0
3,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
4,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,
...,...,...,...,...,...,...,...,...,...
32955,Quitinete,Centro,0,0,0,27,800.0,350.0,25.0
32956,Apartamento,Jacarepaguá,3,1,2,78,1800.0,800.0,40.0
32957,Apartamento,São Francisco Xavier,2,1,0,48,1400.0,509.0,37.0
32958,Apartamento,Leblon,2,0,0,70,3000.0,760.0,


### Verificação dos Tipos de Imóveis Listados

In [3]:
dados['Tipo'].value_counts()

Apartamento                    19532
Conjunto Comercial/Sala         6815
Loja/Salão                      1426
Casa de Condomínio               996
Casa                             967
Quitinete                        836
Galpão/Depósito/Armazém          623
Flat                             476
Prédio Inteiro                   301
Casa Comercial                   265
Casa de Vila                     249
Loja Shopping/ Ct Comercial      247
Box/Garagem                       82
Terreno Padrão                    70
Loft                              51
Sítio                             10
Loteamento/Condomínio              5
Studio                             4
Hotel                              2
Chácara                            1
Pousada/Chalé                      1
Indústria                          1
Name: Tipo, dtype: int64

####  - Separando o Tipo de Imóvel que vou analisar (apenas imóveis Residenciais)

In [4]:
lista_residencial = ['Apartamento', 'Casa de Condomínio', 'Casa', 'Quitinete', 'Flat', 'Casa de Vila', 'Loft', 'Studio']

In [5]:
selecao = dados['Tipo'].isin(lista_residencial)

In [6]:
dados_residencial = dados[selecao]

In [7]:
dados_residencial

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
3,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
4,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,
5,Apartamento,Vista Alegre,3,1,0,70,1200.0,,
...,...,...,...,...,...,...,...,...,...
32953,Apartamento,Méier,2,0,0,70,900.0,490.0,48.0
32955,Quitinete,Centro,0,0,0,27,800.0,350.0,25.0
32956,Apartamento,Jacarepaguá,3,1,2,78,1800.0,800.0,40.0
32957,Apartamento,São Francisco Xavier,2,1,0,48,1400.0,509.0,37.0


### - Tratando os dados com valores de Aluguel (Valor) e Condomínio faltantes (Nulos = NaN)

####  - Abaixo posso observar o total de linhas e de colunas, o qual, mostra para cada coluna o total de linhas preenchidas
#### com valores "válidos". Desta forma fica fácil saber quais colunas possuem dados faltantes ou nulos, isso, porque ela
#### terá um total de linhas preenchidas menor do que o total de linhas no DataFrame. 
#### Ex. Total de Linhas nesse DF é de 23111 e a coluna de campo "Condominio" tem apenas 21246 linhas com valores.

In [8]:
dados_residencial.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 23111 entries, 0 to 32958
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Tipo        23111 non-null  object 
 1   Bairro      23111 non-null  object 
 2   Quartos     23111 non-null  int64  
 3   Vagas       23111 non-null  int64  
 4   Suites      23111 non-null  int64  
 5   Area        23111 non-null  int64  
 6   Valor       23102 non-null  float64
 7   Condominio  21246 non-null  float64
 8   IPTU        16232 non-null  float64
dtypes: float64(3), int64(4), object(2)
memory usage: 1.8+ MB


In [9]:
selecao2 = (dados_residencial['Valor'].isnull()) | ((dados_residencial['Tipo'] == 'Apartamento') & (dados_residencial['Condominio'].isnull())) | ((dados_residencial['Tipo'] == 'Casa de Condomínio') & (dados_residencial['Condominio'].isnull()))
# (se valor = 0)  OU  (se for AP e Condom. = 0)  OU  (se for Casa de Condom. e Condom. = 0)

In [10]:
dados_residencial = dados_residencial[~selecao2]
dados_residencial.head(10)

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
3,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
4,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,
6,Apartamento,Cachambi,2,0,0,50,1300.0,301.0,17.0
11,Apartamento,Grajaú,2,1,0,70,1500.0,642.0,74.0
12,Apartamento,Lins de Vasconcelos,3,1,1,90,1500.0,455.0,14.0
13,Apartamento,Copacabana,1,0,1,40,2000.0,561.0,50.0
14,Quitinete,Copacabana,1,0,0,27,1800.0,501.0,
15,Apartamento,Copacabana,4,3,1,243,13000.0,2000.0,803.0


In [11]:
dados_residencial.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 22262 entries, 0 to 32958
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Tipo        22262 non-null  object 
 1   Bairro      22262 non-null  object 
 2   Quartos     22262 non-null  int64  
 3   Vagas       22262 non-null  int64  
 4   Suites      22262 non-null  int64  
 5   Area        22262 non-null  int64  
 6   Valor       22262 non-null  float64
 7   Condominio  21239 non-null  float64
 8   IPTU        16107 non-null  float64
dtypes: float64(3), int64(4), object(2)
memory usage: 1.7+ MB


#### -  Agora vou tratar os campos nulos preenchendo-os com 0, desta forma poderei trabalhar com os dados depois, pois não haverá mistura de string com número.

In [12]:
dados_residencial_2 = dados_residencial.fillna(0)
dados_residencial_2.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 22262 entries, 0 to 32958
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Tipo        22262 non-null  object 
 1   Bairro      22262 non-null  object 
 2   Quartos     22262 non-null  int64  
 3   Vagas       22262 non-null  int64  
 4   Suites      22262 non-null  int64  
 5   Area        22262 non-null  int64  
 6   Valor       22262 non-null  float64
 7   Condominio  22262 non-null  float64
 8   IPTU        22262 non-null  float64
dtypes: float64(3), int64(4), object(2)
memory usage: 1.7+ MB


### Criarei uma nova coluna chamada 'Grupo', que servirá para separar nos grupos de 'Casa' e 'Apartamento'

In [13]:
tipo_casa = ['Casa de Condomínio', 'Casa', 'Casa de Vila']

In [14]:
dados_residencial_2['Grupo'] = dados_residencial_2['Tipo'].apply(lambda x: 'Casa' if x in tipo_casa else 'Apartamento')

#    Através de uma função lambda, fiz uma uma comparação em cada linha do DataFrame 'dados_residencial_2 no campo 'Tipo' e comparei
# se o conteúdo era igual a um dos valores dentro da lista 'tipo_casa', se sim, preenche a coluna criada 'Grupo' com o valor 'Casa'
# senão, preenche com o valor 'Apartamento'

In [15]:
dados_residencial_2.head(10)

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU,Grupo
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0,Apartamento
1,Casa,Jardim Botânico,2,0,1,100,7000.0,0.0,0.0,Casa
3,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0,Apartamento
4,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,0.0,Apartamento
6,Apartamento,Cachambi,2,0,0,50,1300.0,301.0,17.0,Apartamento
11,Apartamento,Grajaú,2,1,0,70,1500.0,642.0,74.0,Apartamento
12,Apartamento,Lins de Vasconcelos,3,1,1,90,1500.0,455.0,14.0,Apartamento
13,Apartamento,Copacabana,1,0,1,40,2000.0,561.0,50.0,Apartamento
14,Quitinete,Copacabana,1,0,0,27,1800.0,501.0,0.0,Apartamento
15,Apartamento,Copacabana,4,3,1,243,13000.0,2000.0,803.0,Apartamento


### Criarei outra coluna com nome "Valor_Total" que terá a soma do aluguel (Valor) + Condominio + IPTU

In [16]:
dados_residencial_2['Valor_Total'] = dados_residencial_2['Valor'] + dados_residencial_2['Condominio'] + dados_residencial_2['IPTU']

In [17]:
dados_residencial_2.head(10)

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU,Grupo,Valor_Total
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0,Apartamento,2260.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,0.0,0.0,Casa,7000.0
3,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0,Apartamento,1210.0
4,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,0.0,Apartamento,1030.0
6,Apartamento,Cachambi,2,0,0,50,1300.0,301.0,17.0,Apartamento,1618.0
11,Apartamento,Grajaú,2,1,0,70,1500.0,642.0,74.0,Apartamento,2216.0
12,Apartamento,Lins de Vasconcelos,3,1,1,90,1500.0,455.0,14.0,Apartamento,1969.0
13,Apartamento,Copacabana,1,0,1,40,2000.0,561.0,50.0,Apartamento,2611.0
14,Quitinete,Copacabana,1,0,0,27,1800.0,501.0,0.0,Apartamento,2301.0
15,Apartamento,Copacabana,4,3,1,243,13000.0,2000.0,803.0,Apartamento,15803.0


### Salvando o DataFrame já tratado em um novo arquivo .csv com o nome "aluguel_residencial.csv"

In [18]:
dados_residencial_2.to_csv('aluguel_residencial.csv', sep = ';', index = False)