In [1]:
import pandas as pd
dados = pd.read_csv('dados/aluguel.csv', sep = ';')
dados.columns.name = 'Indice'
print(f'A base de dados apresenta {dados.shape[0]} registros de imóveis, com {dados.shape[1]} variáveis')
dados

A base de dados apresenta 32960 registros de imóveis, com 9 variáveis


Indice,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
2,Conjunto Comercial/Sala,Barra da Tijuca,0,4,0,150,5200.0,4020.0,1111.0
3,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
4,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,
...,...,...,...,...,...,...,...,...,...
32955,Quitinete,Centro,0,0,0,27,800.0,350.0,25.0
32956,Apartamento,Jacarepaguá,3,1,2,78,1800.0,800.0,40.0
32957,Apartamento,São Francisco Xavier,2,1,0,48,1400.0,509.0,37.0
32958,Apartamento,Leblon,2,0,0,70,3000.0,760.0,


In [2]:
# consultando tipos de imóveis
# dados['Tipo'].unique()

tipos = dados['Tipo']
tipos.drop_duplicates(inplace=True) # removendo tipos duplicados para consulta
tipos = pd.DataFrame(tipos)
tipos.index = range(tipos.shape[0])
tipos.columns.name = 'ID'
# tipos
print(list(tipos['Tipo']))

['Quitinete', 'Casa', 'Conjunto Comercial/Sala', 'Apartamento', 'Casa de Condomínio', 'Prédio Inteiro', 'Flat', 'Loja/Salão', 'Galpão/Depósito/Armazém', 'Casa Comercial', 'Casa de Vila', 'Terreno Padrão', 'Box/Garagem', 'Loft', 'Loja Shopping/ Ct Comercial', 'Chácara', 'Loteamento/Condomínio', 'Sítio', 'Pousada/Chalé', 'Studio', 'Hotel', 'Indústria']


In [3]:
filtro_residencial = ['Quitinete', 'Casa', 'Apartamento', 'Casa de Condomínio', 'Casa de Vila']
selecao_residencial = dados['Tipo'].isin(filtro_residencial)
dados_residencial = dados[selecao_residencial]                  # criando novo DF apenas com os valores do filtro
dados_residencial.index = range(dados_residencial.shape[0])     # corrigindo o index
print(f'A base de dados apresenta {dados_residencial.shape[0]} registros de imóveis residenciais, com {dados_residencial.shape[1]} variáveis')
dados_residencial.to_csv('dados/aluguel_residencial.csv', sep = ';', index=False)     # exporta para um novo arquivo '.csv'
print(f'A base de dados foi filtrada e salva no arquivo "dados/aluguel_residencial.csv"')
dados_residencial

A base de dados apresenta 22580 registros de imóveis residenciais, com 9 variáveis
A base de dados foi filtrada e salva no arquivo "dados/aluguel_residencial.csv"


Indice,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
2,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
3,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,
4,Apartamento,Vista Alegre,3,1,0,70,1200.0,,
...,...,...,...,...,...,...,...,...,...
22575,Apartamento,Méier,2,0,0,70,900.0,490.0,48.0
22576,Quitinete,Centro,0,0,0,27,800.0,350.0,25.0
22577,Apartamento,Jacarepaguá,3,1,2,78,1800.0,800.0,40.0
22578,Apartamento,São Francisco Xavier,2,1,0,48,1400.0,509.0,37.0


In [4]:
dados = pd.read_csv('dados/aluguel_residencial.csv', sep = ';')

# seleção de imóveis com tipo 'Apartamento'
apartamento = dados['Tipo'] == 'Apartamento'
n1 = dados[apartamento].shape[0]
# seleção de imóveis com os tipos 'Casa', 'Casa de Condomínio' ou 'Casa de Vila'
casa = (dados['Tipo'] == 'Casa') | (dados['Tipo'] == 'Casa de Condomínio') | (dados['Tipo'] == 'Casa de Vila')
n2 = dados[casa].shape[0]
# seleção de imóveis com área entre 60 e 100 m²
area = (dados['Area'] >= 60) & (dados['Area'] <= 100)
n3 = dados[area].shape[0]
# seleção de imóveis que tenham no mín. 4 quartos e aluguel menor que R$2.000,00
selecao = (dados['Quartos'] >= 4) & (dados['Valor'] < 2000)
n4 = dados[selecao].shape[0]
print(f'Nº de imóveis classificados com tipo "Apartamento" -> {n1}')
print(f'Nº de imóveis classificados com tipos "Casa", "Casa de Condomínio" e "Casa de Vila" -> {n2}')
print(f'Nº de imóveis com área entre 60 e 100 metros quadrados, incluindo os limites -> {n3}')
print(f'Nº de imóveis que tenham pelo menos 4 quartos e aluguel menor que R$ 2.000,00 -> {n4}')

Nº de imóveis classificados com tipo "Apartamento" -> 19532
Nº de imóveis classificados com tipos "Casa", "Casa de Condomínio" e "Casa de Vila" -> 2212
Nº de imóveis com área entre 60 e 100 metros quadrados, incluindo os limites -> 8719
Nº de imóveis que tenham pelo menos 4 quartos e aluguel menor que R$ 2.000,00 -> 41


In [5]:
# consultar variáveis com valores nulos
# dados.info()
dados[dados['Valor'].isnull()]

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
58,Apartamento,Barra da Tijuca,2,1,1,70,,970.0,68.0
1492,Apartamento,Leme,2,0,0,75,,878.0,
1683,Casa,Campo Grande,3,4,3,363,,,
2012,Apartamento,Botafogo,2,0,0,95,,1010.0,170.0
2034,Apartamento,Copacabana,2,0,0,72,,850.0,
4941,Casa,Campo Grande,3,2,1,100,,,
8568,Apartamento,Leme,2,0,1,75,,878.0,
8947,Apartamento,Glória,3,0,1,135,,910.0,228.0
9149,Apartamento,Gávea,3,1,1,105,,880.0,221.0


In [6]:
df_antes = dados.shape[0]
dados.dropna(subset = ['Valor'], inplace = True)
df_depois = dados.shape[0]
print(f'Foram removidos {df_antes - df_depois} registros da base de dados que não continham entrada de "Valor".')

Foram removidos 9 registros da base de dados que não continham entrada de "Valor".


In [7]:
# excluir registros de 'Apartamento' que não tiverem valor de 'Condomínio'
filtro_aptocond = (dados['Tipo'] == 'Apartamento') & (dados['Condominio'].isnull())
df_antes = dados.shape[0]
dados = dados[~filtro_aptocond]   # inverte a condição do filtro
df_depois = dados.shape[0]
print(f'Foram removidos {df_antes - df_depois} registros de "Apartamento" da base de dados que não continham entrada de "Condominio".')

Foram removidos 745 registros de "Apartamento" da base de dados que não continham entrada de "Condominio".


In [8]:
dados.index = range(dados.shape[0]) # corrigindo o index
dados.fillna(0, inplace=True)       # preenche o restante dos valores nulos com 0
# mesmo efeito de => dados = dados.fillna({'Condominio':0, 'IPTU':0})
dados.info()   # conferir se não existem mais variáveis nulas

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21826 entries, 0 to 21825
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Tipo        21826 non-null  object 
 1   Bairro      21826 non-null  object 
 2   Quartos     21826 non-null  int64  
 3   Vagas       21826 non-null  int64  
 4   Suites      21826 non-null  int64  
 5   Area        21826 non-null  int64  
 6   Valor       21826 non-null  float64
 7   Condominio  21826 non-null  float64
 8   IPTU        21826 non-null  float64
dtypes: float64(3), int64(4), object(2)
memory usage: 1.5+ MB


In [9]:
dados['Valor Bruto'] = dados['Valor'] + dados['Condominio'] + dados['IPTU']
dados['Valor/m²'] = (dados['Valor'] / dados['Area']).round(2)
dados['Valor Bruto/m²'] = (dados['Valor Bruto'] / dados['Area']).round(2)
casa = ['Casa', 'Casa de Condomínio', 'Casa de Vila']
dados['Tipo Agregado'] = dados['Tipo'].apply(lambda x: 'Casa' if x in casa else 'Apartamento')
print(f'Foram adicionadas as colunas "Valor Bruto", "Valor/m²", "Valor Bruto/m²", e "Tipo Agregado":')
dados

Foram adicionadas as colunas "Valor Bruto", "Valor/m²", "Valor Bruto/m²", e "Tipo Agregado":


Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU,Valor Bruto,Valor/m²,Valor Bruto/m²,Tipo Agregado
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0,2260.0,42.50,56.50,Apartamento
1,Casa,Jardim Botânico,2,0,1,100,7000.0,0.0,0.0,7000.0,70.00,70.00,Casa
2,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0,1210.0,53.33,80.67,Apartamento
3,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,0.0,1030.0,16.67,21.46,Apartamento
4,Apartamento,Cachambi,2,0,0,50,1300.0,301.0,17.0,1618.0,26.00,32.36,Apartamento
...,...,...,...,...,...,...,...,...,...,...,...,...,...
21821,Apartamento,Méier,2,0,0,70,900.0,490.0,48.0,1438.0,12.86,20.54,Apartamento
21822,Quitinete,Centro,0,0,0,27,800.0,350.0,25.0,1175.0,29.63,43.52,Apartamento
21823,Apartamento,Jacarepaguá,3,1,2,78,1800.0,800.0,40.0,2640.0,23.08,33.85,Apartamento
21824,Apartamento,São Francisco Xavier,2,1,0,48,1400.0,509.0,37.0,1946.0,29.17,40.54,Apartamento


In [10]:
# removendo colunas e exportando arquivo novamente
dados.drop(['Valor Bruto', 'Valor Bruto/m²'], axis=1, inplace=True)
dados.to_csv('dados/aluguel_residencial.csv', sep = ';', index=False)     # exporta para um novo arquivo '.csv'
print(f'Foram removidas as colunas "Valor Bruto" e "Valor Bruto/m²":\nA base de dados foi salva no arquivo "dados/aluguel_residencial.csv"')
dados

Foram removidas as colunas "Valor Bruto" e "Valor Bruto/m²":
A base de dados foi salva no arquivo "dados/aluguel_residencial.csv"


Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU,Valor/m²,Tipo Agregado
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0,42.50,Apartamento
1,Casa,Jardim Botânico,2,0,1,100,7000.0,0.0,0.0,70.00,Casa
2,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0,53.33,Apartamento
3,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,0.0,16.67,Apartamento
4,Apartamento,Cachambi,2,0,0,50,1300.0,301.0,17.0,26.00,Apartamento
...,...,...,...,...,...,...,...,...,...,...,...
21821,Apartamento,Méier,2,0,0,70,900.0,490.0,48.0,12.86,Apartamento
21822,Quitinete,Centro,0,0,0,27,800.0,350.0,25.0,29.63,Apartamento
21823,Apartamento,Jacarepaguá,3,1,2,78,1800.0,800.0,40.0,23.08,Apartamento
21824,Apartamento,São Francisco Xavier,2,1,0,48,1400.0,509.0,37.0,29.17,Apartamento


In [11]:
# distribuição de valor
# 1 e 2 / 3 e 4 / 5 e 6 / 7 ou mais
labels = ['1 e 2 quartos', '3 e 4 quartos', '5 e 6  quartos', '7 quartos ou mais']
classes = [0, 2, 4, 6, 20]  # [valor min, 1º limite, 2º limite, ..., valor max]
quartos = pd.cut(dados.Quartos, classes, labels = labels, include_lowest= True)    # cut para categorizar as classes
print(f'Quantidade de imóveis separadas por quantidade de quartos:')
pd.value_counts(quartos)

Quantidade de imóveis separadas por quantidade de quartos:


1 e 2 quartos        11409
3 e 4 quartos         9681
5 e 6  quartos         686
7 quartos ou mais       50
Name: Quartos, dtype: int64

In [12]:
# valores médios por (alguns) bairros #

# bairros = ['Barra da Tijuca', 'Copacabana', 'Ipanema', 'Leblon', 'Botafogo', 'Flamengo', 'Tijuca']
# selecao = dados['Bairro'].isin(bairros)               # cria seleção no DF usando como filtro os bairros informados
# dados = dados[selecao]                                # cria novo DF apenas com os bairros selecionados

grupo_bairro = dados.groupby('Bairro')                  # cria um 'groupby' de 'Bairro'
print(f'Valores por bairros:')
grupo_bairro[['Valor', 'Condominio']].aggregate(['mean', 'min', 'max']).rename(columns={'mean':'Media', 'min':'Minimo', 'max':'Maximo'}).round(2)

Valores por bairros:


Unnamed: 0_level_0,Valor,Valor,Valor,Condominio,Condominio,Condominio
Unnamed: 0_level_1,Media,Minimo,Maximo,Media,Minimo,Maximo
Bairro,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Abolição,1195.33,800.0,2300.0,191.40,0.0,560.0
Alto da Boa Vista,3966.67,600.0,15000.0,885.00,65.0,1630.0
Anchieta,875.00,700.0,1000.0,19.75,0.0,79.0
Andaraí,1464.71,700.0,2950.0,497.71,0.0,1140.0
Anil,2048.87,300.0,7000.0,455.85,0.0,1650.0
...,...,...,...,...,...,...
Vila Valqueire,1769.58,800.0,16000.0,276.88,0.0,755.0
Vila da Penha,1260.58,450.0,4500.0,232.68,0.0,780.0
Vista Alegre,1114.38,700.0,1400.0,210.06,0.0,500.0
Zumbi,2150.00,1600.0,2700.0,1050.00,500.0,1600.0


In [13]:
%matplotlib inline
import matplotlib.pyplot as plt
plt.rc('figure', figsize = (20, 6))

In [14]:
print(f'Imóveis encontrados com "Valor" superior a R$500.000,00:')
dados[dados['Valor'] >= 500000]

Imóveis encontrados com "Valor" superior a R$500.000,00:


Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU,Valor/m²,Tipo Agregado
7629,Apartamento,Barra da Tijuca,1,1,0,65,600000.0,980.0,120.0,9230.77,Apartamento
10636,Casa de Condomínio,Freguesia (Jacarepaguá),4,2,3,163,800000.0,900.0,0.0,4907.98,Casa
12661,Apartamento,Freguesia (Jacarepaguá),2,2,1,150,550000.0,850.0,150.0,3666.67,Apartamento
13846,Apartamento,Recreio dos Bandeirantes,3,2,1,167,1250000.0,1186.0,320.0,7485.03,Apartamento
15520,Apartamento,Botafogo,4,1,1,300,4500000.0,1100.0,0.0,15000.0,Apartamento


In [15]:
# criando estatísticas do box plot (analisando 'Valor', separando por 'Tipo')
grupo_tipo = dados.groupby('Tipo')['Valor']
Q1 = grupo_tipo.quantile(.25)   # primeiro quartil
Q3 = grupo_tipo.quantile(.75)   # terceiro quartil
IIQ = Q3 - Q1                   # intervalo interquartil
limite_inferior = Q1 - 1.5 * IIQ
limite_superior = Q3 + 1.5 * IIQ

# removendo outliers e criando novo DF
df_sem_otl = pd.DataFrame()
for tipo in grupo_tipo.groups.keys():
    eh_tipo = dados['Tipo'] == tipo
    eh_dentro_limite = (dados['Valor'] >= limite_inferior[tipo]) & (dados['Valor'] <= limite_superior[tipo])
    selecao = eh_tipo & eh_dentro_limite
    dados_selecao = dados[selecao]
    df_sem_otl = pd.concat([df_sem_otl, dados_selecao])

df_antes = dados.shape[0]
df_depois = df_sem_otl.shape[0]
df_sem_otl.to_csv('dados/aluguel_residencial_sem_outliers.csv', sep = ';', index = False)
print(f'Foram removidos {df_antes - df_depois} registros "outliers" da base de dados\nA base de dados final foi salva no arquivo "dados/aluguel_residencial_sem_outliers.csv"')
df_sem_otl

Foram removidos 1995 registros "outliers" da base de dados
A base de dados final foi salva no arquivo "dados/aluguel_residencial_sem_outliers.csv"


Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU,Valor/m²,Tipo Agregado
2,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0,53.33,Apartamento
3,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,0.0,16.67,Apartamento
4,Apartamento,Cachambi,2,0,0,50,1300.0,301.0,17.0,26.00,Apartamento
7,Apartamento,Grajaú,2,1,0,70,1500.0,642.0,74.0,21.43,Apartamento
8,Apartamento,Lins de Vasconcelos,3,1,1,90,1500.0,455.0,14.0,16.67,Apartamento
...,...,...,...,...,...,...,...,...,...,...,...
21687,Quitinete,Glória,1,0,0,10,400.0,107.0,10.0,40.00,Apartamento
21728,Quitinete,Flamengo,1,0,0,23,900.0,605.0,0.0,39.13,Apartamento
21748,Quitinete,Centro,1,0,0,24,1100.0,323.0,0.0,45.83,Apartamento
21815,Quitinete,Copacabana,1,0,0,22,1500.0,286.0,200.0,68.18,Apartamento
