In [8]:
import pandas as pd
from preprocessing import preprocessamento, missing
import numpy as np
import statsmodels.formula.api as sm
import matplotlib.pyplot as plt

pre = preprocessamento.Preprocessamento()

df1, df2, df3, df4, df5 = map(pre.ler_csv, ['imob1.csv', 'imob2.csv',
                                            'imob3.csv', 'imob4.csv',
                                            'imob5.csv'])

lista = [df1, df2, df3, df4, df5]

df3['banheiros'] = df3['suites']
df4['banheiros'] = df4['suites']

for l in lista:
    l.drop(columns='suites', inplace=True)

dataset = pre.concatenar_datasets([df1, df2, df3, df4, df5])
dataset = dataset.iloc[:, 2:]
dataset = pre.ajustar_texto(dataset)
dataset = pre.ajustar_nomes_bairros(dataset)
dataset['valor'] = dataset['valor'].astype(float)

dataset.loc[dataset['area'] >= 300, 'area'] = 0
dataset.loc[dataset['valor'] >= 2000000, 'valor'] = 0
dataset.loc[dataset['valor'] < 30000, 'valor'] = 0

dataset = missing.imputer_media_grupo(
    dataset, 'quartos', 'valor', [1, 2, 3, 4, 5])
dataset = missing.imputer_media(dataset, 'quartos')
dataset = missing.imputer_media(dataset, 'banheiros')
dataset = missing.imputer_knn(dataset, 'area', 4, 5)

m = dataset['quartos'] == 1
m2 = dataset['area'] >= 100.0
m3 = dataset['area'] < 100.0
dataset.loc[m & m2, 'area'] = dataset.loc[m & m3, 'area'].mean()

x = dataset.iloc[:, 0:5].values
y = dataset.iloc[:, 5].values

from sklearn.preprocessing import LabelEncoder, OneHotEncoder
label = LabelEncoder()
x[:, 0] = label.fit_transform(x[:, 0])
onehot = OneHotEncoder(categorical_features=[0])
x = onehot.fit_transform(x).toarray()
# Dummy
x = x[:, 1:]

from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(
    x, y, test_size=0.2, random_state=0)

from sklearn.ensemble import RandomForestRegressor
regressor = RandomForestRegressor(
    n_estimators=25, max_depth=15, random_state=0)
regressor.fit(x_train, y_train)
y_predict = regressor.predict(x_test)

enc = pd.DataFrame(x[:, 0:44])
bair = pd.DataFrame(dataset['bairro'])
bairros_encoder = pd.merge(
    right=enc, left=bair, right_index=True, left_index=True, how='outer')

bairros_encoder.drop_duplicates(subset=['bairro'], keep='first', inplace=True)
bairros_encoder.sort_values('bairro', inplace=True)


def lista_encoder(nome_bairro):
    bairro = bairros_encoder.loc[bairros_encoder['bairro'] == nome_bairro]
    return bairro.iloc[:, 1:].values


def previsao_preco(bairro, quartos, banheiros, garagens, area):
    bairro_encoder = lista_encoder(bairro)
    features = np.concatenate(
        (bairro_encoder[0], [quartos, banheiros, area]), axis=0)
    valor_predito = regressor.predict([features])
    print('Imóvel no {} com {} quarto(s), {} banheiro(s), {} vaga(s) de garagem e área de {}m². Valor previsto R$ {}'.format(
        bairro, quartos, banheiros, garagens, area, round(valor_predito[0], 2)))

In [17]:
dataset['quartos'].max()

5.0

In [12]:
dataset['banheiros'].max()

5.0

In [13]:
dataset['garagens'].max()

6

In [14]:
dataset['area'].max()

273.74000000000001

In [181]:
a = [23.5, 45.5, 45.95, 47.95, 48]
for i in range(1, 6):
    previsao_preco('Centro', 1, 1, i, 23.5)


Imóvel no Centro com 1 quarto(s), 1 banheiro(s), 0 vaga(s) de garagem e área de 23.5m². Valor previsto R$ 153197.37
Imóvel no Centro com 1 quarto(s), 2 banheiro(s), 0 vaga(s) de garagem e área de 45.5m². Valor previsto R$ 161237.37
Imóvel no Centro com 1 quarto(s), 3 banheiro(s), 0 vaga(s) de garagem e área de 45.95m². Valor previsto R$ 164143.17
Imóvel no Centro com 1 quarto(s), 4 banheiro(s), 0 vaga(s) de garagem e área de 47.95m². Valor previsto R$ 170274.75
Imóvel no Centro com 1 quarto(s), 5 banheiro(s), 0 vaga(s) de garagem e área de 48m². Valor previsto R$ 170274.75


In [None]:
print('Imóvel no {} com {} quarto(s), {} banheiro(s), {} vaga(s) de garagem e área de {}m². Valor previsto R$ {}'.format(
        bairro, quartos, banheiros, garagens, area, round(valor_predito[0], 2)))