## «Модель прогнозирования стоимости жилья для агентства недвижимости»

# Дипломный проект

Data Science

Описание данных:

'status' — статус продажи; 'private pool' и 'PrivatePool' — наличие собственного бассейна; 'propertyType' — тип объекта недвижимости; 'street' — адрес объекта; 'baths' — количество ванных комнат; 'homeFacts' — сведения о строительстве объекта (содержит несколько типов сведений, влияющих на оценку объекта);

'fireplace' — наличие камина; 'city' — город; 'schools' — сведения о школах в районе; 'sqft' — площадь в футах; 'zipcode' — почтовый индекс; 'beds' — количество спален; 'state' — штат; 'stories' — количество этажей; 'mls-id' и 'MlsId' — идентификатор MLS (Multiple Listing Service, система мультилистинга);

target' — цена объекта недвижимости (целевой признак, который необходимо спрогнозировать).

In [74]:
import numpy as np 
import pandas as pd 
import pickle
import warnings
warnings.filterwarnings("ignore")

In [75]:
# Загрузка сохраненной модели из файла pickle
with open("best_model.pkl", "rb") as f:
    loaded_model = pickle.load(f)

Подгружаем обученную модель RandomForestRegressor

In [76]:
data = [
    ('Active', 3.0, 'Washington', 801, 20004, 'DC',  False, 1991,'other'),
    ('Active', 2.0, 'Dallas', 832, 75219, 'TX',  False, 1998, 'condo'),
    ('Active', 4.0, 'Dallas', 2102, 75219, 'TX',  False, 2019, 'condo'),
    ('Active', 2.0, 'Dallas', 837, 75219, 'TX',  False, 1998, 'condo'),
    ('Active', 2.0, 'Dallas', 2785, 75219, 'TX',  False, 2015, 'condo')
]

columns = ['status', 'baths', 'city', 'sqft', 'zipcode', 'state',  'pool_encoded', 'Year built', 'Type']

df_test = pd.DataFrame(data, columns=columns)

df_test.head()

Unnamed: 0,status,baths,city,sqft,zipcode,state,pool_encoded,Year built,Type
0,Active,3.0,Washington,801,20004,DC,False,1991,other
1,Active,2.0,Dallas,832,75219,TX,False,1998,condo
2,Active,4.0,Dallas,2102,75219,TX,False,2019,condo
3,Active,2.0,Dallas,837,75219,TX,False,1998,condo
4,Active,2.0,Dallas,2785,75219,TX,False,2015,condo


Функция для предсказания стоимости недвижимости по входным параметрам

In [77]:
# функция принимает датасет и модель, затем обрабатывет 
# датасет и передает его в модель для получения предсказания, предсказание выводится в нормальном виде
def preprocess_and_predict(df_input, model):
    
    def log_data(df_input):
        df_output = df_input.copy()
        df_output['zipcode'] = df_output['zipcode'].astype(str)
        df_output['Year built'] = df_output['Year built'].astype(str)
     
        
        #scaler = MinMaxScaler()
        for column in ['baths', 'sqft']:
            #df_output[column] = scaler.fit_transform(df_output[[column]])[:,0]
            df_output[column] = df_output[column].apply(lambda x: abs(x))
            constant = 1e-6
            df_output[column] = np.log(df_output[column] + constant)
        return df_output

    X_test = log_data(df_input)
    y_test_pred_loaded = model.predict(X_test)
    target = np.exp(y_test_pred_loaded)
    rounded_target = np.round(target)
    print(rounded_target)
    
    return rounded_target

тест на воспроизводимость

In [None]:
predictions = preprocess_and_predict(df_test, loaded_model)

In [78]:
#pip freeze > requirements.txt

Note: you may need to restart the kernel to use updated packages.
