# Автоматизация определения цен на недвижимость в городе Москва
__Цель работы__: Цель работы: разработка автоматизированной программной системы для определения цен на недвижимость в г. Москва по известным характеристикам: округ, ближайшая станция метро, расстояние от центра Москвы, время в пути до станции метро пешком, общая площадь квартиры, количество комнат.  
</br>
![картинка](./moscow_city.webp)

### Обоснование выбора методов предобработки данных и оценки качества регрессии:
* Выполнено исследование данных, значения поля price обрезаны по max и min значениям, подобранным эмпирически. Таким образом, из базы данных были убраны выбросы и аномальные значения, которые могут повлиять на качество работы программы. Также, это позволило задать ценовой диапазон для рассматриваемой недвижимости, повысить адаптацию модели к конкретным данным.

* Категорийные признаки переведены в бинарные с помощью класса OneHotEncoder. OneHotEncoder преобразует категорийные данные в числовой формат, что необходимо для большинства алгоритмов машинного обучения. Это позволяет модели корректно обрабатывать категорийные признаки и улучшает её точность.

* Получены несколько числовых признаков на основе уже имеющихся, с применением класса NumericPower. Создание новых числовых признаков на основе существующих может выявить скрытые зависимости и улучшить качество модели. Класс NumericPower позволяет легко генерировать такие признаки, что способствует более глубокому анализу данных.

* Числовые признаки стандартизованы с использованием функции StandardScaler. Стандартизация приводит все числовые признаки к одному масштабу, это улучшает сходимость алгоритмов и повышает точность работы модели.

* Для оценки качества работы программы, использованы метрики: средняя суммарная ошибка, средняя суммарная процентная ошибка. Средняя суммарная ошибка показывает абсолютное отклонение предсказанных значений от фактических, а средняя суммарная процентная ошибка — относительное отклонение. Эти метрики помогают оценить точность работы модели в понятном для человека виде.

### Обоснование выбора методов обучения нейронной сети:
* Регуляризация с коэффициентом 0.5: Регуляризация помогает предотвратить переобучение модели, добавляя штраф за сложность модели. Коэффициент 0.5 выбран для достижения баланса между переобучением и недообучением, что позволяет модели лучше обобщать данные.

* Функция активации ReLU: ReLU (Rectified Linear Unit) является одной из самых часто применяемых функций активации благодаря своей простоте и эффективности. Она помогает избежать проблемы затухания градиента, что ускоряет обучение и улучшает качество работы глубоких нейронных сетей.

* Оптимизатор Adam со скоростью обучения 0.001: Adam (Adaptive Moment Estimation) сочетает преимущества двух других методов оптимизации: AdaGrad и RMSProp. Он адаптирует скорость обучения для каждого параметра, что делает его более эффективным и устойчивым к шуму. Скорость обучения 0.001 является стандартным значением, которое часто используется для достижения хороших результатов.

* Среднеквадратичная функция ошибки (MSE): MSE (Mean Squared Error) широко используется для задач регрессии, так как она измеряет среднее квадратичное отклонение предсказанных значений от истинных. Это позволяет модели минимизировать большие ошибки и улучшить точность предсказаний.

* Число эпох обучения 500: Количество эпох определяет, сколько раз модель будет проходить через весь тренировочный набор данных. Число 500 было подобрано таким образом, чтобы модель хорошо обучилась, но при этом все последующие эпохи не улучшали значительно качество предсказаний.

### Обоснование выбора алгоритма

При решении задачи регрессии были применены 4 алгоритма: регрессор CatBoostRegressor, случайный лес (Scikit Learn), k-случайных соседей (Scikit Learn), нейронная сеть (Keras).

Лучшие результаты показал алгоритм CatBoostRegressor, показав значение метрики средней ошибки в процентах 12.9%.

__CatBoostRegressor__ CatBoostRegressor работает на основе алгоритма градиентного бустинга, который строит ансамбль деревьев решений. Основные принципы его работы:

1. __Градиентый бустинг__: Алгоритм строит модель поэтапно, добавляя новые деревья решений, которые исправляют ошибки предыдущих деревьев. На каждом этапе строится новое дерево, которое минимизирует ошибку предсказания текущей модели.
2. __Обработка категориальных признаков__: CatBoost предназначен для эффективной обработки данных, содержащих категориальные признаки.
3. __Регуляризация__: Алгоритм включает механизмы регуляризации, которые помогают избежать переобучения и улучшить обобщающую способность модели.
4. __Случайность__: CatBoost использует случайные перестановки данных и случайные подвыборки признаков, что помогает улучшить устойчивость модели и уменьшить вероятность переобучения.
5. __Обработка пропущенных значений__: Алгоритм умеет эффективно работать с пропущенными значениями в данных, что делает его более гибким и удобным в использовании.

### Описание набора данных
Для обучения и тестирования используется набор данных, состоящий из 3605 строк.  
Набор для обучения состоит из 2884 строк.  
Набор для тестирования состоит из 721 строк.  

7 колонок:
- Округ
- Метро
- Расстояние от центра (км.)
- Время до станции метро (мин.)
- Общая площадь (м2)
- Число комнат
- Стоимость (р.)  

Округ: 10 названий округов Москвы
* ВАО
* ЗАО
* Новая Москва
* САО
* СВАО
* СЗАО
* ЦАО
* ЮАО
* ЮВАО
* ЮЗАО

Метро: 245 названий станций метро, от Авиамоторная до Яхромская   

Расстояние от центра (км.):  
min = 2  
mean = 12.47  
max = 29.7  

Время до станции метро (мин.):  
min = 1  
mean = 17.6  
max = 78  

Общая площадь (м2):  
min = 1.6  
mean = 61.7  
max = 314  

Число комнат:  
min = 0  
mean = 2.42  
max = 6  

Стоимость (р.):  
min = 6002000  
mean = 24216880  
max = 99999900  

Набор данных собран с сайта по продаже недвижимости "Квадратный метр" (m2.ru).  
Данные актуальны на 2022 год.

### Подготовка программы к работе

In [1]:
# Импортируем модуль для работы с Google Drive
from google.colab import drive
# Монтируем Google Drive к файловой системе Colab, чтобы иметь доступ к файлам на Google Drive
drive.mount('/content/drive')
# Изменяем текущую рабочую директорию на папку Лаба1 в Google Drive
%cd /content/drive/MyDrive/

ModuleNotFoundError: No module named 'google'

In [None]:
# Устанавливаем библиотеку CatBoost, которая используется для градиентного бустинга на основе деревьев решений
!pip install catboost

In [None]:
# Импортируем библиотеку pandas для работы с данными
import pandas as pd
# Импортируем библиотеку numpy для работы с массивами и математическими функциями
import numpy as np
# Импортируем базовые классы для создания собственных трансформеров
from sklearn.base import BaseEstimator, TransformerMixin
# Импортируем класс StandardScaler для стандартизации данных
from sklearn.preprocessing import StandardScaler
# Импортируем классы для создания конвейеров и объединения признаков
from sklearn.pipeline import Pipeline, FeatureUnion
# Импортируем функции для разделения данных
from sklearn.model_selection import train_test_split
# Импортируем метрики для оценки качества модели
from sklearn.metrics import mean_absolute_error, mean_absolute_percentage_error
# Импортируем регрессор CatBoost для построения модели
from catboost import CatBoostRegressor
# Импортируем регрессор на основе случайного леса
from sklearn.ensemble import RandomForestRegressor
# Импортируем регрессор на основе метода ближайших соседей
from sklearn.neighbors import KNeighborsRegressor
# Импортируем библиотеку joblib для сохранения и загрузки моделей
import joblib
# Импортируем модуль keras из библиотеки TensorFlow
from tensorflow import keras
# Импортируем класс Sequential для создания конвейеров
from tensorflow.keras.models import Sequential
# Импортируем классы Input, Dense и Dropout для создания слоев нейронной сети
from tensorflow.keras.layers import Input, Dense, Dropout
# Импортируем оптимизатор Adam из библиотеки Keras
from keras.optimizers import Adam
# Импортируем библиотеку matplotlib для построения графиков
import matplotlib.pyplot as plt

### Определяем классы и методы для работы с данными

In [4]:
# Класс для выбора определённого столбца из данных
class FeatureSelector(BaseEstimator, TransformerMixin):
    # Инициализируем класс с указанием столбца
    def __init__(self, column):
        # Сохраняем название столбца
        self.column = column
    
    # Метод fit, который ничего не делает, но необходим для совместимости
    def fit(self, X, y=None):
        return self
    
    # Метод transform, который возвращает указанный столбец
    def transform(self, X, y=None):
        return X[self.column]

# Класс для выбора одного столбца из данных для дальнейших преобразований
class NumberSelector(BaseEstimator, TransformerMixin):
    # Инициализируем класс с указанием ключа столбца
    def __init__(self, key):
        # Сохраняем ключ столбца
        self.key = key
    
    # Метод fit, который ничего не делает, но необходим для совместимости
    def fit(self, X, y=None):
        return self
    
    # Метод transform, который возвращает указанный столбец
    def transform(self, X):
        return X[[self.key]]

# Класс для кодирования категориальных признаков с помощью метода One-Hot Encoding
class OHEEncoder(BaseEstimator, TransformerMixin):
    # Инициализируем класс с указанием ключа столбца
    def __init__(self, key):
        # Сохраняем ключ столбца
        self.key = key
        # Инициализируем список для хранения новых столбцов
        self.columns = []

    # Метод fit, который создает список новых столбцов после кодирования
    def fit(self, X, y=None):
        # Создаем список новых столбцов после кодирования
        self.columns = [col for col in pd.get_dummies(X, prefix=self.key).columns]
        return self
    
    # Метод transform, который выполняет кодирование и добавляет отсутствующие столбцы
    def transform(self, X):
        # Выполняем кодирование данных
        X = pd.get_dummies(X, prefix=self.key)
        # Получаем список текущих столбцов
        test_columns = [col for col in X.columns]
        # Добавляем отсутствующие столбцы
        for col_ in self.columns:
            if col_ not in test_columns:
                X[col_] = 0
        X = X.astype(int)
        # Возвращаем закодированные данные с новыми столбцами
        return X[self.columns]

# Класс для создания новых числовых признаков путём возведения в степень и логарифмирования
class NumericPower(BaseEstimator, TransformerMixin):
    # Инициализируем класс с указанием ключа столбца и степени
    def __init__(self, key, p=2):
        # Сохраняем ключ столбца
        self.key = key
        # Инициализируем список для хранения новых столбцов
        self.columns = []
        # Сохраняем степень
        self.p = p + 1

    # Метод fit, который создает список новых столбцов после преобразования
    def fit(self, X, y=None):
        # Создаем список новых столбцов после преобразования
        B = [self.key + str(i) for i in range(1, self.p)]
        self.columns = B + ['log']
        return self
    
    # Метод transform, который выполняет преобразования и возвращает новые столбцы
    def transform(self, X):
        # Преобразуем данные в массив
        Xp = X.values.reshape(-1, 1)
        # Выполняем возведение в степень
        for i in range(2, self.p):
            Xp = np.hstack([Xp, (X.values.reshape(-1, 1) ** i).astype(float)])
        # Выполняем логарифмирование
        Xp = np.hstack([Xp, np.log(X.values.reshape(-1, 1) + 1).astype(float)])
        # Создаем DataFrame с новыми столбцами
        B = pd.DataFrame(data=Xp, index=X.index, columns=self.columns)
        # Возвращаем DataFrame
        return B[self.columns]

### Определяем функции для создания и обучения конвейеров

In [5]:
# Функция для создания конвейера
def get_pipeline(estimator):
    # Определяем числовые столбцы
    num_cols = ['route_minutes', 'total_area', 'rooms']
    # Определяем категориальные столбцы
    cat_cols = ['metro', 'okrug']
    # Создаем список для хранения финальных трансформеров
    final_transformers = list()
    
    # Для каждого категориального столбца
    for cat_col in cat_cols:
        # Создаем конвейер для категориальных данных
        cat_transformer = Pipeline([
            ('selector', FeatureSelector(column=cat_col)),  # Выбираем столбец
            ('ohe', OHEEncoder(key=cat_col))  # Применяем One-Hot Encoding
        ])
        # Добавляем трансформер в список
        final_transformers.append((cat_col, cat_transformer))
    
    # Для каждого числового столбца
    for num_col in num_cols:
        # Создаем конвейер для числовых данных
        cont_transformer = Pipeline([
            ('selector', NumberSelector(key=num_col)),  # Выбираем столбец
            ('power', NumericPower(key=num_col, p=3)),  # Применяем возведение в степень
            ('scale', StandardScaler())  # Стандартизируем данные
        ])
        # Добавляем трансформер в список
        final_transformers.append((num_col, cont_transformer))
    
    # Объединяем все трансформеры
    feats = FeatureUnion(final_transformers)
    
    # Создаем финальный конвейер с регрессором CatBoost
    pipeline = Pipeline([
        ('features', feats),  # Добавляем объединенные трансформеры
        ('regressor', estimator),  # Добавляем регрессор
    ])
    
    # Возвращаем созданный конвейер
    return pipeline

# Функция для обучения конвейера
def fit_pipeline(X_train, y_train, pipeline, save_model=False):
    # Обучаем конвейер на тренировочных данных
    pipeline.fit(X_train, y_train)
    # Если необходимо, сохраняем модель
    if save_model:
        joblib.dump(pipeline, 'model.pkl')
    # Возвращаем обученный конвейер
    return pipeline

# Функция для обучения конвейера
def main_pipeline(regressor, X_train, y_train, X_test, y_test, save_model=False):
    # Создаем конвейер
    pipe = get_pipeline(regressor)
    # Обучаем конвейер на тренировочных данных и сохраняем модель, если необходимо
    pipe = fit_pipeline(X_train, y_train, pipe, save_model)
    # Делаем предсказания на тестовых данных
    y_pred = pipe.predict(X_test)
    # Вычисляем среднюю абсолютную ошибку
    mae = mean_absolute_error(y_test, y_pred)
    # Вычисляем среднюю абсолютную процентную ошибку
    mape = mean_absolute_percentage_error(y_test, y_pred)
    return mae, mape


### Определяем функции для работы нейронной сети

In [6]:
# Функция для создания конвейера для предобработки данных для нейронной сети
def transform_data_init_nn():
    # Определяем числовые столбцы
    num_cols = ['route_minutes', 'total_area', 'rooms']
    # Определяем категориальные столбцы
    cat_cols = ['metro', 'okrug']
    # Создаем список для хранения финальных трансформеров
    final_transformers = list()
    
    # Для каждого категориального столбца
    for cat_col in cat_cols:
        # Создаем конвейер для категориальных данных
        cat_transformer = Pipeline([
            ('selector', FeatureSelector(column=cat_col)),  # Выбираем столбец
            ('ohe', OHEEncoder(key=cat_col))  # Применяем One-Hot Encoding
        ])
        # Добавляем трансформер в список
        final_transformers.append((cat_col, cat_transformer))
    
    # Для каждого числового столбца
    for num_col in num_cols:
        # Создаем конвейер для числовых данных
        cont_transformer = Pipeline([
            ('selector', NumberSelector(key=num_col)),  # Выбираем столбец
            ('power', NumericPower(key=num_col, p=3)),  # Применяем возведение в степень
            ('scale', StandardScaler())  # Стандартизируем данные
        ])
        # Добавляем трансформер в список
        final_transformers.append((num_col, cont_transformer))
    
    # Объединяем все трансформеры
    feats = FeatureUnion(final_transformers)
    
    # Создаем финальный конвейер для предобработки данных
    pipeline = Pipeline([
        ('features', feats)  # Добавляем объединенные трансформеры
    ])
    
    # Возвращаем созданный конвейер
    return pipeline

# Функция для обучения конвейера для предобработки данных для нейронной сети
def transform_data_fit_nn(X_train, y_train, pipeline):
    # Обучаем конвейер на тренировочных данных
    pipeline.fit(X_train, y_train)
    # Возвращаем обученный конвейер
    return pipeline

# Главная функция для создания и обучения конвейера
def transform_data_main_nn(X_train, y_train, X_test):
    # Инициализация конвейера
    pipe_nn = transform_data_init_nn()
    # Обучение конвейера
    pipe_nn = transform_data_fit_nn(X_train, y_train, pipe_nn)
    # Предобработка данных для обучения
    X_train_transformed = pipe_nn.named_steps['features'].transform(X_train)
    # Предобработка тестовых данных
    X_test_transformed = pipe_nn.named_steps['features'].transform(X_test)
    # Возвращаем преобразованные данные для обучения и тестовые
    return X_train_transformed, X_test_transformed

# Функция для создания модели нейронной сети
def model_create_nn():
    # Определяем модель
    model = Sequential()
    # Добавляем входной слой с размерностью 257
    model.add(Input(shape=(257,)))
    # Добавляем полносвязный слой с 128 нейронами и функцией активации ReLU
    model.add(Dense(128, activation='relu'))
    # Добавляем слой Dropout с коэффициентом 0.5 для регуляризации
    model.add(Dropout(0.5))
    # Добавляем полносвязный слой с 64 нейронами и функцией активации ReLU
    model.add(Dense(64, activation='relu'))
    # Добавляем слой Dropout с коэффициентом 0.5 для регуляризации
    model.add(Dropout(0.5))
    # Добавляем полносвязный слой с 32 нейронами и функцией активации ReLU
    model.add(Dense(32, activation='relu'))
    # Добавляем выходной слой с 1 нейроном для регрессии
    model.add(Dense(1))
    # Компиляция модели с оптимизатором Adam и функцией потерь MSE
    model.compile(optimizer=Adam(learning_rate=0.001), loss='mean_squared_error')
    # Возвращаем созданную модель
    return model

# Функция для обучения модели
def model_fit_nn(model, X_train_transformed, y_train):
    # Обучение модели на преобразованных данных
    # Число эпох обучения равно 500, логирование обучения выключено
    model.fit(X_train_transformed, y_train, epochs=500, verbose=0)
    # Возвращаем обученную модель
    return model

# Функция для тестирования и оценки качества работы модели
def model_predict_nn(model, X_test_transformed, y_test):
    # Выполняем предсказания на тестовых данных
    y_pred = model.predict(X_test_transformed, verbose=0)
    # Вычисляем среднюю абсолютную ошибку (MAE)
    mae = mean_absolute_error(y_test, y_pred)
    # Вычисляем среднюю абсолютную процентную ошибку (MAPE)
    mape = mean_absolute_percentage_error(y_test, y_pred)
    # Возвращаем значения MAE и MAPE
    return mae, mape


### Определяем функции для вывода результатов

In [7]:
# Функция для построения диаграммы метрик MAPE
def plot_mape():
    # Извлечение значений метрики MAPE
    values = list(mape_algorithms.values())
    # Умножение каждого значения на 100 для перевода в проценты
    values = [v * 100 for v in values]
    # Создание столбчатой диаграммы
    plt.figure(figsize=(6, 6))  # Определение размера изображения
    bars = plt.bar(estimators_plot_names, values, color='blue', width=0.3)  # Построение столбчатой диаграммы
    plt.xlabel('Algorithms')  # Определение подписи оси X
    plt.ylabel('Mean Average Percentage Error (%)')  # Определение подписи оси Y
    plt.title('MAPE metric values of different algorithms')  # Определение заголовка диаграммы
    plt.gca().yaxis.set_major_formatter(plt.FuncFormatter(lambda x, _: f'{int(x)}'))  # Определение форматирования значений оси Y как целых чисел
    # Добавление текстовых подписей столбцам диаграммы
    for bar, value in zip(bars, values):
        plt.text(bar.get_x() + bar.get_width() / 2, bar.get_height(), f'{round(value, 1)}', ha='center', va='bottom')
    # Отображение диаграммы
    plt.show()

# Функция для построения диаграммы метрик MAE
def plot_mae():
    # Извлечение значений метрики MAE
    values = list(mae_algorithms.values())
    # Создание столбчатой диаграммы
    plt.figure(figsize=(6, 6))  # Установка размера изображения
    bars = plt.bar(estimators_plot_names, values, color='green', width=0.3)  # Построение столбчатой диаграммы
    plt.xlabel('Algorithms')  # Определение подписи оси X
    plt.ylabel('Mean Average Error (руб.)')  # Определение подписи оси Y
    plt.title('MAE metric values of different algorithms')  # Определение заголовка диаграммы
    # Добавление подписи значения метрики над столбцами
    for bar, value in zip(bars, values):
        plt.text(bar.get_x() + bar.get_width() / 2, bar.get_height(), f'{int(value)}', ha='center', va='bottom')
    # Отображение диаграммы
    plt.show()

# Функция для вывода результатов
def print_results(mape_algorithms, mae_algorithms):
    # Вывод заголовка для значений MAPE
    print('\nMAPE values:')
    # Цикл по элементам словаря mape_algorithms
    for key, value in mape_algorithms.items():
        # Вывод названия алгоритма
        print(key)
        # Вывод значения MAPE, умноженного на 100 и округленного до 1 знака после запятой
        print(f'{round(value * 100, 1)}%')
    # Вызов функции для построения диаграммы метрик MAPE
    plot_mape()
    
    # Вывод заголовка для значений MAE
    print('\nMAE values:')
    # Цикл по элементам словаря mae_algorithms
    for key, value in mae_algorithms.items():
        # Вывод названия алгоритма
        print(key)
        # Вывод значения MAE, округленного до целого числа
        print(f'{round(value)} руб.')
    # Вызов функции для построения диаграммы метрик MAE
    plot_mae()


### Определяем dict с регрессионными моделями

In [8]:
# Создаем словарь с различными моделями регрессии
estimators_sklearn = {
    # Добавляем модель CatBoostRegressor с заданными параметрами
    'Cat Boost Regressor': CatBoostRegressor(iterations=1000, max_depth=10, random_state=42, silent=True),
    # Добавляем модель регрессора на основе случайного леса с 100 деревьями
    'Random Forest Regressor': RandomForestRegressor(n_estimators=100, random_state=42),
    # Добавляем модель регрессора на основе метода ближайших соседей
    'K-Neighbors Regressor': KNeighborsRegressor(n_neighbors=5)
}

# Список названий алгоритмов для отображения на диаграмме
estimators_plot_names = ['Cat Boost', 'RF', 'KNN', 'Neural Network']

### Основной код программы


In [None]:
# Проверяем, что скрипт выполняется как основная программа
if __name__ == '__main__':
    # Читаем данные из CSV файла и задаем имена столбцов
    df = pd.read_csv("./data_moscow.csv", names=['okrug', 'metro', 'distance_from_center', 'route_minutes', 'total_area', 'rooms', 'price'])
    # Выводим размерность датафрейма
    print('размерность исходных данных = ', df.shape)
    
    # Фильтруем данные, оставляя строки с ценой между 6 000 000 и 100 000 000
    df = df[(df['price'] > 6_000_000) & (df['price'] < 100_000_000)]
    # Выводим размерность отфильтрованного датафрейма
    print("размерность данных после урезания поля price\nпо максимальному и минимальному значениям = ", df.shape)
    
    # Разделяем данные на тренировочный и тестовый наборы
    X_train, X_test, y_train, y_test = train_test_split(df[['okrug', 'metro', 'distance_from_center', 'route_minutes', 'total_area', 'rooms']], df['price'], test_size=0.2, random_state=42)
    # Выводим размерности используемых наборов данных
    print('размерность набора для обучения = ', len(y_train))
    print('размерность набора для тестирования = ', len(y_test))
    # Выводим среднюю стоимость квартиры в тестовом наборе
    print('средняя стоимость квартиры в тестовом наборе = ', round(y_test.mean()), 'рубль')
    
    mae_algorithms = {}
    mape_algorithms = {}
    
    for estimator_name, estimator in estimators_sklearn.items():
        if estimator_name in ['Cat Boost Regressor', 'Random Forest Regressor', 'K-Neighbors Regressor']:
            mae_algorithms[estimator_name], mape_algorithms[estimator_name] = main_pipeline(estimator, X_train, y_train, X_test, y_test, save_model=False)
    
    # Выполняем функции, необходимые для работы нейронной сети
    # Предобработка тренировочных и тестовых данных с помощью функции transform_data_main_nn
    X_train_transformed, X_test_transformed = transform_data_main_nn(X_train, y_train, X_test)
    # Создание модели нейронной сети
    model_nn = model_create_nn()
    # Обучение модели на преобразованных тренировочных данных
    model_nn = model_fit_nn(model_nn, X_train_transformed, y_train)
    # Предсказание и оценка модели на тестовых данных
    mae_nn, mape_nn = model_predict_nn(model_nn, X_test_transformed, y_test)
    
    # Сохранение значения MAE для нейронной сети в словарь mae_algorithms
    mae_algorithms['Neural Network'] = mae_nn
    # Сохранение значения MAPE для нейронной сети в словарь mape_algorithms
    mape_algorithms['Neural Network'] = mape_nn
    
    # Вывод результатов
    print_results(mape_algorithms, mae_algorithms)

### Выводы
* __Исследование данных__: рассмотрены статистические характеристики признаков, определены выбросы данных. Набор данных ограничен по максимальному и минимальному значению поля price.
* __Предварительная обработка данных__: категориальные признаки переведены в числовые, применен алгоритм создания дополнительных числовых признаков, данные стандартизованы.
* __Выполнено обучение и тестирование__ 4-х алгоритмов: CatBoostRegressor, случайный лес (Scikit Learn), k-случайных соседей (Scikit Learn), нейронная сеть (Keras).
* __Выполнена оценка качеcтва работы__ алгоритмов по двум метрикам: Mean Absolute Percentage Error, Mean Absolute Error.
Лучшие результаты показал CatBoostRegressor:  
MAPE: 12.9%  
MAE: 3099514 рублей      
* __Построены диаграммы__ со значениями метрик MAPE, MAE 
    
__Данные результаты говорят о том, что разработанную систему нельзя использовать для автоматического назначения цены, но можно использовать в качестве системы для быстрой оценки недвижимости и рекомендации её примерной стоимости.__