In [None]:
# Внимание!!! Важно, что бы файлы с данными и исполняемый файл находились в одной папке, 
# тогда пути к тестовым и тренировочным наборам будут содержать только имена файлов.
# 
# В пути к тренировочным и тестовым данным запрежается использовать абсалютную адресацию, 
# то есть адресацию, в которой присутствуют имена папок. Путь должен содержать только имя файла.
#
# Напоминание: под моделью машинного обучения понимаются все действия с исходными данными, 
# которые необходимо произвести, что бы сопоставить признаки целевому значению.

### Область работы 1 (библиотеки)

In [None]:
# Данный блок в области 1 выполняется преподавателем
# 
# данный блок предназначен только для подключения необходимых библиотек
# запрещается подключать библиотеки в других блоках
# запрещается скрывать предупреждения системы
# установка дополнительных библиотек размещается прямо здесь (обязательно закоментированы)
# pip install

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import StratifiedKFold
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import PowerTransformer

from sklearn.feature_selection import VarianceThreshold
from sklearn.feature_selection import SelectPercentile
from sklearn.feature_selection  import RFE
from sklearn.inspection import permutation_importance
from sklearn.feature_selection import RFECV

from sklearn.ensemble import RandomForestRegressor
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.linear_model import Ridge, Lasso, ElasticNet, LinearRegression
from sklearn.svm import SVR
from sklearn.neighbors import KNeighborsRegressor

from sklearn.compose import TransformedTargetRegressor

from sklearn.metrics import mean_absolute_percentage_error

### Область работы 2 (выполнение лучшей модели)

In [None]:
# Данный блок(и) в области 2 выполняется преподавателем
#
# В области находится одна, единственная, итоговая модель машинного обучения с однозначными, 
# зафиксированными параметрами
#
# В данной области категорически запрещается искать, выбирать, улучшать, оптимизировать, 
# тюниговать и т.д. модель машинного обучения

In [None]:
# Путь к тренировочному набору
path_train = 'train_house_B.csv' # содержит только имя файла, без имен папок !!!
train = pd.read_csv(path_train)
train.head()

In [None]:
len(train) - len(train.drop_duplicates())

In [None]:
# Путь к тестовому набору
path_test  =  'test_house_B.csv'# содержит только имя файла, без имен папок
test = pd.read_csv(path_test)
test.head()

In [None]:
data = train.drop(columns = ['price'])
target = np.array(train.price)

In [None]:
# Я использую следующие столбцы при построении итоговой модели: ['0',
#                                                                '1',
#                                                                '2',
#                                                                '4',
#                                                                '12',
#                                                                '13',
#                                                                '16',
#                                                                '18',
#                                                                '20',
#                                                                '22',
#                                                                '24',
#                                                                '25',
#                                                                '27']

In [None]:
data_itog_gb = data[['0', '1', '2', '4', '12', '13', '16', '18', '20', '22', '24', '25', '27']]
data_itog_gb.head()

In [None]:
X_train, X_test, y_train, y_test = train_test_split(data_itog_gb, target, test_size = 0.2, random_state = 42)

In [None]:
model_gb_itog = TransformedTargetRegressor(regressor = 
                                           Pipeline(steps = [('estimator', GradientBoostingRegressor(max_depth = 3,
                                                                                                     min_samples_leaf = 2,
                                                                                                     min_samples_split = 5,
                                                                                                     learning_rate = 0.1,
                                                                                                     random_state = 42))]),
                                           transformer = PowerTransformer(),
                                           check_inverse = False
                                          )

model_gb_itog.fit(X_train, y_train)

y_pred_gb = model_gb_itog.predict(X_test)

In [None]:
mean_absolute_percentage_error(y_test, y_pred_gb)

In [None]:
# Блок(и) обучения и поверки модели

In [None]:
test_clean = test[['0', '1', '2', '4', '12', '13', '16', '18', '20', '22', '24', '25', '27']]
test_clean.head()

In [None]:
# Блок предсказания с использованием тестового набора

In [None]:
# Название вектора предсказанных значений  y_predict полученого на основании тестового набора
y_predict = model_gb_itog.predict(test_clean)

In [None]:
y_predict