In [1]:
# Внимание!!! Важно, что бы файлы с данными и исполняемый файл находились в одной папке, 
# тогда пути к тестовым и тренировочным наборам будут содержать только имена файлов.
# 
# В пути к тренировочным и тестовым данным запрежается использовать абсалютную адресацию, 
# то есть адресацию, в которой присутствуют имена папок. Путь должен содержать только имя файла.
#
# Напоминание: под моделью машинного обучения понимаются все действия с исходными данными, 
# которые необходимо произвести, что бы сопоставить признаки целевому значению.

### Область работы 1 (библиотеки)

In [2]:
# Данный блок в области 1 выполняется преподавателем
# 
# данный блок предназначен только для подключения необходимых библиотек
# запрещается подключать библиотеки в других блоках
# запрещается скрывать предупреждения системы
# установка дополнительных библиотек размещается прямо здесь (обязательно закоментированы)
# pip install

In [3]:
import pandas as pd
import numpy as np
import seaborn as sns

from sklearn.model_selection import train_test_split, KFold, GridSearchCV
from sklearn.preprocessing import MinMaxScaler, StandardScaler, RobustScaler, PolynomialFeatures
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LinearRegression, ElasticNet, SGDRegressor
from sklearn.neighbors import KNeighborsRegressor
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.metrics import mean_absolute_percentage_error

from sklearn.feature_selection import SelectFromModel, SelectKBest, f_regression, RFE, VarianceThreshold
from sklearn.svm import LinearSVC

### Область работы 2 (выполнение лучшей модели)

In [4]:
# Данный блок(и) в области 2 выполняется преподавателем
#
# В области находится одна, единственная, итоговая модель машинного обучения с однозначными, 
# зафиксированными параметрами
#
# В данной области категорически запрещается искать, выбирать, улучшать, оптимизировать, 
# тюниговать и т.д. модель машинного обучения

In [5]:
# Путь к тренировочному набору
path_train = "train_house_A.csv" # содержит только имя файла, без имен папок
# Путь к тестовому набору
path_test  = "test_house_A.csv" # содержит только имя файла, без имен папок

In [6]:
# Блок(и) обучения и поверки модели

In [7]:
df_train = pd.read_csv(path_train)
df_train.head()


Unnamed: 0,price,0,1,2,3,4,5,6,7,8,...,19,20,21,22,23,24,25,26,27,28
0,5320000,0.405623,0.0,-0.061169,-0.741051,-0.223185,1.361397,1.221991,-0.570187,-0.478408,...,0.245475,-0.263991,0.047278,1.222962,-0.219265,1.804941,-0.126718,0.27147,1.391006,-0.141322
1,3465000,0.405623,0.0,-0.82689,-0.867066,-0.223185,-0.734539,-0.964205,-0.570187,-0.478408,...,-1.444928,-0.263991,0.047278,1.222962,-0.219265,-0.554035,-0.126718,-1.010746,0.617421,-0.141322
2,3500000,0.405623,0.0,-0.96331,-1.676106,-0.223185,-0.734539,-0.692084,-0.570187,-0.478408,...,1.578828,-0.263991,0.047278,1.222962,-0.219265,-0.554035,-0.126718,-1.237596,1.483005,-0.141322
3,3570000,0.405623,0.0,0.242611,0.193424,-0.223185,-0.734539,-0.696696,-0.570187,1.307431,...,-1.675466,-0.263991,-1.308863,1.222962,-0.219265,-0.554035,0.417348,-0.987324,1.134657,-0.141322
4,4130000,0.405623,0.0,-0.740827,-0.684767,-0.223185,-0.734539,-0.239163,-0.570187,-0.478408,...,-1.347578,-0.263991,1.403419,-0.091662,-0.219265,-0.554035,-0.108582,0.838006,0.360062,-0.141322


In [8]:
X_train = df_train.drop(columns=["price"])
y_train = df_train["price"].values

scaller = StandardScaler().fit_transform(X_train, y_train)

In [9]:
selected_data = SelectFromModel(LinearSVC(dual="auto", penalty="l1")).fit_transform(scaller, y_train)
X_scaled = selected_data
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y_train, test_size=0.2, random_state=42)



In [10]:
# Блок предсказания с использованием тестового набора

In [11]:
df_test = pd.read_csv(path_test)
df_test.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,19,20,21,22,23,24,25,26,27,28
0,0.405623,0.0,0.931702,1.196496,-0.223185,-0.734539,0.488647,-0.570187,3.09327,2.149083,...,0.538359,-0.263991,1.403419,-1.406286,-0.219265,-0.554035,0.785727,0.642636,0.005804,-0.141322
1,0.405623,0.0,0.78858,-1.263275,1.472449,1.361397,0.39179,3.41381,-0.478408,2.149083,...,1.05545,3.846729,1.403419,-0.091662,4.560702,-0.554035,0.666712,1.010144,-0.570869,-0.141322
2,-2.465344,0.0,0.3845,-1.127236,-0.223185,-0.734539,-1.303204,-0.570187,-0.478408,-0.465315,...,-0.174857,-0.263991,0.047278,-0.091662,-0.219265,-0.554035,-0.126718,1.434067,0.579569,-0.141322
3,0.405623,0.0,0.642224,-1.519809,-0.223185,1.361397,1.169412,-0.570187,-0.478408,2.149083,...,1.648068,-0.263991,0.047278,-0.091662,4.560702,-0.554035,-0.126718,-1.26616,-0.289687,-0.141322
4,0.405623,0.0,0.348662,-0.943795,-0.223185,-0.734539,-0.48684,-0.570187,1.307431,-0.465315,...,-1.649626,-0.263991,-1.308863,-0.091662,-0.219265,-0.554035,0.159484,-1.247877,0.417844,-0.141322


In [12]:
# Линейная модель
linear = LinearRegression()

linear.fit(X_train, y_train)

linear_preds = linear.predict(X_test)

print("MAPE Linear:", mean_absolute_percentage_error(y_test, linear_preds))

MAPE Linear: 0.19345976385251573


In [13]:
# Название вектора предсказанных значений  y_predict полученого на основании тестового набора
y_predict = linear_preds

In [14]:
from sklearn.metrics import mean_absolute_percentage_error
import matplotlib.pyplot as plt
import matplotlib.pyplot as plt

y_true = pd.read_csv("test_Y_true_house_A.csv").values.reshape(-1)
print(y_predict.shape, y_true.shape)
print('Отрицательные цены - ', sum(y_predict<0))

def plot_2_error(y_true, y_predicted):
    residuals = y_true - y_predicted
    max_error = max(residuals) if abs(max(residuals)) > abs(min(residuals)) else min(residuals)
    max_idx = list(residuals).index(max(residuals)) if abs(max(residuals)) > abs(min(residuals)) else list(residuals).index(min(residuals))
    max_true, max_pred = y_true[max_idx], y_predicted[max_idx]
    mape = mean_absolute_percentage_error(y_true, y_predict)
    print("Max Error:", "{:,.0f}".format(max_error))
    print(' ')
    print('----------------------')
    print("   MAPE Error:", "{:,.2f}".format(mape*100))
    print('----------------------')

    ## Plot predicted vs true
    fig, ax = plt.subplots(nrows=1, ncols=2, figsize=(15,5))
    from statsmodels.graphics.api import abline_plot
    ax[0].scatter(y_predicted, y_true, color="black")
    abline_plot(intercept=0, slope=1, color="red", ax=ax[0])
    ax[0].vlines(x=max_pred, ymin=max_true, ymax=max_true-max_error, color='red', linestyle='--', alpha=0.7, label="max error")
    ax[0].grid(True)
    ax[0].set(xlabel="Predicted", ylabel="True", title="Predicted vs True")
    ax[0].legend()

    ## Plot predicted vs residuals
    ax[1].scatter(y_predicted, residuals, color="red")
    ax[1].vlines(x=max_pred, ymin=0, ymax=max_error, color='black', linestyle='--', alpha=0.7, label="max error")
    ax[1].grid(True)
    ax[1].set(xlabel="Predicted", ylabel="Residuals", title="Predicted vs Residuals")
    ax[1].hlines(y=0, xmin=np.min(y_predicted), xmax=np.max(y_predicted))
    ax[1].legend()
    plt.show()

plot_2_error(y_true, y_predict)

(82,) (137,)
Отрицательные цены -  0


ValueError: operands could not be broadcast together with shapes (137,) (82,) 