In [1]:
# Внимание!!! Важно, что бы файлы с данными и исполняемый файл находились в одной папке, 
# тогда пути к тестовым и тренировочным наборам будут содержать только имена файлов.
# 
# В пути к тренировочным и тестовым данным запрежается использовать абсалютную адресацию, 
# то есть адресацию, в которой присутствуют имена папок. Путь должен содержать только имя файла.
#
# Напоминание: под моделью машинного обучения понимаются все действия с исходными данными, 
# которые необходимо произвести, что бы сопоставить признаки целевому значению.

### Область работы 1 (библиотеки)

In [2]:
# Данный блок в области 1 НЕ выполняется преподавателем
# 
# данный блок предназначен только для подключения необходимых библиотек
# запрещается подключать библиотеки в других блоках
# запрещается скрывать предупреждения системы
# установка дополнительных библиотек размещается прямо здесь (обязательно закоментированы)
# pip install

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns

from sklearn.model_selection import train_test_split, KFold, GridSearchCV
from sklearn.preprocessing import MinMaxScaler, StandardScaler, RobustScaler, PolynomialFeatures
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LinearRegression, ElasticNet, SGDRegressor
from sklearn.neighbors import KNeighborsRegressor
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.metrics import mean_absolute_percentage_error

from sklearn.feature_selection import SelectFromModel, SelectKBest, f_regression, RFE, VarianceThreshold
from sklearn.svm import LinearSVC

### Область работы 2 (поиск  модели .... )

In [2]:
# Данный блок(и) НЕ выполняются преподавателем в области 2
# блок(и) предназначены для поиска лучшей модели 
# должен быть понятен и очевиден отбор параметров модели
# оставляйте свои комментарии и разъяснения
# 
# Запрещается размещать данные блоки за пределами обасти 2
# Все блоки данной области должны быть выполнены
#
# ЗАПРЕЩАЕТСЯ ИСПОЛЬЗОВАТЬ ТЕСТОВЫЙ НАБОР
#
# Путь к тренировочному набору
# 

path_train = "train_house_A.csv" # содержит только имя файла, без имен папок !!!

In [3]:
df_train = pd.read_csv(path_train)
df_train.head()

Unnamed: 0,price,0,1,2,3,4,5,6,7,8,...,19,20,21,22,23,24,25,26,27,28
0,5320000,0.405623,0.0,-0.061169,-0.741051,-0.223185,1.361397,1.221991,-0.570187,-0.478408,...,0.245475,-0.263991,0.047278,1.222962,-0.219265,1.804941,-0.126718,0.27147,1.391006,-0.141322
1,3465000,0.405623,0.0,-0.82689,-0.867066,-0.223185,-0.734539,-0.964205,-0.570187,-0.478408,...,-1.444928,-0.263991,0.047278,1.222962,-0.219265,-0.554035,-0.126718,-1.010746,0.617421,-0.141322
2,3500000,0.405623,0.0,-0.96331,-1.676106,-0.223185,-0.734539,-0.692084,-0.570187,-0.478408,...,1.578828,-0.263991,0.047278,1.222962,-0.219265,-0.554035,-0.126718,-1.237596,1.483005,-0.141322
3,3570000,0.405623,0.0,0.242611,0.193424,-0.223185,-0.734539,-0.696696,-0.570187,1.307431,...,-1.675466,-0.263991,-1.308863,1.222962,-0.219265,-0.554035,0.417348,-0.987324,1.134657,-0.141322
4,4130000,0.405623,0.0,-0.740827,-0.684767,-0.223185,-0.734539,-0.239163,-0.570187,-0.478408,...,-1.347578,-0.263991,1.403419,-0.091662,-0.219265,-0.554035,-0.108582,0.838006,0.360062,-0.141322


In [4]:
df_train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 408 entries, 0 to 407
Data columns (total 30 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   price   408 non-null    int64  
 1   0       408 non-null    float64
 2   1       408 non-null    float64
 3   2       408 non-null    float64
 4   3       408 non-null    float64
 5   4       408 non-null    float64
 6   5       408 non-null    float64
 7   6       408 non-null    float64
 8   7       408 non-null    float64
 9   8       408 non-null    float64
 10  9       408 non-null    float64
 11  10      408 non-null    float64
 12  11      408 non-null    float64
 13  12      408 non-null    float64
 14  13      408 non-null    float64
 15  14      408 non-null    float64
 16  15      408 non-null    float64
 17  16      408 non-null    float64
 18  17      408 non-null    float64
 19  18      408 non-null    float64
 20  19      408 non-null    float64
 21  20      408 non-null    float64
 22  21

In [5]:
df_train.describe()

Unnamed: 0,price,0,1,2,3,4,5,6,7,8,...,19,20,21,22,23,24,25,26,27,28
count,408.0,408.0,408.0,408.0,408.0,408.0,408.0,408.0,408.0,408.0,...,408.0,408.0,408.0,408.0,408.0,408.0,408.0,408.0,408.0,408.0
mean,4643597.0,-0.030652,0.0,-0.021898,-0.00447,-0.044734,-0.015345,-0.037179,0.00593,-0.005686,...,-0.046552,-0.022184,-0.042466,0.01789,-0.04353,-0.039454,-0.038181,-0.04811,-0.025252,-0.044926
std,1711368.0,1.031893,0.0,1.019428,0.974612,0.969756,0.996282,1.001595,0.976837,1.007006,...,0.991383,1.020601,0.99527,1.016147,0.900616,0.975409,1.031259,1.008422,1.001805,0.913917
min,1750000.0,-2.465344,0.0,-1.224688,-1.780233,-2.633407,-0.734539,-1.61453,-0.570187,-4.050087,...,-1.705711,-2.319351,-2.665004,-1.406286,-0.219265,-0.554035,-5.000645,-1.789595,-1.705457,-3.41878
25%,3430000.0,0.405623,0.0,-0.673496,-0.837351,-0.223185,-0.734539,-0.745125,-0.570187,-0.478408,...,-0.881357,-0.263991,-1.308863,-1.406286,-0.219265,-0.554035,-0.126718,-0.896013,-0.887341,-0.141322
50%,4270000.0,0.405623,0.0,-0.252391,0.032263,-0.223185,-0.734539,-0.300045,-0.570187,-0.478408,...,-0.072463,-0.263991,0.047278,-0.091662,-0.219265,-0.554035,-0.126718,-0.047954,-0.050893,-0.141322
75%,5600000.0,0.405623,0.0,0.312075,0.775898,-0.223185,1.361397,0.454055,1.421812,1.307431,...,0.755884,-0.263991,0.047278,1.222962,-0.219265,-0.554035,-0.006287,0.787204,0.798591,-0.141322
max,11410000.0,0.405623,0.0,8.604753,1.73255,13.826353,1.361397,5.096263,3.41381,3.09327,...,1.745647,7.95745,4.115701,1.222962,4.560702,1.804941,13.021551,1.732996,1.771548,3.136137


In [6]:
X = df_train.drop(columns=["price"])
y = df_train["price"].values

In [7]:
# Проверка на пустые значения
df_train.isnull().any().sum()

0

In [8]:
scaller = StandardScaler().fit_transform(X, y)

In [9]:
len(scaller[0])

29

In [13]:
selected_data = SelectFromModel(LinearSVC(dual="auto", penalty="l1")).fit_transform(scaller, y)
X_scaled = selected_data
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)



In [14]:
rfr = RandomForestRegressor(n_estimators=300)
rfr.fit(X_train, y_train)
rfr_preds = rfr.predict(X_test)

print("MAPE rfr:", mean_absolute_percentage_error(y_test, rfr_preds))

MAPE rfr: 0.211321846352853


In [15]:
gbr = GradientBoostingRegressor(n_estimators=300)
gbr.fit(X_train, y_train)

gbr_preds = gbr.predict(X_test)

print("MAPE Linear:", mean_absolute_percentage_error(y_test, gbr_preds))

MAPE Linear: 0.2368797850161029


In [16]:
# Линейная модель
linear = LinearRegression()

linear.fit(X_train, y_train)

linear_preds = linear.predict(X_test)

print("MAPE Linear:", mean_absolute_percentage_error(y_test, linear_preds))

MAPE Linear: 0.19345976385251581
