# Машинное обучение

План :
* Линейная регрессия
* Случайный лес
* Градиентный бустинг

In [95]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings

warnings.filterwarnings("ignore")

Загрузим наши обработанные данные и разделим признаки и целевую метку. Затем разделим на тестовую и обучающую выборки.

In [96]:
df = pd.read_csv('data_without_miss.csv')

X = df.iloc[:,:-2]
y = df['Цена']

In [97]:
X.isnull().sum()

Округ                       0
Ближайшая станция метро    10
Время до метро              0
Метро рядом                 0
Застройщик                 94
ЖК                         17
Класс                      94
Тип квартиры                0
Этаж                        0
Этажей в доме               0
Отделка                     0
Количество комнат           0
Площадь квартиры            0
Жилая площадь               0
Площадь кухни               0
Тип дома                   94
Парковка                   94
Год сдачи                   0
dtype: int64

В пункте с EDA пропуски в категориальных признаках мы хаменяли пустыми строками, сейчас они опять рассматриваются как пропуски, поэтому давайте снова заполним их пустыми строками

In [98]:
categorical_features = X.dtypes[X.dtypes == "object"].index

X[categorical_features] = X[categorical_features].fillna('')

In [99]:
X.isnull().sum()

Округ                      0
Ближайшая станция метро    0
Время до метро             0
Метро рядом                0
Застройщик                 0
ЖК                         0
Класс                      0
Тип квартиры               0
Этаж                       0
Этажей в доме              0
Отделка                    0
Количество комнат          0
Площадь квартиры           0
Жилая площадь              0
Площадь кухни              0
Тип дома                   0
Парковка                   0
Год сдачи                  0
dtype: int64

Среди признаков есть не особо информативные, например, ЖК, в котором находится квартира, так как влияние этого признака легко заменить классом этого ЖК, что намного сильнее влияет на целевую переменную

In [100]:
X = X.drop(columns = 'ЖК')

In [101]:
X.head()

Unnamed: 0,Округ,Ближайшая станция метро,Время до метро,Метро рядом,Застройщик,Класс,Тип квартиры,Этаж,Этажей в доме,Отделка,Количество комнат,Площадь квартиры,Жилая площадь,Площадь кухни,Тип дома,Парковка,Год сдачи
0,СВАО,Марьина роща,17.0,2,Компания Пионер,Премиум,квартира,5.0,22.0,Без отделки,1.0,32.2,20.333629,11.724697,Монолитный,Подземная,2025.0
1,СЗАО,Трикотажная,4.0,3,СК Резиденс,Бизнес,квартира,2.0,26.0,Неизвестно,1.0,48.06,20.333629,11.724697,Монолитно-кирпичный,"Подземная, гостевая",2023.0
2,САО,Тимирязевская,3.0,3,MR Group,Премиум,квартира,2.0,36.0,Чистовая,1.0,37.62,12.8,3.1,Монолитный,"Подземная, гостевая",2025.0
3,ЗАО,Фили,5.0,3,Аеон Девелопмент,Премиум,квартира,2.0,45.0,Без отделки,1.0,42.8,20.333629,11.724697,Монолитно-кирпичный,Подземная,2026.0
4,САО,Белорусская,4.0,3,MR Group,Премиум,апартаменты,2.0,16.0,Предчистовая,1.0,47.9,20.333629,11.724697,Монолитно-кирпичный,"Подземная, гостевая",2023.0


In [102]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.25, random_state=42)

## `Линейная регрессия`

У нас достаточно много категориальных данных, закодируем их с помощью `OneHotEncoder`, а вещественные признаки стандартизируем с помощью `StandardScaler`:

In [103]:
X.isnull().sum()

Округ                      0
Ближайшая станция метро    0
Время до метро             0
Метро рядом                0
Застройщик                 0
Класс                      0
Тип квартиры               0
Этаж                       0
Этажей в доме              0
Отделка                    0
Количество комнат          0
Площадь квартиры           0
Жилая площадь              0
Площадь кухни              0
Тип дома                   0
Парковка                   0
Год сдачи                  0
dtype: int64

In [104]:
numeric_features = X.select_dtypes([np.number]).columns
categorical_features = X.dtypes[X.dtypes == "object"].index

In [105]:
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.compose import ColumnTransformer


column_transformer = ColumnTransformer([
    ('scaling', StandardScaler(), numeric_features),    
    ('ohe', OneHotEncoder(handle_unknown="ignore", drop="first",
                         min_frequency=0.001), categorical_features)
])

X_train_transf = column_transformer.fit_transform(X_train)
X_test_transf = column_transformer.transform(X_train)

print("Size before OneHot:", X_train.shape)
print("Size after OneHot:", X_train_transf.shape)


Size before OneHot: (825, 17)
Size after OneHot: (825, 228)


Количество признаков после кодирования увеличилось больше, чем в 10 раз, что очень плохо скажется на качестве модели и скорее всего приведет к ее переобучению. Попроубем побороть эту проблему с помощью __$L_1$ - регуляризации__, у которой есть очень полезное для нас свйство - зануление наименее важных признаков

In [106]:
from sklearn.linear_model import Lasso
from sklearn.metrics import mean_squared_error
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer

lasso_pipeline = Pipeline(steps=[
    ('ohe_and_scaling', column_transformer),
    ('regression', Lasso())
])

model = lasso_pipeline.fit(X_train, y_train)

y_pred = model.predict(X_test)
y_train_pred = model.predict(X_train)

print("Test MSE = %.4f" % mean_squared_error(y_test, y_pred))
print("Train MSE = %.4f" % mean_squared_error(y_train, y_train_pred))

Test MSE = 6638187792432.3848
Train MSE = 2156934755472.8640


Посмотрим сколько коэффициентов занулилось

In [107]:
np.sum(lasso_pipeline.steps[-1][-1].coef_==0)

0

`Во - первых`, ошибка на тесте намного выше, чем на на тренировочных данных, что свидетельствует о переобучении, `во - вторых`
, ни один из коэффициент не равен нулю
Давайте попробуем улучшить качество, подобрав коэффициент регуляризации с помощью `GridSearchCV`

In [108]:
from sklearn.model_selection import GridSearchCV

alphas = np.logspace(-2, 50, 25)
searcher = GridSearchCV(lasso_pipeline, [{"regression__alpha": alphas}],
                        scoring="neg_root_mean_squared_error", cv=10, n_jobs=-1)
searcher.fit(X_train, y_train)

best_alpha = searcher.best_params_["regression__alpha"]

  model = cd_fast.sparse_enet_coordinate_descent(
  model = cd_fast.sparse_enet_coordinate_descent(
  model = cd_fast.sparse_enet_coordinate_descent(
  model = cd_fast.sparse_enet_coordinate_descent(
  model = cd_fast.sparse_enet_coordinate_descent(
  model = cd_fast.sparse_enet_coordinate_descent(
  model = cd_fast.sparse_enet_coordinate_descent(
  model = cd_fast.sparse_enet_coordinate_descent(
  model = cd_fast.sparse_enet_coordinate_descent(
  model = cd_fast.sparse_enet_coordinate_descent(
  model = cd_fast.sparse_enet_coordinate_descent(
  model = cd_fast.sparse_enet_coordinate_descent(
  model = cd_fast.sparse_enet_coordinate_descent(
  model = cd_fast.sparse_enet_coordinate_descent(
  model = cd_fast.sparse_enet_coordinate_descent(
  model = cd_fast.sparse_enet_coordinate_descent(


  model = cd_fast.sparse_enet_coordinate_descent(
  model = cd_fast.sparse_enet_coordinate_descent(
  model = cd_fast.sparse_enet_coordinate_descent(
  model = cd_fast.sparse_enet_coordinate_descent(
  model = cd_fast.sparse_enet_coordinate_descent(
  model = cd_fast.sparse_enet_coordinate_descent(
  model = cd_fast.sparse_enet_coordinate_descent(
  model = cd_fast.sparse_enet_coordinate_descent(
  model = cd_fast.sparse_enet_coordinate_descent(
  model = cd_fast.sparse_enet_coordinate_descent(


  model = cd_fast.sparse_enet_coordinate_descent(
  model = cd_fast.sparse_enet_coordinate_descent(










Выведем наилучший коэффициент регуляризации:

In [109]:
best_alpha

215.44346900318823

In [110]:
lasso_pipeline_best = Pipeline(steps=[
    ('ohe_and_scaling', column_transformer),
    ('regression', Lasso(best_alpha))
])

model_best = lasso_pipeline_best.fit(X_train, y_train)

y_pred = model_best.predict(X_test)
y_train_pred = model_best.predict(X_train)

print("Test MSE = %.4f" % mean_squared_error(y_test, y_pred))
print("Train MSE = %.4f" % mean_squared_error(y_train, y_train_pred))

Test MSE = 6520715696724.0127
Train MSE = 2173386263076.4314


С учетом регуляризации ошибка уменьшилась на обеих выборках, но все равно ошибка на тесте намного больше,чем на трейне. Таким образом линейная модель вряд ли может считаться подходящей моделью для наших данных

## `Случайный лес`

Для начала обучим случайный лес на дефолтных параметрах, как и в предыдущем пункте

In [112]:
X_train

Unnamed: 0,Округ,Ближайшая станция метро,Время до метро,Метро рядом,Застройщик,Класс,Тип квартиры,Этаж,Этажей в доме,Отделка,Количество комнат,Площадь квартиры,Жилая площадь,Площадь кухни,Тип дома,Парковка,Год сдачи
306,САО,Марк,4.0,3,ПИК,Комфорт,Студия,32.0,33.0,Неизвестно,1.0,25.52,12.200000,6.500000,Монолитный,"Подземная, гостевая",2023.0
420,САО,Окружная,12.0,3,ПИК,Комфорт,квартира,2.0,21.0,Чистовая,2.0,60.90,21.900000,15.800000,Панельный,"Отдельная многоуровневая, гостевая",2023.0
60,ВАО,Преображенская площадь,6.0,3,,,апартаменты,3.0,4.0,Чистовая,3.0,86.20,20.333629,11.724697,,,2022.0
458,ЦАО,Шелепиха,13.0,2,КОРТРОС,Бизнес,квартира,19.0,51.0,Без отделки,1.0,43.01,20.333629,11.724697,Монолитно-кирпичный,"Подземная, гостевая",2023.0
92,ЦАО,Электрозаводская,15.0,2,Level Group,Бизнес,квартира,3.0,17.0,Без отделки,3.0,73.90,28.300000,25.800000,Монолитный,Подземная,2025.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
466,ЮВАО,Дубровка,4.0,3,MR Group,Бизнес,апартаменты,8.0,8.0,Предчистовая,2.0,98.20,32.700000,42.200000,"Монолитно-кирпичный, монолитный","Подземная, гостевая",2022.0
121,СЗАО,Стрешнево,11.0,2,Мангазея,Бизнес,квартира,12.0,21.0,Без отделки,1.0,48.60,17.200000,15.900000,"Монолитно-кирпичный, монолитный","Подземная, гостевая",2023.0
1044,СВАО,Бутырская,8.0,3,ПИК,Комфорт,Студия,25.0,33.0,Чистовая,1.0,25.40,12.400000,6.400000,"Панельный, монолитный","Подземная, гостевая",2025.0
1095,НАО (Новомосковский),Ольховая,17.0,3,Группа Родина,Бизнес,квартира,12.0,13.0,Без отделки,1.0,36.90,12.200000,11.400000,Монолитно-кирпичный,"Подземная, гостевая",2023.0


In [113]:
from sklearn.ensemble import RandomForestRegressor

rf = RandomForestRegressor()
rf.fit(X_train, y_train)

print(f"MSE on train set: {mean_squared_error(y_train, rf.predict(X_train)):.2f}")
print(f"MSE on train set: {mean_squared_error(y_test, rf.predict(X_test)):.2f}")

ValueError: could not convert string to float: 'САО'