## Машинное обучение

План :
* Линейная регрессия
* Случайный лес
* Градиентный бустинг

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

Загрузим наши обработанные данные и разделим признаки и целевую метку. Затем разделим на тестовую и обучающую выборки.

In [44]:
df = pd.read_csv('data_without_miss.csv')

X = df.iloc[:,:-2]
y = df['Цена']

In [45]:
df.isnull().sum()

Округ                       0
Ближайшая станция метро    10
Время до метро             10
Метро рядом                 0
Застройщик                 94
ЖК                         17
Класс                      94
Тип квартиры                0
Этаж                        0
Этажей в доме               0
Отделка                     0
Количество комнат           0
Площадь квартиры            0
Жилая площадь               0
Площадь кухни               0
Тип дома                   94
Парковка                   94
Год сдачи                   0
Цена                        0
Цена за 1 кв.м              0
dtype: int64

Среди признаков есть не особо информативные, например, ЖК, в котором находится квартира, так как влияние этого признака легко заменить классом этого ЖК, что намного сильнее влияет на целевую переменную

In [32]:
X = X.drop(columns = 'ЖК')

In [33]:
X.head()

Unnamed: 0,Округ,Ближайшая станция метро,Время до метро,Метро рядом,Застройщик,Класс,Тип квартиры,Этаж,Этажей в доме,Отделка,Количество комнат,Площадь квартиры,Жилая площадь,Площадь кухни,Тип дома,Парковка,Год сдачи
0,СВАО,Марьина роща,17.0,2,Компания Пионер,Премиум,квартира,5.0,22.0,Без отделки,1.0,32.2,20.333629,11.724697,Монолитный,Подземная,2025.0
1,СЗАО,Трикотажная,4.0,3,СК Резиденс,Бизнес,квартира,2.0,26.0,Неизвестно,1.0,48.06,20.333629,11.724697,Монолитно-кирпичный,"Подземная, гостевая",2023.0
2,САО,Тимирязевская,3.0,3,MR Group,Премиум,квартира,2.0,36.0,Чистовая,1.0,37.62,12.8,3.1,Монолитный,"Подземная, гостевая",2025.0
3,ЗАО,Фили,5.0,3,Аеон Девелопмент,Премиум,квартира,2.0,45.0,Без отделки,1.0,42.8,20.333629,11.724697,Монолитно-кирпичный,Подземная,2026.0
4,САО,Белорусская,4.0,3,MR Group,Премиум,апартаменты,2.0,16.0,Предчистовая,1.0,47.9,20.333629,11.724697,Монолитно-кирпичный,"Подземная, гостевая",2023.0


In [34]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.25, random_state=42)

### Линейная регрессия

У нас достаточно много категориальных данных, закодируем их с помощью `OneHotEncoder`, а вещественные признаки стандартизируем с помощью `StandardScaler`:

In [43]:
X.isnull().sum()

Округ                       0
Ближайшая станция метро    10
Время до метро             10
Метро рядом                 0
Застройщик                 94
Класс                      94
Тип квартиры                0
Этаж                        0
Этажей в доме               0
Отделка                     0
Количество комнат           0
Площадь квартиры            0
Жилая площадь               0
Площадь кухни               0
Тип дома                   94
Парковка                   94
Год сдачи                   0
dtype: int64

In [35]:
numeric_features = X.select_dtypes([np.number]).columns
categorical_features = X.dtypes[X.dtypes == "object"].index

In [36]:
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.compose import ColumnTransformer


column_transformer = ColumnTransformer([
    ('scaling', StandardScaler(), numeric_features),    
    ('ohe', OneHotEncoder(handle_unknown="ignore", drop="first",
                         min_frequency=0.001), categorical_features)
])

X_train_transf = column_transformer.fit_transform(X_train)
X_test_transf = column_transformer.transform(X_train)

print("Size before OneHot:", X_train.shape)
print("Size after OneHot:", X_train_transf.shape)


Size before OneHot: (825, 17)
Size after OneHot: (825, 228)


Количество признаков после кодирования увеличилось больше, чем в 10 раз, что очень плохо скажется на качестве модели и скорее всего приведет к ее переобучению. Попроубем побороть эту проблему с помощью __$L_1$ - регуляризации__, у которой есть очень полезное для нас свйство - зануление наименее важных признаков

In [41]:
from sklearn.linear_model import Lasso
from sklearn.metrics import mean_squared_error
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer

lasso_pipeline = Pipeline(steps=[
    ('ohe_and_scaling', column_transformer),
    ('regression', Lasso())
])

model = lasso_pipeline.fit(X_train, y_train)

y_pred = model.predict(X_test)

print("Test MAPE = %.4f" % mean_absolute_percentage_error(y_test, y_pred))
print("Train MAPE = %.4f" % mean_absolute_percentage_error(y_train, y_train_pred))

ValueError: Input X contains NaN.
Lasso does not accept missing values encoded as NaN natively. For supervised learning, you might want to consider sklearn.ensemble.HistGradientBoostingClassifier and Regressor which accept missing values encoded as NaNs natively. Alternatively, it is possible to preprocess the data, for instance by using an imputer transformer in a pipeline or drop samples with missing values. See https://scikit-learn.org/stable/modules/impute.html You can find a list of all estimators that handle NaN values at the following page: https://scikit-learn.org/stable/modules/impute.html#estimators-that-handle-nan-values

In [39]:
X_train_transf

<825x228 sparse matrix of type '<class 'numpy.float64'>'
	with 13258 stored elements in Compressed Sparse Row format>