## Основные характеристики датасета

MedInc - медианный доход в районе

HouseAge - средний возраст домов в районе

AveRooms - среднее количество комнат на дом

AveBedrms - среднее количество спален на дом

Population - население района

AveOccup - среднее количество жителей на дом

Latitude - географическая широта района

Longitude - географическая долгота района

MedHouseVal - медианная стоимость домов в районе (целевая переменная)

## Подготовка

In [1]:
!pip install gmdh

Collecting gmdh
  Downloading gmdh-1.0.3-cp311-cp311-win_amd64.whl.metadata (14 kB)
Collecting docstring-inheritance (from gmdh)
  Downloading docstring_inheritance-2.2.0-py3-none-any.whl.metadata (11 kB)
Downloading gmdh-1.0.3-cp311-cp311-win_amd64.whl (365 kB)
   ---------------------------------------- 0.0/365.2 kB ? eta -:--:--
   - -------------------------------------- 10.2/365.2 kB ? eta -:--:--
   ------ -------------------------------- 61.4/365.2 kB 825.8 kB/s eta 0:00:01
   ---------------- ----------------------- 153.6/365.2 kB 1.3 MB/s eta 0:00:01
   ----------------------------- ---------- 266.2/365.2 kB 1.6 MB/s eta 0:00:01
   ---------------------------------------  358.4/365.2 kB 1.9 MB/s eta 0:00:01
   ---------------------------------------- 365.2/365.2 kB 1.6 MB/s eta 0:00:00
Downloading docstring_inheritance-2.2.0-py3-none-any.whl (24 kB)
Installing collected packages: docstring-inheritance, gmdh
Successfully installed docstring-inheritance-2.2.0 gmdh-1.0.3


In [2]:
import numpy as np
import pandas as pd
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score, mean_absolute_error
from sklearn.preprocessing import StandardScaler
from sklearn.neural_network import MLPRegressor
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import StackingRegressor
from sklearn.tree import DecisionTreeRegressor
import gmdh

RANDOM_STATE=123

import warnings
warnings.simplefilter('ignore')

In [3]:
# Загрузка данных
california = fetch_california_housing()
data = pd.DataFrame(data= np.c_[california['data'], california['target']],
                     columns= california['feature_names'] + ['target'])

In [4]:
data.head()

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude,target
0,8.3252,41.0,6.984127,1.02381,322.0,2.555556,37.88,-122.23,4.526
1,8.3014,21.0,6.238137,0.97188,2401.0,2.109842,37.86,-122.22,3.585
2,7.2574,52.0,8.288136,1.073446,496.0,2.80226,37.85,-122.24,3.521
3,5.6431,52.0,5.817352,1.073059,558.0,2.547945,37.85,-122.25,3.413
4,3.8462,52.0,6.281853,1.081081,565.0,2.181467,37.85,-122.25,3.422


In [5]:
data.isnull().sum()

MedInc        0
HouseAge      0
AveRooms      0
AveBedrms     0
Population    0
AveOccup      0
Latitude      0
Longitude     0
target        0
dtype: int64

In [6]:
data.describe()

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude,target
count,20640.0,20640.0,20640.0,20640.0,20640.0,20640.0,20640.0,20640.0,20640.0
mean,3.870671,28.639486,5.429,1.096675,1425.476744,3.070655,35.631861,-119.569704,2.068558
std,1.899822,12.585558,2.474173,0.473911,1132.462122,10.38605,2.135952,2.003532,1.153956
min,0.4999,1.0,0.846154,0.333333,3.0,0.692308,32.54,-124.35,0.14999
25%,2.5634,18.0,4.440716,1.006079,787.0,2.429741,33.93,-121.8,1.196
50%,3.5348,29.0,5.229129,1.04878,1166.0,2.818116,34.26,-118.49,1.797
75%,4.74325,37.0,6.052381,1.099526,1725.0,3.282261,37.71,-118.01,2.64725
max,15.0001,52.0,141.909091,34.066667,35682.0,1243.333333,41.95,-114.31,5.00001


## Разделение на выборки

In [7]:
X = data.iloc[:, :-1]
y = data.target

In [8]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=RANDOM_STATE)

In [9]:
# Масштабирование
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

## Обучение моделей

In [10]:
# Стекинг

estimators = [
    ('lr', LinearRegression()),
    ('dt', DecisionTreeRegressor(random_state=RANDOM_STATE))
]

stacking = StackingRegressor(estimators=estimators, final_estimator=LinearRegression())
stacking.fit(X_train_scaled, y_train)

In [11]:
# Модель многослойного персептрона

mlp = MLPRegressor(hidden_layer_sizes=(100, 50), max_iter=1000, random_state=RANDOM_STATE)
mlp.fit(X_train_scaled, y_train)

In [12]:
# Линейный метод COMBI

combi = gmdh.Combi()
combi.fit(X_train_scaled, y_train)
combi.get_best_polynomial()

'y = 0.8542*x1 + 0.1137*x2 - 0.321*x3 + 0.3143*x4 - 0.8748*x7 - 0.8305*x8 + 2.0719'

In [13]:
# Нелинейный метод MIA

mia = gmdh.Mia()
mia.fit(X_train_scaled, y_train)

<gmdh.gmdh.Mia at 0x248ef991290>


## Оценка моделей

In [14]:
y_pred_stacking = stacking.predict(X_test_scaled)
y_pred_mlp = mlp.predict(X_test_scaled)
y_pred_combi = combi.predict(X_test_scaled)
y_pred_mia = mia.predict(X_test_scaled)

In [15]:
# MAE
print(f"Stacking: {mean_absolute_error(y_test, y_pred_stacking):.4f}")
print(f"Perceptron: {mean_absolute_error(y_test, y_pred_mlp):.4f}")
print(f"COMBI: {mean_absolute_error(y_test, y_pred_combi):.4f}")
print(f"MIA: {mean_absolute_error(y_test, y_pred_mia):.4f}")

Stacking: 0.4291
Perceptron: 0.3503
COMBI: 0.5289
MIA: 0.5820


In [16]:
# R^2
print(f"Stacking: {r2_score(y_test, y_pred_stacking):.4f}")
print(f"Perceptron: {r2_score(y_test, y_pred_mlp):.4f}")
print(f"COMBI: {r2_score(y_test, y_pred_combi):.4f}")
print(f"MIA: {r2_score(y_test, y_pred_mia):.4f}")

Stacking: 0.7083
Perceptron: 0.8088
COMBI: 0.6058
MIA: 0.5343


## Вывод

Многослойный перцептрон показал наилучшие результаты среди всех моделей как по MAE, так и по R² для данной задачи. Однако и на его обучение ушло больше всего времени.

Стекинг модель с простой архитектурой оказалась на втором месте после персептрона. Если подобрать другие модели и параметры для них она могла бы показать себя лучше.

COMBI и MIA показали результаты хуже. При этом нелинейный метод, способный улавливать более сложные зависимости показал себя хуже линейного.