# Ансамбли моделей машинного обучения

Воспользуемся датасетом "Boston House Prices".

In [2]:
from sklearn.datasets import fetch_california_housing
import pandas as pd

california = fetch_california_housing()
df = pd.DataFrame(california.data, columns=california.feature_names)
df['Price'] = california.target

In [3]:
df.info

<bound method DataFrame.info of        MedInc  HouseAge  AveRooms  AveBedrms  Population  AveOccup  Latitude  \
0      8.3252      41.0  6.984127   1.023810       322.0  2.555556     37.88   
1      8.3014      21.0  6.238137   0.971880      2401.0  2.109842     37.86   
2      7.2574      52.0  8.288136   1.073446       496.0  2.802260     37.85   
3      5.6431      52.0  5.817352   1.073059       558.0  2.547945     37.85   
4      3.8462      52.0  6.281853   1.081081       565.0  2.181467     37.85   
...       ...       ...       ...        ...         ...       ...       ...   
20635  1.5603      25.0  5.045455   1.133333       845.0  2.560606     39.48   
20636  2.5568      18.0  6.114035   1.315789       356.0  3.122807     39.49   
20637  1.7000      17.0  5.205543   1.120092      1007.0  2.325635     39.43   
20638  1.8672      18.0  5.329513   1.171920       741.0  2.123209     39.43   
20639  2.3886      16.0  5.254717   1.162264      1387.0  2.616981     39.37   

       

In [4]:
df.isnull().sum()

MedInc        0
HouseAge      0
AveRooms      0
AveBedrms     0
Population    0
AveOccup      0
Latitude      0
Longitude     0
Price         0
dtype: int64

Пропусков нет. Разделим датасет на обучающую выборку и тренировочную:

In [6]:
from sklearn.model_selection import train_test_split

X = df.drop('Price', axis=1)
y = df['Price']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Обучению ансамблевых моделей

In [8]:
from sklearn.ensemble import RandomForestRegressor, ExtraTreesRegressor

# случайный лес
rf = RandomForestRegressor(n_estimators=100, random_state=42)
rf.fit(X_train, y_train)

In [9]:
# сверхслучайные деревья
et = ExtraTreesRegressor(n_estimators=100, random_state=42)
et.fit(X_train, y_train)

In [10]:
from sklearn.ensemble import AdaBoostRegressor

ada = AdaBoostRegressor(n_estimators=100, random_state=42)
ada.fit(X_train, y_train)

In [11]:
from sklearn.ensemble import GradientBoostingRegressor

gb = GradientBoostingRegressor(n_estimators=100, random_state=42)
gb.fit(X_train, y_train)

In [12]:
from sklearn.metrics import mean_squared_error, r2_score

# Случайный лес
rf_preds = rf.predict(X_test)
rf_mse = mean_squared_error(y_test, rf_preds)
rf_r2 = r2_score(y_test, rf_preds)

# Сверхслучайные деревья
et_preds = et.predict(X_test)
et_mse = mean_squared_error(y_test, et_preds)
et_r2 = r2_score(y_test, et_preds)

# AdaBoost
ada_preds = ada.predict(X_test)
ada_mse = mean_squared_error(y_test, ada_preds)
ada_r2 = r2_score(y_test, ada_preds)

# Градиентный бустинг
gb_preds = gb.predict(X_test)
gb_mse = mean_squared_error(y_test, gb_preds)
gb_r2 = r2_score(y_test, gb_preds)

In [13]:
print("Random Forest MSE:", rf_mse)
print("Super random forest MSE:", et_mse)
print("AdaBoost MSE:", ada_mse)
print("Gradient Boosting MSE:", gb_mse)

Random Forest MSE: 0.2553684927247781
Super random forest MSE: 0.2541933940990302
AdaBoost MSE: 0.614478459432694
Gradient Boosting MSE: 0.2939973248643864


In [14]:
print("Random Forest r2_score:", rf_r2)
print("Super random forest r2_score:", et_r2)
print("AdaBoost r2_score:", ada_r2)
print("Gradient Boosting r2_score:", gb_r2)

Random Forest r2_score: 0.8051230593157366
Super random forest r2_score: 0.8060198012072072
AdaBoost r2_score: 0.5310788695468394
Gradient Boosting r2_score: 0.7756446042829697


1. Случайный лес и Сверхслучайные деревья показали себя очень хорошо, достигнув R^2 более 0.80. Это говорит о том, что обе эти модели очень хорошо справляются с предсказанием целевой переменной и объясняют более 80% дисперсии в данных.
2. Gradient Boosting показал немного худший результат, но все равно достаточно хороший, достигнув R^2 около 0.77. Это говорит о том, что модель все еще хорошо справляется с предсказанием целевой переменной, объясняя примерно 77% дисперсии в данных.
3. AdaBoost показал себя значительно хуже других моделей, достигнув R^2 только около 0.53. Это говорит о том, что модель объясняет только примерно половину дисперсии в данных, что значительно хуже, чем у других моделей.