1. Выбор датасета

Используем встроенный датасет diabetes из sklearn для задачи регрессии. Целевая переменная — количественный показатель прогрессирования диабета через год.

In [None]:
from sklearn.datasets import load_diabetes
data = load_diabetes()
X, y = data.data, data.target

In [None]:
import pandas as pd

# Преобразуем в DataFrame
df = pd.DataFrame(data.data, columns=data.feature_names)
df['target'] = data.target

# Выводим информацию
print("🔹 Названия признаков:")
print(data.feature_names)

print("\n🔹 Описание целевой переменной:")
print(data.target[:5])

print("\n🔹 Первые строки датафрейма:")
print(df.head())

🔹 Названия признаков:
['age', 'sex', 'bmi', 'bp', 's1', 's2', 's3', 's4', 's5', 's6']

🔹 Описание целевой переменной:
[151.  75. 141. 206. 135.]

🔹 Первые строки датафрейма:
        age       sex       bmi        bp        s1        s2        s3  \
0  0.038076  0.050680  0.061696  0.021872 -0.044223 -0.034821 -0.043401   
1 -0.001882 -0.044642 -0.051474 -0.026328 -0.008449 -0.019163  0.074412   
2  0.085299  0.050680  0.044451 -0.005670 -0.045599 -0.034194 -0.032356   
3 -0.089063 -0.044642 -0.011595 -0.036656  0.012191  0.024991 -0.036038   
4  0.005383 -0.044642 -0.036385  0.021872  0.003935  0.015596  0.008142   

         s4        s5        s6  target  
0 -0.002592  0.019907 -0.017646   151.0  
1 -0.039493 -0.068332 -0.092204    75.0  
2 -0.002592  0.002861 -0.025930   141.0  
3  0.034309  0.022688 -0.009362   206.0  
4 -0.002592 -0.031988 -0.046641   135.0  


2. Предобработка данных

Пропуски отсутствуют. Все признаки числовые, поэтому кодирование не требуется.

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

3. Разделение выборки

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

4. Обучение моделей

Бэггинг-модели:

In [None]:
from sklearn.ensemble import RandomForestRegressor, ExtraTreesRegressor

rf = RandomForestRegressor(n_estimators=100, random_state=42)
rf.fit(X_train, y_train)

et = ExtraTreesRegressor(n_estimators=100, random_state=42)
et.fit(X_train, y_train)

AdaBoost:

In [None]:
from sklearn.ensemble import AdaBoostRegressor

ada = AdaBoostRegressor(n_estimators=100, random_state=42)
ada.fit(X_train, y_train)

Градиентный бустинг:

In [None]:
from sklearn.ensemble import GradientBoostingRegressor

gb = GradientBoostingRegressor(n_estimators=100, random_state=42)
gb.fit(X_train, y_train)

5. Оценка качества

Используем метрики MSE (чем меньше, тем лучше) и R² (чем ближе к 1, тем лучше).

In [None]:
from sklearn.metrics import mean_squared_error, r2_score

def evaluate_model(model, X_test, y_test):
    y_pred = model.predict(X_test)
    return {
        "MSE": mean_squared_error(y_test, y_pred),
        "R²": r2_score(y_test, y_pred)
    }

models = {"Random Forest": rf, "Extra Trees": et, "AdaBoost": ada, "Gradient Boosting": gb}

for name, model in models.items():
    metrics = evaluate_model(model, X_test, y_test)
    print(f"{name}: MSE = {metrics['MSE']:.2f}, R² = {metrics['R²']:.2f}")

Random Forest: MSE = 2952.01, R² = 0.44
Extra Trees: MSE = 2816.20, R² = 0.47
AdaBoost: MSE = 3151.17, R² = 0.41
Gradient Boosting: MSE = 2898.44, R² = 0.45
