In [1]:
import pandas as pd
import numpy as np
import plotly.express as px
import seaborn as sns
import matplotlib.pyplot as plt
import sklearn
import category_encoders as ce
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.ensemble import GradientBoostingRegressor
from mlxtend.regressor import StackingCVRegressor
from sklearn.datasets import make_regression
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import GridSearchCV
from sklearn.linear_model import LinearRegression

In [2]:
df = pd.read_csv("Life Expectancy Data.csv")

In [3]:
y = df["Life expectancy "]
X =  df.drop(["Life expectancy "], axis=1)

In [4]:
y.fillna(y.median(), inplace=True)

In [5]:
X.Year = pd.to_datetime(X.Year).dt.year

In [6]:
bin_enc = ce.BinaryEncoder(drop_invariant=True)
X = bin_enc.fit_transform(X) 

In [7]:
X.fillna(X.mean(), inplace=True)

In [8]:
X_train, X_test, y_train, y_test= train_test_split(X, y, test_size= 0.30, random_state=9)

## Случайный лес (группа бэггинга)

Создается несколько независимых моделей на основе одного и того же алгоритма, но на разных наборах данных, с использованием случайной подвыборки из общего набора данных. Затем предсказания всех этих моделей комбинируются в одно общее предсказание путем усреднения или голосования.

Случайный лес - это метод ансамблирования в машинном обучении, который состоит из нескольких деревьев решений. Каждое дерево решений обучается на подмножестве данных и подмножестве признаков, которые выбираются случайным образом. Когда нужно сделать прогноз, каждое дерево в лесу выдает свой отдельный прогноз, а затем все прогнозы объединяются в один общий прогноз путем усреднения или голосования.

In [9]:
rfr = RandomForestRegressor()
rfr.fit(X_train, y_train)
prediction = rfr.predict(X_test)

In [10]:
params = { 
 'max_depth' : [10, 15, 20],
}

grid = GridSearchCV(estimator=RandomForestRegressor(), param_grid=params, cv= 5)
grid.fit(X_train, y_train)

In [11]:
grid.best_score_, grid.best_params_

(0.9553142711661892, {'max_depth': 15})

In [12]:
rfr = RandomForestRegressor(max_depth=15, random_state=0)
rfr.fit(X_train, y_train)
prediction = rfr.predict(X_test)
mean_squared_error(y_test, prediction)

3.780427824778443

## Группа бустинга

Последовательное обучение слабых моделей для создания сильной модели. В бустинге каждая модель учится на наборе данных, который был скорректирован на основе ошибок предыдущей модели. Таким образом, каждая следующая модель фокусируется на тех объектах, на которых предыдущая модель ошиблась, и старается исправить ошибки. В результате мы получаем сильную модель, которая может давать более точные прогнозы, чем каждая из слабых моделей в отдельности.

In [None]:
params = {
    'n_estimators': [500, 800],
    'max_depth': [5, 8],
    'min_samples_split': [2, 5],
    'learning_rate': [0.01, 0.1]
}
grid = GridSearchCV(GradientBoostingRegressor(), param_grid=params, cv=5, n_jobs=-1)
grid.fit(X_train, y_train)

In [None]:
grid.best_score_, grid.best_params_

In [None]:
gbr = GradientBoostingRegressor(**grid.best_params_)
gbr.fit(X_train, y_train)
prediction = gbr.predict(X_test)

In [None]:
mean_squared_error(y_test, prediction)

## Группа стекинга

Обучаем несколько моделей на тренировочном наборе данных, затем используем их для создания прогнозов на тестовом наборе данных. Затем мы собираем прогнозы от базовых моделей и используем их в качестве входных данных для мета-модели. Мета-модель обучается на этих данных, чтобы улучшить производительность модели.

In [None]:
reg1 = RandomForestRegressor(random_state=42)
reg2 = GradientBoostingRegressor(random_state=42)
reg3 = LinearRegression()
meta_learner = LinearRegression()
sr = StackingCVRegressor(regressors=[reg1, reg2, reg3], meta_regressor=meta_learner)
params = {
    'randomforestregressor__max_depth': [5, 8]
}

grid = GridSearchCV(estimator=sr, param_grid=params, cv=5, n_jobs=-1)
grid.fit(X_train, y_train)

In [None]:
sr.get_params().keys()

In [None]:
grid.best_score_, grid.best_params_

In [None]:
# __init__() got an unexpected keyword argument 'randomforestregressor__max_depth'
# почему???
sr = StackingCVRegressor(regressors=[reg1, reg2, reg3], meta_regressor=meta_learner, randomforestregressor__max_depth=8)
sr.fit(X_train, y_train)
prediction = sr.predict(X_test)

In [None]:
mean_squared_error(y_test, prediction)