# Ансамблевые модели

## Задача классификации 

В этом практическом задании вы научитесь работать с ансамблевыми моделями. Мы начнем с задачи классификации итальянского вина на предмет его пренадлежности к одному из трех видов. Загрузите датасет `Wine Data Database` с помощью функции `load_wine` из модуля `sklearn.datasets`.

In [2]:
from sklearn.datasets import load_wine

X, y = load_wine(return_X_y=True)

Модель случайного леса для классификации представлена классом `RandomForestClassifier` из модуля `sklearn.ensemble`. Конструктор этого класса содержит аргумент `n_estimators`, который соответствует колличеству базовых алгоритмов в случайном лесе. Целью этого задания будет настройка этого параметра. Сравните модели случайных лесов с различным числом базовых алгоритмов `{1, 5, 10, 20}`. Что происходит с качеством случайного леса на тестовых данных при увеличении этого числа? Ответом на это задание `answer1` является лучшая оценка качества модели, округленная до трех знаков после запятой. Используйте `accuracy` как метрику качества и скользящий контроль `cross_val_score` как метод оценки качества модели. Установите параметр `cv = StratifiedKFold(4)`. Возьмите среднее значение оценки качества. Для каждой из моделей случайного леса используете `random_state=42` при создании нового экземпляра.

### *РЕШЕНИЕ*

In [3]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import cross_val_score, StratifiedKFold

scores = dict()
for count in [1, 5, 10, 20] :
    random_forest = RandomForestClassifier(n_estimators=count, random_state=42)
    score = cross_val_score(random_forest, X, y, cv=StratifiedKFold(4), scoring = 'accuracy').mean()
    scores.update({count : score})

answer1 = max(scores.values())
print(round(answer1,3))

0.972


Далее сравните модель градиентного бустинга `GradientBoostingClassifier` из `sklearn.ensemble` с логистической регрессией `LogisticRegression` из `sklearn.linear_model` на этой выборке. Используете параметр `random_state=42` при создании экземпляров классов. Какая из моделей работает лучше? Приведите лучшую оценку, округленную до трех знаков после запятой, в качестве ответа `answer2` на это задание. Какие выводы из этого можно сделать?

### *РЕШЕНИЕ*

In [6]:
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.linear_model import LogisticRegression

gb = GradientBoostingClassifier(random_state=42)
lr = LogisticRegression(random_state=42)

gb_score = cross_val_score(gb, X, y, cv=StratifiedKFold(4), scoring = 'accuracy').mean()
lr_score = cross_val_score(lr, X, y, cv=StratifiedKFold(4), scoring = 'accuracy').mean()
print(gb_score, lr_score)

answer2 = max(gb_score, lr_score)
print(round(answer2,3))

0.9162878787878789 0.9555555555555555
0.956


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver opt

## Задача регрессии

Загрузите уже известную вам выборку `Boston House Prices` и разделите ее случайным образом на тренировочную и тестовую выборку. Для этого используете функцию `train_test_split` с параметрами `random_state=54` и `test_size=0.33`. Мы будем сравнивать 4 модели: `RandomForestRegressor`, `GradientBoostingRegressor` из `sklearn.ensemble`, а так же Гребневую регрессию и ЛАССО (`Ridge`, `Lasso` из `sklearn.linear_model`). Обучите каждую модель на тренировочной выборке с параметром `random_state=42` в конструкторе. Какая из моделей показывает наименьшее значение среднеквадратической ошибки на тестовых данных? В качестве ответа `answer3` приведите это значение, округленное до двух цифр после запятой.

### *РЕШЕНИЕ*

In [19]:
import numpy as np
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.linear_model import Ridge, Lasso
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

boston = load_boston()
x_train, x_test, y_train, y_test = train_test_split(
    boston.data, boston.target,
    test_size=0.33, random_state=53
)

def estimate_model(model_cls, x_train, y_train, x_test, y_test, **kwargs):
    model = model_cls(**kwargs)
    model.fit(x_train, y_train)
    predicted = model.predict(x_test)
    score = mean_squared_error(y_test, predicted)
    return score

scores = list()
for model_cls in [RandomForestRegressor, GradientBoostingRegressor, Ridge, Lasso] :
    model_score = estimate_model(model_cls, x_train, y_train, x_test, y_test, random_state=42)
    scores.append(model_score)
    print('Model: {}\nMSE: model_cls)
    
answer3 = min(scores)
print(round(answer3, 2))

<class 'sklearn.ensemble._forest.RandomForestRegressor'>
<class 'sklearn.ensemble._gb.GradientBoostingRegressor'>
<class 'sklearn.linear_model._ridge.Ridge'>
<class 'sklearn.linear_model._coordinate_descent.Lasso'>
8.83


# Строка с ответами

In [0]:
output = """Best score (random forest) {0:.3f}
Best score (other algorithms) {1:.3f}
Best score (regression) {2:.2f}"""
print(output.format(answer1, answer2, answer3))