# Доверительный интервал с помощью bootstrap

Воспользуемся доверительными интервалами, чтобы сделать более точные выводы о метриках модели.

Для начала скачаем данные:

In [None]:
from sklearn.datasets import fetch_california_housing
X, y = fetch_california_housing(return_X_y=True, as_frame=True)

Это задача предсказания средней цены в области на дом. Давайте оценим 95-процентный доверительный интервал на MSE Ridge-регрессии для этой выборки. Будем использовать бутстрэп для этого.

Для этого в цикле будем генерировать бутстрэп-выборки для обучения модели (то есть брать объекты из выборки с возвращением). В качестве тестовых объектов будем брать оставшиеся объекты. Каждый раз будем обучать модель и оценивать качество.

Реализуйте такой код для 95-процентного доверительного интервала на MSE.

Используйте 1000 итераций генераций выборки и обучения модели. Данные не обрабатывайте. Полезными методами будут `np.random.choice` для генерации индексов бутстрэп-выборок (не забудьте про «генерацию с возвращением»), `np.setdiff1d` для получения остатка выборки.

#### Подключаем необходимые библиотеки

In [None]:
from sklearn.metrics import mean_squared_error
from sklearn.linear_model import Ridge
import numpy as np

#### Итерации обучения и оценки

In [None]:
dataset_size = len(y) # количество объектов рассмотрения
index_arr = np.arange(dataset_size) # массив индексов
X = X.to_numpy()
clf = Ridge() # алгоритм обучения
mse_sample = [] # выборка из оценок mse
for _ in range(1000):
    train_sample = np.random.choice(a=index_arr, size=dataset_size, replace=True) # генерация с возвращением
                                                                                  # бутстрапированной
                                                                                  # выборки, replace=true по умолчанию
    test_sample = np.setdiff1d(index_arr, train_sample)
    X_train = X[train_sample]
    y_train = y[train_sample]
    X_test = X[test_sample]
    y_test = y[test_sample]
    clf.fit(X_train, y_train)
    mse_sample.append(mean_squared_error(y_test, clf.predict(X_test)))

#### Оценим 95-процентный интервал для MSE

Поскольку у нас 1000 оценок, то 26 и 976 оценки отсортированной mse-выборки являются границами доверительного интервала

In [None]:
mse_sample_sort = sorted(mse_sample)
print(f"95-процентный доверительный интервал: ({mse_sample_sort[25]}, {mse_sample_sort[975]})")

95-процентный доверительный интервал: (0.5049489171006679, 1.1885259161612942)
