### **Мультиколлинеарность и VIF**

Еще одно из ключевых допущений линейной регрессии — отсутствие мультиколлинеарности между переменными. 

**Мультиколлинеарность** — это явление, при котором две или более независимые переменные в модели линейной регрессии сильно коррелируют друг с другом. Проще говоря, если изменение одной переменной тесно связано с изменением другой, то они являются мультиколлинеарными.

**Последствия мультиколлинеарности:**

* Оценки коэффициентов регрессии становятся очень чувствительными к небольшим изменениям в данных.

* Усложняется оценка индивидуального влияния каждого фактора на зависимую переменную, так как их эффекты смешиваются.

**Методы обнаружения мультиколлинеарности:**

* Проверка парных корреляций. Если есть очень высокие значения (например, больше 0.8), это может указывать на наличие мультиколлинеарности.

* Variance Inflation Factor (VIF). VIF оценивает, насколько дисперсия коэффициента регрессии увеличивается из-за мультиколлинеарности.

Для каждого фактора $X_{j}$​ VIF вычисляется по формуле:

$$\mathrm{VIF}_{j}=\frac{1}{1-R^2_{j}}$$

где $R^2_{j}$​ — коэффициент детерминации модели, в которой строится регрессия $X_{j}$​ на все остальные факторы.

**Интерпретация VIF:**

* VIF = 1 — фактор не коррелирует с остальными.

* 1 < VIF < 5 — фактор умеренно (допустимо) коррелирует с остальными.

* VIF ≥ 5 — наличие мультиколлинеарности.

**Методы устранения мультиколлинеарности:**

* Удаление одной из коррелирующих переменных. Если две переменные мультиколлинеарны, можно удалить одну из них, оставив ту, которая более теоретически обоснована или имеет большее значение.

* Объединение переменных. Создание новой переменной, которая является комбинацией мультиколлинеарных переменных.

* Использование моделей с регуляризацией. Модели Ridge и LASSO разработаны для работы с мультиколлинеарностью путем добавления штрафа, который уменьшает влияние коррелированных переменных.

### **Гетероскедастичность и тест Уайта**

**Гетероскедастичность** — это нарушение одной из ключевых предпосылок классической линейной регрессии, которое заключается в том, что дисперсия (разброс) остатков модели не является постоянной для всех наблюдений.

**Последствия гетероскедастичности:**

* Неэффективность МНК-оценок — оценки, полученные с помощью метода наименьших квадратов (МНК), не являются наиболее точными.

* Смещённость и несостоятельность ковариационной матрицы МНК-оценок. Это приводит к тому, что статистические выводы о качестве полученных оценок (t-тесты, F-тест и доверительные интервалы) могут быть неадекватными.

**Выявление гетероскедастичности:**

* Графики остатков регрессии. В первом приближении наличие гетероскедастичности можно выявить на графиках остатков регрессии по некоторым переменным, по оцененной зависимой переменной или по номеру наблюдения: разброс точек может меняться в зависимости от значения этих переменных. 

* Статистические тесты Уайта, Голдфелда-Квандта, Бройша-Пагана, Парка, Глейзера, Спирмена. 

**Тест Уайта** — это один из наиболее часто применяемых статистических тестов для обнаружения гетероскедастичности, преимущество которого заключается в том, что он не требует заранее предполагать, от чего именно зависит дисперсия ошибки. Суть этого теста заключается в проверке, существует ли статистически значимая связь между квадратами остатков исходной модели и факторами, а также их квадратами и попарными произведениями.

**Тест Уайта:**

1. Оценивается исходная регрессия и вычисляются её остатки ($e$).

2. Строится вспомогательная регрессия квадратов остатков ($e^2$) на исходные признаки, их квадраты и попарные произведения.

3. Проверяется гипотеза:

    * $H_0$: гетероскедастичности нет (гомоскедастичность, дисперсия ошибок постоянна).
    
    * $H_1$: гетероскедастичность присутствует.

Проверьте наличие гетероскедастичности в данных модели `reg_housing` с помощью теста Уайта на уровне значимости 5% ([het_white](https://www.statsmodels.org/stable/generated/statsmodels.stats.diagnostic.het_white.html)).

In [None]:
# Выполните тест Уайта

housing_white_test = het_white(reg_housing_res, 
                               sm.add_constant(X_housing_train_scaled))

housing_white_test_result = pd.DataFrame(
    np.round(housing_white_test, 6), 
    index=['Test Statistic', 'Test Statistic p-value', 'F-Statistic', 'F-Test p-value'], 
    columns=['Value']
)
housing_white_test_result

[RandomizedSearchCV](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.RandomizedSearchCV.html) — метод подбора оптимальных гиперпараметров модели, суть которого состоит в переборе случайных комбинаций значений параметров из заданных диапазонов или распределений вместо полного перебора всех возможных комбинаций (как это реализовано в GridSearchCV).

**RandomizedSearchCV и GridSearchCV**:

* **RandomizedSearchCV** выбирает комбинации случайно. Это снижает вычислительные затраты и позволяет находить приемлемые (иногда лучшие) гиперпараметры при меньших вычислительных затратах. **Параметр n_iter** указывает число случайных комбинаций гиперпараметров, которые будут протестированы в процессе подбора.

* **GridSearchCV** перебирает все комбинации значений гиперпараметров. Это гарантирует нахождение результата внутри сетки, но требует много времени, особенно при большом числе параметров или возможных значений.

Подробнее можно изучить по **ссылке:**

* [Рандомизированная оптимизация параметров | scikit-learn.ru](https://scikit-learn.ru/stable/modules/grid_search.html#randomized-parameter-search)

In [None]:

n_iter = 50
scoring = 'roc_auc'
cv = 5

cv_ran = RandomizedSearchCV(
    estimator=model(random_state=RANDOM_STATE),
    param_distributions=params,
    n_iter=n_iter,
    scoring=scoring,
    cv=cv,
    random_state=RANDOM_STATE
    n_jobs=-1, # Может ускорить вычисления за счёт параллелизма, не влияет на результат
    refit=True # Переобучает модель на всей выборке после подбора гиперпараметров (по умолчанию True, можно не указывать)
).fit(X_train, y_train)

cv_best = cv_ran.best_estimator_

# Выведите оптимальные гиперпараметры обучения tree_titanic и номер итерации, на котором они были достигнуты

print(f'Оптимальные параметры DecisionTreeClassifier на итерации {cv_ran.best_index_}: {cv_ran.best_params_}')

In [None]:
params = {
    'n_estimators': [100, 150, 200, 250],
    'learning_rate': [0.1, 0.2, 0.3, 0.4],
    'max_depth': [1, 2, 3]
}
cv = 5

cv_grid = GridSearchCV(
    estimator=model(random_state=RANDOM_STATE),
    param_grid=params,
    cv=cv,
    scoring='neg_mean_squared_error'
)
cv_grid.fit(X, y)

# Выведите оптимальные гиперпараметры по результатам оптимизации

print(f'Оптимальные параметры: {cv_grid.best_params_}')
print(f'Лучший score: {cv_grid.best_score_:.4f}')

### **Cost-Complexity Pruning**

**Cost-Complexity Pruning** (CCP) — это метод борьбы с переобучением в деревьях решений, суть которого состоит в нахождении оптимального баланса между точностью модели и сложностью дерева.

Общий критерий оптимизации:

$$R_{\alpha}(T)=R(T)+\alpha|T|$$

где $R(T)$ — ошибка дерева (к примеру, MSE/MAE для регрессии или Gini/Entropy для классификации), $|T|$ — количество листьев в дереве, $\alpha$ — параметр регуляризации.

Cost-Complexity Pruning в sklearn для деревьев решений (DecisionTreeClassifier и DecisionTreeRegressor) реализуется с помощью **параметра ccp_alpha**.

In [None]:
# С помощью tree_housing рассчитайте все возможные значения ccp_alpha, используя метод cost_complexity_pruning_path

ccp_alphas = tree_housing.cost_complexity_pruning_path(X_housing_train, y_housing_train).ccp_alphas

# Подберите оптимальное значение ccp_alpha с помощью GridSearchCV
# Не забудьте зафиксировать RANDOM_STATE

params = {'ccp_alpha': ccp_alphas}
scoring='neg_mean_squared_error'
cv = 5

# Обучите дерево tree_housing_ccp с оптимальным параметром ccp_alpha
# Не забудьте зафиксировать RANDOM_STATE

tree_housing_ccp = DecisionTreeRegressor(
    ccp_alpha=cv_tree_housing_ccp.best_params_['ccp_alpha'],
    random_state=RANDOM_STATE
)
tree_housing_ccp.fit(X_housing_train, y_housing_train)

In [None]:
# Используя SequentialFeatureSelector, подберите на обучающей выборке оптимальный набор признаков
# Не забудьте зафиксировать RANDOM_STATE

bankr_sfs = SequentialFeatureSelector(
    estimator=LogisticRegression(random_state=RANDOM_STATE, solver='liblinear', class_weight='balanced'), 
    k_features='best', 
    forward=True, 
    floating=False,
    scoring='f1',
    cv=5,
    n_jobs=-1
).fit(X_bankr_train, y_bankr_train)

### **Early Stopping**

Ранняя остановка (Early Stopping) — это универсальный и широко распространённый метод регуляризации, который позволяет эффективно предотвращать переобучение моделей. Суть метода заключается в остановке обучения модели до завершения всех запланированных итераций в случае, если прогнозные способности модели на валидационной выборке перестают улучшаться или начинают ухудшаться.

In [None]:
# Определите целевую функцию objective для оптимизации параметров с помощью optuna
# Не забудьте фиксировать random_state, где это возможно

def objective(trial, X, y, cat_features, cv=4, random_state=None):
    """
    Целевая функция для оптимизации гиперпараметров CatBoostClassifier с помощью optuna.

    Аргументы:
        trial (optuna.trial.Trial): Объект trial для предложения гиперпараметров.
        X (pandas.DataFrame): Таблица с признаками.
        y (array-like): Массив значений целевой переменной.
        cat_features (list[str]): Список с категориальными признаками.
        cv (int): Количество фолдов для стратифицированной кросс-валидации. По умолчанию — 5.
        random_state : (int|None): Сид для фиксирования случайного состояния. По умолчанию — None (не фиксировать).
    """
    params = {
    'learning_rate': trial.suggest_float('learning_rate', 0.05, 1, log=True), # Темп обучения: float между 0.05 и 1 в логарифмическом масштабе    
    'max_depth': trial.suggest_int('max_depth', 1, 8), # Максимальная глубина деревьев: int между 1 и 8
    'n_estimators': trial.suggest_int('n_estimators', 100, 800), # Количество деревьев в ансамбле: int между 100 и 800
    'colsample_bylevel': trial.suggest_float('colsample_bylevel', 0.05, 1.0), # Доля признаков, используемых для построения каждого уровня дерева: float между 0.05 и 1.0

    'cat_features': cat_features,
    'eval_metric': 'Accuracy',
    'random_state': random_state, 
    'verbose': False
    }

    early_stopping_rounds = trial.suggest_int('early_stopping_rounds', 20, 100) # Критерий остановки: int между 20 и 100
    
    accuracy_scores = []

    skf = StratifiedKFold(n_splits=cv, shuffle=True, random_state=random_state)

    for train_idx, val_idx in skf.split(X, y):
        X_train, X_val = X.iloc[train_idx], X.iloc[val_idx]
        y_train, y_val = y.iloc[train_idx], y.iloc[val_idx]
        model = CatBoostClassifier(**params).fit(
            X_train, y_train,
            eval_set=(X_val, y_val),
            early_stopping_rounds=early_stopping_rounds
        )
        accuracy_scores.append(model.best_score_['validation']['Accuracy']) # val
    
    return np.mean(accuracy_scores)

# Оптимизируйте гиперпараметры модели с помощью optuna (sampler — TPESampler)
# Для подбора гиперпараметров используйте train
# Не забудьте зафиксировать RANDOM_STATE (в seed TPESampler)

n_trials = 60 # Количество тестируемых комбинаций параметров
cv = 4 # Количество фолдов при кросс-валидации

stud_sampler = TPESampler(seed=RANDOM_STATE)

stud_study = optuna.create_study(
    direction='maximize', # Максимизация accuracy
    sampler=stud_sampler,
    study_name='CatBoostClassifier'
)

stud_study.optimize(lambda trial: objective(trial, X_stud_train, y_stud_train, cat_features=stud_cat_feat, cv=cv, random_state=RANDOM_STATE), 
    n_trials=n_trials)

### **Вероятностные методы оптимизации гиперпараметров**

Вероятностные методы оптимизации гиперпараметров — это итерационные методы, которые позволяют находить оптимальные гиперпараметры обучения моделей быстрее и точнее, чем Grid Search и Randomized Search, за счет использования вероятностной модели целевой функции. 

На каждой итерации метод оценивает, в какой следующей точке с наибольшей вероятностью будет достигнуто улучшение текущей оценки оптимума. Вероятностные методы особенно полезны при работе со сложными многомерными пространствами гиперпараметров.

**Преимущества вероятностных методов перед Grid Search и Randomized Search:**

* Каждая итерация использует информацию, полученную на предыдущих итерациях.

* Вероятностные методы способны моделировать внутренние зависимости между гиперпараметрами.

* Вероятностные методы позволяют достичь более высокого качества, если было выполнено достаточное количество итераций.

* Гибкость. Вероятностные методы способны работать с непрерывными, дискретными и категориальными параметрами.

**Основным недостатком** вероятностных методов является высокая вычислительная сложность по сравнению с Grid Search и Randomized Search.

Одним из основных вероятностных методов является TPE (Tree-structured Parzen Estimator). TPE реализован в двух наиболее популярных библиотеках для оптимизации гиперпараметров: Optuna и Hyperopt.

Подробнее можно изучить по **ссылкам:**

* [Подбор гиперпараметров | education.yandex.ru](https://education.yandex.ru/handbook/ml/article/podbor-giperparametrov).

* [Optuna vs Hyperopt: Which Hyperparameter Optimization Library Should You Choose? | eptun.ai](https://neptune.ai/blog/optuna-vs-hyperopt).

# regularization


In [None]:
X_diab_ece_groups_const = sm.add_constant(X_diab_ece_groups)
ols_ece_diab = OLS(y_diab_ece_groups, X_diab_ece_groups_const).fit()
print(ols_ece_diab.summary())