# Регуляризация


---



Регуляризация помогает решить несколько общих проблем моделей, применяя:
- Минимизацию сложности модели
- Штрафы на функцию потерь
- Уменьшая переобученность модели (добавляя больше смещения, чтобы уменьшить дисперсию)

Или это способ уменьшить переобученность модели (overfitting):
- Требует добавления смещения (bias)
- Требует поиска оптимального значения гиперпараметра для штрафа

Основные три типа регуляризации:
- L1 - Lasso регрессия
- L2 - Ridge регрессия
- КОмбо L1 и L2 - Elastic Net

## L1

Добавляет штраф, равный абсолютному значению величин коэффициентов
- Ограничивает размер коффициентов
- Может создавать разреженные модели, в которых нек коэф-ты становятся нулями

Добвляет еще одно слагаемое - сумму коэффициентов что-то такое. Все так же метод наименьших квадратов, просто в формуле доп слагаемое - лямбда гиперпараметр

## L2

Добавляет штраф, равный квадрату величин коэф-т
- Все коэф-т уменьшаются на один порядок
- Не обязательно обнуляет коэф-ты

## Elastic Net

Помимо лябды коэф-та добавляется альфа коэф


---


---





# Масштабирование признаков (feature scalling)

Основная идея - ускорение сходимотси итераций для алгортимов, которе зависят от масштаба признаков
- В идеале - у всех признаков один масштаб
- Это позволяет сравнивать напрямую коэф-т ырахных признаков

Но есть подводные камни:
1.  Новые данные должны быть смасштабированы перед тем, как добавлять их в модель
2. Влияет на интерпретацию коэффициентов - легче сравнивать коэф-т ымежду собой, но сложнее масштабировать обратно на исходные шкалы

Основные способы:
- Стандартизация (Z преобразование): данные должны поулчить среднее значение мю=0 и среднеквадратическое отклонение бетта=1
- НормализацияЖ даннеы должны оказаться в диапазоне от 0 до 1

---
В sckikit-learn масштабирование происходит с помощью методов .fit() и .transform()
- fit - вычисляет подготовительные метрики Xmin среднее и тд
- transform - уже масштабируем данные

Из важнго:
- fit вызываем только для обучающих данных
- Вычисление статичстичекой информации должно выполняться только на обучающих данных
- Не нужно добавлять в модель какие-то знания, которые содержаться в тестовых данных

Если использоатвь все данные, то произойдет утечка информациию

Процесс масштабирвания признаков:
1. Разбиваем данные на обучающий и тестовый наборы
2. Вызываем .fit() только на обучающих данных
3. Вызываем transform() для обучающих данных
4. Вызываем transform() для тестовых данных

**В общем случае масштабирование целевой переменной не требуется**

In [28]:
import pandas  as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [29]:
from google.colab import drive
drive.mount('/content/gdrive')

Mounted at /content/gdrive


In [30]:
df = pd.read_csv('/content/gdrive/MyDrive/Colab Notebooks/Advertising.csv')

In [31]:
df.sample()

Unnamed: 0,TV,radio,newspaper,sales
65,69.0,9.3,0.9,9.3


In [32]:
X = df.drop('sales', axis=1)

In [33]:
y = df['sales']

In [34]:
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression

In [35]:
polynomial_converter = PolynomialFeatures(degree=3, include_bias=False)

In [36]:
# создаем новые признаки
polynomial_features = polynomial_converter.fit_transform(X)

In [37]:
# получили 19 признаков и отмасштабируем их
polynomial_features[0]

array([2.30100000e+02, 3.78000000e+01, 6.92000000e+01, 5.29460100e+04,
       8.69778000e+03, 1.59229200e+04, 1.42884000e+03, 2.61576000e+03,
       4.78864000e+03, 1.21828769e+07, 2.00135918e+06, 3.66386389e+06,
       3.28776084e+05, 6.01886376e+05, 1.10186606e+06, 5.40101520e+04,
       9.88757280e+04, 1.81010592e+05, 3.31373888e+05])

In [38]:
from sklearn.model_selection import train_test_split

In [39]:
X_train, X_test, y_train, y_test = train_test_split(polynomial_features, y, test_size=0.3, random_state=101)

In [40]:
from sklearn.preprocessing import StandardScaler

In [41]:
# масштабируем
scaler = StandardScaler()

In [42]:
# чтобы не допустить утечки данных используем только обучающий набор для метода fit()
scaler.fit(X_train)

А дальше уже используем transform в двух наборах

In [43]:
X_train = scaler.transform(X_train)

In [44]:
X_test = scaler.transform(X_test)

In [45]:
#scaled_X_train[0]

## Ridge-регрессия L2

- Это метод регулярзации, позволяющий снизить вероятность переобученности модели (overfitting) на обучающем наборе данных
- Это достигается добавлением штрафующего слагаемого к ошибке, с квадратом зачений коэф-в

- Для метрик кросс-валидации Sklearn использует 'scorer'
- Все объекты scorer следуют принципу: бОльшие результирующие значения лучше чем меньшие

ь

scorer - это некоторая метрика, например, средняя абсолютная ошибка, ср квадр отклонение и тд.



практика

In [46]:
from sklearn.linear_model import Ridge

In [47]:
#help(Ridge)

In [48]:
ridge_model = Ridge(alpha=10)

In [49]:
ridge_model.fit(X_train, y_train)

In [50]:
test_predictions = ridge_model.predict(X_test)

In [51]:
from sklearn.metrics import mean_absolute_error, mean_squared_error

In [52]:
MAE = mean_absolute_error(y_test, test_predictions)
MSE = mean_squared_error(y_test, test_predictions)
RMSE = np.sqrt(MSE)

In [53]:
MAE

0.5774404204714163

In [54]:
RMSE

np.float64(0.894638646131965)

Вопрос: насколько значене alpha=10 является наилучшим?

Решается это кросс-валидацией с помощью RidgeCV - С помощью кросс-валидации проходит обучение по разным значениям alpha на разбиваемых тестовых данных -  библиотеке уже встроенной - так часто встречается это вопрос, что уже все решено

То есть просто Ridge - это обучение при alpha которое мы сами решили и установили (alpha это коффэициент который уменьшает ошибку - регулиризирует). А RidgeCV делает кросс-валидацию с разными alpha

In [55]:
# то же самое но теперь все на RidgeCV
from sklearn.linear_model import RidgeCV

In [56]:
# alpha = значения которые будen выбираться
# scoring - метод по которому будет выбираться alpha
ridgeCV = RidgeCV(alphas=(0.1, 1.0, 10.0), scoring = 'neg_mean_absolute_error')

In [57]:
# в нашем случае X_test и y_test - это hold out test set - a X_train и y_train в свою очередь разбиваются на кросс валидацию.
# i mean ridgeCV: Ridge Cross Validation!!
ridgeCV.fit(X_train, y_train)

In [58]:
ridgeCV.alpha_

np.float64(0.1)

Появляется следующий вопрос: А по какой метрики выбираются лучшие alpha

In [59]:
from sklearn.metrics import get_scorer_names

In [60]:
#get_scorer_names

In [61]:
test_predictions = ridgeCV.predict(X_test)

In [62]:
MAE = mean_absolute_error(y_test, test_predictions)
MSE = mean_squared_error(y_test, test_predictions)
RMSE = np.sqrt(MSE)

In [63]:
MAE

0.427377488434534

In [64]:
RMSE

np.float64(0.6180719926938822)

Ошибка стала меньше - спасибо кросс-валидации

In [65]:
ridgeCV.coef_

array([ 5.40769392,  0.5885865 ,  0.40390395, -6.18263924,  4.59607939,
       -1.18789654, -1.15200458,  0.57837796, -0.1261586 ,  2.5569777 ,
       -1.38900471,  0.86059434,  0.72219553, -0.26129256,  0.17870787,
        0.44353612, -0.21362436, -0.04622473, -0.06441449])

In [66]:
ridgeCV.best_score_

-0.37492233402929653

## Lasso-регерессия или L1 регуляризация

Добавляет штраф из суммы абсолютных значений коэффициентов бетта

В отличие от ridge коэф-ты не возводятся в квадрат и просто берутся по модулю

- Это приводит к ограничению величин коэф-в
- На выходе можем получать нулевые коэф-ты (когда alpha достаточно больше)
- Выбираются только значимые признаки
- Легче интерпретировать -> меньше признаков потому что по итогу

alpha не конкретный а диапозон значений

LASSO - least absolute shrinkage and selection operator (наименьший абсолютный оператор сжатия и выбора)

In [67]:
from sklearn.linear_model import Lasso

In [68]:
Lasso()

In [69]:
# или сразу с кросс-валидацией
from sklearn.linear_model import LassoCV

In [70]:
# чем меньше eps мы укажем тем больший диапозон мы будем обрабатывать
# значения в скобках уже идут по умолчанию, но пропишем их явно, чтобы не забыть
# cv - количество разбиений данных
lasso_cv_model = LassoCV(eps=0.001, n_alphas=100, cv=5)

In [71]:
lasso_cv_model.fit(X_train, y_train)

  model = cd_fast.enet_coordinate_descent(


Получили warning "Convergence" (Сходимость) потому что по умолчанию количество интераций 1000, поставим 1000000

In [72]:
lasso_cv_model = LassoCV(eps=0.001, n_alphas=100, cv=5, max_iter=1000000)

In [73]:
lasso_cv_model.fit(X_train, y_train)

Или можно оставить количество итераций по умолчанию, но увеличить eps чтобы уменьшить диапозон значений alpha

In [74]:
lasso_cv_model = LassoCV(eps = 0.1, cv=5)

In [75]:
lasso_cv_model.fit(X_train, y_train)

In [76]:
lasso_cv_model.alphas

In [77]:
test_predictions = lasso_cv_model.predict(X_test)

In [78]:
MAE = mean_absolute_error(y_test, test_predictions)

In [79]:
RMAE = np.sqrt(mean_squared_error(y_test, test_predictions))

In [80]:
MAE

0.6541723161252868

In [81]:
RMAE

np.float64(1.1308001022762548)

Ошибка больше, но многие коэф-ты стали нулевыми

In [82]:
lasso_cv_model.coef_

array([1.002651  , 0.        , 0.        , 0.        , 3.79745279,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        ])

Результаты не плохие, учитывая сколько всего признаков было!

## Elastic Net: Ridge + Lasso

Старается улучшить L1 и L2 объеденяя их.

Альтренатива - рассматривать параметр "соотношения" между L1 и L2

In [87]:
from sklearn.linear_model import ElasticNetCV

In [91]:
ElasticNet_model = ElasticNetCV(l1_ratio=[.1, .5, .7, .9, .95, .99, 1], eps = 0.001, n_alphas=100, max_iter=1000000)

In [93]:
ElasticNet_model.fit(X_train, y_train)

In [94]:
# наилучшее решение
ElasticNet_model.l1_ratio_

np.float64(1.0)

In [97]:
test_predictions = ElasticNet_model.predict(X_test)

In [99]:
MAE = mean_absolute_error(y_test, test_predictions)

In [100]:
RMAE = np.sqrt(mean_squared_error(y_test, test_predictions))

In [101]:
MAE

0.4335034618590074

In [102]:
RMAE

np.float64(0.6063140748984036)

Можно сразу ее использовать минуя Лассо и Ридж, поскольку она типо сама преобразуется в ту или иную