$J(\beta) = \|y - X\beta\|^2 + \lambda \|\beta\|^2$


$\beta = (X^T X + \alpha I)^{-1} X^T y$

In [1]:
import numpy as np

X = np.array([25, 45, 55, 70, 90, 100, 120, 150]).reshape(-1, 1)  
y = np.array([150, 250, 270, 300, 350, 380, 450, 500]) 

X_b = np.c_[np.ones((X.shape[0], 1)), X]

alpha = 0.9

n, m = X_b.shape
I = np.eye(m)
I[0, 0] = 0  # Не регуляризуем intercept

beta = np.linalg.inv(X_b.T.dot(X_b) + alpha * I).dot(X_b.T).dot(y)

print("slope:", beta[1:])
print("intercept:", beta[0])

slope: [2.71023266]
intercept: 109.34970109497377


- λ=0: штраф отключается, и Ridge-регрессия сводится к обычной линейной регрессии, может привести к переобучению. 
- λ становится больше: регуляризация начинает влиять сильнее, уменьшая значения коэффициентов. Модель становится более устойчивой к шуму в данных, но может быть недообучение. 
- λ→∞: все коэффициенты стремятся к 0. Модель становится крайне простой, пренебрегая информацией в данных.

Контроль коррелированных признаков с помощью L2: Ridge предотвращает ситуацию, при которой один из сильно коррелированных признаков может занять доминирующую роль в модели, а другой будет проигнорирован. Вместо этого оба признака получают более сбалансированные и уменьшенные веса. Например, если два признака сильно коррелируют, модель не будет отдавать предпочтение только одному из них, как это происходит в случае с Lasso.

Аналитическое решение для Lasso-регрессии (L1-регуляризации) не существует, поскольку функция потерь включает абсолютное значение коэффициентов (модуль вместо квадрата), что делает оптимизационную задачу недифференцируемой в точках, где коэффициенты равны 0.

Зато Lasso может занулять коэффициенты (то есть они не стремтся к 0, а фактически могут стать нулями у некоторых признаков) -> можно использовать для feature selection