# Linear Regression Model
## Аналитическое решение задачи о регрессии
Аналитическая формула для оценки параметров линейной регрессии методом наименьших квадратов:

$$
\hat{w} = (X^T X)^{-1} X^T y
$$

где:
- $ X $ — матрица признаков (с добавленным столбцом единиц для смещения),
- $ y $ — вектор целевой переменной,
- $ \hat{w} $ — вектор оптимальных коэффициентов.

Результат - вектор коэффициентов, который наилучшим образом аппроксимирует зависимость между X и Y в смысле минимализации суммы квадратов ошибок. Этот метод известен как метод наименьших квадратов.
## Регуляризация
Регуляризация — это техника, используемая в машинном обучении для предотвращения переобучения модели. В частности, регуляризация L1 и L2 помогают управлять сложностью модели и улучшать её обобщающую способность путем добавления штрафов к параметрам модели.
Обобщённая задача минимизации с регуляризацией выглядит так:

$$
\min_{w} \sum_{i=1}^{N} \left( y_i - f(x_i, w) \right)^2 + \lambda R(w)
$$

где:
- $ R(w) $ — регуляризатор (например, L1 или L2-норма),
- $ \lambda $ — коэффициент регуляризации, контролирующий баланс между ошибкой и сложностью модели.

L1-регуляризация (Lasso):

$$
R(w) = \|w\|_1 = \sum_{j=1}^{d} |w_j|
$$

L2-регуляризация (Ridge):

$$
R(w) = \|w\|_2^2 = \sum_{j=1}^{d} w_j^2
$$

Сравнение L1 и L2

 - L2 регуляризация делает все коэффициенты небольшими, но ненулевыми, что полезно для стабилизации модели и борьбы с мультиколлинеарностью.
 - L1 регуляризация устанавливает некоторые коэффициенты в ноль, что делает её эффективным инструментом для выбора признаков и работы с разреженными моделями.
 
Выбор между L1 и L2 зависит от конкретной задачи. Если целью является выбор небольшого числа значимых признаков, предпочтительнее использовать L1. Если важно сохранить все признаки, но контролировать их влияние, лучше подойдет L2.
## Использование линейных моделей для подбора нелинейных зависимостей
Чтобы применить линейные методы (например, линейную регрессию, Ridge, Lasso) для моделирования нелинейных зависимостей, нужно преобразовать исходные данные в новые признаки, которые будут отражать нелинейность. Например, можно добавить полиномиальные члены, взаимодействия признаков или другие нелинейные преобразования.
Допусти у нас есть два признака X1 и X2. Мы можем создать новые признаки следующим образом:

- Полиномиальные термины x1^2, x2^2, x1, x2
- Логарифмические преобразования: log(x1)
- Другие нелинейные функции: sin(x), cos(x)
Затем мы применяем линейные модели к новым признакам, что позволяет учесть нелинейные зависимости между исходными признаками и целевой переменной.

Этот подход называется **полиномиальной регрессией**, и он широко применяется в машинном обучении для построения сложных моделей на основе простых линейных методов.