### I. Линейная Регрессия

#### I.A. Основная Идея и Уравнение

**Назначение:** Линейная регрессия — модель для предсказания **непрерывной** целевой переменной ($y$) на основе одного или нескольких признаков ($x$). Модель предполагает **линейную зависимость** между признаками и целью.

**Уравнение:**

*   **Простая Линейная Регрессия (1 признак):**
    $$y = w x + b$$
    *   $y$: Целевая переменная.
    *   $x$: Признак.
    *   $w$: Вес (наклон прямой) - показывает изменение $y$ при изменении $x$ на 1.
    *   $b$: Смещение (свободный член) - значение $y$ при $x=0$.

*   **Множественная Линейная Регрессия (n признаков):**
    $$y = w_1 x_1 + w_2 x_2 + ... + w_n x_n + b = \sum_{j=1}^{n} w_j x_j + b$$
    *   $x_j$: j-й признак.
    *   $w_j$: Вес j-го признака.

*   **Матричная форма (для m объектов и n признаков):**
    $$\hat{y} = X w + b$$
    *   $\hat{y}$: Вектор предсказанных значений (размер $m \times 1$).
    *   $X$: Матрица признаков (размер $m \times n$). Каждая строка - объект, каждый столбец - признак.
    *   $w$: Вектор весов (размер $n \times 1$).
    *   $b$: Смещение (скаляр, часто добавляется как фиктивный признак к $X$, или обрабатывается отдельно).
    *(Примечание: Иногда $b$ включают в вектор $w$, добавляя к $X$ столбец из единиц).*

**Задача:** Найти оптимальные параметры $w$ (вектор весов) и $b$ (смещение), чтобы модель наилучшим образом описывала данные.

#### I.B. Функция Ошибки: MSE (Mean Squared Error)

**Назначение:** Оценить, насколько хорошо модель (линия/гиперплоскость) описывает данные. Минимизация MSE — цель обучения.

**Формула:**
$$MSE = \frac{1}{N} \sum_{i=1}^{N} (y_i - \hat{y}_i)^2$$
*   $N$: Количество объектов.
*   $y_i$: Истинное значение для i-го объекта.
*   $\hat{y}_i$: Предсказанное значение для i-го объекта моделью ($w x_i + b$ или $X_i w + b$).
*   $(y_i - \hat{y}_i)$: Ошибка (остаток) для i-го объекта.

**Свойства:**
*   Штрафует за большие ошибки сильнее из-за возведения в квадрат.
*   Всегда неотрицательна (MSE ≥ 0).
*   Для линейной регрессии функция MSE является **выпуклой**, что гарантирует существование единственного глобального минимума.

#### I.C. Методы Обучения (Поиск Оптимальных Параметров)

**1. Метод Наименьших Квадратов (МНК / OLS - Ordinary Least Squares):**
*   **Тип:** Аналитический (точное решение).
*   **Идея:** Найти $w$ и $b$, минимизирующие сумму квадратов остатков $\sum (y_i - \hat{y}_i)^2$.
*   **Результат:** Существуют точные формулы для $w$ и $b$ (особенно простая для простой регрессии, для множественной используется матричная алгебра):
    *   **Простая ЛР:**
        $$w = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sum (x_i - \bar{x})^2}$$
        $$b = \bar{y} - w \bar{x}$$
    *   **Множественная ЛР (матричная форма):**
        $$w = (X^T X)^{-1} X^T y$$
        *(Требуется обратимость матрицы $X^T X$, что не всегда выполняется, например, при мультиколлинеарности).*
*   **Преимущества:** Точное, быстрое для небольшого/среднего числа признаков.
*   **Недостатки:** Вычислительно сложен (обращение матрицы) при очень большом числе признаков. Не применим для многих других моделей.

**2. Градиентный Спуск (Gradient Descent - GD):**
*   **Тип:** Итеративный (приближенное решение).
*   **Идея:** Постепенно изменять $w$ и $b$ в направлении **антиградиента** функции ошибки MSE, пока не будет достигнут минимум.
*   **Аналогия:** Спуск с горы в тумане, двигаясь в сторону самого крутого уклона вниз.
*   **Градиенты MSE:**
    *   По весу $w_j$: $\frac{\partial MSE}{\partial w_j} = \frac{2}{N} \sum_{i=1}^{N} (\hat{y}_i - y_i) x_{ij}$
    *   По смещению $b$: $\frac{\partial MSE}{\partial b} = \frac{2}{N} \sum_{i=1}^{N} (\hat{y}_i - y_i)$
    *   **Матричная форма:**
        $\nabla_w MSE = \frac{2}{N} X^T (\hat{y} - y)$
        $\nabla_b MSE = \frac{2}{N} \sum (\hat{y} - y)$
*   **Шаг обновления:**
    $w := w - \eta \nabla_w MSE$
    $b := b - \eta \nabla_b MSE$
    *   $\eta$ (`learning_rate`): Скорость обучения - размер шага. **Важный гиперпараметр!**
        *   Маленькая $\eta$: Медленная сходимость.
        *   Большая $\eta$: Может "перепрыгнуть" минимум, расходимость.
*   **Преимущества:** Универсален (применим ко многим моделям и функциям потерь), хорошо работает с большим числом признаков.
*   **Недостатки:** Требует выбора `learning_rate`, может сходиться медленнее МНК, может застрять в локальном минимуме (но не для MSE линейной регрессии).

**(Код для реализации GD, визуализации MSE и линии регрессии, а также использования `sklearn.linear_model.LinearRegression` и сравнения результатов остается как в исходном варианте, он хорошо иллюстрирует процесс).**

In [None]:
#Пример использования sklearn (кратко)
from sklearn.linear_model import LinearRegression
import numpy as np

# ... (генерация X множественной регрессии, y) ...

# Важно: X должен быть 2D массивом для sklearn
# if X.ndim == 1:
#     X = X.reshape(-1, 1) # Пример для простой ЛР

model = LinearRegression()
model.fit(X, y)

sklearn_w = model.coef_
sklearn_b = model.intercept_
# print(f'sklearn w: {sklearn_w}, sklearn b: {sklearn_b}')

---

#### I.D. Регуляризация Линейной Регрессии

**Проблема:** Переобучение (Overfitting) - модель слишком хорошо подстраивается под обучающие данные (включая шум) и плохо обобщает на новые. В линейных моделях часто проявляется в **слишком больших значениях весов `w`**.

**Регуляризация:** Методы добавления **штрафа** к функции ошибки за большие веса, заставляя модель быть "проще" и устойчивее.

**1. L2-Регуляризация (Ridge / Гребневая регрессия):**
*   **Штраф:** Сумма **квадратов** весов: $\lambda \sum w_j^2$.
*   **Функция ошибки:** $J_{Ridge} = MSE + \lambda ||w||_2^2 = \frac{1}{N} \sum (y_i - \hat{y}_i)^2 + \lambda \sum w_j^2$.
*   $\lambda$ (`alpha` в sklearn): Коэффициент регуляризации (гиперпараметр). $\lambda \ge 0$.
    *   $\lambda=0$: Обычная ЛР.
    *   $\lambda \to \infty$: Все $w_j \to 0$.
*   **Эффект:** "Стягивает" веса к нулю, но **не обнуляет** их полностью. Уменьшает влияние всех признаков, особенно коррелированных. Уменьшает дисперсию (variance).

**2. L1-Регуляризация (Lasso / Лассо):**
*   **Штраф:** Сумма **модулей** весов: $\lambda \sum |w_j|$.
*   **Функция ошибки:** $J_{Lasso} = MSE + \lambda ||w||_1 = \frac{1}{N} \sum (y_i - \hat{y}_i)^2 + \lambda \sum |w_j|$.
*   $\lambda$ (`alpha` в sklearn): Коэффициент регуляризации.
*   **Эффект:** Может **обнулять** некоторые веса полностью. Выполняет **автоматический отбор признаков**. Делает модель разреженной (sparse). Также уменьшает дисперсию.

**3. Elastic Net:**
*   **Штраф:** Комбинация L1 и L2 штрафов.
*   **Функция ошибки:** $J_{ElasticNet} = MSE + \lambda_1 ||w||_1 + \lambda_2 ||w||_2^2$.
*   Сочетает преимущества Lasso (отбор признаков) и Ridge (стабильность при коррелированных признаках).

**Выбор типа и силы регуляризации (`alpha`/`lambda`):** Обычно с помощью **кросс-валидации**.

**(Код для использования `Ridge` и `Lasso` из `sklearn` и сравнения весов остается как в исходном варианте).**

In [1]:
# Пример использования Ridge и Lasso (кратко)
from sklearn.linear_model import Ridge, Lasso

# ... (генерация X, y) ...

ridge_model = Ridge(alpha=1.0) # alpha = lambda
ridge_model.fit(X, y)
# print("Ridge weights:", ridge_model.coef_)

lasso_model = Lasso(alpha=0.1) # alpha = lambda
lasso_model.fit(X, y)
# print("Lasso weights:", lasso_model.coef_) # Некоторые веса могут быть близки к 0

NameError: name 'X' is not defined

#### I.E. Компромисс Смещения и Дисперсии (Bias-Variance Tradeoff) и Регуляризация

*   **Смещение (Bias):** Ошибка из-за упрощающих предположений модели (недообучение).
*   **Дисперсия (Variance):** Ошибка из-за чувствительности модели к шуму в обучающих данных (переобучение).

**Регуляризация в основном борется с высокой дисперсией (переобучением):**
*   Штрафуя большие веса, она **упрощает** модель.
*   Упрощенная модель **менее чувствительна** к шуму в обучении.
*   **НО:** Чрезмерная регуляризация (слишком большое $\lambda$) может **увеличить смещение**, сделав модель слишком простой (недообучение).

**Цель:** Найти $\lambda$, обеспечивающую оптимальный баланс между смещением и дисперсией для минимизации ошибки на новых данных.

---