<a href="https://colab.research.google.com/github/CodeHunterOfficial/ABC_DataMining/blob/main/ML/%D0%A0%D0%B5%D0%B3%D1%80%D0%B5%D1%81%D1%81%D0%B8%D1%8F.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Простая линейная регрессия: Математическая модель и метод наименьших квадратов

#### 1. Введение

Простая линейная регрессия является одним из базовых инструментов статистического анализа, позволяющим моделировать линейную зависимость между одной независимой переменной $x$ (предиктором) и зависимой переменной $y$ (откликом). Модель простой линейной регрессии описывается следующим уравнением:

$$
y = w_0 + w_1 x + \varepsilon,
$$

где:
- $w_0$ — свободный член (intercept), представляющий значение $y$, когда $x = 0$;
- $w_1$ — коэффициент наклона (slope), характеризующий изменение $y$ при единичном изменении $x$;
- $\varepsilon$ — случайная ошибка (residual), отражающая отклонение фактических значений $y$ от предсказанных моделью.

Цель простой линейной регрессии заключается в определении параметров $w_0$ и $w_1$, которые минимизируют отклонение предсказанных значений от фактических данных. Для этого используется метод наименьших квадратов (Least Squares Method).



#### 2. Функция потерь (Mean Squared Error)

Для оценки качества модели применяется функция потерь, которая измеряет среднеквадратичное отклонение предсказанных значений от фактических. В случае простой линейной регрессии функция потерь имеет вид:

$$
E(w) = \frac{1}{2} \sum_{i=1}^{n} \left( y_i - (w_0 + w_1 x_i) \right)^2,
$$

где:
- $E(w)$ — функция потерь;
- $n$ — количество наблюдений в выборке;
- $y_i$ — фактическое значение зависимой переменной для $i$-го наблюдения;
- $x_i$ — значение независимой переменной для $i$-го наблюдения.

Коэффициент $\frac{1}{2}$ добавлен для удобства дифференцирования при последующей оптимизации.

Функция потерь $E(w)$ характеризует общую ошибку модели и стремится к минимуму при подборе параметров $w_0$ и $w_1$. Это достигается путем вычисления частных производных функции потерь по каждому параметру и их приравнивания к нулю.



#### 3. Оптимизация методом наименьших квадратов

Метод наименьших квадратов позволяет найти такие значения параметров $w_0$ и $w_1$, которые минимизируют функцию потерь. Для этого вычисляются частные производные функции $E(w)$ по $w_0$ и $w_1$:

$$
\frac{\partial E}{\partial w_0} = -\sum_{i=1}^{n} \left( y_i - (w_0 + w_1 x_i) \right),
$$

$$
\frac{\partial E}{\partial w_1} = -\sum_{i=1}^{n} x_i \left( y_i - (w_0 + w_1 x_i) \right).
$$

Приравнивая эти производные к нулю, получаем систему нормальных уравнений:

$$
\sum_{i=1}^{n} y_i = n w_0 + w_1 \sum_{i=1}^{n} x_i,
$$

$$
\sum_{i=1}^{n} x_i y_i = w_0 \sum_{i=1}^{n} x_i + w_1 \sum_{i=1}^{n} x_i^2.
$$

Решение данной системы позволяет найти оптимальные значения параметров $w_0$ и $w_1$:

$$
w_1 = \frac{n \sum_{i=1}^{n} x_i y_i - \left( \sum_{i=1}^{n} x_i \right) \left( \sum_{i=1}^{n} y_i \right)}{n \sum_{i=1}^{n} x_i^2 - \left( \sum_{i=1}^{n} x_i \right)^2},
$$

$$
w_0 = \frac{\sum_{i=1}^{n} y_i - w_1 \left( \sum_{i=1}^{n} x_i \right)}{n}.
$$



#### 4. Упрощение через ковариацию и дисперсию

Для более компактного представления формулы для $w_1$ и $w_0$ могут быть выражены через ковариацию и дисперсию. Ковариация $ \text{Cov}(x, y) $ и дисперсия $ \text{Var}(x) $ определяются как:

$$
\text{Cov}(x, y) = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y}),
$$

$$
\text{Var}(x) = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2,
$$

где $\bar{x}$ и $\bar{y}$ — выборочные средние:

$$
\bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i, \quad \bar{y} = \frac{1}{n} \sum_{i=1}^{n} y_i.
$$

Тогда коэффициент наклона $w_1$ выражается через ковариацию и дисперсию:

$$
w_1 = \frac{\text{Cov}(x, y)}{\text{Var}(x)} = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n} (x_i - \bar{x})^2}.
$$

Свободный член $w_0$ вычисляется как:

$$
w_0 = \bar{y} - w_1 \bar{x}.
$$



#### 5. Интерпретация формул

1. **Наклон ($w_1$):**
   - Коэффициент $w_1$ характеризует силу и направление линейной зависимости между переменными $x$ и $y$. Он пропорционален ковариации между $x$ и $y$, что отражает их совместную вариацию.
   - Деление на дисперсию $x$ нормализует эту зависимость, обеспечивая корректное масштабирование.

2. **Свободный член ($w_0$):**
   - Свободный член гарантирует, что линия регрессии проходит через центр масс данных $(\bar{x}, \bar{y})$.



### Построение функции $ y(x, w) $

Задача линейной регрессии заключается в построении модели, описывающей зависимость целевой переменной $ y $ от входных признаков $ x $. Модель представляется в виде функции:

$$
y(x, w) \to \mathbb{R},
$$

где:
- $ w = (w_0, w_1, \ldots, w_D)^T $ — вектор параметров модели,
- $ x = (x_1, x_2, \ldots, x_D)^T $ — вектор входных признаков.

Наиболее распространённая форма линейной модели имеет вид:

$$
y(x, w) = w_0 + \sum_{i=1}^D w_i x_i,
$$

или в векторной форме:

$$
y(x, w) = w^T \phi(x),
$$

где $ \phi(x) = (1, x_1, x_2, \ldots, x_D)^T $ — вектор базисных функций, включающий свободный член $ w_0 $.



### Базисные функции (Basis Functions)

Базисные функции позволяют расширить пространство признаков и улучшить способность модели описывать сложные зависимости между входными данными и целевой переменной. Введение базисных функций особенно полезно, когда исходные данные не подчиняются простой линейной зависимости.

Модель линейной регрессии с базисными функциями записывается как:

$$
y(x, w) = w_0 + \sum_{j=1}^{M-1} w_j \phi_j(x),
$$

или в векторной форме:

$$
y(x, w) = w^T \phi(x),
$$

где:
- $ \phi(x) = (\phi_0(x), \phi_1(x), \ldots, \phi_{M-1}(x))^T $ — вектор базисных функций,
- $ w = (w_0, w_1, \ldots, w_{M-1})^T $ — вектор параметров модели.



#### Зачем нужны базисные функции?

Использование базисных функций решает следующие задачи:
1. **Моделирование сложных зависимостей.** Базисные функции позволяют учитывать нелинейные взаимосвязи между входными признаками и целевой переменной.
2. **Повышение точности предсказаний.** Расширение пространства признаков увеличивает гибкость модели, что улучшает её способность аппроксимировать данные.
3. **Снижение ошибки модели.** Базисные функции помогают минимизировать ошибку за счёт более точного описания закономерностей в данных.
4. **Улучшение обобщающей способности.** Модель становится более устойчивой к изменениям в данных, особенно если зависимости носят нелинейный характер.



#### Примеры базисных функций

Рассмотрим несколько типов базисных функций, которые могут быть использованы в линейной регрессии:

1. **Полиномиальные базисные функции:**
   Полиномиальные функции добавляют степени исходных признаков для моделирования нелинейных зависимостей:
   $$
   \phi(x) = (1, x, x^2, x^3, \ldots, x^K).
   $$

2. **Радиально-базисные функции (RBF):**
   RBF сосредоточены вокруг определённых центров $ \mu_j $ и имеют форму Гауссовых функций:
   $$
   \phi(x) = \left( e^{-\frac{(x - \mu_1)^2}{2\sigma^2}}, e^{-\frac{(x - \mu_2)^2}{2\sigma^2}}, \ldots \right).
   $$

3. **Сплайн-функции:**
   Сплайны разделяют пространство признаков на интервалы и строят полиномы для каждого интервала, плавно соединяя их:
   $$
   \phi(x) =
   \begin{cases}
      p_1(x), & x < k_1, \\
      p_2(x), & k_1 \leq x < k_2, \\
      \dots, \\
      p_n(x), & x \geq k_{n-1}.
   \end{cases}
   $$

4. **Синусоидальные базисные функции:**
   Эти функции полезны для моделирования периодических процессов:
   $$
   \phi(x) = (\sin(\omega_1 x), \cos(\omega_1 x), \sin(\omega_2 x), \cos(\omega_2 x), \ldots).
   $$

5. **Логистические базисные функции:**
   Логистические функции подходят для задач с пороговыми эффектами:
   $$
   \phi(x) = \frac{1}{1 + e^{-(x - \mu)/\sigma}}.
   $$



### Матрица плана (Design Matrix)

Матрица плана, обозначаемая как $ X $, является ключевым элементом в построении линейной регрессии. Она представляет собой структурированную таблицу значений всех независимых переменных (признаков) для каждого наблюдения в данных. Каждая строка матрицы соответствует одному наблюдению, а каждый столбец — значению конкретного признака или его преобразования.



### Структура матрицы плана

Для классической линейной регрессии матрица плана $ X $ имеет размерность $ n \times (p+1) $, где:
- $ n $ — количество наблюдений,
- $ p $ — количество исходных признаков (без учёта свободного члена).

Стандартная форма матрицы плана выглядит следующим образом:

$$
X =
\begin{bmatrix}
1 & x_{11} & x_{12} & \dots & x_{1p} \\
1 & x_{21} & x_{22} & \dots & x_{2p} \\
\vdots & \vdots & \vdots & \ddots & \vdots \\
1 & x_{n1} & x_{n2} & \dots & x_{np}
\end{bmatrix}.
$$

Здесь:
- Первый столбец состоит из единиц и соответствует свободному члену $ w_0 $ (bias term),
- Остальные столбцы содержат значения исходных признаков для каждого наблюдения.



### Функции и задачи матрицы плана

Матрица плана играет центральную роль в линейной регрессии, обеспечивая удобство вычислений с использованием методов линейной алгебры. Основные её функции включают:

1. **Оценка параметров модели:**
   Параметры модели $ w $ вычисляются с помощью метода наименьших квадратов (Least Squares Method). Формула для оценки параметров имеет вид:
   $$
   \hat{w} = (X^T X)^{-1} X^T y,
   $$
   где:
   - $ X^T $ — транспонированная матрица плана,
   - $ y $ — вектор значений целевой переменной,
   - $ (X^T X)^{-1} $ — обратная матрица произведения $ X^T X $.

2. **Учёт множества факторов:**
   Матрица плана позволяет модели учитывать несколько факторов одновременно, что увеличивает её гибкость и способность анализировать влияние различных переменных на целевую величину.

3. **Проведение статистических тестов:**
   Через матрицу плана можно проводить статистические тесты для оценки значимости коэффициентов модели. Это помогает определить, какие факторы оказывают существенное влияние на целевую переменную.



### Матрица плана с базисными функциями

При использовании базисных функций структура матрицы плана изменяется. В этом случае каждый признак может быть представлен нелинейным преобразованием, что позволяет модели захватывать более сложные зависимости между признаками и целевой переменной. Матрица плана с базисными функциями обозначается как $ \Phi(x) $ и имеет вид:

$$
\Phi(x) =
\begin{bmatrix}
\phi_0(x_1) & \phi_1(x_1) & \phi_2(x_1) & \dots & \phi_p(x_1) \\
\phi_0(x_2) & \phi_1(x_2) & \phi_2(x_2) & \dots & \phi_p(x_2) \\
\vdots & \vdots & \vdots & \ddots & \vdots \\
\phi_0(x_n) & \phi_1(x_n) & \phi_2(x_n) & \dots & \phi_p(x_n)
\end{bmatrix},
$$

где:
- $ \phi_j(x_i) $ — значение базисной функции $ j $ для наблюдения $ i $,
- $ \phi_0(x_i) = 1 $ — свободный член модели.



### Примеры матрицы плана с базисными функциями

#### 1. Полиномиальные базисные функции

Для полиномиальной регрессии базисные функции представляют собой степени исходной переменной $ x $. Матрица плана принимает вид:

$$
\Phi(x) =
\begin{bmatrix}
1 & x_1 & x_1^2 & \dots & x_1^p \\
1 & x_2 & x_2^2 & \dots & x_2^p \\
\vdots & \vdots & \vdots & \ddots & \vdots \\
1 & x_n & x_n^2 & \dots & x_n^p
\end{bmatrix}.
$$

Здесь каждая строка содержит значения степеней переменной $ x $ для соответствующего наблюдения.



#### 2. Радиально-базисные функции (RBF)

Радиально-базисные функции (Radial Basis Functions, RBF) используются для моделирования локальных зависимостей. Каждая базисная функция фокусируется на определённом центре $ \mu_j $, и матрица плана принимает вид:

$$
\Phi(x) =
\begin{bmatrix}
e^{-\frac{(x_1 - \mu_1)^2}{2\sigma^2}} & e^{-\frac{(x_1 - \mu_2)^2}{2\sigma^2}} & \dots & e^{-\frac{(x_1 - \mu_p)^2}{2\sigma^2}} \\
e^{-\frac{(x_2 - \mu_1)^2}{2\sigma^2}} & e^{-\frac{(x_2 - \mu_2)^2}{2\sigma^2}} & \dots & e^{-\frac{(x_2 - \mu_p)^2}{2\sigma^2}} \\
\vdots & \vdots & \ddots & \vdots \\
e^{-\frac{(x_n - \mu_1)^2}{2\sigma^2}} & e^{-\frac{(x_n - \mu_2)^2}{2\sigma^2}} & \dots & e^{-\frac{(x_n - \mu_p)^2}{2\sigma^2}}
\end{bmatrix}.
$$

Здесь:
- $ \mu_j $ — центры базисных функций,
- $ \sigma $ — параметр ширины, регулирующий "разброс" функций.




### **1. Функция правдоподобия для одного наблюдения**

Функция правдоподобия $\mathcal{L}(w, \sigma^2 | t_i, x_i)$ для одного наблюдения $t_i$ задается через плотность вероятности нормального распределения:

$$
\mathcal{L}(w, \sigma^2 | t_i, x_i) = p(t_i | x_i, w, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(t_i - w^T \phi(x_i))^2}{2\sigma^2}\right),
$$

где:
- $p(t_i | x_i, w, \sigma^2)$ — условная плотность вероятности,
- $\mathcal{L}(w, \sigma^2 | t_i, x_i)$ — функция правдоподобия, рассматриваемая как функция параметров $w$ и $\sigma^2$.

Здесь:
- $t_i$ — наблюдаемое значение целевой переменной для объекта $x_i$,
- $y(x_i, w) = w^T \phi(x_i)$ — предсказанное значение модели,
- $\phi(x_i)$ — вектор значений базисных функций для объекта $x_i$,
- $\sigma^2$ — дисперсия шума.




### **2. Полная функция правдоподобия**

Для выборки из $n$ независимых наблюдений полная функция правдоподобия определяется как произведение правдоподобий для каждого наблюдения:

$$
\mathcal{L}(w, \sigma^2 | t, X) = \prod_{i=1}^{n} p(t_i | x_i, w, \sigma^2).
$$

Подставляя выражение для $p(t_i | x_i, w, \sigma^2)$, получаем:

$$
\mathcal{L}(w, \sigma^2 | t, X) = \prod_{i=1}^{n} \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(t_i - w^T \phi(x_i))^2}{2\sigma^2}\right).
$$

Выражение можно переписать в компактной форме:

$$
\mathcal{L}(w, \sigma^2 | t, X) = (2\pi\sigma^2)^{-n/2} \exp\left(-\frac{1}{2\sigma^2} \sum_{i=1}^{n} (t_i - w^T \phi(x_i))^2\right).
$$

Обозначим сумму квадратов ошибок через $E(w)$:

$$
E(w) = \sum_{i=1}^{n} (t_i - w^T \phi(x_i))^2 = \| t - \Phi w \|^2,
$$

где $\Phi$ — матрица базисных функций размерности $n \times (p+1)$. Тогда функция правдоподобия принимает вид:

$$
\mathcal{L}(w, \sigma^2 | t, X) = (2\pi\sigma^2)^{-n/2} \exp\left(-\frac{E(w)}{2\sigma^2}\right).
$$



### **3. Логарифмическая функция правдоподобия**

Для упрощения анализа и оптимизации параметров модели максимизируется логарифм функции правдоподобия. Логарифмируем $\mathcal{L}(w, \sigma^2 | t, X)$:

$$
\ln \mathcal{L}(w, \sigma^2 | t, X) = \ln \left( (2\pi\sigma^2)^{-n/2} \exp\left(-\frac{E(w)}{2\sigma^2}\right) \right).
$$

Разложим логарифм на слагаемые:

$$
\ln \mathcal{L}(w, \sigma^2 | t, X) = -\frac{n}{2} \ln(2\pi) - \frac{n}{2} \ln(\sigma^2) - \frac{E(w)}{2\sigma^2}.
$$

Таким образом, логарифмическая функция правдоподобия имеет вид:

$$
\ln \mathcal{L}(w, \sigma^2 | t, X) = -\frac{n}{2} \ln(2\pi\sigma^2) - \frac{E(w)}{2\sigma^2}.
$$



### **4. Оптимизация параметров модели**

#### **4.1. Оптимальные веса $w$**

Первые два слагаемых ($-\frac{n}{2} \ln(2\pi)$ и $-\frac{n}{2} \ln(\sigma^2)$) не зависят от $w$, поэтому задача максимизации логарифмической функции правдоподобия эквивалентна минимизации третьего слагаемого:

$$
\mathcal{L}(w) = \frac{E(w)}{2\sigma^2}.
$$

Если $\sigma^2$ фиксировано, то множитель $\frac{1}{2\sigma^2}$ можно игнорировать, и задача сводится к минимизации функции потерь:

$$
E(w) = \| t - \Phi w \|^2 = \sum_{i=1}^{n} (t_i - w^T \phi(x_i))^2.
$$

Аналитическое решение для $w$ находится из условия $\nabla_w E(w) = 0$:

$$
\hat{w} = (\Phi^T \Phi)^{-1} \Phi^T t.
$$

#### **4.2. Оптимальная дисперсия $\sigma^2$**

Для нахождения оптимального значения $\sigma^2$ максимизируем логарифмическую функцию правдоподобия по $\sigma^2$. Берем производную по $\sigma^2$ и приравниваем её к нулю:

$$
\frac{\partial}{\partial \sigma^2} \ln \mathcal{L}(w, \sigma^2 | t, X) = -\frac{n}{2\sigma^2} + \frac{E(w)}{2(\sigma^2)^2} = 0.
$$

Упрощая:

$$
\frac{n}{\sigma^2} = \frac{E(w)}{(\sigma^2)^2}.
$$

Отсюда:

$$
\hat{\sigma}^2 = \frac{E(\hat{w})}{n} = \frac{1}{n} \sum_{i=1}^{n} (t_i - \hat{w}^T \phi(x_i))^2.
$$



### **5. Итоговые результаты**

1. **Функция правдоподобия для одного наблюдения**:
   $$
   \mathcal{L}(w, \sigma^2 | t_i, x_i) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(t_i - w^T \phi(x_i))^2}{2\sigma^2}\right).
   $$

2. **Полная функция правдоподобия**:
   $$
   \mathcal{L}(w, \sigma^2 | t, X) = (2\pi\sigma^2)^{-n/2} \exp\left(-\frac{\| t - \Phi w \|^2}{2\sigma^2}\right).
   $$

3. **Логарифмическая функция правдоподобия**:
   $$
   \ln \mathcal{L}(w, \sigma^2 | t, X) = -\frac{n}{2} \ln(2\pi\sigma^2) - \frac{\| t - \Phi w \|^2}{2\sigma^2}.
   $$

4. **Оптимальные параметры модели**:
   - Вектор параметров $w$:
$$
     \hat{w} = (\Phi^T \Phi)^{-1} \Phi^T t.
$$
   - Дисперсия шума $\sigma^2$:
$$
     \hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^{n} (t_i - \hat{w}^T \phi(x_i))^2.
$$



### **Градиент функции потерь в задаче линейной регрессии с базисными функциями**

#### **1. Постановка задачи регрессии**

Пусть целевая переменная $ t $ для входного вектора $ x $ описывается детерминированной функцией $ y(x, w) $ с добавлением гауссовского шума $ \varepsilon $:

$$
t = y(x, w) + \varepsilon, \quad \varepsilon \sim \mathcal{N}(0, \sigma^2),
$$

где:
- $ y(x, w) $ — детерминированная функция, зависящая от параметров модели $ w $,
- $ \varepsilon $ — случайный шум, распределённый нормально с нулевым средним и дисперсией $ \sigma^2 $.

Модель предполагает линейную зависимость между параметрами $ w $ и значениями базисных функций $ \phi_j(x) $. Таким образом, функция $ y(x, w) $ записывается как:

$$
y(x, w) = w^T \phi(x),
$$

где:
- $ \phi(x) = [\phi_0(x), \phi_1(x), \dots, \phi_p(x)]^T $ — вектор значений базисных функций для объекта $ x $,
- $ w = [w_0, w_1, \dots, w_p]^T $ — вектор параметров модели.

Следовательно, модель принимает вид:

$$
t = w^T \phi(x) + \varepsilon.
$$



#### **2. Матрица базисных функций**

Для набора данных, состоящего из $ N $ объектов $ \{x_1, x_2, \dots, x_N\} $, вводится матрица базисных функций $ \mathbf{\Phi} $ размерности $ N \times (p+1) $:

$$
\mathbf{\Phi} =
\begin{bmatrix}
\phi_0(x_1) & \phi_1(x_1) & \phi_2(x_1) & \ldots & \phi_p(x_1) \\
\phi_0(x_2) & \phi_1(x_2) & \phi_2(x_2) & \ldots & \phi_p(x_2) \\
\vdots & \vdots & \vdots & \ddots & \vdots \\
\phi_0(x_N) & \phi_1(x_N) & \phi_2(x_N) & \ldots & \phi_p(x_N)
\end{bmatrix}.
$$

Здесь строки соответствуют объектам данных ($ x_1, x_2, \dots, x_N $), а столбцы — значениям базисных функций ($ \phi_0, \phi_1, \dots, \phi_p $).

Для каждого объекта $ x_i $ вектор значений базисных функций обозначается как $ \phi(x_i) $:

$$
\phi(x_i) = [\phi_0(x_i), \phi_1(x_i), \dots, \phi_p(x_i)]^T.
$$



#### **3. Функция потерь**

Целевая функция $ E(w) $ минимизирует квадратичную ошибку между истинными значениями $ t_i $ и предсказанными значениями $ w^T \phi(x_i) $ для всех объектов данных:

$$
E(w) = \frac{1}{2} \sum_{i=1}^{N} \left( t_i - w^T \phi(x_i) \right)^2.
$$

Здесь:
- $ t_i $ — истинное значение целевой переменной для объекта $ i $,
- $ w^T \phi(x_i) $ — предсказанное значение для объекта $ x_i $,
- коэффициент $ \frac{1}{2} $ добавлен для удобства дифференцирования.



#### **4. Градиент функции потерь**

Градиент функции потерь $ E(w) $ по вектору параметров $ w $ определяется как вектор частных производных:

$$
\nabla_w E = \begin{bmatrix}
\frac{\partial E(w)}{\partial w_0} \\
\frac{\partial E(w)}{\partial w_1} \\
\vdots \\
\frac{\partial E(w)}{\partial w_p}
\end{bmatrix}.
$$

Вычислим каждую компоненту $ \frac{\partial E(w)}{\partial w_k} $.



#### **5. Расчет производной $ \frac{\partial E(w)}{\partial w_k} $**

##### a) Исходное выражение для $ E(w) $:

$$
E(w) = \frac{1}{2} \sum_{i=1}^{N} \left( t_i - w^T \phi(x_i) \right)^2.
$$

Производная по $ w_k $:

$$
\frac{\partial E(w)}{\partial w_k} = \frac{\partial}{\partial w_k} \left( \frac{1}{2} \sum_{i=1}^{N} \left( t_i - w^T \phi(x_i) \right)^2 \right).
$$

Применяем правило дифференцирования сложной функции:

$$
\frac{\partial E(w)}{\partial w_k} = \frac{1}{2} \cdot 2 \cdot \sum_{i=1}^{N} \left( t_i - w^T \phi(x_i) \right) \cdot \frac{\partial}{\partial w_k} \left( t_i - w^T \phi(x_i) \right).
$$

Упрощаем коэффициент $ \frac{1}{2} \cdot 2 = 1 $:

$$
\frac{\partial E(w)}{\partial w_k} = \sum_{i=1}^{N} \left( t_i - w^T \phi(x_i) \right) \cdot \frac{\partial}{\partial w_k} \left( t_i - w^T \phi(x_i) \right).
$$

##### b) Производная внутреннего выражения:

Внутреннее выражение:

$$
t_i - w^T \phi(x_i) = t_i - \sum_{j=0}^{p} w_j \phi_j(x_i).
$$

Производная по $ w_k $:

$$
\frac{\partial}{\partial w_k} \left( t_i - w^T \phi(x_i) \right) = \frac{\partial}{\partial w_k} \left( t_i - \sum_{j=0}^{p} w_j \phi_j(x_i) \right).
$$

Так как $ t_i $ не зависит от $ w_k $, а производная суммы $ \sum_{j=0}^{p} w_j \phi_j(x_i) $ по $ w_k $ равна $ \phi_k(x_i) $, получаем:

$$
\frac{\partial}{\partial w_k} \left( t_i - w^T \phi(x_i) \right) = -\phi_k(x_i).
$$

Подставляем это в выражение для $ \frac{\partial E(w)}{\partial w_k} $:

$$
\frac{\partial E(w)}{\partial w_k} = \sum_{i=1}^{N} \left( t_i - w^T \phi(x_i) \right) \cdot (-\phi_k(x_i)).
$$

Выносим минус за сумму:

$$
\frac{\partial E(w)}{\partial w_k} = -\sum_{i=1}^{N} \left( t_i - w^T \phi(x_i) \right) \phi_k(x_i).
$$

Перепишем разность $ t_i - w^T \phi(x_i) $ как $ -(w^T \phi(x_i) - t_i) $:

$$
\frac{\partial E(w)}{\partial w_k} = \sum_{i=1}^{N} \left( w^T \phi(x_i) - t_i \right) \phi_k(x_i).
$$



#### **6. Переход к векторной форме**

Собираем все частные производные $ \frac{\partial E(w)}{\partial w_k} $ в один вектор $ \nabla_w E $. Заметим, что:

$$
\frac{\partial E(w)}{\partial w_k} = \sum_{i=1}^{N} \left( w^T \phi(x_i) - t_i \right) \phi_k(x_i),
$$

где $ \phi_k(x_i) $ — это $ k $-й элемент вектора $ \phi(x_i) $. Таким образом, можно записать:

$$
\nabla_w E = \sum_{i=1}^{N} \left( w^T \phi(x_i) - t_i \right) \cdot \phi(x_i).
$$

Здесь $ \phi(x_i) $ — вектор значений базисных функций для объекта $ x_i $, а $ w^T \phi(x_i) - t_i $ — скалярное значение ошибки для этого объекта. Умножение на $ \phi(x_i) $ даёт вклад в градиент для каждого параметра $ w_k $.



#### **7. Итоговый результат**

Градиент функции потерь $ E(w) $ имеет вид:

$$
\boxed{\nabla_w E = \sum_{i=1}^{N} \left( w^T \phi(x_i) - t_i \right) \cdot \phi(x_i).}
$$

Это выражение позволяет эффективно вычислять градиент для задачи многомерной линейной регрессии с использованием базисных функций.

### Условие минимума функции потерь

Для нахождения вектора параметров $ w $, минимизирующего функцию потерь $ E(w) $, необходимо решить уравнение:

$$
\nabla_w E = 0,
$$

где $ \nabla_w E $ — градиент функции потерь по параметрам $ w $. Транспонирование обеих частей уравнения не изменяет его смысла, так как нулевой вектор остается инвариантным относительно операции транспонирования:

$$
(\nabla_w E)^T = 0^T.
$$

Таким образом, условие минимума может быть записано в эквивалентной форме:

$$
(\nabla_w E)^T = 0.
$$



### Развернутая форма градиента

Градиент функции потерь $ E(w) $ выражается через базисные функции $ \phi(x_i) $ и целевые значения $ t_i $ следующим образом:

$$
\nabla_w E = \sum_{i=1}^{N} \left( w^T \phi(x_i) - t_i \right) \cdot \phi(x_i),
$$

где:
- $ \phi(x_i) $ — вектор значений базисных функций для объекта $ x_i $,
- $ w^T \phi(x_i) $ — предсказанное значение модели для объекта $ x_i $,
- $ t_i $ — истинное значение целевой переменной для объекта $ x_i $.

При транспонировании градиента получаем:

$$
(\nabla_w E)^T = \sum_{i=1}^{N} \left( w^T \phi(x_i) - t_i \right) \cdot \phi(x_i)^T.
$$

Разложим это выражение на два слагаемых:

$$
(\nabla_w E)^T = w^T \cdot \sum_{i=1}^{N} \phi(x_i) \cdot \phi(x_i)^T - \sum_{i=1}^{N} t_i \cdot \phi(x_i)^T.
$$



### Анализ первого слагаемого: $\sum_{i=1}^{N} \phi(x_i) \cdot \phi(x_i)^T$

Произведение вектора-столбца $ \phi(x_i) $ на вектор-строку $ \phi(x_i)^T $ дает квадратную матрицу размерности $ (p+1) \times (p+1) $, где $ p+1 $ — количество базисных функций. Элементы этой матрицы определяются как:

$$
\phi(x_i) \cdot \phi(x_i)^T =
\begin{bmatrix}
\phi_0(x_i)^2 & \phi_0(x_i) \phi_1(x_i) & \ldots & \phi_0(x_i) \phi_p(x_i) \\
\phi_1(x_i) \phi_0(x_i) & \phi_1(x_i)^2 & \ldots & \phi_1(x_i) \phi_p(x_i) \\
\vdots & \vdots & \ddots & \vdots \\
\phi_p(x_i) \phi_0(x_i) & \phi_p(x_i) \phi_1(x_i) & \ldots & \phi_p(x_i)^2
\end{bmatrix}.
$$

Суммирование данных матриц по всем объектам $ i $ дает матрицу $ \mathbf{\Phi}^T \mathbf{\Phi} $, где $ \mathbf{\Phi} $ — матрица базисных функций размерности $ N \times (p+1) $.



### Анализ второго слагаемого: $\sum_{i=1}^{N} t_i \cdot \phi(x_i)^T$

Второе слагаемое представляет собой линейную комбинацию строк матрицы $ \mathbf{\Phi} $ с коэффициентами $ t_i $. В явном виде:

$$
\sum_{i=1}^{N} t_i \cdot \phi(x_i)^T = (\sum_{i=1}^{N} t_i \cdot \phi_0(x_i), \sum_{i=1}^{N} t_i \cdot \phi_1(x_i), \ldots).
$$

Это выражение может быть записано в матричной форме как:

$$
\sum_{i=1}^{N} t_i \cdot \phi(x_i)^T = \mathbf{t}^T \mathbf{\Phi},
$$

где:
- $ \mathbf{t} $ — вектор целевых значений размерности $ N \times 1 $,
- $ \mathbf{\Phi} $ — матрица базисных функций размерности $ N \times (p+1) $.



### Подстановка выражений в градиент

Подставляя результаты анализа в выражение для транспонированного градиента, получаем:

$$
(\nabla_w E)^T = w^T \cdot \mathbf{\Phi}^T \mathbf{\Phi} - \mathbf{t}^T \mathbf{\Phi}.
$$

Приравнивая градиент к нулю:

$$
w^T \cdot \mathbf{\Phi}^T \mathbf{\Phi} = \mathbf{t}^T \mathbf{\Phi}.
$$

Умножая обе части уравнения справа на $ (\mathbf{\Phi}^T \mathbf{\Phi})^{-1} $, получаем:

$$
w^T = \mathbf{t}^T \mathbf{\Phi} (\mathbf{\Phi}^T \mathbf{\Phi})^{-1}.
$$



### Применение свойств транспонирования

Для перехода от транспонированной формы $ w^T $ к исходному вектору $ w $, транспонируем обе части уравнения:

$$
(w^T)^T = \left( \mathbf{t}^T \mathbf{\Phi} (\mathbf{\Phi}^T \mathbf{\Phi})^{-1} \right)^T.
$$

Используя свойства транспонирования:
1. $(A B)^T = B^T A^T$,
2. $(A^{-1})^T = (A^T)^{-1}$,

получаем:

$$
w = (\mathbf{\Phi}^T \mathbf{\Phi})^{-1} \mathbf{\Phi}^T \mathbf{t}.
$$



### Итоговое выражение

Окончательное выражение для вектора параметров $ w $, минимизирующего функцию потерь $ E(w) $, имеет вид:

$$
\boxed{w = (\mathbf{\Phi}^T \mathbf{\Phi})^{-1} \mathbf{\Phi}^T \mathbf{t}.}
$$

Это выражение известно как **нормальное уравнение** и представляет собой аналитическое решение задачи линейной регрессии с базисными функциями.
