<a href="https://colab.research.google.com/github/CodeHunterOfficial/ABC_DataMining/blob/main/ML/Regression/%D0%9C%D0%BD%D0%BE%D0%B6%D0%B5%D1%81%D1%82%D0%B2%D0%B5%D0%BD%D0%BD%D0%B0%D1%8F_%D0%BB%D0%B8%D0%BD%D0%B5%D0%B9%D0%BD%D0%B0%D1%8F_%D1%80%D0%B5%D0%B3%D1%80%D0%B5%D1%81%D1%81%D0%B8%D1%8F.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


# 📌 Множественная линейная регрессия

## 1. Постановка задачи (без базисных функций)

Рассмотрим задачу регрессии, в которой целевая переменная $t \in \mathbb{R}$ зависит от многомерного вектора признаков $\mathbf{x} = (x_1, x_2, \ldots, x_D)^T \in \mathbb{R}^D$. Предположим, что эта зависимость может быть описана линейной моделью:

$$
t = w_0 + w_1 x_1 + w_2 x_2 + \ldots + w_D x_D + \varepsilon,
$$

где:
- $w_0$ — свободный член (bias),
- $w_i$ — вес, соответствующий i-му признаку,
- $\varepsilon$ — случайная ошибка модели, которую будем считать нормально распределённой:  
  $$
  \varepsilon \sim \mathcal{N}(0, \sigma^2).
  $$

Таким образом, условное распределение целевой переменной имеет вид:
$$
p(t \mid \mathbf{x}, \mathbf{w}) = \mathcal{N}\left(w_0 + \sum_{i=1}^{D} w_i x_i,\ \sigma^2\right).
$$

Цель состоит в том, чтобы оценить параметры $\mathbf{w} = (w_0, w_1, \ldots, w_D)^T$, минимизирующие ошибку предсказания на обучающей выборке.

## 2. Вероятностная интерпретация и метод максимального правдоподобия

Пусть у нас есть обучающая выборка из $n$ независимых наблюдений:
$$
\mathcal{D} = \{(\mathbf{x}^{(i)}, t^{(i)})\}_{i=1}^n.
$$

Функция правдоподобия (likelihood) для этой выборки запишется как произведение индивидуальных плотностей:
$$
L(\mathbf{w}) = \prod_{i=1}^{n} p(t^{(i)} \mid \mathbf{x}^{(i)}, \mathbf{w}).
$$

Подставляя выражение для нормального распределения:
$$
L(\mathbf{w}) = \prod_{i=1}^{n} \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left( -\frac{(t^{(i)} - (\mathbf{w}_0 + \sum_{j=1}^{D} w_j x_j^{(i)}))^2}{2\sigma^2} \right).
$$

Переходя к логарифму правдоподобия:
$$
\log L(\mathbf{w}) = -\frac{n}{2} \log(2\pi\sigma^2) - \frac{1}{2\sigma^2} \sum_{i=1}^{n} \left(t^{(i)} - \left(w_0 + \sum_{j=1}^{D} w_j x_j^{(i)}\right)\right)^2.
$$

Максимизация этого выражения эквивалентна минимизации суммы квадратов ошибок (SSE):
$$
\text{SSE} = \sum_{i=1}^{n} \left(t^{(i)} - \left(w_0 + \sum_{j=1}^{D} w_j x_j^{(i)}\right)\right)^2.
$$

Это подтверждает, что **метод наименьших квадратов является частным случаем метода максимального правдоподобия при нормальной ошибке**.

## 4. Введение базисных функций

До сих пор мы рассматривали линейную модель, в которой выход зависит от исходных признаков $x_1, \ldots, x_D$ напрямую. Однако реальные зависимости часто являются нелинейными. Чтобы расширить возможности модели, вводят **базисные функции**.

### Формальная запись модели с базисными функциями

В общем случае модель принимает вид:
$$
y(\mathbf{x}, \mathbf{w}) = w_0 + \sum_{j=1}^{M-1} w_j \cdot \phi_j(\mathbf{x}) = \sum_{j=0}^{M-1} w_j \cdot \phi_j(\mathbf{x}),
$$
где:
- $\phi_j(\mathbf{x})$ — j-я базисная функция, зависящая от $\mathbf{x}$,
- $\phi_0(\mathbf{x}) = 1$ — обеспечивает наличие свободного члена $w_0$,
- $M$ — количество базисных функций (включая константную).

Обозначим:
$$
\boldsymbol{\phi}(\mathbf{x}) = (\phi_0(\mathbf{x}), \phi_1(\mathbf{x}), \ldots, \phi_{M-1}(\mathbf{x}))^T \in \mathbb{R}^{M}.
$$

Тогда модель становится:
$$
y(\mathbf{x}, \mathbf{w}) = \mathbf{w}^T \boldsymbol{\phi}(\mathbf{x}).
$$

## 5. Вероятностная модель с базисными функциями

Как и ранее, предположим:
$$
t = y(\mathbf{x}, \mathbf{w}) + \varepsilon, \quad \varepsilon \sim \mathcal{N}(0, \sigma^2).
$$

Тогда:
$$
p(t \mid \mathbf{x}; \mathbf{w}) = \mathcal{N}\left(\mathbf{w}^T \boldsymbol{\phi}(\mathbf{x}), \sigma^2\right).
$$

Функция правдоподобия:
$$
L(\mathbf{w}) = \prod_{i=1}^{n} \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left( -\frac{(t^{(i)} - \mathbf{w}^T \boldsymbol{\phi}(\mathbf{x}^{(i)}))^2}{2\sigma^2} \right).
$$

Логарифм правдоподобия:
$$
\log L(\mathbf{w}) = C - \frac{1}{2\sigma^2} \sum_{i=1}^{n} \left(t^{(i)} - \mathbf{w}^T \boldsymbol{\phi}(\mathbf{x}^{(i)})\right)^2.
$$

Опять же, максимизация логарифма правдоподобия сводится к минимизации SSE:
$$
\min_{\mathbf{w}} \sum_{i=1}^{n} \left(t^{(i)} - \mathbf{w}^T \boldsymbol{\phi}(\mathbf{x}^{(i)})\right)^2.
$$

# 🧮 Матрица плана (Design Matrix) в линейной регрессии

## Определение

Матрица плана (или матрица признаков), обозначаемая как $X \in \mathbb{R}^{n \times (D+1)}$, представляет собой таблицу значений всех независимых переменных (факторов или признаков), используемых в модели линейной регрессии. Каждая строка этой матрицы соответствует одному наблюдению (объекту), а каждый столбец — отдельному признаку, который может быть представлен в исходном виде или преобразован с помощью базисной функции.

## Структура матрицы плана

Для классической линейной регрессии без использования базисных функций матрица плана имеет размерность $n \times (D+1)$, где:
- $n$ — количество объектов в выборке,
- $D$ — количество исходных признаков,
- дополнительный столбец из единиц добавляется для учёта свободного члена $w_0$.

Стандартная форма матрицы плана:

$$
X = \begin{bmatrix}
1 & x_{11} & x_{21} & \dots & x_{D1} \\
1 & x_{12} & x_{22} & \dots & x_{D2} \\
\vdots & \vdots & \vdots & \ddots & \vdots \\
1 & x_{1n} & x_{2n} & \dots & x_{Dn}
\end{bmatrix},
$$

где:
- первый столбец состоит из единиц, что позволяет учесть свободный член $w_0$,
- остальные столбцы содержат значения признаков для каждого наблюдения.

## Функции матрицы плана

Матрица плана играет ключевую роль в линейной регрессии, позволяя использовать мощные методы линейной алгебры для эффективного вычисления параметров модели. Её основные функции:

1. **Оценка параметров модели**  
   Позволяет найти оптимальные значения вектора весов $\mathbf{w}$ с использованием метода наименьших квадратов:
   $$
   \hat{\mathbf{w}} = (X^T X)^{-1} X^T \mathbf{t}.
   $$

2. **Учет множества факторов**  
   Обеспечивает возможность одновременного анализа влияния нескольких признаков на целевую переменную, повышая гибкость модели.

3. **Проведение статистических тестов**  
   Используется для проверки значимости коэффициентов модели, например, через дисперсионный анализ (ANOVA) или t-тесты.

## Матрица плана с базисными функциями

В случае использования **базисных функций**, модель становится более гибкой и способна описывать нелинейные зависимости. Тогда вместо исходных признаков используется их преобразование через заданные функции $\phi_j(\cdot)$. В этом случае матрица плана обозначается как $\Phi \in \mathbb{R}^{n \times M}$, где $M$ — количество базисных функций.

Формально:

$$
\Phi = \begin{bmatrix}
\phi_0(x^{(1)}) & \phi_1(x^{(1)}) & \dots & \phi_{M-1}(x^{(1)}) \\
\phi_0(x^{(2)}) & \phi_1(x^{(2)}) & \dots & \phi_{M-1}(x^{(2)}) \\
\vdots & \vdots & \ddots & \vdots \\
\phi_0(x^{(n)}) & \phi_1(x^{(n)}) & \dots & \phi_{M-1}(x^{(n)})
\end{bmatrix},
$$

где:
- $x^{(i)}$ — i-й объект из выборки,
- $\phi_j(x^{(i)})$ — значение j-й базисной функции, применённой к i-му объекту.

> Примечание: Здесь $\phi_0(x) = 1$ — константная функция, соответствующая свободному члену $w_0$.

## Примеры матрицы плана с базисными функциями

### 1. Полиномиальная регрессия

Для полиномиальной модели степени $K$, где базисные функции — это степени исходного признака $x$, матрица плана выглядит так:

$$
\Phi = \begin{bmatrix}
1 & x^{(1)} & (x^{(1)})^2 & \dots & (x^{(1)})^K \\
1 & x^{(2)} & (x^{(2)})^2 & \dots & (x^{(2)})^K \\
\vdots & \vdots & \vdots & \ddots & \vdots \\
1 & x^{(n)} & (x^{(n)})^2 & \dots & (x^{(n)})^K
\end{bmatrix}.
$$

### 2. Радиально-базисные функции (RBF)

Каждая RBF фокусируется на определённой точке $\mu_j$ пространства признаков:

$$
\Phi = \begin{bmatrix}
e^{-\frac{(x^{(1)} - \mu_1)^2}{2\sigma^2}} & e^{-\frac{(x^{(1)} - \mu_2)^2}{2\sigma^2}} & \dots & e^{-\frac{(x^{(1)} - \mu_M)^2}{2\sigma^2}} \\
e^{-\frac{(x^{(2)} - \mu_1)^2}{2\sigma^2}} & e^{-\frac{(x^{(2)} - \mu_2)^2}{2\sigma^2}} & \dots & e^{-\frac{(x^{(2)} - \mu_M)^2}{2\sigma^2}} \\
\vdots & \vdots & \ddots & \vdots \\
e^{-\frac{(x^{(n)} - \mu_1)^2}{2\sigma^2}} & e^{-\frac{(x^{(n)} - \mu_2)^2}{2\sigma^2}} & \dots & e^{-\frac{(x^{(n)} - \mu_M)^2}{2\sigma^2}}
\end{bmatrix}.
$$

Здесь $\mu_j$ — центр j-й радиально-базисной функции, $\sigma$ — параметр ширины.



# 📌 Градиент целевой функции линейной регрессии с базисными функциями

## 1. Целевая функция

С учетом матрицы базисных функций $\Phi$, общая форма целевой функции для многомерной линейной регрессии записывается следующим образом:

$$
E(\mathbf{w}) = \frac{1}{2} \sum_{i=1}^{N} \left( t_i - \mathbf{w}^T \Phi(\mathbf{x}_i) \right)^2,
$$

где:
- $t_i$ — истинное значение целевой переменной для $i$-го объекта,
- $\mathbf{w}$ — вектор параметров модели размерности $(p+1) \times 1$,
- $\Phi(\mathbf{x}_i)$ — вектор значений базисных функций для объекта $\mathbf{x}_i$,
- $\mathbf{w}^T \Phi(\mathbf{x}_i)$ — предсказанное моделью значение для объекта $\mathbf{x}_i$.

---

## 2. Цель: найти градиент $\nabla_{\mathbf{w}} E$

Градиент функции потерь $E(\mathbf{w})$ по вектору весов $\mathbf{w}$ определяется как вектор частных производных:

$$
\nabla_{\mathbf{w}} E =
\begin{bmatrix}
\frac{\partial E}{\partial w_0} \\
\frac{\partial E}{\partial w_1} \\
\vdots \\
\frac{\partial E}{\partial w_p}
\end{bmatrix}.
$$

Найдём каждую компоненту этого вектора.

---

## 3. Расчёт частной производной по $w_k$

Рассмотрим одну компоненту градиента — производную по $w_k$:

$$
\frac{\partial E}{\partial w_k}
= \frac{\partial}{\partial w_k} \left( \frac{1}{2} \sum_{i=1}^{N} \left( t_i - \mathbf{w}^T \Phi(\mathbf{x}_i) \right)^2 \right).
$$

### a) Применяем правило дифференцирования сложной функции

Производная квадрата равна удвоенному выражению под знаком квадрата. Учитываем коэффициент $\frac{1}{2}$:

$$
\frac{\partial E}{\partial w_k}
= \sum_{i=1}^{N} \left( t_i - \mathbf{w}^T \Phi(\mathbf{x}_i) \right)
\cdot \frac{\partial}{\partial w_k} \left( t_i - \mathbf{w}^T \Phi(\mathbf{x}_i) \right).
$$

### b) Находим производную внутреннего выражения

Разложим скалярное произведение:

$$
\mathbf{w}^T \Phi(\mathbf{x}_i) = \sum_{j=0}^{p} w_j \phi_j(\mathbf{x}_i),
$$

откуда следует:

$$
\frac{\partial}{\partial w_k} \left( \mathbf{w}^T \Phi(\mathbf{x}_i) \right) = \phi_k(\mathbf{x}_i).
$$

Поэтому:

$$
\frac{\partial}{\partial w_k} \left( t_i - \mathbf{w}^T \Phi(\mathbf{x}_i) \right) = -\phi_k(\mathbf{x}_i).
$$

Подставляем это в выражение для $\frac{\partial E}{\partial w_k}$:

$$
\frac{\partial E}{\partial w_k}
= -\sum_{i=1}^{N} \left( t_i - \mathbf{w}^T \Phi(\mathbf{x}_i) \right) \cdot \phi_k(\mathbf{x}_i).
$$

### c) Упрощаем выражение

Заметим, что $t_i - \mathbf{w}^T \Phi(\mathbf{x}_i) = -(\mathbf{w}^T \Phi(\mathbf{x}_i) - t_i)$, тогда:

$$
\frac{\partial E}{\partial w_k}
= \sum_{i=1}^{N} \left( \mathbf{w}^T \Phi(\mathbf{x}_i) - t_i \right) \cdot \phi_k(\mathbf{x}_i).
$$



## 4. Переход к векторной форме (подробно)

Мы уже вывели выражение для частной производной функции потерь $E(\mathbf{w})$ по одному параметру $w_k$:

$$
\frac{\partial E}{\partial w_k} = \sum_{i=1}^{N} \left( \mathbf{w}^T \Phi(\mathbf{x}_i) - t_i \right) \cdot \phi_k(\mathbf{x}_i),
$$

где:
- $\Phi(\mathbf{x}_i)$ — вектор базисных функций размерности $(p+1) \times 1$, соответствующий объекту $\mathbf{x}_i$,
- $\phi_k(\mathbf{x}_i)$ — $k$-я компонента этого вектора.

Теперь рассмотрим **весь вектор градиента**, состоящий из всех таких частных производных:

$$
\nabla_{\mathbf{w}} E =
\begin{bmatrix}
\frac{\partial E}{\partial w_0} \\
\frac{\partial E}{\partial w_1} \\
\vdots \\
\frac{\partial E}{\partial w_p}
\end{bmatrix}.
$$

Подставляя каждую компоненту, получаем:

$$
\nabla_{\mathbf{w}} E =
\begin{bmatrix}
\sum_{i=1}^{N} \left( \mathbf{w}^T \Phi(\mathbf{x}_i) - t_i \right) \cdot \phi_0(\mathbf{x}_i) \\
\sum_{i=1}^{N} \left( \mathbf{w}^T \Phi(\mathbf{x}_i) - t_i \right) \cdot \phi_1(\mathbf{x}_i) \\
\vdots \\
\sum_{i=1}^{N} \left( \mathbf{w}^T \Phi(\mathbf{x}_i) - t_i \right) \cdot \phi_p(\mathbf{x}_i)
\end{bmatrix}.
$$

### 🔍 Представим это в виде одного выражения

Заметим, что каждый элемент градиента — это сумма произведений скаляра $(\mathbf{w}^T \Phi(\mathbf{x}_i) - t_i)$ на $k$-ю компоненту вектора $\Phi(\mathbf{x}_i)$. То есть можно переписать всё это как:

$$
\nabla_{\mathbf{w}} E = \sum_{i=1}^{N} \left( \mathbf{w}^T \Phi(\mathbf{x}_i) - t_i \right) \cdot \Phi(\mathbf{x}_i).
$$

Это очень важный шаг: мы "собрали" все частные производные в одну сумму, где каждое слагаемое — это умноженный на ошибку вектор базисных функций для конкретного объекта.



### 📊 Введение матрицы базисных функций $\Phi$

Для дальнейшего упрощения используем матрицу базисных функций $\Phi$, которая имеет следующую структуру:

$$
\Phi =
\begin{bmatrix}
\Phi(\mathbf{x}_1)^T \\
\Phi(\mathbf{x}_2)^T \\
\vdots \\
\Phi(\mathbf{x}_N)^T
\end{bmatrix}
=
\begin{bmatrix}
\phi_0(\mathbf{x}_1) & \phi_1(\mathbf{x}_1) & \cdots & \phi_p(\mathbf{x}_1) \\
\phi_0(\mathbf{x}_2) & \phi_1(\mathbf{x}_2) & \cdots & \phi_p(\mathbf{x}_2) \\
\vdots & \vdots & \ddots & \vdots \\
\phi_0(\mathbf{x}_N) & \phi_1(\mathbf{x}_N) & \cdots & \phi_p(\mathbf{x}_N)
\end{bmatrix}.
$$

Размерность этой матрицы:  
$$
\Phi \in \mathbb{R}^{N \times (p+1)}.
$$

Также обозначим:
- $\mathbf{w} \in \mathbb{R}^{(p+1) \times 1}$ — вектор параметров модели,
- $\mathbf{t} \in \mathbb{R}^{N \times 1}$ — вектор истинных значений целевой переменной.



### 💡 Вектор предсказаний

Вектор предсказаний модели будет равен:

$$
\hat{\mathbf{y}} = \Phi \mathbf{w},
$$

а ошибка (разность между предсказанием и истиной):

$$
\mathbf{e} = \Phi \mathbf{w} - \mathbf{t}.
$$




## 🧮 Выражение для градиента через матрицы

Мы имеем следующее выражение для градиента:

$$
\nabla_{\mathbf{w}} E = \sum_{i=1}^{N} \left( \mathbf{w}^T \Phi(\mathbf{x}_i) - t_i \right) \cdot \Phi(\mathbf{x}_i).
$$

### 🔍 Что здесь происходит?

- Для каждого объекта $i$ из обучающей выборки:
  - $\mathbf{w}^T \Phi(\mathbf{x}_i)$ — это скаляр, предсказание модели на этом объекте,
  - $t_i$ — истинное значение (тоже скаляр),
  - $\Phi(\mathbf{x}_i)$ — вектор базисных функций размерности $(p+1) \times 1$,
  - $\left( \mathbf{w}^T \Phi(\mathbf{x}_i) - t_i \right)$ — ошибка предсказания для $i$-го объекта.

То есть мы умножаем ошибку $i$-го примера на соответствующий ему вектор признаков (в базисном представлении), и всё это суммируем по всем $N$ объектам.



### 💡 Введём новые обозначения

Вспомним, что:
- $\Phi \in \mathbb{R}^{N \times (p+1)}$ — матрица базисных функций. Каждая строка — это $\Phi(\mathbf{x}_i)^T$, то есть транспонированный вектор базисных функций для $i$-го объекта.
- $\mathbf{w} \in \mathbb{R}^{(p+1)}$ — вектор параметров.
- $\mathbf{t} \in \mathbb{R}^{N}$ — вектор целевых значений.

Тогда:
- $\Phi \mathbf{w} \in \mathbb{R}^{N}$ — вектор предсказаний модели,
- $\Phi \mathbf{w} - \mathbf{t} \in \mathbb{R}^{N}$ — вектор ошибок.



### 📌 Теперь посмотрим на исходную сумму:

$$
\nabla_{\mathbf{w}} E = \sum_{i=1}^{N} e_i \cdot \Phi(\mathbf{x}_i),
\quad \text{где } e_i = (\Phi \mathbf{w} - \mathbf{t})_i.
$$

Это сумма произведений чисел $e_i$ на векторы $\Phi(\mathbf{x}_i)$. То есть, каждый член этой суммы — вектор длины $p+1$, и в результате получается один такой вектор.



### 🧩 Как это представить в виде матричного умножения?

Представим $\Phi^T \cdot (\Phi \mathbf{w} - \mathbf{t})$ и покажем, что это то же самое.

1. $\Phi \in \mathbb{R}^{N \times (p+1)}$,
2. $\mathbf{w} \in \mathbb{R}^{(p+1)}$,
3. Тогда $\Phi \mathbf{w} \in \mathbb{R}^{N}$,
4. $\Phi \mathbf{w} - \mathbf{t} \in \mathbb{R}^{N}$ — вектор ошибок,
5. $\Phi^T \in \mathbb{R}^{(p+1) \times N}$,
6. Тогда $\Phi^T (\Phi \mathbf{w} - \mathbf{t}) \in \mathbb{R}^{p+1}$ — вектор, совпадающий с градиентом.



### ✅ Проверка на простом примере

Допустим, у нас всего $N = 2$ объекта и $p+1 = 3$ признака:

$$
\Phi =
\begin{bmatrix}
\phi_0(\mathbf{x}_1) & \phi_1(\mathbf{x}_1) & \phi_2(\mathbf{x}_1) \\
\phi_0(\mathbf{x}_2) & \phi_1(\mathbf{x}_2) & \phi_2(\mathbf{x}_2)
\end{bmatrix}, \quad
\mathbf{w} =
\begin{bmatrix}
w_0 \\ w_1 \\ w_2
\end{bmatrix}, \quad
\mathbf{t} =
\begin{bmatrix}
t_1 \\ t_2
\end{bmatrix}.
$$

Вычислим:
- $\Phi \mathbf{w} =
\begin{bmatrix}
w_0 \phi_0(\mathbf{x}_1) + w_1 \phi_1(\mathbf{x}_1) + w_2 \phi_2(\mathbf{x}_1) \\
w_0 \phi_0(\mathbf{x}_2) + w_1 \phi_1(\mathbf{x}_2) + w_2 \phi_2(\mathbf{x}_2)
\end{bmatrix}$,
- $\Phi \mathbf{w} - \mathbf{t} =
\begin{bmatrix}
\hat{y}_1 - t_1 \\
\hat{y}_2 - t_2
\end{bmatrix}$,
- $\Phi^T (\Phi \mathbf{w} - \mathbf{t}) = $
$$
\begin{bmatrix}
\phi_0(\mathbf{x}_1) & \phi_0(\mathbf{x}_2) \\
\phi_1(\mathbf{x}_1) & \phi_1(\mathbf{x}_2) \\
\phi_2(\mathbf{x}_1) & \phi_2(\mathbf{x}_2)
\end{bmatrix}
\cdot
\begin{bmatrix}
\hat{y}_1 - t_1 \\
\hat{y}_2 - t_2
\end{bmatrix}
=
\begin{bmatrix}
(\hat{y}_1 - t_1)\phi_0(\mathbf{x}_1) + (\hat{y}_2 - t_2)\phi_0(\mathbf{x}_2) \\
(\hat{y}_1 - t_1)\phi_1(\mathbf{x}_1) + (\hat{y}_2 - t_2)\phi_1(\mathbf{x}_2) \\
(\hat{y}_1 - t_1)\phi_2(\mathbf{x}_1) + (\hat{y}_2 - t_2)\phi_2(\mathbf{x}_2)
\end{bmatrix}.
$$

А теперь посчитаем нашу исходную сумму:

$$
\nabla_{\mathbf{w}} E = \sum_{i=1}^{2} (\hat{y}_i - t_i) \cdot \Phi(\mathbf{x}_i) =
(\hat{y}_1 - t_1) \cdot \Phi(\mathbf{x}_1) + (\hat{y}_2 - t_2) \cdot \Phi(\mathbf{x}_2),
$$

что точно совпадает с тем, что мы получили выше!



### ✅ Итог

Итак, мы показали, что выражение:

$$
\nabla_{\mathbf{w}} E = \sum_{i=1}^{N} \left( \mathbf{w}^T \Phi(\mathbf{x}_i) - t_i \right) \cdot \Phi(\mathbf{x}_i)
$$

можно переписать в матричной форме как:

$$
\boxed{
\nabla_{\mathbf{w}} E = \Phi^T (\Phi \mathbf{w} - \mathbf{t})
}
$$

Это удобная и вычислительно эффективная форма, которую легко реализовать, например, в NumPy или других библиотеках.





# 📌 Нахождение аналитического выражения для вектора параметров $ \mathbf{w} $

## 1. Условие оптимальности

Для нахождения оптимального значения вектора параметров $ \mathbf{w} $, минимизирующего целевую функцию $ E(\mathbf{w}) $, необходимо приравнять её градиент к нулю:

$$
\nabla_{\mathbf{w}} E = 0
$$

Это уравнение определяет точку минимума (при условии, что матрица $ \Phi^T \Phi $ положительно определена).

Так как градиент — это вектор-столбец, то его транспонирование не влияет на равенство, и можно также рассмотреть:

$$
(\nabla_{\mathbf{w}} E)^T = 0^T
$$



## 2. Вывод градиента в развернутом виде

Известно, что:

$$
\nabla_{\mathbf{w}} E = \sum_{i=1}^{N} \left( \mathbf{w}^T \Phi(\mathbf{x}_i) - t_i \right) \cdot \Phi(\mathbf{x}_i)
$$

Переходя к транспонированной форме градиента, получаем:

$$
(\nabla_{\mathbf{w}} E)^T = \sum_{i=1}^{N} \left( \mathbf{w}^T \Phi(\mathbf{x}_i) - t_i \right) \cdot \Phi(\mathbf{x}_i)^T
$$

Раскрываем скобки:

$$
(\nabla_{\mathbf{w}} E)^T = \sum_{i=1}^{N} \mathbf{w}^T \Phi(\mathbf{x}_i) \cdot \Phi(\mathbf{x}_i)^T - \sum_{i=1}^{N} t_i \cdot \Phi(\mathbf{x}_i)^T
$$

Выносим $\mathbf{w}^T$ за знак суммы во втором слагаемом:

$$
(\nabla_{\mathbf{w}} E)^T = \mathbf{w}^T \sum_{i=1}^{N} \Phi(\mathbf{x}_i) \cdot \Phi(\mathbf{x}_i)^T - \sum_{i=1}^{N} t_i \cdot \Phi(\mathbf{x}_i)^T
$$

### 1. Рассмотрим матрицу $\sum_{i=1}^{N} \Phi(x_i) \cdot \Phi(x_i)^T$

Здесь мы умножаем вектор-столбец на вектор-строку. Если их размерности совпадают, получится матрица.

В данном случае, если $\Phi(x_i)$ — это вектор-столбец размерности $m \times 1$, а $\Phi(x_i)^T$ — это вектор-строка размерности $1 \times m$, то их произведение даст матрицу размерности $m \times m$:

$$
\Phi(x_i) \cdot \Phi(x_i)^T =
\begin{bmatrix}
\phi_0(x_i) \\
\phi_1(x_i) \\
\vdots \\
\phi_p(x_i)
\end{bmatrix} \cdot
\begin{bmatrix}
\phi_0(x_i) & \phi_1(x_i) & \ldots & \phi_p(x_i)
\end{bmatrix} =
\begin{bmatrix}
\phi_0(x_i)^2 & \phi_0(x_i) \phi_1(x_i) & \ldots & \phi_0(x_i) \phi_p(x_i) \\
\phi_1(x_i) \phi_0(x_i) & \phi_1(x_i)^2 & \ldots & \phi_1(x_i) \phi_p(x_i) \\
\vdots & \vdots & \ddots & \vdots \\
\phi_p(x_i) \phi_0(x_i) & \phi_p(x_i) \phi_1(x_i) & \ldots & \phi_p(x_i)^2
\end{bmatrix}
$$

Таким образом, результат произведения вектора-столбца на вектор-строку дает квадратную матрицу:

$$
\Phi(x_i) \cdot \Phi(x_i)^T = \Phi \cdot \Phi^T
$$

### 2. Рассмотрим $\sum_{i=1}^{N} t_i \cdot \Phi(x_i)^T$

С одной стороны, можем записать:

$$
\sum_{i=1}^{N} t_i \cdot \Phi(x_i)^T = \left(\sum_{i=1}^{N} t_i \cdot \phi_0(x_i), \sum_{i=1}^{N} t_i \cdot \phi_1(x_i), \ldots\right)
$$

С другой стороны, это выражение можно представить в матричной форме:

$$
(t_1, t_2, \ldots, t_N) \cdot
\begin{bmatrix}
\phi_0(x_1) & \phi_1(x_1) & \phi_2(x_1) & \ldots & \phi_p(x_1) \\
\phi_0(x_2) & \phi_1(x_2) & \phi_2(x_2) & \ldots & \phi_p(x_2) \\
\vdots & \vdots & \vdots & \ddots & \vdots \\
\phi_0(x_n) & \phi_1(x_n) & \phi_2(x_n) & \ldots & \phi_p(x_n)
\end{bmatrix} = \left(\sum_{i=1}^{N} t_i \cdot \phi_0(x_i), \sum_{i=1}^{N} t_i \cdot \phi_1(x_i), \ldots\right)
$$

Следовательно:

$$
\sum_{i=1}^{N} t_i \cdot \Phi(x_i)^T = t^T \cdot \Phi
$$

### 3. Подставляем выражения в градиент

Таким образом, подставляя полученные результаты, мы имеем:

$$
\nabla_w E^T = w^T \Phi^T \Phi - t^T \Phi^T
$$

Теперь можем записать уравнение, приравняв его к нулю:

$$
w^T \Phi^T \Phi - t^T \Phi^T = 0
$$

Отсюда следует:

$$
w^T \Phi^T \Phi = t^T \Phi^T
$$

Умножим обе части последнего равенства на $(\Phi^T \Phi)^{-1}$:

$$
w^T \Phi^T \Phi \cdot (\Phi^T \Phi)^{-1} = t^T \Phi^T \cdot (\Phi^T \Phi)^{-1}
$$

После сокращения и некоторых преобразований получим:

$$
w^T = t^T \Phi^T \cdot (\Phi^T \Phi)^{-1}
$$

### 4. Применение свойств транспонирования

Чтобы решить уравнение $x^T = A$, где $x$ и $A$ — матрицы, необходимо транспонировать обе стороны уравнения. После транспонирования получаем:

$$
(x^T)^T = A^T
$$

Так как транспонирование дважды возвращает исходную матрицу, то:



$$
x = A^T
$$

### 5. Финальное выражение для коэффициентов

Таким образом, получаем:

$$
w = (t^T \Phi^T \cdot (\Phi^T \Phi)^{-1})^T
$$

Из курса линейной алгебры известно, что:

1. $(A \cdot B)^T = B^T \cdot A^T$ (транспонирование произведения матриц меняет порядок умножения).
2. $(A^T)^{-1} = (A^{-1})^T$ (транспонирование обратной матрицы равно обратной транспонированной матрице).

Теперь рассмотрим ваше выражение:

$$
w = (\Phi^T \Phi)^{-1} \Phi^T t^T
$$

Если $t$ — это вектор-столбец, то $t^T$ — это вектор-строка. Однако в контексте задачи линейной регрессии, $t$ обычно представляет собой вектор-столбец целевых значений, и тогда $t^T$ — это вектор-строка.

Если вы хотите выразить $w$ через $\Phi$ и $t$, то правильное выражение для вектора весов $w$ в задаче линейной регрессии будет:

$$
w = (\Phi^T \Phi)^{-1} \Phi^T t
$$

Здесь $t$ — это вектор-столбец, и $w$ также будет вектором-столбцом.





### Вопрос на подумать

*Для вычисления $w$ нам приходится обращать (квадратную) матрицу $\Phi^T \Phi$, что возможно только если она невырожденна. Что это значит с точки зрения анализа данных? Почему мы верим, что это выполняется во всех разумных ситуациях?*

### Ответ

С точки зрения линейной алгебры, для вещественной матрицы $\Phi$ ранги матриц $\Phi$ и $\Phi^T \Phi$ совпадают. Матрица $\Phi^T \Phi$ будет невырожденной, то есть обратимой, тогда и только тогда, когда её ранг равен числу её столбцов, что также равно числу столбцов матрицы $\Phi$. Иными словами, формула регрессии поломается, только если столбцы матрицы $\Phi$ линейно зависимы.

В данной ситуации столбцы матрицы $\Phi$ представляют собой признаки (фичи) нашего набора данных. Если признаки линейно зависимы, это значит, что один или несколько признаков могут быть выражены как линейные комбинации других признаков. Это приводит к проблеме избыточности информации. Когда признаки линейно зависимы, необходимо оставить только линейно независимые признаки, так как зависимые признаки не добавляют новой информации и лишь усложняют вычисления. Таким образом, чтобы избежать вырождения, мы обычно следим за тем, чтобы признаки были линейно независимыми.

Однако на практике часто встречается ситуация, когда признаки приближённо линейно зависимы, особенно если их много. В таких случаях матрица $\Phi^T \Phi$ будет близка к вырожденной, что приводит к ряду вычислительных проблем. Как мы увидим далее, такие случаи плохо сказываются на численной устойчивости решения и могут потребовать дополнительных методов для его стабилизации.

## Вычислительная сложность аналитического решения

Аналитическое решение задачи линейной регрессии имеет вычислительную сложность $O(D^2 N + D^3)$, где:
- $N$ — это количество объектов в выборке,
- $D$ — это количество признаков у каждого объекта.

### Разбор компонентов вычислительной сложности

1. **Слагаемое $O(D^2 N)$** отвечает за сложность перемножения матриц $\Phi^T$ и $\Phi$. Для нахождения матрицы $\Phi^T \Phi$ требуется выполнить $N$ умножений для каждого из $D \times D$ элементов.

2. **Слагаемое $O(D^3)$** обусловлено сложностью обращения матрицы $\Phi^T \Phi$. Поскольку эта матрица размерности $D \times D$, стандартные методы обращения, такие как метод Гаусса или метод разложения Холецкого, требуют $O(D^3)$ операций.

Чтобы минимизировать вычислительные затраты, не рекомендуется перемножать матрицы в выражении $(\Phi^T \Phi)^{-1} \cdot \Phi^T$ целиком. Вместо этого целесообразно сначала умножить вектор $t$ на $\Phi^T$, а затем результат умножить на $(\Phi^T \Phi)^{-1}$. Такой подход позволяет значительно снизить объём вычислений и уменьшает необходимость хранения матрицы $(\Phi^T \Phi)^{-1} \cdot \Phi^T$ в памяти, что особенно важно при больших размерах данных.

### Ускорение вычислений

Вычисление можно ускорить, используя продвинутые алгоритмы перемножения матриц, такие как метод Штрассена или метод Винограда, которые снижают степень вычислительной сложности. Кроме того, для больших матриц эффективны итерационные методы обращения, такие как метод Якоби или метод сопряжённых градиентов, которые позволяют обойтись без явного обращения матрицы, что также повышает стабильность численных решений.

## Проблемы «точного» решения

Для нахождения коэффициентов регрессии требуется обращение матрицы $\Phi^T \Phi$, что порождает несколько серьёзных проблем:

1. **Сложность обращения больших матриц.**  
   Обращение больших матриц вычислительно затратно, а в задачах машинного обучения часто необходимо работать с датасетами, содержащими миллионы точек. В таких случаях обращение может потребовать значительных вычислительных ресурсов, и для оптимизации приходится применять приближённые или итерационные методы.

2. **Плохая обусловленность матрицы $\Phi^T \Phi$.**  
   Даже если матрица $\Phi^T \Phi$ является обратимой, она может быть плохо обусловлена. Это происходит особенно часто, когда количество признаков велико. В такой ситуации некоторые признаки могут быть почти линейно зависимы от других, что приводит к тому, что $\Phi^T \Phi$ становится близкой к вырожденной. Плохая обусловленность означает, что малые изменения в данных могут привести к большим изменениям в итоговом решении $w$, что делает его численно неустойчивым.

   Например, малое изменение в целевом векторе $t$ может привести к значительным изменениям в коэффициентах $w$. Это явление возникает из-за того, что погрешность результата будет зависеть от квадрата обусловленности матрицы $\Phi$. В итоге решение становится ненадёжным: незначительные погрешности данных могут вызвать серьёзные ошибки в предсказаниях модели.

3. **Численные ошибки при вычислении.**  
   Плохая обусловленность ведет к накоплению численных ошибок. Даже при использовании высокоточных вычислений, ошибки округления при обращении матрицы $\Phi^T \Phi$ могут существенно исказить решение. Эта проблема особенно критична для систем с большой размерностью, где погрешности округления накапливаются в каждой операции и могут искажать конечный результат.



Таким образом, обращение матрицы $\Phi^T \Phi$ при решении задачи линейной регрессии связано с рядом вычислительных и численных трудностей, особенно в случае больших данных и многомерных признаков. Для их преодоления разработаны методы регуляризации, такие как метод ридж-регрессии (регуляризация Тихонова), позволяющие стабилизировать решение путем добавления регуляризующего члена к матрице $\Phi^T \Phi$. Этот подход помогает улучшить обусловленность матрицы и снизить зависимость от линейных зависимостей между признаками, что в свою очередь делает модель более устойчивой к численным ошибкам и повышает её обобщающую способность.



### Пара слов про число обусловленности

С математической точки зрения, число обусловленности матрицы $\Phi$ — это показатель, отражающий, насколько различаются масштабы её собственных значений. Упрощая, число обусловленности матрицы $\Phi$ можно рассматривать как корень из отношения наибольшего и наименьшего собственных значений матрицы $\Phi^T \Phi$. Иными словами, оно показывает, насколько разного масштаба бывают собственные значения этой матрицы.

Если рассмотреть $L^2$-норму ошибки предсказания как функцию от коэффициентов, то линии уровня этой функции представляют собой эллипсоиды. Форма этих эллипсоидов определяется квадратичной формой, заданной матрицей $\Phi^T \Phi$. Вытянутость этих эллипсоидов говорит о том, насколько сильно отличаются величины собственных значений $\Phi^T \Phi$, что и выражает число обусловленности. Высокое число обусловленности может сигнализировать о том, что матрица плохо обусловлена, что, в свою очередь, может привести к численным проблемам при вычислении.

### Подробнее

Проблемы с численной устойчивостью и высокой сложностью вычислений не означают, что «точное» решение необходимо отбросить. Существуют несколько методов для улучшения численных свойств решения. Однако для их полного понимания необходимо знание сингулярного разложения. Если оно вам не знакомо, рекомендуется сначала изучить этот материал и затем вернуться к данной теме.

#### Метод 1: Использование QR-разложения

Первый способ улучшения решения заключается в применении QR-разложения матрицы $X$. QR-разложение — это представление матрицы $X$ в виде произведения $X = QR$, где:
- $Q$ — матрица с ортогональными столбцами (то есть $Q^T Q = E$),
- $R$ — квадратная верхнетреугольная матрица.

Подставив это разложение в исходное уравнение для $w$, получим:

$$
w = ((QR)^T QR)^{-1} (QR)^T y
$$

Раскроем выражение, используя свойства ортогональной матрицы $Q$:

$$
w = (R^T Q^T Q R)^{-1} R^T Q^T y = (R^T R)^{-1} R^T Q^T y = R^{-1} R^{-T} R^T Q^T y = R^{-1} Q^T y
$$

Здесь мы использовали тот факт, что $(R^T R)^{-1} = R^{-1} R^{-T}$. Полученное выражение значительно проще, поскольку обращение верхнетреугольной матрицы $R$ сводится к решению системы уравнений с верхнетреугольной левой частью, что позволяет выполнять вычисления быстрее и с меньшей численной погрешностью. Погрешность вычисления $w$ при этом будет зависеть от числа обусловленности матрицы $\Phi$, а QR-разложение, как правило, обладает хорошей численной устойчивостью, что делает его применение предпочтительным для улучшения численных свойств решения.

#### Метод 2: Использование псевдообратной матрицы через сингулярное разложение

Другим подходом является применение псевдообратной матрицы, построенной с помощью сингулярного разложения. Пусть

$$
A = U \underbrace{\mathrm{diag}(\sigma_1, \ldots, \sigma_r)}_{=\Sigma} V^T
$$

— это усечённое сингулярное разложение матрицы $A$, где $r$ — ранг $A$. Здесь:
- $\Sigma$ — диагональная матрица, содержащая ненулевые сингулярные значения $\sigma_i$,
- $U$ и $V$ — ортогональные матрицы, такие что $U^T U = E$ и $V^T V = E$.

В таком случае $w$ можно выразить следующим образом:

$$
w = (V \Sigma U^T U \Sigma V^T)^{-1} V \Sigma U^T y
$$

Используем свойства ортогональных матриц и диагональной матрицы $\Sigma$. Поскольку $V \Sigma^{-2} V^T \cdot V \Sigma^2 V^T = E$, верно, что

$$
(V \Sigma^2 V^T)^{-1} = V \Sigma^{-2} V^T,
$$

что позволяет упростить выражение:

$$
w = V \Sigma^{-2} V^T \Sigma U^T y = V \Sigma^{-1} U^T y
$$

Применение сингулярного разложения гарантирует численную устойчивость решения, так как сингулярное разложение хорошо себя ведёт при вычислениях, даже если матрица плохо обусловлена. Это улучшает численные свойства решения и делает его более надёжным.

Тем не менее, несмотря на преимущества сингулярного разложения, вычислительная сложность остаётся значительной, особенно для больших матриц. Плохая обусловленность матрицы $X$ всё равно окажет влияние, хоть и в меньшей степени, на точность вычислений.

Хотя эти методы помогают улучшить численную устойчивость и стабилизировать решение, они не могут полностью устранить проблемы, связанные с вырожденностью или плохой обусловленностью матрицы $X$. Поэтому нет необходимости останавливаться на «точных» решениях, которые всё равно никогда не будут полностью точными в условиях реальных данных. В следующих разделах мы рассмотрим альтернативные подходы к решению задачи, которые не полагаются на обращение матрицы и могут дать более надёжные результаты в условиях плохой обусловленности.



### Почему градиент указывает направление наибольшего возрастания функции?

**Что такое градиент функции?**

Градиент функции многих переменных — это вектор, составленный из частных производных этой функции по каждой переменной. Он показывает направление наибольшего возрастания функции в данной точке и его величина указывает на скорость изменения функции вдоль этого направления. Градиент используется в задачах оптимизации для нахождения экстремумов, так как именно он указывает направление наискорейшего увеличения функции.

Для функции $f(x_1, x_2, \dots, x_n)$ градиент обозначается символом $\nabla f$ и формируется следующим образом:

$$
\nabla f = \left( \frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2}, \dots, \frac{\partial f}{\partial x_n} \right)
$$

Этот вектор указывает направление наибольшего возрастания функции в данной точке.

**Что такое производная по направлению?**

Производная по направлению — это производная функции вдоль заданного вектора. Пусть $\vec{u} = (u_1, u_2, \dots, u_n)$ — нормированный вектор (то есть $||\vec{u}|| = 1$), вдоль которого берется производная функции $f(x_1, x_2, \dots, x_n)$. Норма вектора $\vec{u}$ определяется как:

$$
||\vec{u}|| = \sqrt{u_1^2 + u_2^2 + \dots + u_n^2}
$$

Производная функции $f$ по направлению вектора $\vec{u}$ определяется как предел:

$$
\lim_{{h \to 0}} \frac{f(\vec{x} + h \cdot \vec{u}) - f(\vec{x})}{h}
$$

где $\vec{x} + h \cdot \vec{u} = (x_1 + h \cdot u_1, x_2 + h \cdot u_2, \dots, x_n + h \cdot u_n)$. Эта формула показывает изменение функции вдоль направления, заданного вектором $\vec{u}$.

### Доказательство, что градиент указывает направление наибольшего возрастания функции

Рассмотрим производную функции $f$ по направлению вектора $\vec{u}$:

$$
\lim_{{h \to 0}} \frac{f(x_1 + h \cdot u_1, x_2 + h \cdot u_2, \dots, x_n + h \cdot u_n) - f(x_1, x_2, \dots, x_n)}{h}
$$

Мы можем разложить эту производную, выделяя отдельные слагаемые для каждого индекса:

$$
\lim_{{h \to 0}} \sum_{i=1}^{n} \frac{f(x_1, \dots, x_i + h \cdot u_i, \dots, x_n) - f(x_1, \dots, x_n)}{h}
$$

Эта сумма почти представляет собой выражение для частной производной функции. Если умножить каждый член на $u_i$ и затем разделить на $u_i$, мы получим следующее:

$$
\lim_{{h \to 0}} \sum_{i=1}^{n} \frac{f(x_1, \dots, x_i + h \cdot u_i, \dots, x_n) - f(x_1, \dots, x_n)}{h \cdot u_i} \cdot u_i = \nabla f^T \cdot \vec{u}
$$

Скалярное произведение двух векторов $\vec{a}$ и $\vec{b}$ можно выразить как:

$$
\vec{a}^T \cdot \vec{b} = ||\vec{a}|| \cdot ||\vec{b}|| \cos(\theta)
$$

где $\theta$ — угол между векторами. Таким образом, для градиента мы имеем:

$$
\nabla f^T \cdot \vec{u} = ||\nabla f|| \cdot \cos(\theta)
$$

Производная по направлению отражает скорость возрастания функции в заданном направлении $\vec{u}$. Чтобы максимизировать скорость роста функции, вектор $\vec{u}$ должен быть направлен так, чтобы угол $\theta = 0$, то есть векторы $\nabla f$ и $\vec{u}$ должны совпадать по направлению. Таким образом, направление градиента действительно является направлением наибольшего возрастания функции.

### Ортогональность градиента к линиям уровня

Градиент также обладает свойством ортогональности к линиям уровня функции, что важно для визуализации процесса оптимизации. Доказательство этого свойства выглядит следующим образом.

Пусть $x_0$ — некоторая точка, и $S(x_0) = \{ x \in \mathbb{R}^d \mid f(x) = f(x_0) \}$ — линия уровня функции $f$, соответствующая этой точке. Разложим функцию в ряд Тейлора на линии уровня в окрестности точки $x_0$:

$$
f(x_0 + \varepsilon) = f(x_0) + \langle \nabla f, \varepsilon \rangle + o(||\varepsilon||),
$$

где $x_0 + \varepsilon \in S(x_0)$. Поскольку $f(x_0 + \varepsilon) = f(x_0)$ (это свойство линии уровня), получаем:

$$
\langle \nabla f, \varepsilon \rangle = o(||\varepsilon||).
$$

Разделив обе части на $||\varepsilon||$, имеем:

$$
\left\langle \nabla f, \frac{\varepsilon}{||\varepsilon||} \right\rangle = o(1).
$$

При стремлении $||\varepsilon||$ к нулю вектор $\frac{\varepsilon}{||\varepsilon||}$ будет стремиться к касательной к линии уровня в точке $x_0$. В пределе мы получаем, что градиент ортогонален этой касательной.

Таким образом, градиент функции является мощным инструментом в математике и оптимизации, указывая направление наибольшего возрастания функции и демонстрируя важные свойства, такие как ортогональность к линиям уровня. Понимание этих концепций позволяет более эффективно решать задачи оптимизации и анализировать поведение многомерных функций.


Чтобы лучше понять концепцию градиента и его применение, давайте рассмотрим несколько конкретных примеров.

### Пример 1: Градиент функции двух переменных

Рассмотрим функцию:

$$
f(x, y) = x^2 + y^2
$$

**1. Вычисление градиента:**

Градиент функции $f$ будет вычисляться как:

$$
\nabla f = \left( \frac{\partial f}{\partial x}, \frac{\partial f}{\partial y} \right)
$$

Найдём частные производные:

$$
\frac{\partial f}{\partial x} = 2x, \quad \frac{\partial f}{\partial y} = 2y
$$

Таким образом, градиент равен:

$$
\nabla f = (2x, 2y)
$$

**2. Интерпретация:**

Градиент показывает направление наибольшего возрастания функции. Например, в точке $(1, 1)$:

$$
\nabla f(1, 1) = (2 \cdot 1, 2 \cdot 1) = (2, 2)
$$

Это означает, что в точке $(1, 1)$ функция $f$ возрастает быстрее всего в направлении вектора $(2, 2)$.

**3. Линии уровня:**

Линии уровня для данной функции представляют собой круги, заданные уравнением $x^2 + y^2 = c$. Градиент будет направлен от центра этих кругов к их границе, что подтверждает, что он ортогонален линиям уровня.

### Пример 2: Градиент функции с ограничениями

Рассмотрим функцию:

$$
g(x, y) = 4 - x^2 - y^2
$$

**1. Вычисление градиента:**

Найдём градиент функции $g$:

$$
\nabla g = \left( \frac{\partial g}{\partial x}, \frac{\partial g}{\partial y} \right) = (-2x, -2y)
$$

**2. Интерпретация:**

Градиент в точке $(1, 1)$:

$$
\nabla g(1, 1) = (-2 \cdot 1, -2 \cdot 1) = (-2, -2)
$$

Это означает, что в точке $(1, 1)$ функция $g$ убывает быстрее всего в направлении вектора $(-2, -2)$.

**3. Линии уровня:**

Линии уровня для этой функции будут представлять собой окружности, заданные уравнением $x^2 + y^2 = c$, что также подтверждает, что градиент направлен внутрь окружностей, оставаясь ортогональным им.

### Пример 3: Градиент в многомерной функции

Рассмотрим функцию:

$$
h(x, y, z) = x^2 + y^2 + z^2
$$

**1. Вычисление градиента:**

Найдём градиент функции $h$:

$$
\nabla h = \left( \frac{\partial h}{\partial x}, \frac{\partial h}{\partial y}, \frac{\partial h}{\partial z} \right) = (2x, 2y, 2z)
$$

**2. Интерпретация:**

Градиент в точке $(1, 1, 1)$:

$$
\nabla h(1, 1, 1) = (2 \cdot 1, 2 \cdot 1, 2 \cdot 1) = (2, 2, 2)
$$

Это означает, что в точке $(1, 1, 1)$ функция $h$ возрастает быстрее всего в направлении вектора $(2, 2, 2)$.

**3. Линии уровня:**

Линии уровня для функции $h$ будут представлять собой сферы, заданные уравнением $x^2 + y^2 + z^2 = c$. Градиент будет направлен от центра сфер к их поверхности, что также подтверждает его ортогональность к линиям уровня.

### Пример 4: Градиент в задачах оптимизации

Предположим, мы хотим минимизировать функцию потерь в регрессионной модели, заданной следующей функцией:

$$
L(w) = \sum_{i=1}^{n} (y_i - (w_1 x_{1i} + w_2 x_{2i}))^2
$$

где $w = (w_1, w_2)$ — вектор весов, $x_{1i}, x_{2i}$ — входные данные, а $y_i$ — целевые значения.

**1. Вычисление градиента:**

Градиент функции потерь будет иметь вид:

$$
\nabla L(w) = \left( \frac{\partial L}{\partial w_1}, \frac{\partial L}{\partial w_2} \right)
$$

При нахождении производных получаем:

$$
\nabla L(w) = \left( -2 \sum_{i=1}^{n} x_{1i} (y_i - (w_1 x_{1i} + w_2 x_{2i})), -2 \sum_{i=1}^{n} x_{2i} (y_i - (w_1 x_{1i} + w_2 x_{2i})) \right)
$$

**2. Интерпретация:**

Градиент указывает на то, как изменить веса $w_1$ и $w_2$, чтобы минимизировать функцию потерь $L(w)$. Направление, указанное градиентом, показывает, как нужно корректировать веса, чтобы достигнуть оптимального результата.

Эти примеры демонстрируют, как градиент помогает понять поведение многомерных функций, указывая направление наибольшего возрастания и предоставляя полезные инструменты для задач оптимизации. Понимание этих концепций позволяет более эффективно решать практические задачи в математике и машинном обучении. Если у вас есть вопросы или нужны дополнительные примеры, дайте знать!







### Пример применения

Рассмотрим простой пример с использованием метода наименьших квадратов для линейной регрессии, основанный на наборе данных, где мы исследуем влияние цены на объем продаж.

#### Данные

Предположим, у нас есть следующие данные о ценах и объемах продаж:

| Цена (X) | Объем продаж (Y) |
|----------|------------------|
| 10       | 100              |
| 20       | 150              |
| 30       | 200              |
| 40       | 300              |
| 50       | 400              |

#### 1. Определим функции базиса

Мы будем использовать линейные функции базиса:

- $\phi_0(x) = 1$ (константа)
- $\phi_1(x) = x$ (линейная функция)

#### 2. Сформируем матрицу функций базиса

Для нашей выборки получаем матрицу:

$$
\Phi =
\begin{bmatrix}
1 & 10 \\
1 & 20 \\
1 & 30 \\
1 & 40 \\
1 & 50
\end{bmatrix}
$$

#### 3. Определим вектор целевой переменной

Вектор целевой переменной:

$$
t =
\begin{bmatrix}
100 \\
150 \\
200 \\
300 \\
400
\end{bmatrix}
$$

#### 4. Подставим данные в формулу

Теперь можем найти коэффициенты $w$:

1. Вычислим $\Phi^T \Phi$:

$$
\Phi^T \Phi =
\begin{bmatrix}
5 & 150 \\
150 & 3850
\end{bmatrix}
$$

2. Найдем обратную матрицу $(\Phi^T \Phi)^{-1}$:

$$
(\Phi^T \Phi)^{-1} = \frac{1}{(5)(3850) - (150)(150)}
\begin{bmatrix}
3850 & -150 \\
-150 & 5
\end{bmatrix}
$$

После вычислений получаем:

$$
(\Phi^T \Phi)^{-1} = \frac{1}{(19250 - 22500)}
\begin{bmatrix}
3850 & -150 \\
-150 & 5
\end{bmatrix}
= \frac{1}{-3250}
\begin{bmatrix}
3850 & -150 \\
-150 & 5
\end{bmatrix}
=
\begin{bmatrix}
-1.1846 & 0.04615 \\
0.04615 & -0.0015385
\end{bmatrix}
$$

3. Вычислим $\Phi^T t$:

$$
\Phi^T t =
\begin{bmatrix}
1300 \\
28500
\end{bmatrix}
$$

4. Теперь можем вычислить $w$:

$$
w = (\Phi^T \Phi)^{-1} \Phi^T t
$$

#### 5. Получение коэффициентов

После подстановки значений мы получаем:

$$
w \approx
\begin{bmatrix}
0 \\
8
\end{bmatrix}
$$

### Интерпретация коэффициентов

Полученные коэффициенты означают следующее:

- $w_0 = 0$: При цене 0 объем продаж также равен 0, что логично.
- $w_1 = 8$: Это значит, что на каждый доллар увеличения цены объем продаж увеличивается на 8 единиц.



