# <center>Функции нескольких переменных
>Существует функция $n$ переменных $x,y,z \dots$, если по некоторому закону каждой системе $n$ чисел $(x,y,z \dots)$ из некоторого множества ставится в соответствие число $u$.

![image.png](attachment:image.png)

>Исключением из этого правила являются так называемые **векторнозначные функции**, для которых значением может быть не одно число, а несколько:
$$ f(x) = \begin{bmatrix} \cos(x) \\ \sin(x) \end{bmatrix} $$
***
**Евклидово расстояние до начала координат:**
$$ f(x,y) = \sqrt{x^2 + y^2} = \rho(M(x,y), O(0,0)) = || \vec{r} || $$
![image-2.png](attachment:image-2.png)

Также евклидово расстояние можно использовать для того, чтобы найти **расстояние между двумя точками**:
$$ f(x,y) = \sqrt{(x-1)^2 + (y-8)^2} = \rho(M(x,y), A(1,8)) $$
![image-3.png](attachment:image-3.png)

Также функцией нескольких переменных является **квадратичная функция потерь** или, как её ещё называют, $L^2$-loss функция:
$$ L^2LossFunction = \sum_{i=1}^n (y_{true} - y_{pred})^2 $$

В качестве аргументов функция $L^2$-loss принимает любые вещественные числа, а её значения могут быть любыми неотрицательными числами.

![image-4.png](attachment:image-4.png)
***
**Сигмоида** является функцией активации нейрона, которая используется при обучении нейронных сетей. Её вариацией является **логистическая функция**, используемая для решения задачи классификации. Если параметров много, то, разумеется, мы получаем её как функцию многих переменных:
$$ E(y) = \frac{\alpha}{(1+e^{-(\beta_0 + \beta_1x_1 + \beta_2x_2)})} $$
Ровно так же, как и одномерная, она может принимать любые значения от 0 до 1 не включительно, и в качестве её аргументов могут выступать любые вещественные числа.



# <center>Частные производные
>Производные для функций нескольких переменных называются **частными производными**.

В обучении нейронных сетей есть два важных этапа:
* **Прямое распространение ошибки** (на этом этапе нейронная сеть предсказывает результат).
* **Обратное распространение ошибки** (на этом этапе нейронная сеть минимизирует разницу между реальным значением и предсказанным).

Именно на втором шаге большую роль играют частные производные, так как позволяют узнать, каков вклад каждого признака в ошибку, и это даёт возможность точно настроить модель.

$ \frac{df}{dx} $ можно интерпретировать следующим образом: «Очень маленькое изменение значения функции $f$, произошедшее вследствие очень маленького изменения аргумента $x$».  
![image.png](attachment:image.png)

**Пример**

$ f(x,y) = x^2y^3 $

$ \frac{\partial}{\partial x} f(x,y) = \frac{\partial}{\partial x}(x^2y^3) = 2xy^3 $ - воспринимаем $y$ как константу.

Также можно встретить следующие общепринятые обозначения:
$$ f'_x \leftrightarrow \frac{\partial f}{\partial x} $$
$$ f'_y \leftrightarrow \frac{\partial f}{\partial y} $$
Пусть дана функция. Чтобы найти частную производную по переменной $x_i$:
1. Фиксируем все переменные, кроме $x_i$.
2. Считаем приращение функции при изменении только этой переменной.
3. Делим приращение из пункта 2 на приращение нашей переменной.
4. Уменьшаем $\Delta x_i$ и получаем $\frac{\partial f}{\partial x_i}$.

Для вторых производных используются следующие обозначения:
![image-2.png](attachment:image-2.png)

Также могут использоваться такие вариации:
![image-3.png](attachment:image-3.png)

**Пример**

![image-4.png](attachment:image-4.png)
![image-5.png](attachment:image-5.png)

>Можно заметить, что **значения смешанных производных** (когда ищем производную сначала по одной переменной, а затем — по другой) **совпадают**. 

![image-6.png](attachment:image-6.png)

**Что, если они тоже зависят друг от друга?**  
В таком случае мы можем найти **полную производную**, то есть производную, в которой учитываются зависимости между переменными. По сути, задача поиска полной производной сводится к замене одной из переменных на функциональную зависимость от другой и поиск производной по единственной оставшейся переменной.



