# **MATH&ML-5. Математический анализ в контексте задачи оптимизации. Часть II**

# 1. Введение. Функции нескольких переменных

✍ В предыдущем модуле мы познакомились с функцией одной переменной, а также научились её исследовать. Разумеется, функции от одной переменной встречаются в различных задачах, однако на практике мы чаще всего имеем дело с функциями нескольких переменных, то есть, с такими, которые зависят от нескольких параметров. Например, если мы хотим предсказать цену на квартиру, то не будем предсказывать её только на основании площади — мы возьмём площадь, этаж, расстояние до метро, экологию и так далее.

Интересно анализировать именно многомерные функции, ведь они помогают изучать окружающую действительность и прогнозировать интересующие показатели. Мы должны уметь исследовать многомерные функции так же, как и функции одной переменной. Это подводит нас к главной цели — задачам оптимизации. Именно во время решения задач оптимизации мы исследуем поведение функции, ищем для неё производные, находим минимумы и максимумы.

Такая острая необходимость изучать и оптимизировать функции обусловлена тем, что практически все алгоритмы машинного обучения можно рассматривать как вариацию задачи оптимизации. К примеру:

При решении задачи кредитного скоринга мы минимизируем ошибку модели и количество потерянных банком денег.
При создании алгоритма для навигатора — минимизируем время, которое потратит пользователь на дорогу до работы.
При работе в интернет-магазине — минимизируем количество сотрудников колл-центра, необходимых для обслуживания входящих заказов.
При игре на бирже — максимизируем ожидаемую от продажи и покупки акций прибыль.
Задача оптимизации может быть очень сложной, поскольку функция может иметь десятки, сотни, тысячи или даже миллионы входных данных, а структура функции неизвестна, часто недифференцируема и зашумлена.

> Существует функция $n$ переменных $x, y, z, ...$, если по некоторому закону каждой системе $n$ чисел ($x, y, z, ...$) из некоторого множества ставится в соответствие число $u$.

То есть, по сути, относительно функции одной переменной меняется только то, что значение функции зависит от нескольких аргументов, а не от одного:

![](https://lms.skillfactory.ru/assets/courseware/v1/3edbff8f1e8b498b95e52399ed595a84/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/MATHML_md5_1_1.png)

**Примечание**. Исключением из этого правила являются так называемые **векторнозначные функции**, для которых значением может быть не одно число, а несколько:

$$f(x) = \begin{bmatrix} cos(x) \\ sin(x)\end{bmatrix}$$



Функции, зависящие от нескольких переменных, очень часто используются в разных научных областях и, конечно же, в Data Science.

Например, вспомним метод классификации KNN. В чём его суть? Ее можно выразить фразой: «Скажи мне, кто твой друг, и я скажу, кто ты». Когда мы получаем обучающую выборку, мы располагаем все её объекты на координатной плоскости (или в пространстве) и затем выбираем количество ближайших соседей. Количество соседей является основным решающим фактором. Обычно это нечётное число. Когда $k=1$, алгоритм называется алгоритмом ближайших соседей. Это самый простой случай.

Далее мы получаем новую точку, для которой неизвестен класс и необходимо предсказать метку. Мы отмечаем эту точку на плоскости (или в пространстве) и находим ближайшую к ней точку из обучающей выборки. Мы присваиваем нашей точке метку найденной ближайшей точки.

На рисунке ниже точки одного класса обучающей выборки отмечены красными звёздочками, а точки другого — зелёными треугольниками. Мы получаем новую точку (знак вопроса) и видим, что ближе всего к ней расположена красная звёздочка. Значит, нашей новой точке мы присваиваем такой же класс.

![](https://lms.skillfactory.ru/assets/courseware/v1/21ee3c1cf2dbd2141b42a4aeafd084b5/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/MATHML_md5_1_2.png)

А что если $k$ больше 1? Предположим, что $P$ — это точка, для которой необходимо предсказать метку. Сначала вы находите $k$ ближайших к $P$ точек, а затем классифицируете точки большинством «голосов» $k$ соседей. Каждый объект «голосует» за свой класс, и класс с наибольшим количеством «голосов» принимается за прогноз. Чтобы найти ближайшие похожие точки, вычисляются расстояния между точками с использованием мер расстояния, таких как **евклидово расстояние**, **расстояние Хэмминга**, **расстояние Манхэттена** и **расстояние Минковского**. 

Итак, алгоритм KNN включает в себя следующие основные шаги:

* Рассчитать расстояния до всех точек.
* Найти ближайших соседей (точки с наименьшим расстоянием).
* Посчитать «голоса» за классы.

![](https://lms.skillfactory.ru/assets/courseware/v1/3e509296d919af7871b34b42531cc66d/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/MATHML_md5_1_3.png)

Как уже упоминалось, в этом алгоритме необходимо вычислять расстояние между двумя точками. Для этого используются различные функции нескольких переменных. Рассмотрим самую популярную — **евклидово расстояние**.

Если говорить про евклидово расстояние для двух переменных, то его функция записывается как $f(x) = \ \sqrt{x^2 + y^2}$ и вычисляет корень из суммы квадратов $x$ и $y$. Это не что иное, как расстояние от точки $(x, y)$ до начала координат или длина вектора с координатами $(x, y)$. В качестве области определения для такой функции могут выступать **любые вещественные числа**, а её областью значений являются **все неотрицательные числа**.

**Евклидово расстояние до начала координат:**

$f(x,y) = \sqrt{x^2 + y^2} = \rho (M(x,y), O(0,0)) = \left\|\overrightarrow{r} \right\|$

![](https://lms.skillfactory.ru/assets/courseware/v1/3fc0a0d83572bc36e64a95b6d514d1f2/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/MATHML_md5_1_4.png)

Также евклидово расстояние можно использовать для того, чтобы найти **расстояние между двумя точками**:

$f(x,y) = \sqrt{(x-1)^2 + (y-8)^2} = \rho (M(x,y), A(1,8))$

![](https://lms.skillfactory.ru/assets/courseware/v1/e82a6a6f1586460b83b1b11779469ffd/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/MATHML_md5_1_5.png)

Также функцией нескольких переменных является квадратичная функция потерь или, как её ещё называют, $L^2$-loss функция:

$$L^2 LossFunction = \sum_{i=1}^{n} (y_{true} - y_{predicted})^2$$

Эта функция находит сумму квадратов всех ошибок, то есть, сумму квадратов разностей между реальным значением и значением, предсказанным моделью. Вы уже сталкивались с ней, так как она используется для построения и оценки качества в линейных регрессиях (в методе наименьших квадратов), а также для метода обратного распространения ошибки, применяемого в нейронных сетях.

→ Так как эта функция выражает величину отклонения от истины, нам очень важно уметь её исследовать и находить её минимальное значение, чтобы достигать максимально точных предсказаний.

В качестве аргументов функция $L^2$-loss принимает любые вещественные числа, а её значения могут быть любыми неотрицательными числами.

Реальные|6|7|6|4|5|6|8
-|-|-|-|-|-|-|-
Предсказанные|6.4|7.1|5.9|4.2|5.2|6.2|7.5

### Задание 1.7

Пусть у нас есть реальные и предсказанные значения в некоторой прогностической модели.

Найдите значение метрики $L^2$-loss:

In [17]:
import numpy as np
y_true = np.array([6, 7, 6, 4, 5, 6, 8])
y_predict = np.array([6.4, 7.1, 5.9, 4.2, 5.2, 6.2, 7.5])
sum((y_true - y_predict)**2)

0.5500000000000004

Вспомним ещё одну функцию, с которой мы уже сталкивались в одномерном случае — это **сигмоида**. Сигмоида является функцией активации нейрона, которая используется при обучении нейронных сетей. Её вариацией является **логистическая функция**, используемая для решения задачи классификации. Если параметров много, то, разумеется, мы получаем её как функцию многих переменных:

$E(y) = \frac{\alpha}{(1 + e^{-(\beta_0 + \beta_1 x_1  + \beta_2 x_2)})}$

Ровно так же, как и одномерная, она может принимать любые значения от 0 до 1 не включительно, и в качестве её аргументов могут выступать любые вещественные числа.

Это лишь несколько примеров функций многих переменных, которые могут вам встретиться. Разумеется, в прикладных задачах вы будете сталкиваться с самыми разным вариантами зависимостей. Их спектр огромен. Например, вы уже умеете работать со случаями линейной зависимости — именно такой зависимостью является линейная регрессия. В логистической регрессии вы уже поработали с сигмоидальной функцией. Если вы будете предсказывать экономические процессы, то встретитесь с экспоненциальной зависимостью, а если решите предсказать временной ряд, вам понадобится логарифмическая функция. В зависимости от области знаний и ситуации вы будете постоянно работать с различными функциональными зависимостями — для любого кейса важно уметь найти подход.

В следующих юнитах мы научимся исследовать и оптимизировать зависимости разных видов.

## ЦЕЛИ НА ДАННЫЙ МОДУЛЬ:

* научиться вычислять частные производные для функций нескольких переменных;
* научиться находить безусловные и условные экстремумы для функции нескольких переменных;
* узнать и понять основную терминологию, связанную с задачами оптимизации;
* понять принцип работы градиентного спуска;
* научиться применять градиентный спуск для решения практических задач.

Для достижения каждой цели мы будем изучать всю необходимую теорию, рассматривать применимость данных знаний для решения задач из DS и закреплять полученные знания на практических заданиях.

### Задание 1.9

$f(x_1, x_2, x_3) = \frac{1}{1 + e^{-2(x_1 + x_2 + x_3)}}$

2. Вычислите $f(1,1,0)$. Ответ округлите до второго знака после точки-разделителя.



In [23]:
import math

round(1/(1+math.exp(-2*(1+1+0))),2)

0.98

3. На вход нейрона $А$ в искуственной нейросети поступает три сигнала: $x_1, x_2 \ и \ x_3$. Выходной сигнал определяется сигмоидальной функцией активации $f(x_1, x_2, x_3)$. Какое число будет на выходе нейрона $А$, если на вход поступят $x_1=0.1$, $x_2=0.3$, $x_3=0.6$. Ответ округлите до второго знака после точки-разделителя.

In [24]:
round(1/(1+math.exp(-2*(0.1 + 0.3 + 0.6))),2)

0.88

### Задание 1.10

В модели линейной регрессии три наблюдения:

$x_1 = 1, x_2 = 3, x_3 = 5$

$y_1 = 2.1, y_2 = 2.9, y_3 = 4.1$

$\hat{y} = w_0 + w_1 x$

3. Найдите значение $L^2$-loss функции, если $w_0 = 1, w_1 = 1$





In [28]:
x = np.array([1, 3, 5])
y_true = np.array([2.1, 2.9, 4.1])
w_0 = 1
w_1 = 1
y_pred = w_0 + w_1*x
sum((y_true - y_pred)**2)

4.830000000000002

# 2. Частные производные

✍ Мы разобрались с тем, что такое функция многих переменных. Теперь давайте научимся дифференцировать такие функции, т. е. находить для них производные.

> Производные для функций нескольких переменных называются **частными производными**.

На данный момент в машинном обучении очень популярны и эффективны методы глубокого обучения, то есть методы, использующие нейронные сети. В обучении нейронных сетей есть два важных этапа:

* **Прямое распространение ошибки** (на этом этапе нейронная сеть предсказывает результат).
* **Обратное распространение ошибки** (на этом этапе нейронная сеть минимизирует разницу между реальным значением и предсказанным).

Именно на втором шаге большую роль играют частные производные, так как позволяют узнать, каков вклад каждого признака в ошибку, и это даёт возможность точно настроить модель.

Представьте, что вы решаете много задач по математике: в каких-то ваш ответ абсолютно верен, в каких-то вы ошиблись на сотые, а в каких-то ошибка довольно значительна. Если теперь посчитать, на сколько в среднем вы ошиблись, и вычесть эту среднюю ошибку из всех ответов, скорее всего, все ответы станут неверными. Почему так? Потому что необходимо рассматривать ответ в каждой задаче независимо от других.

Так же и в построении модели очень важно иметь возможность рассматривать вес каждого признака независимо и настраивать его отдельно — именно за это отвечают частные производные. Без них пришлось бы корректировать все параметры одновременно и одинаково, и мы бы никогда не получили нормальную модель. Если вы захотите углубиться в изучение различных архитектур нейронных сетей и в принцип их работы в целом, то обязательно столкнётесь с математической записью этого процесса, которая будет содержать в себе частные производные.

Итак, мы обсудили, зачем нужны частные производные — теперь можно учиться их находить ↓

Вероятно, вы помните, что обычную производную для функции одной переменной мы обозначали как $\frac{df}{dx}$. Эту запись можно интерпретировать следующим образом: «Очень маленькое изменение значения функции $f$, произошедшее вследствие очень маленького изменения аргумента $x$».

![](https://lms.skillfactory.ru/assets/courseware/v1/a6773e7961da8f513fa54d616f79cbf9/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/MATHML_md5_2_1.png)

Важно интуитивно понимать это обозначение, так как оно поможет нам проще разобраться с понятием частных производных.

Давайте перейдём к функциям нескольких переменных и начнём с **функции двух переменных**. Например, с такой:

$f(x,y) = x^2 - 2xy$

Ничто не мешает нам написать такое же выражение $\frac{df}{dx}$, которое и в этом случае можно будет интерпретировать абсолютно так же: «Очень маленькое изменение значения функции $f$, произошедшее вследствие очень маленького изменения аргумента $x$». Но тут появляется нюанс: существование аргумента $y$. Теперь у данных, к которым применяется функция, несколько измерений, а значит изменения могут происходить в нескольких направлениях: то есть мы можем поменять не только $x$, но и немного поменять $y$, вследствие чего значение функции также изменится и мы получим другую производную: $\frac{df}{dy}$.

Разберём пример дифференцирования следующей функции:

![](https://lms.skillfactory.ru/assets/courseware/v1/3e329fb52790f34b1d59dadf2dd670ba/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/MATHML_md5_2_2.png)

Предположим, мы хотим посчитать производную для этой функции в точке $(3;2)$. Механизм этого действия будет ровно такой же, как и с одномерной функцией.

Вспомним, что производная характеризует скорость изменения одной величины при изменении другой.

Найдём производную по $x$ или, проще говоря, скорость изменения функции: если $x$ изменяется, а $y$ остаётся на месте, то есть, например, если мы перемещаемся из точки $(3;2)$ в точку $(3.01;2)$. Так как $y$ не меняется, мы могли бы сразу заменить его значение в функции на константное:

$x^2 \cdot 2^3 = x^2 \cdot 8$

Теперь мы можем найти производную так, как будто это функция одной переменной.

Разумеется, необязательно искать производные в определённых точках — мы можем, как и в случае с одномерными функциями, находить значения производных в общем виде.

Можно сказать, что мы ищем производную для функции $f(x,y) = x^2 y^3$ именно по $x$. Таким образом, значение функции будет меняться вследствие изменения значения $x$, а значение переменной $y$ будет оставаться прежним. Раз значение $y$ не будет изменяться, мы можем воспринимать его как константу.

![](https://lms.skillfactory.ru/assets/courseware/v1/d74a288758a4708aef915412e76b87af/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/MATHML_md5_2_3.png)

Иногда для того, чтобы подчеркнуть, что это именно многомерная функция, используют следующую запись:

![](https://lms.skillfactory.ru/assets/courseware/v1/d33f93ae53a9e23cd55fb5ae42c0747c/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/MATHML_md5_2_4.png)

Есть ли разница в записи между $\frac{d}{dx}$ и $\frac{\partial}{\partial x}$? На самом деле нет, хотя если быть очень педантичными, то можно сказать, что первый вариант используется скорее для функции одной переменной, а второй — для функций нескольких переменных. Но в литературе вы можете встретить оба варианта, и их стоит воспринимать одинаково.

Также вы можете встретить (в том числе и в наших юнитах) следующие общепринятые обозначения:

![](https://lms.skillfactory.ru/assets/courseware/v1/ae8e4e20225c7bf3d4410ccfbc8ace01/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/MATHML_md5_2_5.png)

Это можно прочитать как «производная от функции $f$ по $x$» или «производная от функции $f$ по $y$» (в зависимости от переменной). Вне зависимости от формы записи, читаются они одинаково, и обе являются верными.

Конечно, для вывода понятия частной производной можно использовать **геометрическую интерпретацию**. В предыдущем модуле мы уже выяснили, что значение производной в точке равняется тангенсу угла наклона касательной, проведённой в этой точке к графику функции. Но график функции многих переменных — это поверхность, поэтому у неё таких касательных — целая касательная плоскость. Получается, что у функции есть по касательной для каждого направления, а значит и по своей частной производной, так как внутри плоскости можно провести множество касательных.

![](https://lms.skillfactory.ru/assets/courseware/v1/dbf7658e9ffb1da9e5479473f45bdb8b/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/MATHML_md5_2_6.png)

Из всех направлений можно выбрать **каноничные** — параллельные координатным осям. Для нас это будет оптимальным решением, так как мы хотим рассмотреть изменение функции только в зависимости от изменения одной из переменных (например, только от $x$ или только от $y$). И если мы, к примеру, берём направление, параллельное оси абсцисс, в таком случае мы фиксируем координату по оси ординат (т. е. воспринимаем её как константу — она одинакова в каждой точке прямой, параллельной оси x). Можно варьировать значение $x$. Так мы и поступим и посмотрим, как меняется функция вдоль оси x. На рисунке ниже это изменение изображено красной кривой.

![](https://lms.skillfactory.ru/assets/courseware/v1/ad320ef1043b970541a480795283afea/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/MATHML_md5_2_7.png)

Отношение приращения вдоль красной кривой к приращению $x$ — и есть значение частной производной по $x$:

$$\frac{\partial f}{\partial x} \approx \frac{f(x_0 + \Delta x, y_0) - f(x_0, y_0)}{\Delta x}$$

Теперь из всей касательной плоскости можно найти прямую, соответствующую этой красной линии. Тангенс её наклона будет равен частной производной по $x$. 

Итак, можно сказать, что **алгоритм поиска частной производной** аналогичен алгоритму поиска обычной производной для одномерного случая.

Пусть дана функция. Чтобы найти частную производную по переменной $x_i$:

* Фиксируем все переменные, кроме $x_i$.
* Считаем приращение функции при изменении только этой переменной.
* Делим приращение из пункта 2 на приращение нашей переменной.
* Уменьшаем $\Delta x_i$ и получаем $\frac{df}{dx_i}$.

В пункте 1 этого алгоритма указано, что мы фиксируем все переменные, кроме одной. Несмотря на то что в разобранных примерах мы рассматривали функции, зависящие от двух аргументов, ровно таким же образом мы можем найти частные производные и для функций трёх, четырёх и более переменных. Такую функцию мы рассмотрим чуть позже.

Разберём ещё несколько примеров нахождения частных производных ↓

**Пример № 1**

*Найти обе частные производные для функции $f(x,y) = cos(x^2 y) + y^3$.*

Для начала найдём производную по $x$ — $f'_x$.

Фиксируем  как константу и дифференцируем:

$f'(x) = (cos(x^2 y))'_x + (y^3)'_x = -sin(x^2 y) \cdot (x^2 y)'_x + 0 =$

$= -sin(x^2 y) \cdot 2xy = -2xy \cdot sin(x^2 y)$

Повторим то же самое для $y$:

$f'(y) = (cos(x^2 y))'_y + (y^3)'_y = -sin(x^2 y) \cdot (x^2 y)'_y + 3y^2 =$

$= -sin(x^2 y) \cdot x^2 + 3y^2 = -x^2 \cdot sin(x^2 y) + 3y^2$

**Пример № 2**

*Найти обе частные производные для функции $f(x,y) = e^{x^2 + y^2}$.*

Найдём частную производную по $x$:

$f'(x) = (e^{x^2 + y^2})'_x = e^{x^2 + y^2} \cdot (x^2 + y^2)'_x = e^{x^2 + y^2} \cdot 2x$

Найдём частную производную по $y$:

$f'(y) = (e^{x^2 + y^2})'_y = e^{x^2 + y^2} \cdot (x^2 + y^2)'_y = e^{x^2 + y^2} \cdot 2y$

**Пример № 3**

*Найти обе частные производные для функции $f(x,y) = \frac{1}{xy}$.*

Найдём частную производную по $x$:

$f'(x) = \left ( \frac{1}{xy} \right )'_x = \left ( \frac{1}{y} \cdot x^{-1} \right )'_x = - \frac{1}{y} \cdot x^{-2} = - \frac{1}{x^2 y}$

Найдём частную производную по $y$:

$f'(x) = \left ( \frac{1}{xy} \right )'_y = \left ( \frac{1}{y} \cdot x^{-1} \right )'_y = - \frac{1}{x} \cdot y^{-2} = - \frac{1}{y^2 x}$



**Пример № 4**

*Найти все частные производные для функции $t(x,y,z) = xe^y + ye^z$.*

Найдём частную производную по $x$:

$t'_x = (xe^y + ye^z)'_x = (x \cdot e^y)'_x + (y \cdot e^z)'_x =$

$= (x)'_x \cdot e^y + x \cdot (e^y)'_x = 1 \cdot e^y + x \cdot 0 = e^y$

Найдём частную производную по $y$:

$t'_y = (x \cdot e^y + y \cdot e^z)'_y = (x \cdot e^y)'_y + (y \cdot e^z)'_y =$

$= x \cdot (e^y)'_y + e^z \cdot (y)'_y = x \cdot e^y + e^z$

Наконец, дифференцируем функцию по $z$:

$t'_z = (x \cdot e^y + y^z)'_z = (x \cdot e^y)'_z + (y \cdot e^z)'_z =$

$= 0 + y \cdot (e^z)'_z = y \cdot e^z$



Так же, по аналогии с одномерными функциями, мы можем найти и вторые частные производные.

Для вторых производных используются следующие обозначения:

![](https://lms.skillfactory.ru/assets/courseware/v1/94b5f6c44479ce540638e25a76da763a/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/MATHML_md5_2_8.png)

Также могут использоваться такие вариации:

![](https://lms.skillfactory.ru/assets/courseware/v1/42b90a0b6192ca68dd82618f50a243b0/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/MATHML_md5_2_9.png)

Рассмотрим пример вычисления всех вторых частных производных для функции $f(x,y) = sin(x) y^2$.

Для начала вычислим первые частные производные по $x$ и по $y$:

![](https://lms.skillfactory.ru/assets/courseware/v1/4d87f68d02066a3999aa3b14ebab2cbf/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/MATHML_md5_2_10.png)

Теперь для каждой из двух частных производных возьмём ещё по две частных производных, чтобы получить все четыре возможных частных производных:

![](https://lms.skillfactory.ru/assets/courseware/v1/20a8cb6745d65690c9df4977bdc0d3ae/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/MATHML_md5_2_11.png)

Можно заметить, что **значения смешанных производных** (когда ищем производную сначала по одной переменной, а затем — по другой) **совпадают**. Это свойство очень поможет нам при поиске минимумов и максимумов функции, так как сильно упростит расчёты: получается, что для функции с двумя переменными нужно вычислить не четыре производных, а только три. Уже в следующем юните вы сможете по достоинству оценить, как это упростит вам жизнь и сократит длительность вычислений.

![](https://lms.skillfactory.ru/assets/courseware/v1/5f884a606d6bff003f75b99d1a387d93/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/MATHML_md5_2_12.png)

Примеры, которые мы разбирали выше, подразумевали, что переменные, от которых зависит наша функция, являются независимыми. Но что, если они тоже зависят друг от друга?

В таком случае мы можем найти **полную производную**, то есть производную, в которой учитываются зависимости между переменными. По сути, задача поиска полной производной сводится к замене одной из переменных на функциональную зависимость от другой и поиск производной по единственной оставшейся переменной.

**Пример № 5**

*Найти полную производную для функции $f(x,y) = x^2 + y^2$ по $x$, если $y = lnx$.*

$f(x,y(x)) = x^2 + y^2(x) = x^2 + (ln \ x)^2$

$\frac{df(x,y(x))}{dx} = (x^2 + y^2(x))'_x = 2x + 2y \cdot y' = 2x + 2ln \ x \cdot \frac{1}{x}$

Разумеется, мы можем вычислять частные производные с помощью уже известной нам библиотеки SymPy. По сути, в коде ничего не меняется — надо лишь не забыть указать, по какой переменной вы ищете производную.

Например, попробуем найти производную для функции $f(a,b,c) = 5ab - a*cos(c) + a^2+c^8*b$ по переменной $a$:

In [29]:
from sympy import symbols, cos, diff

a, b, c = symbols('a b c', real=True)
f = 5*a*b - a*cos(c) + a**2 + c**8*b

print(diff(f, a))

2*a + 5*b - cos(c)


Дальнейшие задания вы можете выполнять как вручную, так и с помощью SymPy, однако рекомендуем на первых порах использовать оба инструмента для самопроверки, а не ограничиваться только одним.

### Задание 2.3

$f(x,y) = x^2 − y^2$

1. Чему равны частные производные $f(x,y)$?

In [30]:
x, y = symbols('x y', real=True)
f = x**2 - y**2

print(diff(f, x))

print(diff(f, y))

2*x
-2*y


2. Вычислите частные производные в точке $M(−2,−1)$:

In [31]:
diff(f, x).subs(x, -2)

-4

In [33]:
diff(f, y).subs(y, -1)

2

# 3. Безусловные экстремумы. Функции нескольких переменных