## **<center>ЧТО ТАКОЕ ПРОИЗВОДНАЯ?**

✍ Мы уже познакомились с функциями и научились немного их исследовать. Теперь пришло время познакомиться с действительно мощным инструментом для изучения поведения функции — с **производной.**

Производная является центральным инструментом для **оптимизации**, которая, в свою очередь, позволяет подбирать самые эффективные решения задач.

Представим, что мы решаем какую-то практическую задачу: предсказываем цену за квартиру, классифицируем фотографии, ищем оптимальное расположение для магазина. Что мы хотим получить в итоге? Максимально точный результат. Спрогнозировать нужные нам данные с минимальной ошибкой. В сложном алгоритме функция, которая выражает ошибку, может быть очень громоздкой в визуальном плане: например, она может быть представлена следующим образом:

![MATHML_md3_5_1.png](attachment:MATHML_md3_5_1.png)

**?**
Мы видим, что есть точка, в которой ошибка достаёт практически до нуля (синий пик внизу), но как найти её? Как туда попасть? Перебирать все точки слишком долго, определить по графику мы также не сможем, если речь будет идти о большом количестве признаков.

>Именно **производная** является ключом к решению этой задачи. Дело в том, что благодаря производной мы можем понять, как найти самую низкую точку, не обходя при этом все точки.

Представьте, что вы находитесь в местности с большим количеством оврагов. Вам нужно найти самый глубокий и спуститься на его дно — это как раз и делает наш алгоритм, когда пытается попасть в самую низкую точку. Как и куда идти, чтобы попасть туда за меньшее число шагов? Нам нужно **направление.** Это направление и показывает производная, что делает её поистине незаменимой. То есть если вы сможете рассчитать значение производной, вы сможете получить координату вектора, по которому надо будет двигаться.

>Это не единственное применение производной. Например, в задачах компьютерного зрения с помощью производных можно вычислять изменения интенсивности пикселей. Таким образом можно идентифицировать границы объекта — места, где блёклые пиксели сменяются яркими. Это используется буквально в каждой задаче сегментации изображения или детекции объектов.

Прежде чем перейти к таким сложным задачам, нам необходимо разобраться с тем, что такое производная и откуда она возникает.

Рассмотрим **пример.** Предположим, что вы решили ехать из Москвы в Казань. Расстояние между городами — около 800 км (мы округлим его до 800 для задачи). Вы доехали за восемь часов. Таким образом, ваша средняя скорость составляет 100 км/ч. Но, разумеется, скорость не всегда была одинаковой. Возможно, на свободной дороге вы разгонялись и до 150 км/ч, а когда ехали по населённым пунктам, снижали скорость до разрешённой ПДД. Также вы где-то останавливались, чтобы перекусить.

Давайте изобразим вашу поездку на графике таким образом, чтобы по оси абсцисс (горизонтальная ось) было время в часах, а по оси ординат (вертикальная ось) располагалось расстояние в километрах. У точки Москва в таком случае будут координаты $(0; 0)$, а у точки Казань — $(8; 800)$.

![MATHML_md3_5_2.png](attachment:MATHML_md3_5_2.png)

Чтобы определить среднюю скорость, необходимо просто найти так называемый **уклон** — поделить изменение расстояния на изменение во времени:

$$Средняя \ скорость \ = \ \frac{Итоговое \ расстояние - начальное \ расстояние}{Итоговое \ время - начальное \ время} = \frac{800-0}{8-0} = 100 \ км/ч$$

Но заметьте, что среднюю скорость мы можем искать не только для всего расстояния, но и, например, для какого-то конкретного отрезка пути. Допустим, мы можем выбрать две точки с координатами:

* $(2; 120)$ — эта точка показывает, что через два часа после начала мы проехали 120 км.
* $(4; 400)$ — эта точка показывает, что через четыре часа после начала мы были на расстоянии 400 км от Москвы.

![MATHML_md3_5_3.png](attachment:MATHML_md3_5_3.png)

Здесь средняя скорость будет следующей:

$$Средняя \ скорость \ = \ \frac{400-120}{4-2} = \frac{280}{2} = 140 \ км/ч$$

Таким образом, мы всегда можем найти среднюю скорость для двух точек $(x_1; y_1)$ и $(x_2; y_2)$:

Иначе в математике это записывается следующим образом:

$$\frac{y_2 - y_1}{x_2 - x_1} = \frac{f(x+h) - f(x)}{(x+h) - x} = \frac{f(x+h) - f(x)}{h}$$

Здесь $f(x)$ — это значение функции в начальной точке $x$ (в нашем случае это значение расстояния для некоторой точки времени), а $f(x+h)$ — это значение функции в конечной точке $x+h$ (то есть в точке, которая получилась, когда к начальной что-то прибавили — в нашем случае это увеличение количества часов в пути).

>В математическом анализе выражение $\frac{f(x+h) - f(x)}{h}$ называют **разностным коэффициентом**. Его можно использовать для того, чтобы искать среднюю скорость изменения какого-то значения (в нашем случае расстояния).

Но, кроме средней скорости на каком-то большом промежутке, нас может интересовать средняя скорость на очень-очень маленьком отрезке времени: по сути, это будет моментальная точная скорость в конкретный момент времени. Именно эта моментальная скорость является **производной от расстояния по времени.** Математически это определяется следующим образом:

$$f'(x) = lim_{\rightarrow 0} \frac{f(x+h) - f(x)}{h}$$

Это значит, что мы берём предельно маленький отрезок времени ($h$ стремится к нулю, но при этом никогда им не станет — то есть это самый короткий отрезок времени, который только может существовать) и находим для него разностный коэффициент. В левой части функции можно увидеть штрих $'$ — это обозначение производной.

Иногда разницы между значениями аргумента $(x)$ и значениями функции $(f(x))$ обозначают через символ  $\Delta$ (дельта):

![MATHML_md3_5_4.png](attachment:MATHML_md3_5_4.png)

На самом деле с помощью подобного алгоритма можно также искать приближённые значения функции в некоторой точке. Например, мы знаем значение $\sqrt{1} = 1$, а хотим найти $\sqrt{1.1}$.


Оказывается, если функция достаточно «хорошая» (т. е. легко вычисляемая) рядом с известной нам точкой (как в примере выше точка 1.1 близка к известной нам 1), то к ней можно провести касательную. Если не отходить слишком далеко от той точки, которую мы хотим искать, то график функции будет очень близок к касательной:

![MATHML_md3_5_6.png](attachment:MATHML_md3_5_6.png)

→ Другими словами, в небольшой окрестности наша функция будет почти прямой. Это значит, что её приращение (увеличение значения) можно считать как приращение линейной функции.

Давайте рассмотрим эту задачу подробнее и посмотрим на изображение поближе:

![MATHML_md3_5_7.png](attachment:MATHML_md3_5_7.png)

На данном графике **синяя прямая** — это касательная к нашему графику $x$ в точке $A$ (в которой $x = 1$). Также у нас есть угол наклона касательной. **Красной точкой** обозначена точка, для которой мы хотим найти значение функции: координата $x$ у неё равна $1.1$, а координата $y$ нам неизвестна. Точкой $B$ обозначена точка, в которую бы мы попали, если бы пошли из точки $A$ вправо не по графику функции $x$, а по проведённой к нему касательной. За $b$ на графике обозначено линейное приращение.

Треугольник $ABC$ прямоугольный, а значит $b$ можно вычислить как $\Delta x \cdot tg \alpha$. Таким образом, нужное нам значение $y_1$ приближённо равно $y_0 + \Delta x \cdot tg \alpha$.

![MATHML_md3_5_8.png](attachment:MATHML_md3_5_8.png)

В данном случае мы ищем самую близкую точку к той, для которой нам необходимо приблизительное значение. Получаем, что тангенс угла $alpha$ равен отношению приращения $y$ к приращению $x$, где приращение $x$ бесконечно малое.

Отсюда вытекает ещё одно понимание производной — через тангенс наклона касательной. Теперь мы можем вывести полное определение ↓

>**Производная** — это предел отношения приращения функции к приращению аргумента при стремлении приращения аргумента к нулю. Графически это тангенс угла наклона касательной в точке  к кривой, изображающей функцию.

Задача о приближении, с помощью которой мы только что ввели понятие производной в графическом восприятии, называется **линеаризацией.** Рассмотрим, как мы можем её решить↓

У нас есть значение функции в точке $x_{0}$, и мы хотим узнать её приближённое значение в точке $x_{1}$:

$$y_0 = f(x_{0})$$

Мы показали, что если $x_{1}$ находится не очень далеко от $x_{0}$, то отношение приращений примерно равно производной в точке $x_{0}$.

$$\frac{y_1 - y_0}{x_1 - x_0} \approx  y' (x_0)$$
$$y_1 - y_0 \approx (x_1 - x_0) y' (x_0)$$

![MATHML_md3_5_9.png](attachment:MATHML_md3_5_9.png)

Чем ближе новая точка расположена к старой, тем точнее приближение.

На идее линеаризации основываются **marginal effects.**

>**Marginal effects (предельные эффекты)** показывают вклад определённых предикторов в значение целевой переменной.

Например, вы хотите создать модель, которая будет предсказывать, стоит ли давать человеку ипотеку, то есть решаете задачу кредитного скоринга. Вам хочется понять, как эта вероятность будет зависеть от, к примеру, небольшого изменения дохода. Допустим, если предельный эффект для заработной платы, которая исчисляется в тысячах рублей, будет равен 0.03 , то мы сможем сделать вывод, что при изменении дохода на тысячу рублей вероятность меняется на три процентных пункта.

Чуть позже в этом юните мы научимся считать самые элементарные производные и сможем сами вычислить приближённое значение для нескольких точек.

## **<center>ВЗАИМОСВЯЗЬ ФУНКЦИИ И ПРОИЗВОДНОЙ**

**?** 
Мы разобрались с тем, что такое производная и как она вычисляется. Теперь нам важен другой вопрос — для чего она нужна и как используется?

Производная — одна из важнейших концепций, ведь именно она является тем инструментом математического анализа, который позволяет  анализировать и предсказывать изменение различных величин, причём совершенно не важно, что это будут за величины: скорость, физический импульс, цена на акции или формирование сигнала в головном мозге — производная является универсальным инструментом.

Но как нам перейти от возможности её вычисления к возможности формирования выводов о поведении нашей величины?

Представим, что мы хотим составить инвестиционный план, и для этого нам нужно понять, когда наступают наиболее удачные моменты для покупки акций, а когда, наоборот, акции покупать не стоит. Нас будут интересовать следующие аспекты поведения функции цены:

* промежутки времени, в которые цена растёт;
* промежутки времени, в которые цена падает;
* точки минимума (точки, где цена достигает своей нижней точки и начинает расти);
* точки максимума (точки, где цена достигает своей верхней точки и начинает падать).

Оказывается, все эти области и точки можно легко найти, если вычислить производную для интересующей нас функции.

Так как производная характеризует скорость изменения функции, то, разумеется, когда цена растёт, производная будет положительной, когда цена падает, производная будет отрицательной.

>Точки минимума и максимума (их ещё называют **экстремумами**) — это те точки, где поведение функции меняется с падения на рост или с роста на падение. В этих местах значение производной меняется с отрицательного на положительное или с положительного на отрицательное, то есть она равна нулю (т. к. чтобы перейти из положительной полуплоскости в отрицательную или наоборот, надо обязательно перейти через 0).

Обобщим эту информацию в таблице:

Функция| Возрастает| Убывает| Минимум| Максимум
------------ | ------------- | ------------- | ------------- | -------------
Производная| Положительная| Отрицательная | Равна 0| Равна 0

Также посмотрим на график, на котором изображена производная функции, чтобы оценить поведение самой функции:

![MATHML_md3_5_10.png](attachment:MATHML_md3_5_10.png)

Также в качестве примера приведём сравнение графиков функций (верхний ряд) и графиков их производных (нижний ряд):

![MATHML_md3_5_11.png](attachment:MATHML_md3_5_11.png)

## **<center>ВЫЧИСЛЕНИЕ ПРОИЗВОДНЫХ**

Мы разобрались в том, что такое производная и как именно она связана с поведением функции. До того момента, как мы сможем полноценно исследовать функцию, осталось совсем немного — нам необходимо научиться вычислять производные (или, как это ещё называют, **дифференцировать функции**).

Для начала нам необходимо познакомиться с дифференцированием простейших функций.

Самая простая функция — это **константа**, функция вида $y = const$, например $y = 5$ или $y = -34$.

Разумеется, если функция является константой, она никогда не изменяется, и скорость её роста равна 0. Поэтому и производная для любой константы равна 0.

С **линейной функцией** всё тоже достаточно просто. За скорость роста линейной функции вида $y = kx + b$ отвечает коэффициент $k$, а значит, если у нас есть функция вида $a * x$, то её производная будет равна просто $а$.

С другими функциями так же просто разобраться не получится. Однако это и не нужно. Для того чтобы искать производные элементарных функций, мы будем пользоваться специальной таблицей:

ФУНКЦИЯ	ПРОИЗВОДНАЯ
	
Функция| Возрастает
------------ | ------------- 
$y = C, y = Const$ | 0
$y = Cx$ | $y' = C$
$y = x^n$| $y' = n \cdot x^{n-1}$
$y = e^{nx}$ | $y' = ne^{nx}$
$y = a^x$ | $y' = a^x \ ln \ a$
$y = ln \ x$ | $y' = \frac{1}{x}$
$y = sin \ x$ | $y' = cos \ x$
$y = cos \ x$ | $y' = -sin \ x$
$y = tgx$ | $y' = \frac{1}{cos^2 \ x}$
$y = ctgx$ | $y' = -\frac{1}{sin^2 \ x}$

Например, нам надо рассчитать производную от $x^4$. Мы видим, что производная от $x^n$ равняется $n*x^{n-1}$. Значит, производная от $x^4 = 4*x^{4-1} = 4*x^3$.

Или, к примеру, если дана функция $5*e^x$, её производная останется такой же, так как коэффициент сохраняется при дифференцировании функций, а производная $e^x$, согласно таблице, равна $e^x$.

Если у нас есть сумма функций, то производная суммы будет равна сумме производных:

$$(sin(x) + 3x^2)’ = cos(x) + 6x$$

Ранее мы обсудили задачу линеаризации, и теперь, когда мы умеем вычислять простые производные, мы можем разобрать **пример** для вычисления приблизительных значений.

?

Вычислить приближённое значение функции $y(x) = \sqrt{x}$ в точках $x_1 = 1.1$, $x_2 = 1.001$ и $x_3 = 2$.

Для начала разберём пример для точки $x_1 = 1.1$.

Найдём ближайшую «удобную» для нас точку и значение функции в ней:

$$x_0 = 1$$
$$y_0 = \sqrt{1} = 1$$

Также найдём значение производной интересующей нас функции в этой точке:

$$y'(x_0) = \frac{1}{2 \sqrt{x}} |_{x = x_{0}} = \frac{1}{2 \cdot 1} = \frac{1}{2}$$

Найдём приращение аргумента:

$$\Delta x = 0.1$$

Теперь вычислим результат:

$$y(1.1)=\sqrt{1.1} \approx y_{0}+\left.\left(x_{1}-x_{0}\right) y^{\prime}\right|_{x=x_{0}}=1+0.1 \cdot \frac{1}{2}=1.05$$

Посмотрим, насколько сильной получилась погрешность относительно настоящего значения:

$$\sqrt{1.1} \approx 1.0488088$$

В целом можно отметить, что получились довольно близкие значения.

Повторим наши вычисления для двух оставшихся значений аргументов по тому же алгоритму:

![MATHML_md3_5_12.png](attachment:MATHML_md3_5_12.png)

→ Пока мы научились считать только самые простые производные, но это не проблема — в следующем юните мы рассмотрим производные для функций любой сложности, и вы сможете хорошо потренироваться в их вычислении.

Также важно отметить, что, как и у любого инструмента, у производной есть свои ограничения. **У некоторых функций не существует производной**. Это важно помнить, так как методы, подразумевающие дифференцирование, из-за этого не могут быть применены ко всем функциям.

### **1**
Такое происходит, если касательных бесконечно много, как, например, у функции  в нуле. Тем не менее, у этой функции есть однозначная касательная, а значит, и производная слева от нуля и справа от нуля. Просто в нуле они не совпадают:

![MATHML_md3_5_13.png](attachment:MATHML_md3_5_13.png)

### **2**
Бывает также, что функция разрывается в какой-либо точке. Здесь можно вспомнить про область определения функции: если функция не существует в какой-то точке, то и производную в ней найти нельзя:

![MATHML_md3_5_14.png](attachment:MATHML_md3_5_14.png)

### **3**
И, наконец, бывают случаи, когда касательная вертикальна, как, например, у функции на графике ниже в нуле. В таком случае для одной точки аргумента существует бесконечно много отображений во множестве значений производной, а значит нет корректной функциональной зависимости. Таким образом, найти производную нельзя.

![MATHML_md3_5_15.png](attachment:MATHML_md3_5_15.png)