In [None]:
from regression_helper import * # Подгружаем функции для визуализации
import numpy as np              # Подгружаем библиотеку NumPy

X, y = get_data()               # Загружаем данные в X и y

## Задача минимизации функции

Наша задача - минимизировать функцию ошибки. То есть, нужно найти такое $k$, для которого функция $Loss(k)$ имеет минимальное значение.

# Производная

Производная функции $f(x)$ записывается как $f'(x)$ или же как $\dfrac{d f(x)}{dx}$. Мы будем применять оба варианта.

Производная отвечает на вопрос: как значение функции меняется в зависимости от изменения входного значения.

$f'(x_0) = lim_{\Delta x \rightarrow 0}\dfrac{\Delta y}{\Delta x} = lim_{\Delta x \rightarrow 0}\dfrac{f(x_0+\Delta x) - f(x_0)}{\Delta x}$

## Подробнее про производную

$y = f(x)$

Возьмем точку $x_0$. 

$y_0 = f(x_0)$

Возьмем точку рядом с $x_0$. Это можно сделать, прибавив (или отняв) от $x_0$ значение $\Delta x$. 

$y_1 = f(x_0 + \Delta x)$

$\Delta y = y_1 - y_0 = f(x_0 + \Delta x) - f(x_0)$

$\Delta y = y_1 - y_0 = f(x_0 + \Delta x) - f(x_0)$

И если разделить $\Delta y$ на $\Delta x$ то это и будет производная в точке $x_0$.

То есть, производная равна:

$f'(x_0) = \dfrac{d f(x_0)}{dx} $

$f'(x_0) = \dfrac{\Delta y}{\Delta x} = \dfrac{f(x_0+\Delta x) - f(x_0)}{\Delta x}$

$\Delta x \rightarrow 0$

## Геометрическая интерпретация

Посмотрим на функцию $f(x) = x^2 + 1.5$

 Рассмотрим пример производной в точке $x_0 = 1.4$

Красная точка - это значение функции $f(x_0)$ в точке $x_0$. 

Синяя точка - это значение функции $f(x_0+\Delta x)$ в точке $x_0+\Delta x$. 

Между синей и красной точкой проведена секущая. Угол между ней и осью $X$ обозначим как $\alpha$. 

In [None]:
derivation_sample(x0=1.4, dx=1.4)

Угол между катетом ${\Delta x}$ и гипотенузой равен $\alpha$.  

Из геометрии мы знаем что $tg(\alpha) = \dfrac{\Delta y}{\Delta x}$

In [None]:
derivation_sample(x0=1.4, dx=0.7)

In [None]:
derivation_sample(x0=1.4, dx=0.35)

In [None]:
derivation_sample(x0=1.4, dx=0.001)

$f'(1.4) = 2.8$. 

## Убывающая функция в точке

Рассмотрим пример производной для функции в точке $x_0 = -1.3$.

In [None]:
derivation_sample(x0=-1.3, dx=-1.4)

In [None]:
derivation_sample(x0=-1.3, dx=-0.7)

In [None]:
derivation_sample(x0=-1.3, dx=0.001)

## Аналитическая интерпретация

Можно считать, что производная в точке показывает "скорость" изменения функции. Она положительна, если функция растет вокруг точки и отрицательна, когда функция убывает.

Еще ее можно интерпретировать как тангенс угла наклона $\alpha$ касательной к точке.

Если производная **положительная** в точке $x_0$, и мы возьмем значение немного *больше* чем $x_0$, то мы увидим, что значение функции в новой точке *возросло*. А если взять значение *меньшее* $x_0$, то значение функции будет *меньше* чем в точке $x_0$.

Наоборот с отрицательным значением производной. Если производная **отрицательна** в точке $x_0$, и мы возьмем значение чуть *больше* чем $x_0$, то мы увидим, что значение функции *уменьшилось*. А если взять значение *меньшее* $x_0$, то значение функции будет *больше* чем в точке $x_0$.

## Производная в экстремуме

In [None]:
derivation_sample(x0=0, dx=1.4)

In [None]:
derivation_sample(x0=0, dx=0.7)

In [None]:
derivation_sample(x0=0, dx=0.001)

## Визуализация производной

In [None]:
function_and_derivation(x0=2.0)

In [None]:
function_and_derivation(x0=1.0)

In [None]:
function_and_derivation(x0=0.0)

In [None]:
function_and_derivation(x0=-1.0)

## Так зачем нам производная

Наша задача найти минимум нашей функции потерь $Loss(k)$.

## Функция ошибки и производная

Допустим мы видим, что производная равна отрицательному значению. Это значит, что функция ошибки в окрестности данной точки убывает. То есть, если взять $k$ поменьше, то ошибка будет расти, а если побольше, то ошибка будет убывает.

In [None]:
linear_function_and_loss_with_derivation(X, y, k=15)

In [None]:
linear_function_and_loss_with_derivation(X, y, k=10)

In [None]:
linear_function_and_loss_with_derivation(X, y, k=20)

## Положительная производная

Положительна производная - означает что функция ошибки в окрестности данной точки возрастает. То есть, если взять $k$ побольше, то ошибка будет расти, а если поменьше, то ошибка будет убывать.

In [None]:
linear_function_and_loss_with_derivation(X, y, k=25)

In [None]:
linear_function_and_loss_with_derivation(X, y, k=30)

In [None]:
linear_function_and_loss_with_derivation(X, y, k=20)

## Зачем нам это?

Мы можем менять значение коэффициента $k$ в зависимости от значения производной функции ошибки.