In [4]:
import numpy as np

In [2]:
eps = 1e-8
eps

1e-08

In [3]:
def pr(f,x):
    return (f(x+eps) - f(x-eps))/(2*eps)

In [11]:
pr(lambda x: x**x, np.exp(1))

30.308524312516738

In [10]:
np.exp(1)

2.718281828459045

In [12]:
pr(lambda x: np.tan(x) * np.log(np.cos(x*x)+1), 0)

0.6931471805599453

Ваше задание --- написать python-функцию, которая в качестве аргумента принимает:

числовую функцию ff, у которой необходимо вычислить производную
число \varepsilonε --- его необходимо использовать в качестве "малого отклонения" для приближённого вычисления производной.
Функция должна в свою очередь возвращать числовую функцию f'f 
′
 , равную производной функции ff.

Однако не подумайте, что вас просят написать что-то, что будет вычислять эту самую производную аналитически. Производную следует вычислять по формуле

In [5]:
def grad_descent_v1(f, deriv, x0=None, lr=0.1, iters=100, callback=None):
    """ 
    Реализация градиентного спуска для функций с одним локальным минимумом,
    совпадающим с глобальным. Все тесты будут иметь такую природу.
    :param func: float -> float — функция 
    :param deriv: float -> float — её производная
    :param x0: float — начальная точка
    :param lr: float — learning rate
    :param iters: int — количество итераций
    :param callback: callable — функция логирования
    """

    if x0 is None:
        # Если точка не дана, сгенерируем случайную
        # из равномерного распределения.
        # При таком подходе начальная точка может быть
        # любой, а не только из какого-то ограниченного диапазона
        # np.random.seed(179)
        x0 = np.random.uniform()

    x = x0

    callback(x, f(x))  # не забывайте логировать
    for i in range(iters):
        x -= lr * deriv(x)
    #YOUR CODE. Сделайте итерации градиентного спуска для x

    return x

Это задание чуть сложнее. Если раньше Вам нужно было просто найти минимум у довольно хорошей функции, то сейчас в тестах будут плохие. У них может быть несколько локальных минимумов, вам же нужно найти глобальный минимум у каждой функции.

В общем случае такая задача невыполнима, но у вас будут одномерные функции и все самое интересное будет сосредоточено в районе нуля. А именно, известно что глобальный минимум лежит в пределах (low, high) (параметры алгоритма). Вам нужно модифицировать градиентный спуск, который вы написали в предыдущем задании, чтобы он работал и в таком случае. 

Сначала запустите градиентный спуск из прошлого пункта на тестах из ноутбука. Скорее всего, некоторые из них не пройдут. Подумайте, как исправить ситуацию.

И снова не забывайте вызывать callback(x, f(x)) на каждом шаге алгоритма!

**Возможное решение** Если вы хотите поэкспериментировать и ощутить всю боль от оптимизации таких функций, сначала подумайте сами, не пытаясь следовать нашим указаниям. Тем не менее, для тех из вас, у кого таких наклонностей нет, мы выписали одно из возможных решений, которое приводит к успеху.

Сделайте шаг обучения не константным, а зависящим от номера итерации. Неплохая эвристика --- домножать lr на \frac{1}{ \sqrt{iteration}} 
iteration
​
 
1
​
 .
В этой задаче в функциях могут после первого же шага градиентного спуска появляться очень большие значения. Для того, чтобы не вылезать за пределы отрезка, на котором ищется минимум, после каждого шага спуска используйте np.clip к очередной точке x_n.
Разбейте весь отрезок на несколько (3-6) подотрезков и найдите минимум на каждом из отрезков (на каждом отрезке, кстати, можно сделать больше одного запуска). Затем из всех найденных результатов выберите минимальный.
Авторское решение использует параметры iters = 5000 и lr = 0.05.
Больше о тонкостях градиентного спуска можно прочитать, например, в лекциях МФТИ.

In [None]:
def grad_descent_v2(f, df, low=None, high=None, callback=None):
    """ 
    Реализация градиентного спуска для функций с несколькими локальным минимумами,
    но с известной окрестностью глобального минимума. 
    Все тесты будут иметь такую природу.
    :param func: float -> float — функция 
    :param deriv: float -> float — её производная
    :param low: float — левая граница окрестности
    :param high: float — правая граница окрестности
    :param callback: callalbe -- функция логирования
    """
    def find_local_min(f, df, low_local, high_local, iters=5000, lr=0.05):
        #функция для нахождения минимума функции f на промежутке (low_local, high_local)
        x0 = np.random.uniform(low_local, high_local)
        x = x0

        for i in range(iters):
            #YOUR CODE. Don't forget to clip x to [low_local, high_local]

        callback(x, f(x))

        return x


    # вам нужно запустить find_local_min несколько раз с разными границами и среди полученных ответов выбрать тот, при котором f имеет наименьшее значение 
    # подсказка: np.argmin
    # YOUR CODE

    # Разбейте отрезок [low,high] на 3-6 равных частей 

    # Для каждой части запустите find_local_min несколько 
    # (преподавательский код запускает 10) раз

    best_estimate = #Найдите общий минимум по всем запускам. Возможно, вы захотите 
    #использовать np.argmin

    return best_estimate

В лекции было несколько функций, градиенты которых Вам было предложено вычислить. 
Теперь от Вас требуется сделать это самостоятельно.

Вычислите градиент следующей функции:

\psi(x,y,z) = sin(xz) - y^2z + e^x
ψ(x,y,z)=sin(xz)−y 
2
 z+e 
x
 
Напишите функцию, которая принимает на вход аргументы xx, yy, zz и возвращает вектор-градиент функции выше. Можно пользоваться функциями sin, cos, tan, exp

In [4]:
from math import sin, cos, tan, exp, pi

def f(x, y, z):
    return np.sin(x*z) - (y**2)*z + np.exp(x)

def grad_1(a, b, x):
    eps = 1e-8
    #возвращает кортеж из 3 чисел --- частных производных по x,y,z 
    dx = (f(a + eps, b, x) - f(a - eps, b, x))/ (2*eps)
    dy = (f(a, b + eps, x) - f(a, b - eps, x))/ (2*eps)#YOUR CODE
    dz = (f(a, b , x+ eps) - f(a, b, x - eps))/ (2*eps)#YOUR CODE
    return (dx, dy, dz)

Еще один градиент, похожий на тот, что был на лекции.
Вычислите градиент следующей функции

\psi(x,y,z) = \ln(\cos(e^{x+y})) - \ln(xy)
ψ(x,y,z)=ln(cos(e 
x+y
 ))−ln(xy)

Напишите функцию, которая принимает на вход аргументы xx, yy, zz и возвращает вектор-градиент функции выше. Можно пользоваться функциями sin, cos, tan, exp, sqrt

In [8]:
from math import sin, cos, tan, exp, pi
import numpy as np


def grad_2(a, b, x):
    eps = 1e-8
    def f(x, y, z):
        return np.log(np.cos(np.exp(x+y))) - np.log(x*y)
    #возвращает кортеж из 3 чисел --- частных производных по x,y,z 
    dx = (f(a + eps, b, x) - f(a - eps, b, x))/ (2*eps)
    dy = (f(a, b + eps, x) - f(a, b - eps, x))/ (2*eps)#YOUR CODE
    dz = (f(a, b , x+ eps) - f(a, b, x - eps))/ (2*eps)#YOUR CODE
    return (dx, dy, dz)

А теперь все вместе!

У вас есть только функция, которую Вам отдают в качестве аргумента, и вы должны найти её минимум.

Вы будете искать глобальный, у вас это должно получиться лишь потому что тут они хорошие. Да, и еще, теперь они не одномерные, а двумерные. Также вам будут даны начальные точки, сходимость из которых гарантируется.

Логика написания градиентного спуска остаётся прежней.

 

Подсказка. Можете использовать следующие параметры:

Отклонение при вычислении производной \varepsilon = 10^{-10}ε=10 
−10
 
Критерий остановки: кол-во итераций 10^410 
4
 
Длина шага градиентного спуска lr = 0.5lr=0.5

In [37]:
import numpy as np
def numerical_derivative_2d(func, epsilon):
    """
    Функция для приближённого вычисления градиента функции двух переменных. 
    :param func: np.array[2] -> float — произвольная дифференцируемая функция
    :param epsilon: float — максимальная величина приращения по осям
    :return: другая функция, которая приближённо вычисляет градиент в точке
    """
    def grad_func(x):
        """
        :param x: np.array[2] — точка, в которой нужно вычислить градиент
        :return: np.array[2] — приближённое значение градиента в этой точке
        """
        ep1 = np.array([epsilon, 0])
        ep2 = np.array([0, epsilon])
        f_val = func(x)
        return np.array([(func(x + ep1) - func(x))/ epsilon, (func(x+ep2)-func(x)) / epsilon]) 

    return grad_func


def grad_descent_2d(func, low, high, start=None, callback=None):
    """ 
    Реализация градиентного спуска для функций двух переменных 
    с несколькими локальным минимумами, но известной квадратной окрестностью
    глобального минимума. Все тесты будут иметь такую природу.

    Обратите внимание, что здесь градиент функции не дан.
    Его нужно вычислять приближённо.

    :param func: np.ndarray -> float — функция 
    :param low: левая граница интервала по каждой из осей
    :param high: правая граница интервала по каждой из осей
    """
    eps = 1e-10
    lr = 0.5
    iterat = int(1e4)
    df = numerical_derivative_2d(func, eps)
    x = start
    for i in range(iterat):
        x -= lr*df(x)
    return x

In [40]:
grad_descent_2d(lambda x: x[0]**2 * x[1]**2, -1, 1, np.array([-0.5,0.5]))

array([-0.00706821,  0.00706784])

In [32]:
2 * np.array([1,1])

array([2, 2])