## Домашнее задание по программированию.

## Производные. Частные производные. Градиент. Градиентный спуск.

Нам понадобится библиотека **numpy** - о ней было рассказано на первой лекции. Если ничего не помните, то можно обратиться к следующим ресурсам:
1. http://pyviy.blogspot.com/2009/09/numpy.html
2. https://pythonworld.ru/numpy (Часть 1, Часть 2)

In [1]:
import numpy as np

Отдельно напишем функцию, которая считает расстояние между двумя точками в произвольном пространстве. Математически это выглядит так $$dist(x, y) = \sum_{i=1}^{n}(x_{i} - y_{i})^{2}$$

In [2]:
def dist(x, y):
    # Здесь мы можем обойтись без явного суммирования
    # Если y и x - вектора из R^{n}, тогда 
    # y^{2} - x^{2} - тоже вектор из R^{n}
    # (здесь x^{2}, y^{2} означает возведение в квадрат каждой из компонент вектора)
    # Используя np.sum с атрибутом axis = 0 получим суммирование по столбцу
    return np.sqrt(abs(np.sum(y ** 2 - x ** 2, axis = 0)))

Обычно пишут не универсальную функцию, которая принимает на вход функцию, минимум которой надо найти, и ее градиент, а явно задают эту функции внутри. Например, напишем функцию, которая будет находить точку минимума для функции многих переменных $$F(x, y) = x^{2} + y^{2}$$

In [3]:
def gradient_descent(starting_point,
                     learning_rate = None, iter_max = None,
                     precision = None, verbose = None, output = None):
    f = lambda x: x[0] ** 2 + x[1] ** 2 # Обычная функция многих переменнных
                                        # F(x, y) = x^2 + y^2
    df_x = lambda x: 2 * x     # Частная производная функции F по первой переменной
    df_y = lambda y: 2 * y     # Частная производная функции F по второй переменной

    # Инициализация опциональных параметров
    iter_num = 0
    if learning_rate is None:
        learning_rate = 0.001
    if iter_max is None:
        iter_max = 1e7
    if precision is None:
        precision = 1e-7
    if verbose is None:
        verbose = False
    if output is None:
        output = False

    # Градиентный спуск
    point = np.array([starting_point[0] - learning_rate * df_x(starting_point[0]),
                      starting_point[1] - learning_rate * df_y(starting_point[1])])

    while dist(point, starting_point) > 1e-7 and iter_num < iter_max:
        ++iter_num
        starting_point, point = np.array([
            starting_point[0] - learning_rate * df_x(starting_point[0]),
            starting_point[1] - learning_rate * df_y(starting_point[1])]),\
            starting_point
        if verbose:
            print(starting_point, point)

    if output:
        return point, f(point)
    else:
        return np.round(point, 3), np.round(f(point), 3)

In [4]:
gradient_descent(np.array([2, -5]))

(array([ 0., -0.]), 0.0)

Вам необходимо написать функцию, которая будет находить минимум функции многих переменных $$F(x, y, z, t) = x^{4}y^{2} + z^{2}t^{2}$$
Указание - вам надо *немного* модифицировать предыдущую функцию.

In [5]:
def gradient_descent(starting_point,
                     learning_rate = None, iter_max = None,
                     precision = None, verbose = None, output = None):
    f = lambda x: x[0] ** 4 * x[1] ** 2  + x[2] ** 2 * x[3] ** 2
    df_x = lambda x: 4 * x[0] ** 3 * x[1] ** 2
    df_y = lambda x: 2 * x[0] ** 4 * x[1]
    df_z = lambda x: 2 * x[0] * x[1] ** 2
    df_t = lambda x: 2 * x[0] ** 2 * x[1]

    # Инициализация опциональных параметров
    iter_num = 0
    if learning_rate is None:
        learning_rate = 0.001
    if iter_max is None:
        iter_max = 1e7
    if precision is None:
        precision = 1e-7
    if verbose is None:
        verbose = False
    if output is None:
        output = False

    # Градиентный спуск
    point = np.array([
        starting_point[0] - learning_rate * df_x((starting_point[0], starting_point[1])),
        starting_point[1] - learning_rate * df_y((starting_point[0], starting_point[1])),
        starting_point[2] - learning_rate * df_z((starting_point[2], starting_point[3])),
        starting_point[3] - learning_rate * df_t((starting_point[2], starting_point[3]))])

    while dist(point, starting_point) > 1e-7 and iter_num < iter_max:
        iter_num += 1
        starting_point, point = np.array([
            starting_point[0] - learning_rate * df_x((starting_point[0], starting_point[1])),
            starting_point[1] - learning_rate * df_y((starting_point[0], starting_point[1])),
            starting_point[2] - learning_rate * df_z((starting_point[2], starting_point[3])),
            starting_point[3] - learning_rate * df_t((starting_point[2], starting_point[3]))]),\
            starting_point
        if verbose:
            print(starting_point, point)

    if output:
        return point, f(point)
    else:
        return np.round(point, 3), np.round(f(point), 3)

In [6]:
gradient_descent(np.array([1, -1, 1, 1]),
                 learning_rate=0.1, iter_max=1000)

(array([ 0.052, -0.677,  0.05 ,  0.05 ]), 0.0)