# Домашнее Задание 3.
Дедлайн - 24 мая 23:59 по МСК (GMT+3).

Форма сдачи - jupyter notebook. 
Сдавать в [классрум](https://classroom.google.com/c/NjYxNjY4MjY3NDIw?cjc=pho754c)

In [None]:
import numpy as np
import scipy.special
import matplotlib
matplotlib.rcParams['image.cmap'] = 'jet'
import matplotlib.pyplot as plt
from sklearn import linear_model
from tqdm import tqdm

# Задача 1.
Рассмотрим две функции $f_0, f_1$ заданные на отрезке $[-2\pi, 2\pi]$.
$$
f_0(x) = x + 0.95 \sin(x)
$$
$$
f_1(x) = \frac{\cos(1/2 \pi + x / 5)}{\sin^2(1/2 \pi + x / 5)}
$$
Код для вычисления значений функций $f_0$ и $f_1$ приведен ниже:

In [None]:
def compute_function_0(x):
    return x + 0.95 * np.sin(x)


def compute_function_1(x):
    t = np.pi * (0.5 + x / 5.0 / np.pi)
    return np.cos(t) / np.sin(t) / np.sin(t)


def make_plots_problem_1():
    numx = 10001
    x = np.linspace(-2.0 * np.pi, 2.0 * np.pi, numx)
    y0 = compute_function_0(x)
    y1 = compute_function_1(x)
    plt.figure()
    plt.plot(x, y0, c='r', label='$f_0(x)$')
    plt.plot(x, y1, c='b', label='$f_1(x)$')
    plt.legend()
    plt.grid()
    plt.show()


make_plots_problem_1()

Используя метод деления пополам найдите корни уравнений;
$$
f_0(x) = 4
$$
$$
f_1(x) = 4
$$

In [None]:
def binary_search(left_bound, right_bound, target, func, eps=1.0e-10):
    # Your code here (∩ᄑ_ᄑ)⊃━☆ﾟ*･｡*
    pass


def solve_problem_1():
    target = 4.0

    x_0 = binary_search(...)  # solution for f_0
    x_1 = binary_search(...)  # solution for f_1
    assert abs(compute_function_0(x_0) - target) < 1e-10
    assert abs(compute_function_1(x_1) - target) < 1e-10


solve_problem_1()

# Задача 2.
Рассмотрим движение космического объекта в поле тяжести звезды.
Траектория движения объект может вычислена по уравнениям движения, если заданы начальные координаты и скорость.

Предполагается, что в начальный момент времени $t_0 = 0$ объект находится в точке $[1.0, 0.0]$.
Задача состоит в том, чтобы вычислить скорость, которую должен иметь объект, чтобы в момент времени $t_1 = 2$ оказаться в точке с координатами $[-0.8, 0.3]$.

В данном случае, положение в момент времени $t_1 = 2$ - функция начальной скорости $v$:
$x_{\text{final}} = f(v)$

Решите данную задачу численно, используя метод Ньютона.

Функция, которые вычисляют координаты объекта по начальной скорости, а так же матрицу Якоби приведены ниже:

In [None]:
from ode_solver import compute_numerical_solution_rk_5, compute_numerical_trajectory_rk_5


def ffun(v, t_final=2.0):
    """
    This function computes the position by velocity vector
    """
    t0 = 0.0
    x = np.zeros(4)
    x[0] = 1.0
    x[2:] = v.copy()
    nstep = 1000
    return compute_numerical_solution_rk_5(t0, x, t_final, nstep)[:-2]


def initial_guess_problem_2(x_final, t_final=2.0):
    x_start = np.asarray([1.0, 0.0])
    return (x_final - x_start) / t_final


def compute_jacoby_matrix_problem_2(x):
    dx = 1.0e-6
    dimx = x.size
    jmat = np.zeros((dimx, dimx))
    f0 = ffun(x)
    for idx in range(dimx):
        x_pert = x.copy()
        x_pert[idx] += dx
        jmat[:, idx] = (ffun(x_pert) - f0) / dx
    return jmat

Изобразите траекторию объекта, и отметьте начанльные и конечные точки на траектории.
Траекорию объекта можно вычислить при помощи функции
`compute_trajectory_problem_2(v, t_final=2.0, nstep=1000)`.
Смотрите пример ниже.

In [None]:
def compute_trajectory_problem_2(v, t_final=2.0, nstep=1000):
    x_start = np.asarray([1.0, 0.0])
    x = np.zeros(4)
    x[:2] = x_start.copy()
    x[2:] = v.copy()
    x_numer = compute_numerical_trajectory_rk_5(0.0, x, t_final, nstep)
    return x_numer[:, :2]


def make_plots_problem_2():
    v = np.random.normal(0.0, 1.0, 2)
    print(f'Velocity: ({v[0]}, {v[1]})')
    x_trajectory = compute_trajectory_problem_2(v, t_final=2.0, nstep=1000)

    plt.plot(x_trajectory[:, 0], x_trajectory[:, 1])
    plt.xlabel(r'$X_0$')
    plt.ylabel(r'$X_1$')
    plt.grid()
    plt.show()


make_plots_problem_2()

In [None]:
def newton_solver(y, x0, num_iter=400):
    """
    Newton method
    You can use np.linalg.solve() function
    """
    # Your code here (∩ᄑ_ᄑ)⊃━☆ﾟ*･｡*
    pass


def solve_problem_2():
    x_final = np.array([-0.8, 0.3])
    v = initial_guess_problem_2(x_final)
    v = newton_solver(x_final, v)

    x_final_pred = ffun(v)
    print(f'Start velocity: ({v[0]}, {v[1]})')
    print(f'Final point: ({x_final_pred[0]}, {x_final_pred[1]})')
    assert np.max(np.absolute(x_final - x_final_pred)) < 1.0e-2

    x_trajectory = compute_trajectory_problem_2(v, t_final=2.0, nstep=1000)
    plt.plot(x_trajectory[:, 0], x_trajectory[:, 1])
    plt.xlabel(r'$X_0$')
    plt.ylabel(r'$X_1$')
    plt.grid()
    plt.show()


solve_problem_2()

# Задача 3.

Рассмотрим задачу линейной регрессии, которая описывается следующей функцией потерь:
$$
\mathcal{L}(c) = \frac{1}{2 N} \sum_{i=1}^{N} \left(y_i - \sum_{\alpha}c_a \psi_a(x_i) \right)^2 + \alpha ||c||_1
$$
Здесь $\psi_a(x)$ - полиномиальные функции от $x$, $y_i$ - значения функции в точках $x_i$, $c$ - вектор коэффициентов.

Вектор коэффициентов $c$ вычисляется как точка минимума функции потерь:
$$
c = \arg\min(\mathcal{L})
$$

Вычислите вектор коэффициентов, используя метод покоординатного спуска (Coordinate Descent Method) с циклическим порядком выбора координаты, по которой происходит минимизация.

Зазача регрессии может быть инициализирована скриптом ниже:

In [None]:
def compute_poly_norm(poly_degree):
    log_factor = 0.5 * np.log(2.0 * np.pi)
    if poly_degree > 1:
        log_factor += np.sum(np.log(np.linspace(1.0, poly_degree, poly_degree)))
    return np.exp(0.5 * log_factor)


def make_regression_problem_3(npoly, ndata, top_fraction=0.3, noise_std=0.01):
    poly_coef = np.random.normal(0.0, 1.0, npoly)
    xdata = np.random.normal(0.0, 1.0, ndata)
    threshold = np.quantile(np.absolute(poly_coef), 1.0 - top_fraction)
    for idx in range(poly_coef.size):
        if np.absolute(poly_coef[idx]) < threshold:
            poly_coef[idx] = 0.0
    feature_matrix = np.zeros((ndata, npoly))
    for idx in range(npoly):
        feature_matrix[:, idx] = scipy.special.eval_hermitenorm(idx, xdata) / compute_poly_norm(idx)
    ydata = np.dot(feature_matrix, poly_coef)
    ydata += noise_std * np.random.normal(0.0, 1.0, ndata)
    return feature_matrix, ydata, poly_coef

In [None]:
class CoordinateDescent:
    def __init__(self, alpha=1.0e-6, num_iter=1000):
        self.alpha = alpha
        self.num_iter = num_iter
        self.coef_ = None

    def fit(self, xdata, ydata):
        # Your code here (∩ᄑ_ᄑ)⊃━☆ﾟ*･｡*
        pass

    def predict(self, xdata):
        # Your code here (∩ᄑ_ᄑ)⊃━☆ﾟ*･｡*
        pass

In [None]:
def make_plot_problem_3():
    npoly = 11
    ndata = 500
    xdata, ydata, cdata = make_regression_problem_3(npoly, ndata, top_fraction=0.2, noise_std=0.001)
    print(cdata)
    baseline_model = linear_model.Lasso(alpha=1.0e-6, fit_intercept=False, tol=1.0e-8, max_iter=100000)
    baseline_model.fit(xdata, ydata)
    y_baseline_pred = baseline_model.predict(xdata)

    custom_model = CoordinateDescent()
    custom_model.fit(xdata, ydata)
    y_custom_pred = custom_model.predict(xdata)

    fig, ax = plt.subplots(nrows=1, ncols=2)

    ax[0].scatter(ydata, y_baseline_pred, label='baseline model vs ground truth')
    ax[0].scatter(ydata, y_custom_pred, label='custom model vs ground truth')
    ax[0].set_title('Target vs baseline and custom model prediction')
    ax[0].grid()

    ax[1].scatter(cdata, baseline_model.coef_, label='baseline model vs ground truth')
    ax[1].scatter(cdata, custom_model.coef_, label='custom model vs ground truth')
    ax[1].set_title('Coefficient vs baseline and custom model coefficient')
    ax[1].grid()
    plt.show()

    print(f'Baseline model inaccuracy: {np.max(np.absolute(cdata - baseline_model.coef_))}')
    print(f'Custom model inaccuracy: {np.max(np.absolute(cdata - custom_model.coef_))}')


make_plot_problem_3()

Сравните результаты работы Вашего алгоритма с решением,
которое выдает библиотека scikit-learn, использующая тот же алгоритм.

**Ответ:**

# Задача 4.
Для вычисления таких параметров, как шум в данных, можно воспользоваться методом максимизации правдоподобия. Идея состоит в том, чтобы воспользоваться формулой Байеса:
$$
p_{\text{likelihood}}(y | c, \sigma) p_{\text{prior}}(c) = p_{\text{posterior}}(c | y, \sigma) p_{\text{evidence}}(y, \sigma)
$$
Здесь функция правдоподобия $p_{\text{likelihood}}(y | c, \sigma)$ и априорное распределение параметров модели — нормальные распределения со своими стандартными отклонениями. $\sigma$ — стандартное отклонение нормального распределения в функции правдоподобия.


Таким образом, $p_{\text{evidence}}(y, \sigma)$ может быть найден интегрированием:
$$
p_{\text{evidence}}(y, \sigma) = \int p_{\text{likelihood}}(y | c, \sigma) p_{\text{prior}}(c) dc
$$

$p_{\text{evidence}}(y, \sigma)$ — описывает вероятность того, что вектор $y$ может быть получен в результате сбора данных. Соответственно, предлагается искать численно максимум $p_{\text{evidence}}(y, \sigma)$ как функцию $\sigma$.

Более того, достаточно найти максимум $\log\left(p_{\text{evidence}}(y, \sigma)\right)$.

Это можно сделать методом градиентного подъема. Для этого достаточно уметь вычислять:
$$
\frac{\partial \log\left(p_{\text{evidence}}(y, \sigma)\right)}{\partial \sigma}
$$

Таким образом, можно найти оптимальную $\sigma$ методом градиентного подъема.

Для удобства (чтобы отдельно не обрабатывать случай $\sigma < 0$) вводится следующая параметризация:

$$
\sigma(s) = \exp(s)
$$

Таким образом, можно вычислить производную $\log\left(p_{\text{evidence}}(y, \sigma)\right)$
по параметру $s$:
$$
\frac{\partial \log\left(p_{\text{evidence}}(y, \sigma)\right)}{\partial s} = \frac{\partial \log\left(p_{\text{evidence}}(y, \sigma)\right)}{\partial \sigma} \frac{\partial \sigma} {\partial s} = \frac{\partial \log\left(p_{\text{evidence}}(y, \sigma)\right)}{\partial \sigma} \sigma(s)
$$

К сожаления, $\log\left(p_{\text{evidence}}(y, \sigma)\right)$ не всегда может быть вычислен точно: зачастую данная величина вычисляется с точностью до некоторой случайной величины.
По этой причине, необходимо воспользоваться методом стохастического градиентного подъема:
$$
s_{k + 1} = s_{k} + \frac{\Delta t}{(1 + k) ^ \alpha} \exp(s_{k})g_k
$$
Здесь $g_k$ — аппроксимация производной $\log\left(p_{\text{evidence}}(y, \sigma)\right)$. $\Delta t > 0$ и $\alpha \in [0.5, 1.0]$ — настраиваемые параметры.

Подберите $\alpha$ и $\Delta t$ и вычислите оптимальное значение $s$ и $\sigma$. Сравните с `noise_std` в коже ниже (приведена функция для вычисления $g_k$):

In [None]:
def make_regression_problem_4(npoly, ndata, top_fraction=0.3, noise_std=0.01):
    poly_coef = np.random.normal(0.0, 1.0, npoly)
    xdata = np.random.normal(0.0, 1.0, ndata)
    threshold = np.quantile(np.absolute(poly_coef), 1.0 - top_fraction)
    for idx in range(poly_coef.size):
        if np.absolute(poly_coef[idx]) < threshold:
            poly_coef[idx] = 0.0
    feature_matrix = np.zeros((ndata, npoly))
    for idx in range(npoly):
        feature_matrix[:, idx] = scipy.special.eval_hermitenorm(idx, xdata) / compute_poly_norm(idx)
    ydata = np.dot(feature_matrix, poly_coef)
    ydata += noise_std * np.random.normal(0.0, 1.0, ndata)
    return feature_matrix, ydata, poly_coef


def sample_from_posterior_distribution(feature_matrix, ydata, sigma_pr, sigma_lh, nsample):
    ndata, nfeat = feature_matrix.shape
    hmat = np.dot(np.transpose(feature_matrix), feature_matrix) / ndata
    hmat += sigma_lh * sigma_lh / sigma_pr / sigma_pr / ndata * np.eye(nfeat)
    bvec = np.dot(ydata, feature_matrix) / ndata
    cmean = np.linalg.solve(hmat, bvec)

    eigh_val, eigh_vec = np.linalg.eigh(hmat)
    eigh_val = sigma_lh / np.sqrt(ndata * eigh_val)
    eigh_vec = np.transpose(eigh_vec)
    dmat = np.zeros((nfeat, nfeat))
    for idx in range(nfeat):
        dmat[idx, idx] = eigh_val[idx]
    csample = np.random.normal(0.0, 1.0, (nsample, nfeat))
    csample = np.dot(csample, dmat)
    csample = np.dot(csample, eigh_vec)
    for idx in range(nsample):
        csample[idx, :] += cmean
    return csample


def compute_log_likelihood_gradient(feature_matrix, ydata, cdata, sigma_lh):
    ndata, nfeat = feature_matrix.shape
    rdata = ydata - np.dot(feature_matrix, cdata)
    mse = np.dot(rdata, rdata)
    llh_grad = ndata / sigma_lh * (mse / sigma_lh / sigma_lh / ndata - 1.0)
    return llh_grad


def compute_log_evidence_grad(feature_matrix, ydata, sigma_pr, sigma_lh, num_sample):
    csample = sample_from_posterior_distribution(feature_matrix, ydata, sigma_pr, sigma_lh, num_sample)
    lev_grad = 0.0
    for idx in range(num_sample):
        lev_grad += compute_log_likelihood_gradient(feature_matrix, ydata, csample[idx, :], sigma_lh) / num_sample
    return lev_grad

In [None]:
def init_stochastic_gradient_descent(dim):
    return np.random.normal(0.0, 1.0, dim)


def single_step_stochastic_gradient_descent(
    feature_matrix, ydata, num_samples,
    s_k, dt, alpha, iteration_number
):
    # Your code here (∩ᄑ_ᄑ)⊃━☆ﾟ*･｡*
    pass


def compute_optimium_stochastic_gradient_descent(
    feature_matrix, ydata, num_samples, dt, alpha, num_iter
):
    # Your code here (∩ᄑ_ᄑ)⊃━☆ﾟ*･｡*
    pass


def compute_s_param(dt, alpha, feature_matrix, ydata, num_samples, num_iter):
    # Your code here (∩ᄑ_ᄑ)⊃━☆ﾟ*･｡*
    pass

In [None]:
def solve_problem_4():
    # prior sigma is always 1.0
    dt_array = [0.001, 0.005, 0.0001, 0.0005, 0.0007, 0.00001, 0.00005]
    alpha_array = [0.5, 0.6, 0.7, 0.8, 0.9, 1]

    npoly = 3
    ndata = 1000
    num_samples = 100
    num_iter = 10000
    feature_matrix, ydata, _ = make_regression_problem_4(npoly, ndata, noise_std=0.01)
    result = []
    for dt in tqdm(dt_array):
        for alpha in alpha_array:
            evidence_gradient, sigma, s = compute_s_param(dt, alpha, feature_matrix, ydata, num_samples, num_iter)

    # How to choose alpha and dt?
    # Your code here (∩ᄑ_ᄑ)⊃━☆ﾟ*･｡*

**Ответ:**

# Задача 5.

При наличии метрического тензора (квадратичной формы, которая задана в каждой точке пространства) длина кривой может быть вычислена по формуле:
$$
l = \int_{0}^{1} \sqrt{\frac{dx}{dt}^\top g\big(x(t)\big) \frac{dx}{dt}}
$$

Кривая, проходящая через две заданные точки, и имеющая наименьшую длину называется геодезической.

Если кривая задана в виде ломаной, то длина кривой - функция координат вершин ломаной. При этом, если концевые точки зафиксированы, то можно геодезическую можно приближенно найти, варьирую координаты оставшихся звеньев ломаной.

В данной задаче предлагается рассмотреть следующий метрический тензор, заданный в каждой точки плоскости:
$$
g(x) = \frac{|x|^2 + 0.01}{|x|^2 + 1} I
$$
Задача - найти геодезическую, проходящую через точки $[-1, 0]$ и $[0.3, 0.1]$.

Задачу предлагается решать, минимизирую длину кривой при помощи метода моментов (momentum method). Ниже представлен код, который решает данную задачу методом градиентного спуска.
Модифицируйте его так, чтобы получился метод моментов. Постройте график с геодезической для случая $10$ и $50$ свободных вершин ломаной (параметр `nseg`). 

Как происходит инициализация? Что произойдет, если заменить инициализацию на случайную.

Можно пользоваться следующим кодом:

In [None]:
def compute_metric_tensor(x, r0=1.0):
    eps = 1.0e-2
    gmat = np.eye(x.size)
    factor = (np.dot(x, x) + eps * r0 * r0) / (np.dot(x, x) + r0 * r0)
    return factor * gmat


def compute_segment_length(x0, x1, nsample=100):
    t = np.linspace(0.0, 1.0, nsample + 1)
    dx = (x1 - x0) / nsample
    s = 0.0
    for idx in range(nsample):
        x = x0 + 0.5 * dx * (t[idx] + t[idx + 1])
        gmat = compute_metric_tensor(x)
        s += np.sqrt(np.dot(dx, np.dot(gmat, dx)))
    return s


def compute_pwl_curve_length(xpwl):
    # length of piecewise linear curve
    nseg, dimx = xpwl.shape
    s = 0.0
    for kseg in range(1, nseg):
        s += compute_segment_length(xpwl[kseg - 1, :], xpwl[kseg, :])
    return s


def compute_objective_function(
    x,
    x0=np.asarray([-1.0, 0.0]),
    x1=np.asarray([0.3, 0.1])
):
    dims = x0.size
    nseg = np.int64(x.size / dims)
    xdata = np.zeros((2 + nseg, dims))
    xdata[0, :] = x0.copy()
    xdata[-1, :] = x1.copy()
    xdata[1: (-1), :] = np.reshape(x, (nseg, dims)).copy()
    return compute_pwl_curve_length(xdata)


def compute_objective_function_gradient(x):
    dx = 1.0e-6
    dimx = x.size
    x0 = x.copy()
    l0 = compute_objective_function(x0)
    print('l0 = ' + str(l0))
    grad = np.zeros(dimx)
    for idx in range(dimx):
        x1 = x0.copy()
        x1[idx] += dx
        l1 = compute_objective_function(x1)
        grad[idx] = (l1 - l0) / dx
    return grad


def init_optimization_problem_5(
    nseg,
    x0=np.asarray([-1.0, 0.0]),
    x1=np.asarray([0.3, 0.1])
):
    x = np.zeros((nseg, x0.size))
    for kseg in range(nseg):
        x[kseg, :] = (1 + kseg) / (nseg + 2) * x1 + (nseg - kseg + 1) / (nseg + 2) * x0
    return x.flatten()


def single_gradient_descent_step_problem_5(x, dt):
    grad = compute_objective_function_gradient(x)
    return x - dt * grad


def compute_optimal_x_problem_5(nseg, dt, num_iter):
    x0 = init_optimization_problem_5(nseg)
    for _ in range(num_iter):
        x1 = single_gradient_descent_step_problem_5(x0, dt)
        x0 = x1.copy()
    return x0


def make_plot_problem_5():
    nseg = 10
    dt = 0.01
    niter = 1000
    x = compute_optimal_x_problem_5(nseg, dt, niter)
    x = np.reshape(x, (nseg, -1))

    plt.figure()
    plt.plot([-1.0, x[0, 0]], [0.0, x[0, 1]], c='g')
    for idx in range(1, x.shape[0]):
        plt.plot([x[idx - 1, 0], x[idx, 0]], [x[idx - 1, 1], x[idx, 1]], c='b')
    plt.plot([0.3, x[-1, 0]], [0.1, x[-1, 1]], c='r')
    plt.grid()
    plt.show()


make_plot_problem_5()