# 1 Алгоритмы

## 1.1 Методы спуска: Общая концепция

In [1]:
import numpy as np

def gradient_descent(f, grad_f, x0, max_iter=100, tol=1e-6, alpha0=1.0, beta=0.5, c=1e-4):
    """
    Общая реализация метода спуска
    
    Параметры:
    f -- оптимизируемая функция
    grad_f -- функция вычисления градиента f
    x0 -- начальная точка (numpy массив)
    max_iter -- максимальное число итераций
    tol -- порог для критерия остановки по норме градиента
    alpha0 -- начальное значение шага для линейного поиска
    beta -- коэффициент уменьшения шага (0 < beta < 1)
    c -- параметр условия Армихо (0 < c < 1)
    
    Возвращает:
    x -- найденная точка минимума
    """
    x = np.array(x0, dtype=float)
    
    for k in range(max_iter):
        # Шаг 2: Вычисление значения функции и градиента (оракул)
        grad = grad_f(x)
        current_f = f(x)
        
        # Шаг 3: Критерий остановки (проверка нормы градиента)
        if np.linalg.norm(grad) < tol:
            print(f"Алгоритм сошелся на итерации {k}. Норма градиента: {np.linalg.norm(grad):.6f}")
            break
        
        # Шаг 4: Вычисление направления спуска (градиентный спуск)
        d_k = -grad
        
        # Шаг 5: Линейный поиск (условие Армихо)
        alpha = alpha0
        while f(x + alpha * d_k) > current_f + c * alpha * np.dot(grad, d_k):
            alpha *= beta
        
        # Шаг 6: Обновление точки
        x = x + alpha * d_k
        
        # Отладочная информация
        print(f"Итерация {k}: x = {x}, f(x) = {f(x):.6f}, ||grad|| = {np.linalg.norm(grad):.6f}, alpha = {alpha:.6f}")
    
    return x

# Пример использования
if __name__ == "__main__":
    # Тестируем на квадратичной функции f(x) = x_1^2 + x_2^2
    def objective_function(x):
        return np.sum(x**2)
    
    def gradient(x):
        return 2 * x
    
    # Начальная точка
    x0 = np.array([5.0, 3.0])
    
    # Запуск алгоритма
    result = gradient_descent(
        f=objective_function,
        grad_f=gradient,
        x0=x0,
        max_iter=50,
        tol=1e-8,
        alpha0=1.0,
        beta=0.8,
        c=1e-4
    )
    
    print("\nРезультат оптимизации:")
    print(f"Найденная точка: {result}")
    print(f"Значение функции: {objective_function(result):.10f}")

Итерация 0: x = [-3.  -1.8], f(x) = 12.240000, ||grad|| = 11.661904, alpha = 0.800000
Итерация 1: x = [1.8  1.08], f(x) = 4.406400, ||grad|| = 6.997142, alpha = 0.800000
Итерация 2: x = [-1.08  -0.648], f(x) = 1.586304, ||grad|| = 4.198285, alpha = 0.800000
Итерация 3: x = [0.648  0.3888], f(x) = 0.571069, ||grad|| = 2.518971, alpha = 0.800000
Итерация 4: x = [-0.3888  -0.23328], f(x) = 0.205585, ||grad|| = 1.511383, alpha = 0.800000
Итерация 5: x = [0.23328  0.139968], f(x) = 0.074011, ||grad|| = 0.906830, alpha = 0.800000
Итерация 6: x = [-0.139968  -0.0839808], f(x) = 0.026644, ||grad|| = 0.544098, alpha = 0.800000
Итерация 7: x = [0.0839808  0.05038848], f(x) = 0.009592, ||grad|| = 0.326459, alpha = 0.800000
Итерация 8: x = [-0.05038848 -0.03023309], f(x) = 0.003453, ||grad|| = 0.195875, alpha = 0.800000
Итерация 9: x = [0.03023309 0.01813985], f(x) = 0.001243, ||grad|| = 0.117525, alpha = 0.800000
Итерация 10: x = [-0.01813985 -0.01088391], f(x) = 0.000448, ||grad|| = 0.070515, al

## 1.2 Критерий остановки

Идеальным критерием остановки в методе является проверка условия $$f(x_k)−f^*< \tilde{ε}$$, где $f^*$ - минимальное значение функции $f$, а $\tilde{ε} > 0$ - заданная точность. Такой критерий целесообразно использовать, если оптимальное значение функции $f$ известно. К сожалению, зачастую это не так, и поэтому нужно использовать другой критерий. Наиболее популярным является критерий, основанный на норме градиента: $$‖∇f(x_k)‖^2_2 <\tilde{ε}$$. Квадрат здесь ставят за тем, что для "хороших" функций невязка по функции $f(x_k)−f^*$ имеет тот же порядок, что и $‖∇f(x_k)‖^2_2$ , а не $‖∇f(x_k)‖_2$ (например, это верно для сильно-выпуклых функций с липшицевым градиентом.); например, если $‖∇f(x_k)‖_2 ∼ 10^{−5}$, то $f(x_k)−f^* ∼ 10^{−10}$. Наконец, для того, чтобы критерий не зависел от того, измеряется ли функция $f$ в "метрах" или в "километрах" (т. е. не изменялся при переходе от функции $f$ к функции $tf$, где $t > 0$), то имеет смысл использовать следующий относительный вариант критерия:
$$ ‖∇f(x_k)‖^2_2 ≤ ε‖∇f(x_0)‖^2_2 \tag{1.1},$$
где $ε∈(0,1)$ - заданная относительнаяточность. Таким образом, критерий остановки (1.1) гарантирует, что метод уменьшит начальную невязку $‖∇f(x_0)‖_2$ в $ε^{−1}$ раз. В этом задании Вам нужно будет во всех методах использовать критерий остановки (1.1).

## 1.3 Линейный поиск

In [3]:
import numpy as np
from scipy.optimize import line_search

def armijo_line_search(f, x, d, grad, alpha_prev, c1=1e-4, adaptive=True, max_trials=100):
    """Линейный поиск с условием Армихо и адаптивным шагом"""
    alpha = alpha_prev if adaptive else 1.0
    phi0 = f(x)
    phi_prime_0 = np.dot(grad, d)
    
    # Проверка, что направление является направлением спуска
    if phi_prime_0 >= 0:
        raise ValueError("Направление не является направлением спуска: ∇f·d ≥ 0")
    
    for _ in range(max_trials):
        new_x = x + alpha * d
        if f(new_x) <= phi0 + c1 * alpha * phi_prime_0:
            next_alpha_prev = 2 * alpha if adaptive else 1.0
            return alpha, next_alpha_prev
        alpha *= 0.5
        if alpha < 1e-15:  # Защита от слишком маленьких шагов
            break
    
    # Если условие не выполнено - возвращаем последний alpha
    next_alpha_prev = 2 * alpha if adaptive else 1.0
    return alpha, next_alpha_prev

def wolfe_line_search(f, grad_f, x, d, c1=1e-4, c2=0.9):
    """Линейный поиск по сильным условиям Вульфа с использованием scipy.optimize.line_search"""
    # Вычисляем текущее значение функции и градиента
    phi0 = f(x)
    grad0 = grad_f(x)
    
    # Проверка направления спуска
    if np.dot(grad0, d) >= 0:
        raise ValueError("Направление не является направлением спуска: ∇f·d ≥ 0")
    
    try:
        # Используем линейный поиск из SciPy
        result = line_search(
            f=f,
            myfprime=grad_f,
            xk=x,
            pk=d,
            gfk=grad0,
            old_fval=phi0,
            c1=c1,
            c2=c2,
            amax=100.0  # Максимальное значение alpha для поиска
        )
        
        alpha, fc, gc, new_fval, old_fval, new_slope = result
        
        # Проверяем корректность найденного шага
        if alpha is None or alpha <= 0:
            print(f"Предупреждение: line_search вернул некорректный шаг alpha={alpha}. Используем резервное значение 1.0")
            alpha = 1.0
        elif np.isnan(alpha):
            print("Предупреждение: line_search вернул NaN. Используем резервное значение 1.0")
            alpha = 1.0
            
    except Exception as e:
        print(f"Предупреждение: ошибка линейного поиска Wolfe: {e}. Используем резервное значение 1.0")
        alpha = 1.0
    
    return alpha

def gradient_descent(f, grad_f, x0, max_iter=100, tol=1e-8, 
                    line_search_method='armijo', 
                    c1=1e-4, c2=0.9, 
                    alpha0=1.0, adaptive=True):
    """
    Градиентный спуск с различными методами линейного поиска
    
    Параметры:
    line_search_method: 'armijo' или 'wolfe'
    adaptive: Использовать адаптивный начальный шаг (только для 'armijo')
    """
    x = np.array(x0, dtype=float)
    alpha_prev = alpha0
    history = []
    
    for k in range(max_iter):
        grad = grad_f(x)
        grad_norm = np.linalg.norm(grad)
        current_f = f(x)
        history.append((k, current_f, grad_norm))
        
        # Критерий остановки
        if grad_norm < tol:
            print(f"Алгоритм сошелся на итерации {k}. Норма градиента: {grad_norm:.2e}")
            break
        
        # Направление спуска (градиентный спуск)
        d = -grad
        
        # Линейный поиск
        if line_search_method == 'armijo':
            alpha, alpha_prev = armijo_line_search(
                f, x, d, grad, alpha_prev,
                c1=c1, adaptive=adaptive
            )
        elif line_search_method == 'wolfe':
            alpha = wolfe_line_search(
                f, grad_f, x, d,
                c1=c1, c2=c2
            )
            # Для методов Вульфа всегда начинаем поиск со значения 1.0
            alpha_prev = 1.0
        else:
            raise ValueError("Неизвестный метод линейного поиска. Используйте 'armijo' или 'wolfe'")
        
        # Обновление точки
        x = x + alpha * d
        
        # Отладочная информация
        print(f"Итерация {k:3d}: α = {alpha:.2e}, f(x) = {f(x):.4e}, ||∇f|| = {grad_norm:.2e}")
    
    return x, history

# Пример использования
if __name__ == "__main__":
    # Тестируем на квадратичной функции f(x) = x_1^2 + 2*x_2^2
    def objective_function(x):
        return x[0]**2 + 2*x[1]**2
    
    def gradient(x):
        return np.array([2*x[0], 4*x[1]])
    
    # Начальная точка
    x0 = np.array([5.0, 3.0])
    
    print("="*50)
    print("Градиентный спуск с линейным поиском (условие Армихо)")
    print("="*50)
    result_armijo, hist_armijo = gradient_descent(
        f=objective_function,
        grad_f=gradient,
        x0=x0,
        max_iter=50,
        line_search_method='armijo',
        adaptive=True,
        alpha0=1.0
    )
    
    print("\n" + "="*50)
    print("Градиентный спуск с линейным поиском (сильные условия Вульфа)")
    print("="*50)
    result_wolfe, hist_wolfe = gradient_descent(
        f=objective_function,
        grad_f=gradient,
        x0=x0,
        max_iter=50,
        line_search_method='wolfe'
    )

Градиентный спуск с линейным поиском (условие Армихо)
Итерация   0: α = 5.00e-01, f(x) = 1.8000e+01, ||∇f|| = 1.56e+01
Итерация   1: α = 2.50e-01, f(x) = 0.0000e+00, ||∇f|| = 1.20e+01
Алгоритм сошелся на итерации 2. Норма градиента: 0.00e+00

Градиентный спуск с линейным поиском (сильные условия Вульфа)
Итерация   0: α = 3.14e-01, f(x) = 4.6392e+00, ||∇f|| = 1.56e+01
Итерация   1: α = 3.55e-01, f(x) = 5.0051e-01, ||∇f|| = 4.83e+00
Итерация   2: α = 3.14e-01, f(x) = 5.3999e-02, ||∇f|| = 1.69e+00
Итерация   3: α = 3.55e-01, f(x) = 5.8258e-03, ||∇f|| = 5.21e-01
Итерация   4: α = 3.14e-01, f(x) = 6.2854e-04, ||∇f|| = 1.82e-01
Итерация   5: α = 3.55e-01, f(x) = 6.7811e-05, ||∇f|| = 5.62e-02
Итерация   6: α = 3.14e-01, f(x) = 7.3160e-06, ||∇f|| = 1.96e-02
Итерация   7: α = 3.55e-01, f(x) = 7.8931e-07, ||∇f|| = 6.07e-03
Итерация   8: α = 3.14e-01, f(x) = 8.5157e-08, ||∇f|| = 2.12e-03
Итерация   9: α = 3.55e-01, f(x) = 9.1874e-09, ||∇f|| = 6.55e-04
Итерация  10: α = 3.14e-01, f(x) = 9.9121e-10

## 1.4 Градиентный спуск

Градиентный спуск:
$$x_{k+1}=x_k−α_k∇f(x_k)$$
Можно рассматривать как метод спуска, в котором направление поиска $d_k$ равно антиградиенту
$−∇f(x_k)$. Длина шага $α_k$ выбирается с помощью линейного поиска.

## 1.5 Метод Ньютона

Метод Ньютона:
$$x_{k+1}=x_k−α_k[∇^2 f(x_k)]^{-1} ∇f(x_k).$$
Для метода Ньютона очень важно использовать единичный шаг $α_k = 1$, чтобы обеспечить локальную квадратичную сходимость. Поэтому в алгоритмах линейного поиска нужно всегда первым делом
пробовать единичный шаг. Теория гарантирует, что в зоне квадратичной сходимости метода Ньютона
единичный шаг будет удовлетворять условиям Армихо/Вульфа, и поэтому автоматически будет приниматься. Если единичный шаг не удовлетворяет условиям Армихо/Вульфа, то алгоритмы линейного
поиска его уменьшат и, тем самым, обеспечат глобальную сходимость метода Ньютона.  

Вычисление Ньютоновского направления $d_k=−[∇^2 f(x_k)]^{-1} ∇f(x_k)$ эквивалентно решению линей-
ной системы уравнений:
$$∇^2 f(x_k)d_k=−∇f(x_k).$$
Если гессиан - положительно определённая матрица: $∇^2 f(x_k) \succ 0$ , то предпочтительным методом решения такой системы является разложение Холецкого, которое также, как и метод Гаусса, работает за $O(n^3)$, но является вычислительно более эффективным. Если матрица системы не является положительно определённой, то метод Холецкого сможет обнаружить и сообщить об этом.

## 1.6 (Бонусная часть) Оптимизация вычислений

```
Рассмотрим случайf(x) =ψ(Ax).
В этом случае
∇f(x) =AT∇ψ(Ax).
```
Для линейного поиска:

```
φ(α) =ψ(Axk+αAdk), φ′(α) =〈∇ψ(Axk+αAdk),Adk〉.
```
Алгоритм 3Общая схема метода спуска дляf(x) =ψ(Ax)

```
1:fork← 0 toK− 1 do
2: (Вызов оракула)Вычислитьf(xk) =ψ(Axk),∇f(xk) =AT∇ψ(Axk)и пр.
3: (Вычисление направления)Вычислить направление спускаdk.
4: (Линейный поиск)Найти подходящую длину шагаαk:
5: Вычислитьφ(0) =ψ(Axk),φ′(0) =〈∇ψ(Axk),Adk〉.
6: Вычислитьφ( ̄α 1 ) =ψ(Axk+ ̄α 1 Adk),φ′( ̄α 1 ) =〈∇ψ(Axk+ ̄α 1 Adk),Adk〉.
7: ...
8: Вычислитьφ( ̄αs) =ψ(Axk+ ̄αsAdk),φ′( ̄αs) =〈∇ψ(Axk+ ̄αsAdk),Adk〉.
9: (Обновление)xk+1←xk+ ̄αsdk.. Axk+1=Axk+ ̄αsAdk
10:end for
```
Таким образом, в хорошей реализации должно быть в среднем лишь дваматрично-векторных про-
изведения: одно  чтобы вычислить градиентAT∇ψ(Axk), второе  чтобы вычислитьAdk. Сами
матрично-векторные произведенияAxkможно пересчитывать, используя Adk.


In [2]:
import numpy as np
from numpy.linalg import norm

def armijo_line_search_opt(psi, Ax, Ad, phi0, phi_prime_0, alpha_prev, 
                          c1=1e-4, adaptive=True, max_trials=100):
    """Оптимизированный линейный поиск с условием Армихо, использующий предвычисленные Ax и Ad"""
    alpha = alpha_prev if adaptive else 1.0
    for _ in range(max_trials):
        new_Ax = Ax + alpha * Ad
        phi_alpha = psi(new_Ax)
        if phi_alpha <= phi0 + c1 * alpha * phi_prime_0:
            next_alpha_prev = 2 * alpha if adaptive else 1.0
            return alpha, next_alpha_prev, new_Ax
        alpha *= 0.5
        if alpha < 1e-15:
            break
    
    # Если условие не выполнено - возвращаем последний alpha
    new_Ax = Ax + alpha * Ad
    next_alpha_prev = 2 * alpha if adaptive else 1.0
    return alpha, next_alpha_prev, new_Ax

def wolfe_line_search_opt(psi, grad_psi, Ax, Ad, phi0, phi_prime_0, 
                         c1=1e-4, c2=0.9, max_trials=100):
    """Оптимизированный линейный поиск по сильным условиям Вульфа"""
    alpha = 1.0
    for _ in range(max_trials):
        new_Ax = Ax + alpha * Ad
        phi_alpha = psi(new_Ax)
        grad_psi_val = grad_psi(new_Ax)
        phi_prime_alpha = np.dot(grad_psi_val, Ad)
        
        # Проверка условий Вульфа
        armijo_condition = (phi_alpha <= phi0 + c1 * alpha * phi_prime_0)
        curvature_condition = (abs(phi_prime_alpha) <= c2 * abs(phi_prime_0))
        
        if armijo_condition and curvature_condition:
            return alpha, new_Ax
        
        # Если условия не выполнены, уменьшаем alpha
        alpha *= 0.5
        if alpha < 1e-15:
            break
    
    # Возвращаем последнее значение
    new_Ax = Ax + alpha * Ad
    return alpha, new_Ax

def gradient_descent_optimized(A, psi, grad_psi, x0, max_iter=100, tol=1e-8, 
                              line_search_method='armijo', 
                              c1=1e-4, c2=0.9, 
                              alpha0=1.0, adaptive=True):
    """
    Градиентный спуск с оптимизацией вычислений для функции вида f(x) = ψ(Ax)
    
    Параметры:
    A -- матрица преобразования (n x m)
    psi -- функция ψ: R^m -> R
    grad_psi -- градиент функции ψ
    x0 -- начальная точка (размер n)
    """
    x = np.array(x0, dtype=float)
    Ax = A @ x  # Первое матрично-векторное произведение
    alpha_prev = alpha0
    history = []
    
    for k in range(max_iter):
        # Шаг 2: Вычисление градиента
        grad_psi_val = grad_psi(Ax)
        grad_f = A.T @ grad_psi_val  # Второе матрично-векторное произведение
        grad_norm = norm(grad_f)
        current_f = psi(Ax)
        history.append((k, current_f, grad_norm))
        
        # Критерий остановки
        if grad_norm < tol:
            print(f"Алгоритм сошелся на итерации {k}. Норма градиента: {grad_norm:.2e}")
            break
        
        # Шаг 3: Направление спуска (градиентный спуск)
        d = -grad_f
        
        # Шаг 4: Вычисление Ad
        Ad = A @ d   # В описании подразумевается, что A @ d вычисляется отдельно,
                    # Ax обновляется через Ax + alpha * Ad
        phi_prime_0 = np.dot(grad_psi_val, Ad)  # ∇ψ(Ax)^T @ Ad
        
        # Проверка направления спуска
        if phi_prime_0 >= 0:
            raise ValueError(f"Направление не является спуском: ∇f·d = {phi_prime_0:.2e} >= 0")
        
        # Шаг 5: Линейный поиск
        if line_search_method == 'armijo':
            alpha, alpha_prev, new_Ax = armijo_line_search_opt(
                psi, Ax, Ad, current_f, phi_prime_0, alpha_prev,
                c1=c1, adaptive=adaptive
            )
        elif line_search_method == 'wolfe':
            alpha, new_Ax = wolfe_line_search_opt(
                psi, grad_psi, Ax, Ad, current_f, phi_prime_0,
                c1=c1, c2=c2
            )
            alpha_prev = 1.0  # Для Вульфа всегда начинаем с 1.0
        else:
            raise ValueError("Неизвестный метод линейного поиска. Используйте 'armijo' или 'wolfe'")
        
        # Шаг 6: Обновление x и Ax
        x = x + alpha * d
        Ax = new_Ax  # Обновление без матрично-векторного умножения!
        
        # Отладочная информация
        print(f"Итерация {k:3d}: α = {alpha:.2e}, f(x) = {psi(Ax):.4e}, ||∇f|| = {grad_norm:.2e}")
    
    return x, history

# Пример использования
if __name__ == "__main__":
    # Матрица для функции f(x) = x₁² + 2x₂² = ||Ax||², где A = [[1, 0], [0, √2]]
    A = np.array([[1.0, 0.0],
                  [0.0, np.sqrt(2.0)]])
    
    # Функция ψ(y) = ||y||² и её градиент
    def psi(y):
        return np.sum(y**2)
    
    def grad_psi(y):
        return 2 * y
    
    # Начальная точка
    x0 = np.array([5.0, 3.0])
    
    print("="*60)
    print("Оптимизированный градиентный спуск с условием Армихо")
    print("="*60)
    result_armijo, hist_armijo = gradient_descent_optimized(
        A=A,
        psi=psi,
        grad_psi=grad_psi,
        x0=x0,
        max_iter=50,
        line_search_method='armijo',
        adaptive=True,
        alpha0=1.0
    )
    
    print("\n" + "="*60)
    print("Оптимизированный градиентный спуск с сильными условиями Вульфа")
    print("="*60)
    result_wolfe, hist_wolfe = gradient_descent_optimized(
        A=A,
        psi=psi,
        grad_psi=grad_psi,
        x0=x0,
        max_iter=50,
        line_search_method='wolfe'
    )
    
    print("\n" + "="*60)
    print("Сравнение результатов:")
    print(f"Армихо: x = {result_armijo}, f(x) = {psi(A @ result_armijo):.6f}")
    print(f"Вульф : x = {result_wolfe}, f(x) = {psi(A @ result_wolfe):.6f}")
    print("="*60)

Оптимизированный градиентный спуск с условием Армихо
Итерация   0: α = 5.00e-01, f(x) = 1.8000e+01, ||∇f|| = 1.56e+01
Итерация   1: α = 2.50e-01, f(x) = 0.0000e+00, ||∇f|| = 1.20e+01
Алгоритм сошелся на итерации 2. Норма градиента: 0.00e+00

Оптимизированный градиентный спуск с сильными условиями Вульфа
Итерация   0: α = 5.00e-01, f(x) = 1.8000e+01, ||∇f|| = 1.56e+01
Итерация   1: α = 2.50e-01, f(x) = 0.0000e+00, ||∇f|| = 1.20e+01
Алгоритм сошелся на итерации 2. Норма градиента: 0.00e+00

Сравнение результатов:
Армихо: x = [ 0.0000000e+00 -4.4408921e-16], f(x) = 0.000000
Вульф : x = [ 0.0000000e+00 -4.4408921e-16], f(x) = 0.000000


# 2 Модели

## 2.1 Двухклассовая логистическая регрессия

Логистическая регрессия является стандартной моделью в задачах классификации. Для простоты
рассмотрим лишь случай бинарной классификации. Неформально задача формулируется следующим
образом. Имеется обучающая выборка $((a_i, b_i))^m_{i=1}$, состоящая изmвекторов $a_i ∈ R^n$ (называемых признаками) и соответствующих им чисел $b_i ∈ {−1, 1}$ (называемых классами). Нужно построить алгоритм $b(·)$, который для произвольного нового вектора признаков $a$ автоматически определит его класс $b(a)∈{−1, 1}$.  

В модели логистической регрессии определение класса выполняется по знаку линейной комбинации
компонент вектораaс некоторыми фиксированными коэффициентами $x∈R^n$:
$$b(a) := sign(〈a,x〉).$$

Коэффициенты $x$ являются параметрами модели и настраиваются с помощью решения следующей
оптимизационной задачи:
$$\underset{x∈R^n}{min} \left( \frac{1}{m}\sum_{i=1}^m ln(1 + exp(−b_i〈a_i, x〉)) + \frac{λ}{2}‖x‖^2_2 \right) $$
где $λ > 0$ - коэффициент регуляризации (параметр модели).

## 2.2 Разностная проверка градиента и гессиана
Проверить правильность реализации подсчета градиента можно с помощью конечных разностей:
$$[∇f(x)]_i ≈ \frac{f(x+ε_1 e_i)−f(x)}{ε_1},$$
где $e_i:= (0,..., 0 , 1 , 0 ,...,0)$ - i-й базисный орт, а ε_1 - достаточно маленькое положительное число: $ε_1 ∼ \sqrt{ε_{mach}}$, где $ε_{mach}$ - машинная точность ($≈ 10 ^{-16}$ для типа `double`).

Вторые производные:
$$[∇^2 f(x)]_{ij} ≈ \frac{f(x + ε_2 e_i + ε_2 e_j) − f(x + ε_2 e_i) − f(x + ε_2 e_j) + f(x)}{ε^2_2}$$
Здесь $ε_2 ∼\sqrt[3]{ε_{mach}}$


In [9]:
import numpy as np
from scipy.optimize import minimize
from scipy.special import expit

class LogisticRegression:
    def __init__(self, lambda_reg=0.1, max_iter=1000, tol=1e-4):
        self.lambda_reg = lambda_reg
        self.max_iter = max_iter
        self.tol = tol
        self.coef_ = None

    def fit(self, X, y):
        m, n = X.shape
        x0 = np.zeros(n)
        
        def loss(x):
            linear = X @ x
            log_terms = np.logaddexp(0, -y * linear)
            avg_log_loss = np.mean(log_terms)
            reg_term = (self.lambda_reg / 2) * np.dot(x, x)
            return avg_log_loss + reg_term
        
        def grad(x):
            linear = X @ x
            sigma = expit(-y * linear)
            grad_data = - (X.T @ (y * sigma)) / m
            grad_reg = self.lambda_reg * x
            return grad_data + grad_reg
        
        res = minimize(
            fun=loss,
            x0=x0,
            jac=grad,
            method='L-BFGS-B',
            options={'maxiter': self.max_iter, 'gtol': self.tol}
        )
        self.coef_ = res.x

    def predict(self, X):
        linear = X @ self.coef_
        return np.where(linear >= 0, 1, -1)

# Генерация
X_full = np.random.randn(150, 2)
y_full = np.sign(X_full[:, 0] + X_full[:, 1] + np.random.randn(150) * 0.2)

# Разделение на обучающую и тестовую выборки
split_idx = int(0.7 * len(X_full))
X_train, X_test = X_full[:split_idx], X_full[split_idx:]
y_train, y_test = y_full[:split_idx], y_full[split_idx:]

print(f"Размер обучающей выборки: {len(X_train)}, тестовой: {len(X_test)}")

# Обучение модели
model = LogisticRegression(lambda_reg=0.1)
model.fit(X_train, y_train)

# Автоматическое определение класса для новых (тестовых) данных
predictions = model.predict(X_test)

# Вывод примеров автоматического определения класса
print("\nПримеры автоматического определения класса для новых данных:")
print("Формат: [признак1, признак2] -> предсказанный_класс (истинный_класс)")
for i in range(min(10, len(X_test))):
    features = X_test[i]
    predicted_class = predictions[i]
    true_class = y_test[i]
    print(f"[{features[0]:.3f}, {features[1]:.3f}] -> {predicted_class} ({true_class})")

# Оценка точности на новых данных
accuracy = np.mean(predictions == y_test)
print(f"\nТочность автоматического определения класса на новых данных: {accuracy:.3f}")

# Проверка, что модель не просто запоминает обучающие данные
train_predictions = model.predict(X_train)
train_accuracy = np.mean(train_predictions == y_train)
print(f"Точность на обучающей выборке: {train_accuracy:.3f}")

Размер обучающей выборки: 105, тестовой: 45

Примеры автоматического определения класса для новых данных:
Формат: [признак1, признак2] -> предсказанный_класс (истинный_класс)
[-0.225, -0.177] -> -1 (-1.0)
[-0.033, 2.066] -> 1 (1.0)
[-1.924, 0.367] -> -1 (-1.0)
[1.117, -0.784] -> 1 (1.0)
[1.240, -0.473] -> 1 (1.0)
[-1.058, 0.421] -> -1 (-1.0)
[-0.243, 1.000] -> 1 (1.0)
[-0.480, -1.364] -> -1 (-1.0)
[1.231, 0.629] -> 1 (1.0)
[0.807, -0.963] -> 1 (-1.0)

Точность автоматического определения класса на новых данных: 0.978
Точность на обучающей выборке: 0.933


In [10]:

## 2.2 Разностная проверка градиента и гессиана

In [1]:
import numpy as np
from scipy.special import expit

def logistic_loss(x, X, y, lambda_reg):
    """Функция потерь логистической регрессии."""
    m = X.shape[0]
    linear = X @ x
    log_terms = np.logaddexp(0, -y * linear)
    avg_log_loss = np.mean(log_terms)
    reg_term = (lambda_reg / 2) * np.dot(x, x)
    return avg_log_loss + reg_term

def logistic_gradient(x, X, y, lambda_reg):
    """Градиент функции потерь."""
    m = X.shape[0]
    linear = X @ x
    sigma = expit(-y * linear)
    grad_data = - (X.T @ (y * sigma)) / m
    grad_reg = lambda_reg * x
    return grad_data + grad_reg

def logistic_hessian(x, X, y, lambda_reg):
    """Аналитический гессиан функции потерь."""
    m = X.shape[0]
    linear = X @ x
    # sigma = 1 / (1 + exp(y * linear)) = expit(-y * linear)
    sigma = expit(-y * linear)
    # w_i = sigma_i * (1 - sigma_i)
    w = sigma * (1 - sigma)
    # Гессиан: (1/m) * X.T @ diag(w) @ X + lambda_reg * I
    hess_data = (X.T * w) @ X / m
    hess_reg = lambda_reg * np.eye(len(x))
    return hess_data + hess_reg

def numerical_gradient(x, X, y, lambda_reg, eps=None):
    """Численный градиент с помощью конечных разностей."""
    if eps is None:
        eps = np.sqrt(np.finfo(float).eps)  # ~1e-8
    n = len(x)
    grad_num = np.zeros(n)
    f0 = logistic_loss(x, X, y, lambda_reg)
    for i in range(n):
        x_perturbed = x.copy()
        x_perturbed[i] += eps
        f1 = logistic_loss(x_perturbed, X, y, lambda_reg)
        grad_num[i] = (f1 - f0) / eps
    return grad_num

def numerical_hessian(x, X, y, lambda_reg, eps=None):
    """Численный гессиан с помощью конечных разностей второго порядка."""
    if eps is None:
        eps = np.cbrt(np.finfo(float).eps)  # ~1e-5
    n = len(x)
    hess_num = np.zeros((n, n))
    f0 = logistic_loss(x, X, y, lambda_reg)
    
    for i in range(n):
        for j in range(n):
            if i == j:
                # Вторая производная по одной переменной
                x_pp = x.copy()
                x_pp[i] += eps
                f_pp = logistic_loss(x_pp, X, y, lambda_reg)
                
                x_mm = x.copy()
                x_mm[i] -= eps
                f_mm = logistic_loss(x_mm, X, y, lambda_reg)
                
                hess_num[i, j] = (f_pp - 2*f0 + f_mm) / (eps**2)
            elif i < j:
                # Смешанная производная
                x_ij = x.copy()
                x_ij[i] += eps
                x_ij[j] += eps
                f_ij = logistic_loss(x_ij, X, y, lambda_reg)
                
                x_i = x.copy()
                x_i[i] += eps
                f_i = logistic_loss(x_i, X, y, lambda_reg)
                
                x_j = x.copy()
                x_j[j] += eps
                f_j = logistic_loss(x_j, X, y, lambda_reg)
                
                hess_num[i, j] = (f_ij - f_i - f_j + f0) / (eps**2)
                hess_num[j, i] = hess_num[i, j]  # симметрия
    return hess_num

def check_gradient_and_hessian():
    """Проверка градиента и гессиана."""
    np.random.seed(42)
    m, n = 50, 5
    X = np.random.randn(m, n)
    y = np.random.choice([-1, 1], size=m)
    lambda_reg = 0.1
    
    # Случайная точка x
    x = np.random.randn(n)
    
    # Аналитические производные
    grad_analytic = logistic_gradient(x, X, y, lambda_reg)
    hess_analytic = logistic_hessian(x, X, y, lambda_reg)
    
    # Численные производные
    grad_numeric = numerical_gradient(x, X, y, lambda_reg)
    hess_numeric = numerical_hessian(x, X, y, lambda_reg)
    
    # Проверка градиента
    grad_diff = np.linalg.norm(grad_analytic - grad_numeric)
    grad_norm = np.linalg.norm(grad_analytic)
    print(f"Проверка градиента:")
    print(f"  Норма разности: {grad_diff:.2e}")
    print(f"  Относительная ошибка: {grad_diff / (grad_norm + 1e-12):.2e}")
    
    # Проверка гессиана
    hess_diff = np.linalg.norm(hess_analytic - hess_numeric)
    hess_norm = np.linalg.norm(hess_analytic)
    print(f"\nПроверка гессиана:")
    print(f"  Норма разности: {hess_diff:.2e}")
    print(f"  Относительная ошибка: {hess_diff / (hess_norm + 1e-12):.2e}")
    
    # Порог для успешной проверки
    tol_grad = 1e-6
    tol_hess = 1e-4
    grad_ok = grad_diff < tol_grad
    hess_ok = hess_diff < tol_hess
    
    print(f"\nРезультаты:")
    print(f"  Градиент {'✓ ПРОЙДЕН' if grad_ok else '✗ НЕ ПРОЙДЕН'} (порог: {tol_grad})")
    print(f"  Гессиан {'✓ ПРОЙДЕН' if hess_ok else '✗ НЕ ПРОЙДЕН'} (порог: {tol_hess})")

if __name__ == "__main__":
    check_gradient_and_hessian()

Проверка градиента:
  Норма разности: 2.43e-08
  Относительная ошибка: 6.70e-08

Проверка гессиана:
  Норма разности: 2.65e-05
  Относительная ошибка: 5.35e-05

Результаты:
  Градиент ✓ ПРОЙДЕН (порог: 1e-06)
  Гессиан ✓ ПРОЙДЕН (порог: 0.0001)


# 3 Формулировка задания

1 Скачайте коды, прилагаемые к заданию:

https://github.com/arodomanov/cmc-mipt17-opt-course/tree/master/task

Эти файлы содержат прототипы функций, которые Вам нужно будет реализовать. Некоторые проце-
дуры уже частично или полностью реализованы.

2 Реализовать метод градиентного спуска (функция `gradient_descent` в модуле `optimization`) и процедуру линейного поиска (метод `line_search` в классе `LineSearchTool` в модуле `optimization`).  
**Рекомендация:** Для поиска точки, удовлетворяющей сильным условиям Вульфа, воспользуйтесь биб-
лиотечной функцией `scalar_search_wolfe2` из модуля `scipy.optimize.linesearch`. Однако следует
иметь в виду, что у этой библиотечной функции имеется один недостаток: она иногда не сходится и
возвращает значение `None`. Если библиотечный метод вернул `None`, то запустите процедуру дробления шага (бэктрекинг) для поиска точки, удовлетворяющей условию Армихо.

3 Получить формулы для градиента и гессиана функции логистической регрессии. Выписать их в отчет
в матрично-векторной форме с использованием поэлементных функций, но без каких-либо суммирований. Также выписать в отчетвыражение для самой функции логистической регрессии в матрично-векторной форме (без явных суммирований).  
**Замечание:** В матрично-вектрной форме допускается использование операций матричного сложения/произведения, умножения на скаляр, транспонирования, стандартного скалярного произведения, поэлементного произведения, а также применения ко всем элементам вектора некоторой скалярной функции. Кроме этого, допускается использование стандартных матриц/векторов (заданного размера): единичная матрица $I_n$, нулевая матрица $0_{m×n}$, нулевой вектор $0_n$, вектор из всех единиц $1_n := (1,... ,1)$.

4 Реализовать оракул логистической регрессии (класс `LogRegL2Oracle` в модуле `oracles`). Также доделать реализацию вспомогательной функции `create_log_reg_oracle` в модуле `oracles`.  
**Замечание:** Реализация оракула должна быть полностью векторизованной, т. е. код не должен содержать никаких циклов.  
**Замечание:** Ваш код должен поддерживать как плотные матрицыAтипаnp.array, так и разрежен-
ные типа `scipy.sparse.csr_matrix`.  
**Замечание:** Нигде в промежуточных вычислениях не стоит вычислять значение $exp(−b_i〈a_i, x〉)$, иначе может произойти переполнение. Вместо этого следует напрямую вычислять необходимые величины с помощью специализированных для этого функций: `np.logaddexp` для $ln(1+exp(·))$ и `scipy.special.expit` для $1 /(1 + exp(·))$.

5 Реализовать подсчет разностных производных (функции `grad_finite_diff` и `hess_finite_diff` в модуле `oracles`). Проверить правильность реализации подсчета градиента и гессиана логистического
оракула с помощью реализованных функций. Для этого сгенерируйте небольшую модельную выборку
(матрицу $A$ и вектор $b$) и сравните значения, выдаваемые методами `grad` и `hess`, с соответствующими разностными аппроксимациями в нескольких пробных точкахx.

6 Реализовать метод Ньютона (функция `newton` в модуле `optimization`).

**Замечание:** Для поиска направления в методе Ньютона не нужно в явном виде обращать гессиан (с
помощью функции `np.linalg.inv`) или использовать самый общий метод для решения системы линей-
ных уравнений (`numpy.linalg.solve`). Вместо этого следует учесть тот факт, что в рассматриваемой
задаче гессиан является симметричной положительно определенной матрицей и воспользоваться раз-
ложением Холецкого (функции `scipy.linalg.cho_factor` и `scipy.linalg.cho_solve`).

7 Провести эксперименты, описанные ниже. Написать отчет.

<!-- 8 (Бонусная часть) Реализовать оптимизированный оракул логистической регрессии, который запомина-
ет последние матрично-векторные произведения (классLogRegL2OptimizedOracleв модулеoptimization).
Оптимизированный оракул отличается от обычного в следующих трех пунктах:

1. При последовательных вычислениях значения функции (методfunc), градиента (методgrad) и
    гессиана (методhess) в одной и той же точкеx, матрично-векторное произведениеAxне вычис-
    ляется повторно.
2. В процедурахfunc_directionalиgrad_directionalвыполняется предподсчет матрично-векторных
    произведенийAxиAd. Если эти процедуры вызываются последовательно для одних и тех же зна-
    чений точкиxи/или направленияd, то матрично-векторные произведенияAxи/илиAdзаново не
    вычисляются. Если перед вызовом или после вызоваfunc_directionalи/илиgrad_directional
    присутствуют вызовыfuncи/илиgradи/илиhessв той же самой точкеx, то матрично-векторное
    произведениеAxне должно вычисляться повторно.
3. Методыfunc_directionalиgrad_directionalзапоминают внутри себя последнюю тестовую
    точкуxˆ:=x+αd, а также соответствующее значение матрично-векторного произведенияAxˆ=
    Ax+αAd. Если далее одна из процедурfunc,grad,hess,func_directional,grad_directional
    вызывается в точкеxˆ, то соответствующее матрично-векторное произведениеAˆxзаново не вы-
    числяется.
 -->

## 3.1 Эксперимент: Траектория градиентного спуска на квадратичной функции

Проанализируйте траекторию градиентного спуска для нескольких квадратичных функций: при-
думайте две-три квадратичныедвумерныефункции, на которых работа метода будет отличаться, на-
рисуйте графики с линиями уровня функций и траекториями методов.  

Попробуйте ответить на следующий вопрос:Как отличается поведение метода в зависимости от
числа обусловленности функции, выбора начальной точки и стратегии выбора шага (константная
стратегия, Армихо, Вульф)?  

Для рисования линий уровня можете воспользоваться функцией `plot_levels`, а для рисования
траекторий `plot_trajectory` из файла `plot_trajectory_2d.py`, прилагающегося к заданию.  
Также обратите внимание, что оракул квадратичной функции `QuadraticOracle` уже реализован в
модуле `oracles`. Он реализует функцию $f(x) = (1/2)〈Ax, x〉−〈b, x〉$, где $A∈S^n_{++}, b ∈ R^n$.



In [4]:
import numpy as np
from numpy.linalg import LinAlgError
import scipy
from scipy.optimize import line_search
from scipy.linalg import cho_factor, cho_solve
from datetime import datetime
from collections import defaultdict
import warnings

class LineSearchTool(object):
    """
    Line search tool for adaptively tuning the step size of the algorithm.

    method : String containing 'Wolfe', 'Armijo' or 'Constant'
        Method of tuning step-size.
        Must be be one of the following strings:
            - 'Wolfe' -- enforce strong Wolfe conditions;
            - 'Armijo" -- adaptive Armijo rule;
            - 'Constant' -- constant step size.
    kwargs :
        Additional parameters of line_search method:

        If method == 'Wolfe':
            c1, c2 : Constants for strong Wolfe conditions
            alpha_0 : Starting point for the backtracking procedure
                to be used in Armijo method in case of failure of Wolfe method.
        If method == 'Armijo':
            c1 : Constant for Armijo rule
            alpha_0 : Starting point for the backtracking procedure.
        If method == 'Constant':
            c : The step size which is returned on every step.
    """
    def __init__(self, method='Wolfe', **kwargs):
        self._method = method
        if self._method == 'Wolfe':
            self.c1 = kwargs.get('c1', 1e-4)
            self.c2 = kwargs.get('c2', 0.9)
            self.alpha_0 = kwargs.get('alpha_0', 1.0)
        elif self._method == 'Armijo':
            self.c1 = kwargs.get('c1', 1e-4)
            self.alpha_0 = kwargs.get('alpha_0', 1.0)
        elif self._method == 'Constant':
            self.c = kwargs.get('c', 1.0)
        else:
            raise ValueError('Unknown method {}'.format(method))

    @classmethod
    def from_dict(cls, options):
        if type(options) != dict:
            raise TypeError('LineSearchTool initializer must be of type dict')
        return cls(**options)

    def to_dict(self):
        return self.__dict__

    def line_search(self, oracle, x_k, d_k, previous_alpha=None):
        """
        Finds the step size alpha for a given starting point x_k
        and for a given search direction d_k that satisfies necessary
        conditions for phi(alpha) = oracle.func(x_k + alpha * d_k).

        Parameters
        ----------
        oracle : BaseSmoothOracle-descendant object
            Oracle with .func(), .grad() methods implemented for computing
            function values and its gradient.
        x_k : np.array
            Starting point
        d_k : np.array
            Search direction
        previous_alpha : float or None
            Starting point to use instead of self.alpha_0 to keep the progress from
             previous steps. If None, self.alpha_0, is used as a starting point.

        Returns
        -------
        alpha : float or None if failure
            Chosen step size
        """
        if self._method == 'Constant':
            return self.c
        
        # Get initial alpha
        alpha = previous_alpha if previous_alpha is not None else self.alpha_0
        phi_0 = oracle.func(x_k)
        grad_0 = oracle.grad(x_k)
        phi_der_0 = np.dot(grad_0, d_k)
        
        # If gradient directional is non-negative, direction is not descent
        if phi_der_0 >= 0:
            return None
        
        if self._method == 'Wolfe':
            try:
                # Use scipy.optimize.line_search for Wolfe conditions
                with warnings.catch_warnings():
                    warnings.simplefilter("ignore")
                    result = line_search(
                        f=lambda x: oracle.func(x),
                        myfprime=lambda x: oracle.grad(x),
                        xk=x_k,
                        pk=d_k,
                        gfk=grad_0,
                        old_fval=phi_0,
                        c1=self.c1,
                        c2=self.c2,
                        amax=100
                    )
                
                # scipy.optimize.line_search returns a tuple where the first element is alpha
                alpha_wolfe = result[0]
                
                if alpha_wolfe is not None and alpha_wolfe > 0:
                    return alpha_wolfe
            except Exception as e:
                # If Wolfe fails, we'll fall back to Armijo
                pass
        
        # Armijo rule (or fallback from Wolfe)
        rho = 0.5  # shrinkage factor for backtracking
        alpha_curr = alpha
        
        while True:
            phi_alpha = oracle.func(x_k + alpha_curr * d_k)
            if phi_alpha <= phi_0 + self.c1 * alpha_curr * phi_der_0:
                return alpha_curr
            alpha_curr *= rho
            if alpha_curr < 1e-12:  # too small step
                return None

## 3.2 Эксперимент: Зависимость числа итераций градиентного спуска от числа обусловленности и размерности пространства

Исследуйте, как зависит число итераций, необходимое градиентному спуску для сходимости, от сле-
дующих двух параметров: 1) числа обусловленности $κ ≥ 1$ оптимизируемой функции и 2) размерности
пространства $n$ оптимизируемых переменных.  

Для этого для заданных параметровnиκсгенерируйте случайным образом квадратичную задачу
размераnс числом обусловленностиκи запустите на ней градиентный спуск с некоторой фиксиро-
ванной требуемой точностью. Замерьте число итераций $T(n,κ)$, которое потребовалось сделать методу до сходимости (успешному выходу по критерию остановки).  

**Рекомендация:** Проще всего сгенерировать случайную квадратичную задачу размера $n$ с заданным числом обусловленности $κ$ следующим образом. В качестве матрицы $A∈S^n_{++}$ удобно взять просто диагональную матрицу $A= Diag(a)$, у которой диагональные элементы сгенерированы случайно
в пределах $[1,κ]$, причем $min(a) = 1, max(a) = κ$. В качестве вектора $b∈R^n$ можно взять вектор со случайными элементами. Диагональные матрицы удобно рассматривать, поскольку с ними можно эффективно работать даже при больших значениях $n$. Рекомендуется хранить матрицу $A$ в формате разреженной диагональной матрицы (см. `scipy.sparse.diags`).  

Зафиксируйте некоторое значение размерности $n$. Переберите различные числа обусловленности
$κ$ по сетке и постройте график зависимости $T(κ,n)$ против $κ$. Поскольку каждый раз квадратичная задача генерируется случайным образом, то повторите этот эксперимент несколько раз. В результате для фиксированного значения $n$ у Вас должно получиться целое семейство кривых зависимости $T(κ,n)$ от $κ$. Нарисуйте все эти кривые одним и тем же цветом для наглядности (например, красным).  

Теперь увеличьте значение $n$ и повторите эксперимент снова. Вы должны получить новое семейство
кривых $T(n′,κ)$ против $κ$. Нарисуйте их все одним и тем же цветом, но отличным от предыдущего
(например, синим).  

Повторите эту процедуру несколько раз для других значений $n$. В итоге должно получиться несколько разных семейств кривых - часть красных (соответствующих одному значению $n$), часть синих (соответствующих другому значению $n$), часть зеленых и т. д.  

Обратите внимание, что значения размерности $n$ имеет смысл перебирать по логарифмической
сетке (например, $n = 10, n = 100, n = 1000$ и т. д.).  

Какие выводы можно сделать из полученной картинки?

## 3.3 Эксперимент: Сравнение методов градиентного спуска и Ньютона на реальной задаче логистической регрессии

Сравнить методы градиентного спуска и Ньютона на задаче обучения логистической регрессии на
реальных данных.

В качестве реальных данных используйте следующие три набора с сайта LIBSVM [http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/.](http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/.)
: *w8a*, *gisette* и *real-sim*. Коэффициент регуляризации взять стандартным образом: $λ = 1/m$.
Параметры обоих методов взять равными параметрам по умолчанию. Начальную точку выбрать
$x_0 = 0$.

Построить графики сходимости следующих двух видов:  
1) Зависимость значения функции от реального времени работы метода.  
2) Зависимость относительного квадрата нормы градиента $‖∇f(x_k)‖^2_2 /‖∇f(x_0)‖^2_2$ (в логарифмической шкале) против реального времени работы.

При этом оба метода (градиентный спуск и Ньютон) нужно рисовать на одном и том же графике.
Укажите в отчете, какова стоимость итерации и сколько памяти требуется каждому из методов в
зависимости от параметров $m$ (размер выборки) и $n$ (размерность пространства). При оценке используйте нотацию $O(·)$, скрывающую внутри себя абсолютные константы.

Какие выводы можно сделать по результатам этого эксперимента? Какой из методов лучше и в
каких ситуациях?

**Рекомендация:** Любой набор данных с сайта LIBSVM представляет из себя текстовый файл в фор-
мате svmlight. Чтобы считать такой текстовый файл, можно использовать функцию `load_svmlight_file` из модуля `sklearn.datasets`. Обратите внимание, что эта функция возвращает матрицу в формате `scipy.sparse.csr_matrix`, поэтому Ваша реализация логистического оракула должна поддерживать такие матрицы.

<!-- ## 3.4 (Бонусная часть) Эксперимент: Оптимизация вычислений в градиентном спуске

Сравнить градиентный спуск на логистической регрессии для обычного оракула и оптимизирован-
ного.
В качестве выборки использовать модельную с размерамиm= 10000,n= 8000. Пример генерации
модельной выборки из стандартного нормального распределения:

np.random.seed(31415)
m, n = 10000, 8000
A = np.random.randn(m, n)
b = np.sign(np.random.randn(m))

Коэффициент регуляризации выбрать стандартнымλ= 1/m.
Параметры метода взять равными параметрам по умолчанию. Начальную точку выбратьx 0 = 0.
Нарисовать графики:

```
(a) Зависимость значения функции от номера итерации.
```
```
(b) Зависимость значения функции от реального времени работы метода.
```
```
(c) Зависимость относительного квадрата нормы градиента‖∇f(xk)‖^22 /‖∇f(x 0 )‖^22 (в логарифмиче-
ской шкале) против реального времени работы.
```
При этом оба метода (с обычным оракулом и с оптимизированным) нужно рисовать на одном и том
же графике.
Объясните, почему траектории обоих методов на первом графике совпадают.


 -->

<!-- 
## 3.5 (Бонусная часть) Эксперимент: Стратегия выбора длины шага в градиентном спуске

Исследовать, как зависит поведение метода от стратегии подбора шага: константный шаг (попро-
бовать различные значения), бэктрэкинг (попробовать различные константыc), условия Вульфа (по-
пробовать различные параметрыc 2 ).
Рассмотрите квадратичную функцию и логистическую регрессию с модельными данным (сгенери-
рованными случайно).
Запустите для этих функций градиентный спуск с разными стратегиями выбора шагаиз одной и
той же начальной точки.
Нарисуйте кривые сходимости (относительная невязка по функции в логарифмической шкале про-
тив числа итераций – для квадратичной функции, относительный квадрат нормы градиента в лога-
рифмической шкале против числа итераций – для логистической регрессии) для разных стратегий на
одномграфике.
Попробуйте разные начальные точки. Ответьте на вопрос:Какая стратегия выбора шага является
самой лучшей?

 -->

# 4 Оформление задания

Результатом выполнения задания являются  
1) Файлы `optimization.py` и `oracles.py` с реализованными методами и оракулами.  
2) Полные исходные коды для проведения экспериментов и рисования всех графиков. Все результаты должны быть воспроизводимыми. Если вы используете случайность - зафиксируйте `seed`.  
3) Отчет в формате `.ipynb` о проведенных исследованиях.  

Каждый проведенный эксперимент следует оформить в виде отчёта в виде одного `.ipynb` документа (название раздела - название соответствующего эксперимента). Для каждого эксперимента необходимо
сначала написать его описание: какие функции оптимизируются, каким образом генерируются данные,
какие методы и с какими параметрами используются. Далее должны быть представлены результаты
соответствующего эксперимента - графики, таблицы и т. д. Наконец, после результатов эксперимента
должны быть написаны Ваши выводы - какая зависимость наблюдается и почему.

**Важно:** Отчет не должен содержать минимум кода. Каждый график должен быть прокомментирован - что на нем изображено, какие выводы можно сделать из этого эксперимента. Обязательно
должны быть подписаны оси. Если на графике нарисовано несколько кривых, то должна быть легенда.
Сами линии следует рисовать достаточно толстыми, чтобы они были хорошо видимыми.

# 5 Проверка задания

Перед отправкой задания обязательно убедитесь, что Ваша реализация проходит автоматические
предварительныетесты `presubmit_tests.py`, выданные вместе с заданием. Для этого запустите следующую команду:
```
>>> nosetests3 presubmit_tests.py
```

<!-- (b) Для бонусной части (проверяются как базовые, так и бонусные тесты):
nosetests3 presubmit_tests.py -a ’bonus’
 -->

**Важно:** Решения, которые не будут проходить тесты `presubmit_tests.py`, будут автоматически
оценены в **0 баллов**. Проверяющий не будет разбираться, почему Ваш код не работает и читать Ваш
отчет.
Оценка за задание будет складываться из двух частей:

1) Правильность и эффективность реализованного кода.
2) Качество отчета

Правильность и эффективность реализованного кода будет оцениваться автоматически с помощью
независимых тестов (отличных от предварительных тестов). Качество отчета будет оцениваться про-
веряющим. При этом оценка может быть субъективной и аппеляции не подлежит.

За реализацию модификаций алгоритмов и хорошие дополнительные эксперименты могут быть
начислены дополнительные баллы. Начисление этих баллов является субъективным и безапелляцион-
ным.

**Важно:** Практическое задание выполняется самостоятельно. Если вы получили ценные советы (по
реализации или проведению экспериментов) от другого студента, то об этом должно быть явно напи-
сано в отчёте. В противном случае "похожие" решения считаются плагиатом и все задействованные
студенты (в том числе те, у кого списали) будут сурово наказаны.


