Для задачи бинарной классификации в логистической регрессии, функция потерь (логистическая функция) для одного обучающего примера выражается следующим образом:

$$
L(a_i, b_i, x) = \ln(1 + \exp(-b_i \langle a_i, x \rangle)),
$$

где:
- \(a_i\) - вектор признаков для обучающего примера \(i\),
- \(b_i\) - класс (метка) для обучающего примера \(i\) (\(b_i = \pm 1\)),
- \(x\) - вектор параметров модели.

Функция потерь для всей выборки размера \(m\) задается как сумма функций потерь для каждого обучающего примера:

$$
L(X, B, x) = \sum_{i=1}^{m} \ln(1 + \exp(-b_i \langle a_i, x \rangle)),
$$

где:
- \(X\) - матрица признаков обучающей выборки (\(X = [a_1, a_2, ..., a_m]\)),
- \(B\) - вектор меток классов обучающей выборки (\(B = [b_1, b_2, ..., b_m]\)).

Теперь выведем выражения для градиента и гессиана функции потерь.

1. **Градиент:**
Градиент функции потерь \(L(X, B, x)\) по параметрам \(x\) можно выразить следующим образом:

$$
\nabla L(X, B, x) = -\sum_{i=1}^{m} \left( \frac{b_i}{1 + \exp(b_i \langle a_i, x \rangle)} \right) a_i.
$$

2. **Гессиан:**
Гессиан функции потерь \(L(X, B, x)\) по параметрам \(x\) равен матрице вторых производных:

$$
\nabla^2 L(X, B, x) = \sum_{i=1}^{m} \left( \frac{b_i^2 \exp(b_i \langle a_i, x \rangle)}{(1 + \exp(b_i \langle a_i, x \rangle))^2} \right) a_i a_i^T.
$$

Эти формулы позволяют вычислить градиент и гессиан функции потерь для логистической регрессии для заданной выборки \(X\), вектора меток \(B\) и параметров модели \(x\).

Для проверки правильности реализации подсчета градиента и гессиана логистического оракула с помощью разностных аппроксимаций, давайте создадим небольшую модельную выборку (матрицу A и вектор b) и сравним значения, вычисленные с использованием методов grad и hess, с соответствующими разностными аппроксимациями в нескольких пробных точках x.

Для этого создадим случайные матрицу A и вектор b:

In [1]:
np.random.seed(0)
num_samples = 10
num_features = 5
A = np.random.rand(num_samples, num_features)
b = np.random.choice([-1, 1], size=num_samples)
x_test = np.random.rand(num_features)
oracle = create_log_reg_oracle(A, b, regcoef=0.1)
grad_true = oracle.grad(x_test)
hess_true = oracle.hess(x_test)
grad_approx = grad_finite_diff(lambda x: oracle.func(x), x_test)
hess_approx = hess_finite_diff(lambda x: oracle.func(x), x_test)
print("True Gradient:")
print(grad_true)
print("Approximated Gradient:")
print(grad_approx)

print("True Hessian:")
print(hess_true)
print("Approximated Hessian:")
print(hess_approx)


NameError: name 'np' is not defined