Проанализируем формулу кросс-энтропии для бинарной классификации. Для единственного примера она вычисляется следующим образом:

$$BCE(\hat{y}, y) = −y\log(\hat{y}) − (1−y)\log(1−\hat{y})$$

где y∈{0,1} - настоящая метка класса для объекта, а $ 0 < \hat{y} < 1 $ - вероятность класса 1, предсказанная моделью.

В процессе обучения классификатора мы минимизируем кросс-энтропию на всех обучающих примерах (сравните с описанием BCELoss в PyTorch):

$$ BCE_{1..n} = \sum_{i=1}^{n}−y_i	\log(\hat{y}_i) − (1−y_i)\log(1− \hat{y}_i) → min $$

Например, на двух обучающих примерах  

$y_1=1, y_2=1$ формула примет вид:

$$ BCE_{1,2}=−\log(\hat{y}_1) −\log(\hat{y}_2) $$

Мы предлагаем вам проанализировать полученную формулу на следующих предсказаниях модели 
	
$\hat{y}_1, \hat{y}_2 = [0.99,0.01]$ - первый объект классифицируется уверенно правильно, а второй уверенно неправильно

$\hat{y}_1, \hat{y}_2 = [0.5,0.5]$ - модель не может принять решения, абсолютно неуверенное предсказание	

$\hat{y}_1, \hat{y}_2 = [0.99,0.45]$ - первый объект классифицируется уверенно правильно, а второй неуверенно неправильно

$\hat{y}_1, \hat{y}_2 = [0.65,0.65]$ - оба объекта классифицируются правильно, но классификатор не очень уверен в принятом решении

Какие виды ошибок с точки зрения кросс-энтропии более критичны и насколько это согласуется с Вашими ожиданиями как человека? :)

Фраза "Модели выгоднее предсказывать А, чем Б" означает, что суммарое значение функции потерь будет ниже, если модель предскажет набор ответов А, по сравнению с ситуацией, в которой она для тех же объектов предскажет набор ответов Б.

In [1]:
import numpy as np

def f(y1, y2):
    return -np.log(y1) - np.log(y2)

In [2]:
values = [(0.99, 0.01), (0.5, 0.5), (0.99, 0.45), (0.65, 0.65)]

In [3]:
for value in values:
    print(f(*value))

4.615220521841592
1.3862943611198906
0.8085580320712731
0.8615658321849085
