## Логистическая функция ошибки

$$
    logloss(a, y) = -y \cdot \log(a) - (1 - y) \cdot \log(1 - a)
$$

### Неприятное свойство логлосса
Если мы выдаем для объекта 1-го класса оценку 0 или для объекта класса 0 оценку 1, то ошибка равна бесконечности. **То есть, грубая ошибка на одном объекте делает алгоритм бесполезным.**

Для минимизации $logloss$ нужно уметь вычислять или оценивать вероятности принадлежности к классам.

### Границы $logloss$

$$
    logloss(a, y) \in \left[0, -\dfrac{q_1}{q}\log(a) - \dfrac{q_0}{q}\log(1 - a)\right]
$$

Верхняя граница -- это значение $logloss$ при константном алгоритме.

### Связь с логистической регрессией

$$
    logloss(a, y) = -y \cdot \log(a) - (1 - y) \cdot \log(1 - a)
$$
$$
    a = sigmoid(a, x) = \dfrac{1}{1 + \exp^{-w^{T}x}}
$$
$$
    \dfrac{\partial logloss}{\partial w} = (a - y) \cdot x
$$
$$
    w = w - \alpha \cdot (a - y) \cdot x
$$

### Связь с расхождением Кульбакка-Лейблера

Расхождение Кульбака-Лейблера ($KL, Kullback–Leibler divergence$) часто используют для вычисления непохожести двух распределений.

#### Для непрерывных распредлений
$$
    D_{KL}(P || Q) = \int p(z) \cdot \log\dfrac{p(z)}{q(z)} dz
$$

#### Для дискретных распределений
$$
    D_{KL}(P || Q) = \sum\limits_{i}P_i \cdot \log\dfrac{P_i}{Q_i}
$$

Теперь рассмотрим объект $x$ с меткой класса $y$. Истинное распределение -- $(1 - y, y)$, распределение нашего алгоритма -- $(1 - a, a)$. И посчитаем расхождение Кульбакка-Лейблера для такой ситуации:

$$
    D_{KL}(P || Q) = (1 - y) \cdot \log\dfrac{1 - y}{1 - a} + y \cdot \log\dfrac{y}{a} = -y \cdot \log a - (1 - y) \cdot \log(1 - a)
$$
Что полностью совпало с $logloss$.

### Многоклассовый логлосс

$$
    logloss = -\dfrac{1}{q}\sum\limits_{i = 1}^{q}\sum\limits_{j = 1}^{m}y_{ij} \cdot \log(a_{ij})
$$

$q$ - размер выборки, $l$ - число классов.