### Функція втрат для логістичної регресії

У логістичній регресії функція втрат (також відома як логістична функція втрат або бінарна крос-ентропія) визначається як:

$$
L(\theta) = -\frac{1}{m} \sum_{i=1}^{m} \left[ y^{(i)} \log(h_\theta(x^{(i)})) + (1 - y^{(i)}) \log(1 - h_\theta(x^{(i)})) \right]
$$

де:
- $ m $ — кількість навчальних прикладів,
- $ h_\theta(x) $ — це гіпотеза моделі (логістична функція), яка визначається як:

$$
h_\theta(x) = \frac{1}{1 + e^{-\theta^T x}}
$$

### Похідні функції втрат для градієнтного спуску

Для оптимізації параметрів $\theta$ використовується градієнтний спуск. Необхідно знайти часткові похідні функції втрат $L(\theta)$ за кожним параметром $\theta_j$.

#### Виведення похідних

1. **Функція втрат**:

$$
L(\theta) = -\frac{1}{m} \sum_{i=1}^{m} \left[ y^{(i)} \log(h_\theta(x^{(i)})) + (1 - y^{(i)}) \log(1 - h_\theta(x^{(i)})) \right]
$$

2. **Похідна по $\theta_j$**:

Розглянемо похідну функції втрат по параметру $\theta_j$:

$$
\frac{\partial L(\theta)}{\partial \theta_j} = -\frac{1}{m} \sum_{i=1}^{m} \left[ y^{(i)} \frac{\partial}{\partial \theta_j} \log(h_\theta(x^{(i)})) + (1 - y^{(i)}) \frac{\partial}{\partial \theta_j} \log(1 - h_\theta(x^{(i)})) \right]
$$

3. **Похідна логістичної функції**:

Знайдемо часткову похідну логістичної функції:

$$
\frac{\partial}{\partial \theta_j} h_\theta(x^{(i)}) = h_\theta(x^{(i)}) (1 - h_\theta(x^{(i)})) x_j^{(i)}
$$

4. **Похідна логарифмів**:

Похідна логарифма функції:

$$
\frac{\partial}{\partial \theta_j} \log(h_\theta(x^{(i)})) = \frac{1}{h_\theta(x^{(i)})} \cdot \frac{\partial h_\theta(x^{(i)})}{\partial \theta_j} = \frac{1}{h_\theta(x^{(i)})} \cdot h_\theta(x^{(i)}) (1 - h_\theta(x^{(i)})) x_j^{(i)} = (1 - h_\theta(x^{(i)})) x_j^{(i)}
$$

$$
\frac{\partial}{\partial \theta_j} \log(1 - h_\theta(x^{(i)})) = \frac{-1}{1 - h_\theta(x^{(i)})} \cdot \frac{\partial (1 - h_\theta(x^{(i)}))}{\partial \theta_j} = \frac{-1}{1 - h_\theta(x^{(i)})} \cdot (-h_\theta(x^{(i)}) (1 - h_\theta(x^{(i)})) x_j^{(i)}) = -h_\theta(x^{(i)}) x_j^{(i)}
$$

5. **Об'єднання похідних**:

$$
\frac{\partial L(\theta)}{\partial \theta_j} = -\frac{1}{m} \sum_{i=1}^{m} \left[ y^{(i)} (1 - h_\theta(x^{(i)})) x_j^{(i)} + (1 - y^{(i)}) (-h_\theta(x^{(i)})) x_j^{(i)} \right]
$$

$$
= -\frac{1}{m} \sum_{i=1}^{m} \left[ y^{(i)} (1 - h_\theta(x^{(i)})) x_j^{(i)} - (1 - y^{(i)}) h_\theta(x^{(i)}) x_j^{(i)} \right]
$$

$$
= -\frac{1}{m} \sum_{i=1}^{m} \left[ y^{(i)} x_j^{(i)} - y^{(i)} h_\theta(x^{(i)}) x_j^{(i)} - h_\theta(x^{(i)}) x_j^{(i)} + y^{(i)} h_\theta(x^{(i)}) x_j^{(i)} \right]
$$

$$
= -\frac{1}{m} \sum_{i=1}^{m} \left[ y^{(i)} x_j^{(i)} - h_\theta(x^{(i)}) x_j^{(i)} \right]
$$

$$
= \frac{1}{m} \sum_{i=1}^{m} \left[ (h_\theta(x^{(i)}) - y^{(i)}) x_j^{(i)} \right]
$$

Отже, часткова похідна функції втрат по параметру $\theta_j$ для логістичної регресії виглядає так:

$$
\frac{\partial L(\theta)}{\partial \theta_j} = \frac{1}{m} \sum_{i=1}^{m} \left[ (h_\theta(x^{(i)}) - y^{(i)}) x_j^{(i)} \right]
$$

Ця похідна використовується в градієнтному спуску для оновлення параметрів моделі:

$$
\theta_j := \theta_j - \alpha \frac{\partial L(\theta)}{\partial \theta_j}
$$

де $\alpha$ - це швидкість навчання (learning rate).