https://stepik.org/lesson/573071/step/4

[Функция Softmax и ее производная](https://eli.thegreenplace.net/2016/the-softmax-function-and-its-derivative/)

[Softmax для нейронных сетей](https://e2eml.school/softmax)

Рассмотрим тренировочную выборку

| x | y |
|---|---|
| -1 | 0 |
| 0 | 1 |
| 1 | 0 |

и будем тренировать нейронную сеть со следующей архитектурой:

<img src='https://ucarecdn.com/acad3c70-9b9d-4837-9088-c2dca29dae0f/'>

А теперь в задаче с последнего шага **напишите новое значение веса** $w_1$ (если вы все сделали правильно, то новый вес $w_2$ будет иметь противоположное значение).

Подумайте, насколько логичен такой результат тренировки нейросети. Пишите свои мысли в комментариях.

In [None]:
# 0

# Решение


## Нахождение функции потерь (OpenAI)

На изображении показана схема вычисления вероятностей классов $ \Pr(Y=0) $ и $ \Pr(Y=1) $ для модели с softmax-функцией на выходе. Давайте разберёмся, как получилась данная функция потерь $ L(w) $.

1. **Обозначим выходные значения перед softmax**:
   - Пусть $ z_0 = w_1 x + w_3 $, а $ z_1 = w_2 x + w_4 $.
   - Тогда $ z_0 $ и $ z_1 $ будут входными значениями для softmax, где:
$$
\Pr(Y=0) = \frac{e^{z_0}}{e^{z_0} + e^{z_1}}, \quad \Pr(Y=1) = \frac{e^{z_1}}{e^{z_0} + e^{z_1}}.
$$

2. **Целевая функция потерь**:
   Функция потерь для классификации с использованием softmax и логарифмической функции правдоподобия (log-likelihood) имеет вид:
   $$
   L(w) = - \sum_{i=0}^1 y_i \ln(\Pr(Y=i)),
   $$
   где $ y_0 $ и $ y_1 $ – истинные метки классов, представленные в виде one-hot вектора: если истинный класс 0, то $ y_0 = 1 $ и $ y_1 = 0 $; если истинный класс 1, то $ y_0 = 0 $ и $ y_1 = 1 $.

3. **Подставим вероятности**:
   Предположим, что у нас имеется пример с истинной меткой $ Y = 0 $. Тогда функция потерь примет вид:
   $$
   L(w) = -\ln \left( \frac{e^{z_0}}{e^{z_0} + e^{z_1}} \right).
   $$
   Если истинный класс $ Y = 1 $, то функция потерь будет:
   $$
   L(w) = -\ln \left( \frac{e^{z_1}}{e^{z_0} + e^{z_1}} \right).
   $$

4. **Общая функция потерь для двух классов**:
   Объединим оба выражения, чтобы учесть оба случая:
   $$
   L(w) = - \ln \frac{e^{w_1 x + w_3}}{e^{w_1 x + w_3} + e^{w_2 x + w_4}} - \ln \frac{e^{w_2 x + w_4}}{e^{w_1 x + w_3} + e^{w_2 x + w_4}}.
   $$
   
Вот как получается эта функция потерь. Она является логарифмической функцией правдоподобия, учитывающей обе вероятности классов.

In [None]:
#@title Чистовик
from sympy import symbols, exp, ln

w1, w2, w3, w4, x = symbols('w1 w2 w3 w4 x')

# Определим функцию потерь с учетом one-hot encoding меток
y0, y1 = symbols('y0 y1')
Pr_Y0 = exp(w1 * x + w3) / (exp(w1 * x + w3) + exp(w2 * x + w4))
Pr_Y1 = exp(w2 * x + w4) / (exp(w1 * x + w3) + exp(w2 * x + w4))
L = - (y0 * ln(Pr_Y0) + y1 * ln(Pr_Y1))

# Производные для каждого веса
dL_dw1 = L.diff(w1)
dL_dw2 = L.diff(w2)
dL_dw3 = L.diff(w3)
dL_dw4 = L.diff(w4)

# Компилируем производные в функции для использования в градиентном спуске
dL_dw1_func = lambda xi, y0_i, y1_i, w1, w2, w3, w4: float(dL_dw1.subs({x: xi, y0: y0_i, y1: y1_i, 'w1': w1, 'w2': w2, 'w3': w3, 'w4': w4}).evalf())
dL_dw2_func = lambda xi, y0_i, y1_i, w1, w2, w3, w4: float(dL_dw2.subs({x: xi, y0: y0_i, y1: y1_i, 'w1': w1, 'w2': w2, 'w3': w3, 'w4': w4}).evalf())
dL_dw3_func = lambda xi, y0_i, y1_i, w1, w2, w3, w4: float(dL_dw3.subs({x: xi, y0: y0_i, y1: y1_i, 'w1': w1, 'w2': w2, 'w3': w3, 'w4': w4}).evalf())
dL_dw4_func = lambda xi, y0_i, y1_i, w1, w2, w3, w4: float(dL_dw4.subs({x: xi, y0: y0_i, y1: y1_i, 'w1': w1, 'w2': w2, 'w3': w3, 'w4': w4}).evalf())

# Входные данные задач 9.2.5-9.2.6 без one-hot encoding
# x_data = [-1, 0, 1]
# y_data = [1, 0, 1]

# Входные данные задач 9.2.8-9.2.9
x_data = [-3, 1]
y_data = [0, 1]

# Преобразуем y в one-hot encoding
one_hot = lambda x: [[abs(1 - xi), xi] for xi in x]
y_one_hot = one_hot(y_data)

# Начальные значения весов
w1, w2, w3, w4 = 0.0, 0.0, 0.0, 0.0  # Обязательно используем float для численных значений
# Количество эпох
epochs = 5
# Шаг обучения
learning_rate = 0.1

# Обучение
for epoch in range(epochs):
    # Обнуляем градиент для нового подсчёта
    w_grad = [0.0, 0.0, 0.0, 0.0]
    for i in range(len(x_data)):
        xi = x_data[i]
        y0_i, y1_i = y_one_hot[i]

        # Обновляем градиенты для каждого веса с учётом one-hot меток
        w_grad[0] += dL_dw1_func(xi, y0_i, y1_i, w1, w2, w3, w4)
        w_grad[1] += dL_dw2_func(xi, y0_i, y1_i, w1, w2, w3, w4)
        w_grad[2] += dL_dw3_func(xi, y0_i, y1_i, w1, w2, w3, w4)
        w_grad[3] += dL_dw4_func(xi, y0_i, y1_i, w1, w2, w3, w4)

    # Обновляем веса
    w1 -= learning_rate * w_grad[0]
    w2 -= learning_rate * w_grad[1]
    w3 -= learning_rate * w_grad[2]
    w4 -= learning_rate * w_grad[3]

    # Выводим веса на каждой эпохе
    print(f'epoch = {epoch+1}, w1 = {w1:.4f}, w2 = {w2:.4f}, w3 = {w3:.4f}, w4 = {w4:.4f}')

epoch = 1, w1 = -0.2000, w2 = 0.2000, w3 = 0.0000, w4 = 0.0000
epoch = 2, w1 = -0.3096, w2 = 0.3096, w3 = -0.0170, w4 = 0.0170
epoch = 3, w1 = -0.3855, w2 = 0.3855, w3 = -0.0373, w4 = 0.0373
epoch = 4, w1 = -0.4444, w2 = 0.4444, w3 = -0.0577, w4 = 0.0577
epoch = 5, w1 = -0.4930, w2 = 0.4930, w3 = -0.0773, w4 = 0.0773


In [None]:
#@title Черновик
from sympy import symbols, exp, ln

# Определяем переменные
w1, w2, w3, w4, x = symbols('w1 w2 w3 w4 x')

# Определим функцию потерь с учетом one-hot encoding меток
y0, y1 = symbols('y0 y1')
Pr_Y0 = exp(w1 * x + w3) / (exp(w1 * x + w3) + exp(w2 * x + w4))
Pr_Y1 = exp(w2 * x + w4) / (exp(w1 * x + w3) + exp(w2 * x + w4))
L = - (y0 * ln(Pr_Y0) + y1 * ln(Pr_Y1))

# Вычисляем частные производные для каждого веса
dL_dw1 = L.diff(w1)
dL_dw2 = L.diff(w2)
dL_dw3 = L.diff(w3)
dL_dw4 = L.diff(w4)

# Компилируем производные в функции для использования в градиентном спуске
dL_dw1_func = lambda xi, y0_i, y1_i: float(dL_dw1.subs({x: xi, y0: y0_i, y1: y1_i}).evalf())
dL_dw2_func = lambda xi, y0_i, y1_i: float(dL_dw2.subs({x: xi, y0: y0_i, y1: y1_i}).evalf())
dL_dw3_func = lambda xi, y0_i, y1_i: float(dL_dw3.subs({x: xi, y0: y0_i, y1: y1_i}).evalf())
dL_dw4_func = lambda xi, y0_i, y1_i: float(dL_dw4.subs({x: xi, y0: y0_i, y1: y1_i}).evalf())

# Входные данные задачи
x_data = [-1, 0, 1]
y_data = [1, 0, 1]

# Преобразуем y в one-hot encoding
one_hot = lambda x: [[xi, abs(1 - xi)] for xi in x]
y_one_hot = one_hot(y_data)

# Начальные значения весов
w1, w2, w3, w4 = 0.0, 0.0, 0.0, 0.0  # Обязательно используем float для численных значений
# Количество эпох
epochs = 3
# Шаг обучения
learning_rate = 0.1

# Обучение
for epoch in range(epochs):
    # Обнуляем градиент для нового подсчёта
    w_grad = [0.0, 0.0, 0.0, 0.0]
    for i in range(len(x_data)):
        xi = x_data[i]
        y0_i, y1_i = y_one_hot[i]

        # Обновляем градиенты для каждого веса с учётом one-hot меток
        w_grad[0] += dL_dw1_func(xi, y0_i, y1_i)
        w_grad[1] += dL_dw2_func(xi, y0_i, y1_i)
        w_grad[2] += dL_dw3_func(xi, y0_i, y1_i)
        w_grad[3] += dL_dw4_func(xi, y0_i, y1_i)

    # Обновляем веса
    w1 -= learning_rate * w_grad[0]
    w2 -= learning_rate * w_grad[1]
    w3 -= learning_rate * w_grad[2]
    w4 -= learning_rate * w_grad[3]

    # Выводим веса на каждой эпохе
    print(f'epoch = {epoch+1}, w1 = {w1:.4f}, w2 = {w2:.4f}, w3 = {w3:.4f}, w4 = {w4:.4f}')


TypeError: Cannot convert expression to float

In [None]:
#@title OpenAI
from sympy import symbols, exp, ln

# Определяем переменные
w1, w2, w3, w4, x = symbols('w1 w2 w3 w4 x')

# Определим функцию потерь с учетом one-hot encoding меток
y0, y1 = symbols('y0 y1')
Pr_Y0 = exp(w1 * x + w3) / (exp(w1 * x + w3) + exp(w2 * x + w4))
Pr_Y1 = exp(w2 * x + w4) / (exp(w1 * x + w3) + exp(w2 * x + w4))
L = - (y0 * ln(Pr_Y0) + y1 * ln(Pr_Y1))

# Вычисляем частные производные для каждого веса
dL_dw1 = L.diff(w1)
dL_dw2 = L.diff(w2)
dL_dw3 = L.diff(w3)
dL_dw4 = L.diff(w4)

In [None]:
# # Функция для вычисления значений до softmax
# x_raw = lambda x: [w[0] * x + w[2], w[1] * x + w[3]]

# # Функция softmax
# def softmax(x):
#     exp_x = [exp(xi) for xi in x]
#     sum_exp_x = sum(exp_x)
#     return [xi / sum_exp_x for xi in exp_x]

# Производные, полученные выше (копируем сюда вывод)
dL_dw1 = lambda x: x*exp(w1*x + w3)*exp(-w2*x - w4)*exp(w2*x + w4)/(exp(w1*x + w3) + exp(w2*x + w4)) - (x*exp(w1*x + w3)/(exp(w1*x + w3) + exp(w2*x + w4)) - x*exp(2*w1*x + 2*w3)/(exp(w1*x + w3) + exp(w2*x + w4))**2)*(exp(w1*x + w3) + exp(w2*x + w4))*exp(-w1*x - w3)
dL_dw2 = lambda x: x*exp(-w1*x - w3)*exp(w1*x + w3)*exp(w2*x + w4)/(exp(w1*x + w3) + exp(w2*x + w4)) - (x*exp(w2*x + w4)/(exp(w1*x + w3) + exp(w2*x + w4)) - x*exp(2*w2*x + 2*w4)/(exp(w1*x + w3) + exp(w2*x + w4))**2)*(exp(w1*x + w3) + exp(w2*x + w4))*exp(-w2*x - w4)
dL_dw3 = lambda x: -(exp(w1*x + w3)/(exp(w1*x + w3) + exp(w2*x + w4)) - exp(2*w1*x + 2*w3)/(exp(w1*x + w3) + exp(w2*x + w4))**2)*(exp(w1*x + w3) + exp(w2*x + w4))*exp(-w1*x - w3) + exp(w1*x + w3)*exp(-w2*x - w4)*exp(w2*x + w4)/(exp(w1*x + w3) + exp(w2*x + w4))
dL_dw4 = lambda x: -(exp(w2*x + w4)/(exp(w1*x + w3) + exp(w2*x + w4)) - exp(2*w2*x + 2*w4)/(exp(w1*x + w3) + exp(w2*x + w4))**2)*(exp(w1*x + w3) + exp(w2*x + w4))*exp(-w2*x - w4) + exp(-w1*x - w3)*exp(w1*x + w3)*exp(w2*x + w4)/(exp(w1*x + w3) + exp(w2*x + w4))

# Входные данные задачи 9.2.5-9.2.6
# x = [-1, 0, 1]
# y = [1, 0, 1]

# Входные данные задачи 9.2.8-9.2.9
x = [-1, 1]
y = [0, 1]

# Функция для One-hot encoding
one_hot = lambda x: [[xi, abs(1-xi)] for xi in x] if type(x[0]) == int else x

y = one_hot(y)

# Начальные значения весов
w1, w2, w3, w4 = 0, 0, 0, 0
# Количество эпох
epoches = 3
# Шаг обучения
h = 0.1

# Обучение
for epoch in range(epoches):
    # Обнуляем градиент для нового подсчёта
    w_grad = [0, 0, 0, 0]
    for i in range(len(x)):
        # Обновляем градиенты для каждого веса
        w_grad[0] += dL_dw1(x[i])
        w_grad[1] += dL_dw2(x[i])
        w_grad[2] += dL_dw3(x[i])
        w_grad[3] += dL_dw3(x[i])

    # Обновляем веса
    w1 -= h * w_grad[0]
    w2 -= h * w_grad[1]
    w3 -= h * w_grad[2]
    w4 -= h * w_grad[3]

    # Выводим веса на каждой эпохе
    print(f'epoch = {epoch+1}, w1 = {w1:.4f}, w2 = {w2:.4f}, w3 = {w3:.4f}, w4 = {w4:.4f}')


NameError: name 'exp' is not defined

## Нахождение частных производных

### Gemini

Для нахождения частных производных функции потерь $L(w)$, где $w = (w_1, w_2, w_3, w_4)$, нам нужно вычислить $\frac{\partial L}{\partial w_i}$ для $i = 1, 2, 3, 4$.

$$ L(w) = - \ln \frac{e^{-w_1+w_3}}{e^{-w_1+w_3} + e^{-w_2+w_4}} - \ln \frac{e^{w_2+w_4}}{e^{w_1+w_3} + e^{w_2+w_4}} $$

Преобразуем функцию, используя свойства логарифмов:
$$ L(w) = - \ln(e^{-w_1+w_3}) + \ln(e^{-w_1+w_3} + e^{-w_2+w_4}) - \ln(e^{w_2+w_4}) + \ln(e^{w_1+w_3} + e^{w_2+w_4}) $$
$$ L(w) = -(w_1-w_3) + \ln(e^{-w_1+w_3} + e^{-w_2+w_4}) - (w_2+w_4) + \ln(e^{w_1+w_3} + e^{w_2+w_4}) $$
$$ L(w) = -w_1+w_3 + \ln(e^{-w_1+w_3} + e^{-w_2+w_4}) - w_2-w_4 + \ln(e^{w_1+w_3} + e^{w_2+w_4}) $$
Теперь найдём частные производные:

$\frac{\partial L}{\partial w_1} = -1 + \frac{e^{-w_1+w_3}(-1)}{e^{-w_1+w_3} + e^{-w_2+w_4}} + \frac{e^{w_1+w_3}}{e^{w_1+w_3} + e^{w_2+w_4}}$

$\frac{\partial L}{\partial w_2} = -1 + \frac{e^{-w_2+w_4}(-1)}{e^{-w_1+w_3} + e^{-w_2+w_4}} + \frac{e^{w_2+w_4}}{e^{w_1+w_3} + e^{w_2+w_4}}$

$\frac{\partial L}{\partial w_3} = 1 + \frac{e^{-w_1+w_3}}{e^{-w_1+w_3} + e^{-w_2+w_4}} + \frac{e^{w_1+w_3}}{e^{w_1+w_3} + e^{w_2+w_4}}$

$\frac{\partial L}{\partial w_4} = -1 + \frac{e^{-w_2+w_4}}{e^{-w_1+w_3} + e^{-w_2+w_4}} + \frac{e^{w_2+w_4}}{e^{w_1+w_3} + e^{w_2+w_4}}$

**Ответ:** Выражения для частных производных приведены выше.  Они достаточно сложные для компактного представления.

Важно: выражения для частных производных содержат экспоненты и дроби, что делает их не очень красивыми.  В общем случае, для вычисления частных производных целесообразно пользоваться правилами дифференцирования.

### OpenAI

Упрощенная форма функции потерь $ L(w) $ получается:

$$
L(w) = -w_1 - w_2 + w_3 - w_4 + \ln(e^{-w_1 + w_3} + e^{-w_2 + w_4}) + \ln(e^{w_1 + w_3} + e^{w_2 + w_4})
$$

* $
\frac{\partial L}{\partial w_1} = -\frac{\exp(2w_3) + \exp(2w_4) + 2\exp(-w_1 + w_2 + w_3 + w_4)}{\exp(2w_3) + \exp(2w_4) + \exp(-w_1 + w_2 + w_3 + w_4) + \exp(w_1 - w_2 + w_3 + w_4)}
$

* $
\frac{\partial L}{\partial w_2} = -\frac{\exp(2w_3) + \exp(2w_4) + 2\exp(w_1 - w_2 + w_3 + w_4)}{\exp(2w_3) + \exp(2w_4) + \exp(-w_1 + w_2 + w_3 + w_4) + \exp(w_1 - w_2 + w_3 + w_4)}
$

* $
\frac{\partial L}{\partial w_3} = 1 + \frac{\exp(w_1 + w_3)}{\exp(w_1 + w_3) + \exp(w_2 + w_4)} + \frac{\exp(-w_1 + w_3)}{\exp(-w_1 + w_3) + \exp(-w_2 + w_4)}
$

* $
\frac{\partial L}{\partial w_4} = \frac{-\exp(2w_3) + \exp(2w_4)}{\exp(2w_3) + \exp(2w_4) + \exp(-w_1 + w_2 + w_3 + w_4) + \exp(w_1 - w_2 + w_3 + w_4)}
$

In [None]:
import sympy as sp

# Определим переменные
w1, w2, w3, w4 = sp.symbols('w1 w2 w3 w4')

# Определим функцию потерь
L = -sp.ln(sp.exp(-w1 + w3) / (sp.exp(-w1 + w3) + sp.exp(-w2 + w4))) - \
            sp.ln(sp.exp(w2 + w4) / (sp.exp(w1 + w3) + sp.exp(w2 + w4)))

# Найдем частные производные по каждой переменной
dL_dw1 = sp.diff(L, w1)
dL_dw2 = sp.diff(L, w2)
dL_dw3 = sp.diff(L, w3)
dL_dw4 = sp.diff(L, w4)

dL_dw1, dL_dw2, dL_dw3, dL_dw4

# Упрощение выражения для функции потерь согласно предложенному выражению пользователя

# Упростим исходное выражение вручную, как описано
L_simplified = -w1 + w3 + sp.ln(sp.exp(-w1 + w3) + sp.exp(-w2 + w4)) - w2 - w4 + sp.ln(sp.exp(w1 + w3) + sp.exp(w2 + w4))
L_simplified.simplify()

# Найдем частные производные упрощенного выражения по каждой переменной
dL_dw1_simplified = sp.diff(L_simplified, w1).simplify()
dL_dw2_simplified = sp.diff(L_simplified, w2).simplify()
dL_dw3_simplified = sp.diff(L_simplified, w3).simplify()
dL_dw4_simplified = sp.diff(L_simplified, w4).simplify()

dL_dw1_simplified, dL_dw2_simplified, dL_dw3_simplified, dL_dw4_simplified

# Применим вручную предполагаемое разложение для каждого частного производного выражения

# Определим альтернативные выражения для частных производных, исходя из предложенных пользователем формул
dL_dw1_alt = -1 + (-sp.exp(-w1 + w3) / (sp.exp(-w1 + w3) + sp.exp(-w2 + w4))) + (sp.exp(w1 + w3) / (sp.exp(w1 + w3) + sp.exp(w2 + w4)))
dL_dw2_alt = -1 + (-sp.exp(-w2 + w4) / (sp.exp(-w1 + w3) + sp.exp(-w2 + w4))) + (sp.exp(w2 + w4) / (sp.exp(w1 + w3) + sp.exp(w2 + w4)))
dL_dw3_alt = 1 + (sp.exp(-w1 + w3) / (sp.exp(-w1 + w3) + sp.exp(-w2 + w4))) + (sp.exp(w1 + w3) / (sp.exp(w1 + w3) + sp.exp(w2 + w4)))
dL_dw4_alt = -1 + (sp.exp(-w2 + w4) / (sp.exp(-w1 + w3) + sp.exp(-w2 + w4))) + (sp.exp(w2 + w4) / (sp.exp(w1 + w3) + sp.exp(w2 + w4)))

# Проверим эквивалентность выражений с нашими предыдущими результатами
dL_dw1_simplified.equals(dL_dw1_alt), dL_dw2_simplified.equals(dL_dw2_alt), dL_dw3_simplified.equals(dL_dw3_alt), dL_dw4_simplified.equals(dL_dw4_alt)


-1 + exp(w1 + w3)/(exp(w1 + w3) + exp(w2 + w4)) - exp(-w1 + w3)/(exp(-w1 + w3) + exp(-w2 + w4))

In [None]:
from math import exp

# Функция для вычисления значений до softmax
x_raw = lambda x: [w[0] * x + w[2], w[1] * x + w[3]]

# Функция softmax
def softmax(x):
    exp_x = [exp(xi) for xi in x]
    sum_exp_x = sum(exp_x)
    return [xi / sum_exp_x for xi in exp_x]

# Входные данные
x = [-1, 1]
# One-Hot Encoding для y
y = [[0, 1], [1, 0]]
# Начальные значения весов
w = [0, 0, 0, 0]
# Количество эпох
epoches = 3
# Шаг обучения
h = 0.1

# Обучение
for epoch in range(epoches):
    # Обнуляем градиенты для каждой эпохи
    w_grad = [0, 0, 0, 0]
    for i in range(len(x)):
        # Вычисляем предсказание
        y_pred = softmax(x_raw(x[i]))

        # Обновляем градиенты для каждого веса
        w_grad[0] += (y_pred[1] - y[i][1]) * x[i]
        w_grad[1] += (y_pred[0] - y[i][0]) * x[i]
        w_grad[2] += (y_pred[1] - y[i][1])
        w_grad[3] += (y_pred[0] - y[i][0])

    # Обновляем веса
    w[0] -= h * w_grad[0]
    w[1] -= h * w_grad[1]
    w[2] -= h * w_grad[2]
    w[3] -= h * w_grad[3]

    # Выводим веса на каждой эпохе
    print(f'epoch = {epoch+1}, w1 = {w[0]:.4f}, w2 = {w[1]:.4f}, w3 = {w[2]:.4f}, w4 = {w[3]:.4f}')


epoch = 1, w1 = -0.1000, w2 = 0.1000, w3 = 0.0000, w4 = 0.0000
epoch = 2, w1 = -0.2100, w2 = 0.2100, w3 = 0.0000, w4 = 0.0000
epoch = 3, w1 = -0.3307, w2 = 0.3307, w3 = 0.0000, w4 = 0.0000


# Форум

In [None]:
# Vadim Kopeykin https://stepik.org/lesson/573071/step/9?discussion=8520940&thread=solutions&unit=567620

import numpy as np

X = np.array([[1, -1], [1, 1]]) # Матрица признаков с дополнительным столбцом из единиц.
Y = np.array([[1, 0], [0, 1]])  # Матрица меток в формате One Hot Encoding.
W = np.zeros((2, 2)) # Матрица весов. Первый столбец - смещения, второй - веса связей.

def softmax(X):
    return np.exp(X) / np.exp(X).sum(axis=1, keepdims=True)

h = 0.1
for epoch in range(5):
    Y_pred = softmax(X @ W.T)   # Вычислить предсказание сети.
    grad_W = (Y_pred - Y).T @ X # Вычислить градиент функции потерь по весам.
    W -= grad_W * h             # Обновить веса сети.
    print(f'epoch = {epoch+1}, w1 = {W[0][1]:.4f}, w2 = {W[1][1]:.4f}, w3 = {W[0][0]:.4f}, w4 = {W[1][0]:.4f}')
# print(W[0][1])

epoch = 1, w1 = -0.1000, w2 = 0.1000, w3 = 0.0000, w4 = 0.0000
epoch = 2, w1 = -0.1900, w2 = 0.1900, w3 = -0.0000, w4 = -0.0000
epoch = 3, w1 = -0.2713, w2 = 0.2713, w3 = -0.0000, w4 = -0.0000
epoch = 4, w1 = -0.3448, w2 = 0.3448, w3 = 0.0000, w4 = 0.0000
epoch = 5, w1 = -0.4116, w2 = 0.4116, w3 = 0.0000, w4 = 0.0000


In [None]:
# Эдуард Ганжа https://stepik.org/lesson/573071/step/9?discussion=5486529&thread=solutions&unit=567620
import sympy as sp

def gradient(a, func, lr=0.1):
  new_a = {}
  for i in a:
      new_a[i] =  a[i] - lr * (sp.lambdify((list(a)) ,sp.diff(func,i))(*list(a.values())) )
  return new_a

def init_a(a):
    a = dict(zip(list(f'w{i+1}' for i in range(len(a))),list(i for i in a)))
    return a

A = 'w1*{} + w3'; B = 'w2*{} + w4'
y_0 = ['-1']
y_1 = ['1']

func = ''
for i in y_0:
  Pr_0 = sp.exp(A.format(i)) / (sp.exp(A.format(i)) + sp.exp(B.format(i)))
  func += f'-{sp.ln(Pr_0)}'
for i in y_1:
  Pr_1 = sp.exp(B.format(i)) / (sp.exp(A.format(i)) + sp.exp(B.format(i)))
  func += f'-{sp.ln(Pr_1)}'

a = [0, 0, 0, 0]
for i in range(5): #В данном случае будет совершено 5 итераций
  a = gradient(init_a(a), func)
  print(f'{i+1}: {a}')
  a = a.values()

1: {'w1': -0.1, 'w2': 0.1, 'w3': 0.0, 'w4': 0.0}
2: {'w1': -0.19003320053750442, 'w2': 0.19003320053750442, 'w3': -5.551115123125783e-18, 'w4': -5.551115123125783e-18}
3: {'w1': -0.27125537694426405, 'w2': 0.27125537694426405, 'w3': 2.2204460492503132e-17, 'w4': 2.2204460492503132e-17}
4: {'w1': -0.34477611903571703, 'w2': 0.34477611903571703, 'w3': 5.5511151231257815e-18, 'w4': 5.5511151231257815e-18}
5: {'w1': -0.4116026565396639, 'w2': 0.4116026565396639, 'w3': -2.2204460492503132e-17, 'w4': -1.665334536937735e-17}


[Ludmila R](https://stepik.org/users/255629298) [решение](https://stepik.org/lesson/573071/step/9?discussion=4527503&thread=solutions&unit=567620)

Функция потерь:
$$
L(w) = - ln \frac{e^{-w_1+w_3}}{e^{-w_1+w_3} + e^{-w_2+w_4}} - ln \frac{e^{w_2+w_4}}{e^{w_1 + w_3} + e^{w_2 + w_4}}
$$

Частная производная
w
1
w
1
​
 :

∂
L
∂
w
1
=
e
−
w
2
+
w
4
e
−
w
1
+
w
3
+
e
−
w
2
+
w
4
+
e
w
1
+
w
3
e
w
1
+
w
3
+
e
w
2
+
w
4
∂w
1
​

∂L
​
 =
e
−w
1
​
 +w
3
​

 +e
−w
2
​
 +w
4
​


e
−w
2
​
 +w
4
​


​
 +
e
w
1
​
 +w
3
​

 +e
w
2
​
 +w
4
​


e
w
1
​
 +w
3
​


​




При нулевых
(
w
1
,
w
2
,
w
3
,
w
4
)
=
(
0
,
0
,
0
,
0
)
(w
1
​
 ,w
2
​
 ,w
3
​
 ,w
4
​
 )=(0,0,0,0)

∂
L
∂
w
1
=
0.5
+
0.5
=
1
∂w
1
​

∂L
​
 =0.5+0.5=1



После одного шага градиентного спуска w_1:

w
1
=
0
−
0.1
∗
1
=
−
0.1
w
1
​
 =0−0.1∗1=−0.1