## Задание 1.

In [52]:
import torch

def sigmoid(x):
    return 1 / (1 + torch.exp(-x))

def nll_loss(y_pred, y_true):
    return -y_true * torch.log(y_pred) - (1 - y_true) *  torch.log(1 - y_pred)

def neuron_nll(features, labels, initial_weights, initial_bias, learning_rate, epochs):
    # Делаем тензоры из входных данных
    features = torch.tensor(features, dtype=torch.float32)
    labels = torch.tensor(labels, dtype=torch.float32)
    weights = torch.tensor(initial_weights, dtype=torch.float32)
    bias = torch.tensor(initial_bias, dtype=torch.float32)
    
    # Список куда будем заносить лоссы
    nll_values = []

    # Итерации градиентного спуска
    for epoch in range(epochs):
        total_nll = 0.0
        # Для каждого семпла
        for i in range(len(features)):
            x = features[i]
            y = labels[i]
            
            y_pred = sigmoid(torch.dot(weights, x) + bias)
            
            loss = nll_loss(y_pred, y)
            total_nll += loss.item()

            error = y_pred - y
            grad_w = error * x  # см ниже
            grad_b = error # см ниже
            
            weights -= learning_rate * grad_w
            bias -= learning_rate * grad_b

        avg_nll = total_nll / len(features)
        nll_values.append(round(avg_nll, 4))
    
    updated_weights = [round(w.item(), 4) for w in weights]
    updated_bias = round(bias.item(), 4)

    return updated_weights, updated_bias, nll_values

# Пример использования функции
features = [[1.0, 2.0], [2.0, 1.0], [-1.0, -2.0]]
labels = [1, 0, 0]
initial_weights = [0.1, -0.2]
initial_bias = 0.0
learning_rate = 0.1
epochs = 100

updated_weights, updated_bias, nll_values = neuron_nll(
    features, labels, initial_weights, initial_bias, learning_rate, epochs
)

nll_weights = updated_weights
nll_bias = updated_bias

print("Updated Weights:", updated_weights)
print("Updated Bias:", updated_bias)
print("NLL Values:", nll_values)


Updated Weights: [-3.5548, 4.4411]
Updated Bias: -1.3315
NLL Values: [1.1316, 0.6331, 0.4599, 0.3513, 0.2772, 0.2269, 0.1916, 0.1657, 0.146, 0.1306, 0.1181, 0.1078, 0.0992, 0.0919, 0.0856, 0.0802, 0.0754, 0.0711, 0.0673, 0.0639, 0.0609, 0.0581, 0.0555, 0.0532, 0.0511, 0.0491, 0.0473, 0.0456, 0.0441, 0.0426, 0.0412, 0.0399, 0.0387, 0.0376, 0.0365, 0.0355, 0.0346, 0.0337, 0.0328, 0.032, 0.0312, 0.0305, 0.0298, 0.0291, 0.0285, 0.0279, 0.0273, 0.0267, 0.0262, 0.0257, 0.0252, 0.0247, 0.0242, 0.0238, 0.0234, 0.023, 0.0226, 0.0222, 0.0218, 0.0214, 0.0211, 0.0208, 0.0204, 0.0201, 0.0198, 0.0195, 0.0192, 0.019, 0.0187, 0.0184, 0.0182, 0.0179, 0.0177, 0.0174, 0.0172, 0.017, 0.0168, 0.0166, 0.0163, 0.0161, 0.0159, 0.0158, 0.0156, 0.0154, 0.0152, 0.015, 0.0149, 0.0147, 0.0145, 0.0144, 0.0142, 0.0141, 0.0139, 0.0138, 0.0136, 0.0135, 0.0133, 0.0132, 0.0131, 0.013]


### Почему именно такие градиенты?
<img src="grad.jpg" width=800 height=400>

### В качестве второй функции потерь выберем MSE. В данном случае получим что производная L по y_hat сразу равна error, соответственно, множитель возникающий при дифференцировании y_hat по alpha никуда не уйдет.

In [53]:
def neuron_mse(features, labels, initial_weights, initial_bias, learning_rate, epochs):
    # Делаем тензоры из входных данных
    features = torch.tensor(features, dtype=torch.float32)
    labels = torch.tensor(labels, dtype=torch.float32)
    weights = torch.tensor(initial_weights, dtype=torch.float32)
    bias = torch.tensor(initial_bias, dtype=torch.float32)
    
    # Список куда будем заносить лоссы
    loss_values = []

    # Итерации градиентного спуска
    for epoch in range(epochs):
        total_loss = 0.0
        # Для каждого семпла
        for i in range(len(features)):
            x = features[i]
            y = labels[i]
            
            alpha = torch.dot(weights, x) + bias
            y_pred = sigmoid(alpha)
            
            loss = (y_pred - y) ** 2
            total_loss += loss.item()

            error = y_pred - y
            multiplier = torch.exp(-alpha) / (1 + torch.exp(-alpha)) ** 2
            grad_w = error * multiplier * x 
            grad_b = error * multiplier
            
            weights -= learning_rate * grad_w
            bias -= learning_rate * grad_b

        avg_loss = total_loss / len(features)
        loss_values.append(round(avg_loss, 4))
    
    updated_weights = [round(w.item(), 4) for w in weights]
    updated_bias = round(bias.item(), 4)

    return updated_weights, updated_bias, loss_values

updated_weights, updated_bias, nll_values = neuron_mse(
    features, labels, initial_weights, initial_bias, learning_rate, epochs
)

mse_weights = updated_weights
mse_bias = updated_bias

print("Updated Weights:", updated_weights)
print("Updated Bias:", updated_bias)
print("MSE Values:", nll_values)


Updated Weights: [-1.7808, 2.2903]
Updated Bias: -0.7685
MSE Values: [0.3285, 0.2699, 0.2308, 0.2038, 0.1829, 0.1654, 0.1503, 0.1373, 0.1259, 0.1159, 0.1071, 0.0993, 0.0924, 0.0863, 0.0808, 0.0758, 0.0714, 0.0673, 0.0636, 0.0603, 0.0572, 0.0544, 0.0519, 0.0495, 0.0473, 0.0453, 0.0434, 0.0417, 0.04, 0.0385, 0.0371, 0.0358, 0.0345, 0.0334, 0.0323, 0.0312, 0.0303, 0.0293, 0.0285, 0.0276, 0.0269, 0.0261, 0.0254, 0.0247, 0.0241, 0.0235, 0.0229, 0.0223, 0.0218, 0.0213, 0.0208, 0.0203, 0.0199, 0.0195, 0.019, 0.0186, 0.0183, 0.0179, 0.0175, 0.0172, 0.0169, 0.0166, 0.0162, 0.0159, 0.0157, 0.0154, 0.0151, 0.0149, 0.0146, 0.0144, 0.0141, 0.0139, 0.0137, 0.0135, 0.0133, 0.013, 0.0129, 0.0127, 0.0125, 0.0123, 0.0121, 0.0119, 0.0118, 0.0116, 0.0115, 0.0113, 0.0112, 0.011, 0.0109, 0.0107, 0.0106, 0.0105, 0.0103, 0.0102, 0.0101, 0.01, 0.0098, 0.0097, 0.0096, 0.0095]


In [54]:
from plotly.subplots import make_subplots
import plotly.graph_objects as go
import numpy as np

points = np.array([[1, 2, 1], [2, 1, 0], [-1, -2, 0]])
colors = ['red', 'blue', 'blue']

x = np.linspace(-2, 2, 50)
y = np.linspace(-2, 2, 50)
X, Y = np.meshgrid(x, y)

Z1 = 1 / (1 + np.exp(-(nll_weights[0] * X + nll_weights[1] * Y + nll_bias)))
Z2 = 1 / (1 + np.exp(-(mse_weights[0] * X + mse_weights[1] * Y + mse_bias)))

fig = make_subplots(rows=1, cols=2, specs=[[{'type': 'surface'}, {'type': 'surface'}]],
                    subplot_titles=("NLLLoss", "MSELoss"))

fig.add_trace(go.Surface(z=Z1, x=X, y=Y, opacity=0.5, colorscale='Viridis', name='Probability'), row=1, col=1)
fig.add_trace(go.Surface(z=Z2, x=X, y=Y, opacity=0.5, colorscale='Cividis', name='Probability'), row=1, col=2)


for i in range(len(points)):
    # Координаты точки
    px, py, pz = points[i]

    # Вычисляем значения на поверхностях для каждой точки
    z1_val = 1 / (1 + np.exp(-(nll_weights[0] * px + nll_weights[1] * py + nll_bias)))
    z2_val = 1 / (1 + np.exp(-(mse_weights[0] * px + mse_weights[1] * py + mse_bias)))
    
    # Формируем всплывающие подсказки для каждой точки
    hover_text_1 = f"Point ({px}, {py}, {pz})<br>P(1)={z1_val:.2f}"
    hover_text_2 = f"Point ({px}, {py}, {pz})<br>P(1)={z2_val:.2f}"

    # Добавляем точки в первое окно (первая поверхность)
    fig.add_trace(go.Scatter3d(x=[px], y=[py], z=[pz],
                               mode='markers+text',
                               marker=dict(size=6, color=colors[i]),
                               text=hover_text_1, hoverinfo="text",
                               name=f'Point {i+1}'), row=1, col=1)
    
    # Добавляем точки во второе окно (вторая поверхность)
    fig.add_trace(go.Scatter3d(x=[px], y=[py], z=[pz],
                               mode='markers+text',
                               marker=dict(size=6, color=colors[i]),
                               text=hover_text_2, hoverinfo="text",
                               name=f'Point {i+1}'), row=1, col=2)

fig.show()


### То что MSE не лучшая функция потерь для классификации - факт известный. На картинках можно убедиться почему. Номинально обе функции потерь уменьшаются с каждой итерацией, то есть все работает корректно. Но вот гипотезы отличаются по качеству. NLL намного быстрее и четче проводит границу между двумя классами. Эта разница сохраняется даже при большом числе итераций (можно изменить кол-во эпох и посмотреть что изменится). 

### У меня в первом случае SGD, так что сейчас реализуем "классический" градиентный спуск. Разница в реализации минимальна - делаем шаги не по каждому примеру по очереди, а по среднему всех примеров сразу.