In [1]:
import numpy as np

<div class="alert alert-info"><center><h1>Биологический нейрон</h1></center></div>

**Нейрон** — электрически возбудимая клетка, которая предназначена для приёма извне, обработки, хранения, передачи и вывода вовне информации с помощью электрических и химических сигналов.  
  
Типичный нейрон состоит из тела клетки, дендритов и одного аксона:

![neuron](images/neuron.png)

Простыми словами можно описать принцип действия нейрона следующим образом:
- через дендриты в нейрон поступают сигналы (раздражители)
- Если комбинация сигналов превышает пороговый уровень - нейрон "выстреливает", т.е. передаёт сигнал дальше через аксон.

Нейроны могут соединяться один с другим, формируя нервные сети.

<div class="alert alert-info"><center><h1>Функции Активации (Activation Functions)</h1></center></div>

Простейшим механизмом активации является **Step activation**, когда перспептрон передаёт на выход значение только в том случае, если сумма взвешенных входящих сигналов больше заданного порога:

![step](images/step_activation.png)

При всей своей простоте, данная функция активации обладает критическим недостатком: она недифференцируемая.  Как результат, она не позволяет осуществлять процесс обучения персептрона.  
  
Для того, чтобы исправить это, было разработано множество других функций активаций, таких как:

![neuron](images/activation_functions.png)

<div class="alert alert-warning"><center><h1>Задание 1 (2 балла)</h1></center></div>

Напишите класс **ActivationFunction** и его подкласс **Sigmoid**, у которого будет функция `forward`, которая:
- будет принимать на вход число и будет сохранять его внутри объекта
- будет возвращать результат в соответствии с фукцией $\sigma(x) = \frac{1}{1 + e^{-x}}$

In [2]:
class ActivationFunction:
    ...


class Sigmoid(ActivationFunction):

    def forward(self, value: float) -> float:
        ...


---

---

<div class="alert alert-info"><center><h1>Персептрон</h1></center></div>

**Персептрон** -  математическая модель биологического нейрона, является базовым элементом нейронных сетей:

![neuron](images/perceptron.png)

**Персептрон** состоит из следующих ключевых элементов:
- `вход` - отвечает за получение входных значений. Является аналогом дендрита биологического нейрона
- `веса` - механизм "важности" входных значений. По аналогии с нейроном - это "толщина" дендрита
- `функция активации` - обрабатывает сумму взвешенных входных сигналов и передаёт результат на выход
- `выход` - отвечает за передачу итогового результата. Аналогичен аксону
  
Практически всегда к входным сигналам также добавляется "bias", который всегда = 1.  
Это позволяет не привязывать выход персептрона к 0 в случае, если все входные сигналы также равны 0 (как в механизме регрессии)

<div class="alert alert-warning"><center><h1>Задание 2 (4 балла)</h1></center></div>

напишите класс **Layer**, у когорого будут следующие входные параметры:
- **n_inputs** - количество входящих значений
- **n_outputs** - количество исходящих значений (в нашем случае = 1)
- **activation** - объект из семейства **ActivationFunction** (в нашем случае - **Sigmoid**)
  
При своём создании объект класса **Layer** должен также создавать атрибут `weights_`, в ктором будут рандомально инициализированны веса для входящих значений, а также для `bias`

Класс **Layer** должен иметь функцию `forward`, принимающую на вход массив *numpy*, и возвращающую результат функции активации (тоже в виде массива).  
Также эта функция должна сохранять полученные на вход значения внутри экземпляра

In [None]:
class Layer:

    def __init__(...):
        ...

    def forward(self, X: np.ndarray) -> np.ndarray:
        ...


In [None]:
perceptron = Layer(...)

perceptron.forward(np.ndarray([1,2,3,4,5])) -> [0...1]

---

<div class="alert alert-warning"><center><h1>Задание 3 (2 балла)</h1></center></div>

напишите класс **LossFunction** и его подкласс **CrossEntropy**, у которого будет функция `loss`, которая будет принимать реальное бинарное значение *y_fact* и вероятность *y_prob* (оба параметра в виде np.array) и будет возвращать результат по формуле:  
  
$$
L = - \sum (y_{fact} * log(y_{prob}) + (1-y_{fact})*log(1-y_{prob}))
$$

In [None]:
class LossFunction:
    ...

class CrossEntropy (LossFunction):

    def loss(self, y_fact: np.ndarray, y_prob: np.ndarray):
        ...

---

<div class="alert alert-info"><center><h1>Обучение. Forward and Backpropagation</h1></center></div>

Процесс обучения персептрона (и в целом нейросети) итеративен и состоит из следующих этапов:
- Сперва персептрон инициализируется с рандомальными весами
- Осуществляется цикл "вперёд":
  - Входные значения перемножаются с соответствующими весами и суммируются
  - Эта сумма подаётся на функцию активации
  - Функция активации возвращает итоговое значение
- Итоговое значение сравнивается с ожидаемым и высчитывается ошибка (Loss)
- Осуществляется цикл "назад":
  - при помощи `Chain Rule` рассчитываются частичные производные для всех элементов персептрона
  - исходя из заданного коэффициента обучения (`learning rate`, $\alpha$), веса $w_{i}$ корректируются
- Данный цикл повторяется заданное количество раз или до тех пор, пока итоговая ошибка не опустится ниже заданного порогового значения

![img](images/training.png)

### <center>Chain Rule</center>

Если нам дана функция $y=f(u)$, где $u = g(x)$, то тогда производная этой функции по $x$ будет равно:

$$
\frac{dy}{dx} = \frac{dy}{du}\frac{du}{dx}
$$

Тогда для того, чтобы понять, насколько изменение весов $w$ влияет на изменение $y$ (т.е. производные $\frac{dy}{dw_{i}}$), можно вычислить следующие производные:

![neuron](images/backpropagation.png)

<div class="alert alert-warning"><center><h1>Задание 4 (8 баллов)</h1></center></div>

Модифицируйте классы **Layer**, **LossFuncton** и **ActivationFunction** таким образом, чтобы можно было рассчитать их частичные производные, и добавьте функцию `back`, позволяющую осуществить backpropagation.

<div class="alert alert-danger"><center><h3>Это задание очень сложное, и даже частичное его выполнение будет учитываться</h3></center></div>

---

In [1]:
import numpy as np

# Формирование функции активации
class ActivationFunction:
    def forward(self, x: np.ndarray):
        pass
    
    def gradient(self, x: np.ndarray):
        pass


class Sigmoid(ActivationFunction):
    # Расчёт значения функции активации
    def forward(self, x: np.ndarray):
        return 1 / (1 + np.exp(-x))
    
     # Расчёт градиента функции активации
    def gradient(self, x: np.ndarray):
        sigmoid = self.forward(x)
        return sigmoid * (1 - sigmoid)

# Формирование модели
class Layer:
    def __init__(self, n_inputs: int, n_outputs: int, activation):
        self.n_inputs = n_inputs
        self.n_outputs = n_outputs
        self.activation = activation
        self.weights_ = np.random.randn(n_inputs, n_outputs)
        self.bias_ = np.random.randn(n_outputs)
        
    # Прямое распространение
    def forward(self, inputs: np.ndarray):
        self.inputs_ = inputs

        return self.activation.forward(np.dot(inputs, self.weights_) + self.bias_)
    # Обратное распространение    
    def back(self, grad_outputs: float, learning_rate: float):
        grad_inputs = grad_outputs * self.activation.gradient(self.inputs_)
        self.grad_weights_ = np.dot(self.inputs_.T, grad_inputs)
        self.grad_bias_ = np.sum(grad_inputs, axis=0)
        self.weights_ -= learning_rate * self.grad_weights_
        self.bias_ -= learning_rate * self.grad_bias_

        return grad_inputs @ self.weights_


# Формирование функции потерь
class LossFunction:
    def loss(self, y_fact: np.ndarray, y_prob: np.ndarray):
        pass
    
    def gradient(self, y_fact: np.ndarray, y_prob: np.ndarray):
        pass


class CrossEntropy(LossFunction):
    # Расчёт значения функции потерь    
    def loss(self, y_fact: np.ndarray, y_prob: np.ndarray):
        loss_values=-np.sum(y_fact * np.log(y_prob) + (1 - y_fact) * np.log(1 - y_prob))

        return loss_values 
    # Расчёт градиента функции потерь   
    def gradient(self, y_fact: np.ndarray, y_prob: np.ndarray):

        return -np.sum(y_fact/y_prob) + np.sum((1-y_fact)/(1-y_prob))


#  Задание параметров модели
input_dim = 2
output_dim = 1
learning_rate = 0.1
epochs = 500

activation = Sigmoid()
loss_func = CrossEntropy()
model = Layer(input_dim, output_dim, activation)

# Задание входных данных
X = np.array([[0, 0], [0, 1], [1, 0], [1, 1]])
y = np.array([[0], [0], [0], [1]])

def train_model(X, y, model, loss_func, learning_rate: float, epochs: int):
    for epoch in range(epochs):
        for i in range(len(X)):
            # Прямое распространение
            outputs = model.forward(X[i])

            # Вычисление функции потерь
            loss = loss_func.loss(y[i], outputs)

            # Вычисление градиента функции потерь
            grad_loss = loss_func.gradient(y[i], outputs)

            # Обратное распространение
            model.back(grad_loss, learning_rate)

        # Вывод информации о прогрессе обучения
        if (epoch + 1) % 100 == 0:
            print(f"Epoch {epoch + 1}/{epochs}, Loss: {loss:.4f}")

    print("Training complete.")

# Обучение модели
train_model(X, y, model, loss_func, learning_rate, epochs)


Epoch 100/1000, Loss: 0.6632
Epoch 200/1000, Loss: 0.6159
Epoch 300/1000, Loss: 0.6140
Epoch 400/1000, Loss: 0.6139
Epoch 500/1000, Loss: 0.6139
Epoch 600/1000, Loss: 0.6139
Epoch 700/1000, Loss: 0.6139
Epoch 800/1000, Loss: 0.6139
Epoch 900/1000, Loss: 0.6139
Epoch 1000/1000, Loss: 0.6139
Training complete.


# <center>Удачи!</center>