In [2]:
import numpy as np

<div class="alert alert-info"><center><h1>Биологический нейрон</h1></center></div>

**Нейрон** — электрически возбудимая клетка, которая предназначена для приёма извне, обработки, хранения, передачи и вывода вовне информации с помощью электрических и химических сигналов.  
  
Типичный нейрон состоит из тела клетки, дендритов и одного аксона:

![neuron](images/neuron.png)

Простыми словами можно описать принцип действия нейрона следующим образом:
- через дендриты в нейрон поступают сигналы (раздражители)
- Если комбинация сигналов превышает пороговый уровень - нейрон "выстреливает", т.е. передаёт сигнал дальше через аксон.

Нейроны могут соединяться один с другим, формируя нервные сети.

<div class="alert alert-info"><center><h1>Функции Активации (Activation Functions)</h1></center></div>

Простейшим механизмом активации является **Step activation**, когда перспептрон передаёт на выход значение только в том случае, если сумма взвешенных входящих сигналов больше заданного порога:

![step](images/step_activation.png)

При всей своей простоте, данная функция активации обладает критическим недостатком: она недифференцируемая.  Как результат, она не позволяет осуществлять процесс обучения персептрона.  
  
Для того, чтобы исправить это, было разработано множество других функций активаций, таких как:

![neuron](images/activation_functions.png)

<div class="alert alert-warning"><center><h1>Задание 1 (2 балла)</h1></center></div>

Напишите класс **ActivationFunction** и его подкласс **Sigmoid**, у которого будет функция `forward`, которая:
- будет принимать на вход число и будет сохранять его внутри объекта
- будет возвращать результат в соответствии с фукцией $\sigma(x) = \frac{1}{1 + e^{-x}}$

In [3]:
import math 


class ActivationFunction:
    ...


class Sigmoid(ActivationFunction):
    
    def __init__(self):
        self.sigma: float
        
    def forward(self, value: float) -> float:
        self.sigma = 1 / (1 + math.exp(-value))
        return self.sigma
    
        
a = Sigmoid()
a.forward(7.11)

0.9991837717806398

---

---

<div class="alert alert-info"><center><h1>Персептрон</h1></center></div>

**Персептрон** -  математическая модель биологического нейрона, является базовым элементом нейронных сетей:

![neuron](images/perceptron.png)

**Персептрон** состоит из следующих ключевых элементов:
- `вход` - отвечает за получение входных значений. Является аналогом дендрита биологического нейрона
- `веса` - механизм "важности" входных значений. По аналогии с нейроном - это "толщина" дендрита
- `функция активации` - обрабатывает сумму взвешенных входных сигналов и передаёт результат на выход
- `выход` - отвечает за передачу итогового результата. Аналогичен аксону
  
Практически всегда к входным сигналам также добавляется "bias", который всегда = 1.  
Это позволяет не привязывать выход персептрона к 0 в случае, если все входные сигналы также равны 0 (как в механизме регрессии)

<div class="alert alert-warning"><center><h1>Задание 2 (4 балла)</h1></center></div>

напишите класс **Layer**, у когорого будут следующие входные параметры:
- **n_inputs** - количество входящих значений
- **n_outputs** - количество исходящих значений (в нашем случае = 1)
- **activation** - объект из семейства **ActivationFunction** (в нашем случае - **Sigmoid**)
  
При своём создании объект класса **Layer** должен также создавать атрибут `weights_`, в ктором будут рандомально инициализированны веса для входящих значений, а также для `bias`

Класс **Layer** должен иметь функцию `forward`, принимающую на вход массив *numpy*, и возвращающую результат функции активации (тоже в виде массива).  
Также эта функция должна сохранять полученные на вход значения внутри экземпляра

In [9]:
from numpy.random import default_rng


class Layer:

    def __init__(self, n_inputs: int, activation: Sigmoid, learning_rate: float, epohs: int, n_outputs: int = 1):
        self.n_inputs = n_inputs
        self.n_outputs = n_outputs
        self.activation = activation
        self.learning_rate = learning_rate
        self.epohs = epohs
        rng = default_rng()
        self.weights_ = rng.random(n_inputs)
        self.weights_[0] = 1
        self.entries: np.ndarray
    
    def forward(self, X: np.ndarray) -> np.ndarray:
        self.entries = X.copy()
        return np.array([self.activation.forward(np.dot(self.entries, self.weights_.T))])
    
    def back(self, y_fact: np.ndarray):
        
        def fx_derivative(x: float):
            return math.exp(-x) / (1 + math.exp(-x))**2
        
        def loss_derivative(y_fact: np.ndarray, y_prob: np.ndarray) -> float: 
            return y_fact/y_prob + (y_fact - 1)/(1 - y_prob)
        
        def f(X):
            return 
        
        y_prob = Layer.forward(self, X=self.entries)
        loss = CrossEntropy().loss(y_fact=y_fact, y_prob=y_prob)
            
        for _ in range(self.epohs):
            y_prob = Layer.forward(self, X=self.entries)
            loss = CrossEntropy().loss(y_fact=y_fact, y_prob=y_prob)
            sigm = Sigmoid().forward(np.dot(self.entries, self.weights_.T))
        
            for ind, i in enumerate(self.entries):
                self.weights_[ind] += i * fx_derivative(x=sigm) * self.learning_rate * loss_derivative(y_fact, y_prob)
            
            print(loss)
            print('y', y_prob)
        

In [11]:
perceptron = Layer(5, Sigmoid(), 0.1, 100)

a = perceptron.forward(np.array([1, 0.2, 0.3, 0.4, 0.5]))
# print(a)
perceptron.back(np.array([1]))
# perceptron.back2(np.array([1]))

0.1451319093026629
y [0.8649082]
0.14019624134068678
y [0.86918765]
0.13544862137686856
y [0.87332403]
0.13088052586960097
y [0.87732259]
0.12648391025132366
y [0.88118833]
0.12225117560762071
y [0.88492607]
0.11817513814126777
y [0.88854042]
0.11424900115016617
y [0.89203581]
0.11046632927814476
y [0.89541648]
0.10682102482391204
y [0.8986865]
0.10330730591653388
y [0.90184979]
0.09991968638612153
y [0.90491009]
0.09665295717631749
y [0.90787102]
0.09350216916096314
y [0.91073604]
0.09046261724131732
y [0.91350848]
0.08752982561258713
y [0.91619155]
0.08469953409952437
y [0.91878831]
0.0819676854706321
y [0.92130173]
0.07933041364923142
y [0.92373466]
0.07678403274741484
y [0.92608984]
0.07432502685586002
y [0.9283699]
0.07195004052868789
y [0.93057739]
0.06965586990813052
y [0.93271474]
0.06743945443875779
y [0.93478432]
0.06529786912551998
y [0.93678838]
0.063228317293898
y [0.93872912]
0.061228123814098416
y [0.94060864]
0.05929472875451678
y [0.94242897]
0.05742568143266521
y [0.9

---

<div class="alert alert-warning"><center><h1>Задание 3 (2 балла)</h1></center></div>

напишите класс **LossFunction** и его подкласс **CrossEntropy**, у которого будет функция `loss`, которая будет принимать реальное бинарное значение *y_fact* и вероятность *y_prob* (оба параметра в виде np.array) и будет возвращать результат по формуле:  
  
$$
L = - \sum (y_{fact} * log(y_{prob}) + (1-y_{fact})*log(1-y_{prob}))
$$

In [6]:
from math import log


class LossFunction:
    ...

class CrossEntropy (LossFunction):

    def loss(self, y_fact: np.ndarray, y_prob: np.ndarray):
        res = 0
        for i, j in zip(y_fact, y_prob):
            res += i*log(j) + (1-i)*log(1-j)
        return -res
        

In [7]:
c = CrossEntropy().loss(np.array([0]), np.array([0.84]))
c

1.83258146374831

<div class="alert alert-info"><center><h1>Обучение. Forward and Backpropagation</h1></center></div>

Процесс обучения персептрона (и в целом нейросети) итеративен и состоит из следующих этапов:
- Сперва персептрон инициализируется с рандомальными весами
- Осуществляется цикл "вперёд":
  - Входные значения перемножаются с соответствующими весами и суммируются
  - Эта сумма подаётся на функцию активации
  - Функция активации возвращает итоговое значение
- Итоговое значение сравнивается с ожидаемым и высчитывается ошибка (Loss)
- Осуществляется цикл "назад":
  - при помощи `Chain Rule` рассчитываются частичные производные для всех элементов персептрона
  - исходя из заданного коэффициента обучения (`learning rate`, $\alpha$), веса $w_{i}$ корректируются
- Данный цикл повторяется заданное количество раз или до тех пор, пока итоговая ошибка не опустится ниже заданного порогового значения

![img](images/training.png)

### <center>Chain Rule</center>

Если нам дана функция $y=f(u)$, где $u = g(x)$, то тогда производная этой функции по $x$ будет равно:

$$
\frac{dy}{dx} = \frac{dy}{du}\frac{du}{dx}
$$

Тогда для того, чтобы понять, насколько изменение весов $w$ влияет на изменение $y$ (т.е. производные $\frac{dy}{dw_{i}}$), можно вычислить следующие производные:

![neuron](images/backpropagation.png)

<div class="alert alert-warning"><center><h1>Задание 4 (8 баллов)</h1></center></div>

Модифицируйте классы **Layer**, **LossFuncton** и **ActivationFunction** таким образом, чтобы можно было рассчитать их частичные производные, и добавьте функцию `back`, позволяющую осуществить backpropagation.

<div class="alert alert-danger"><center><h3>Это задание очень сложное, и даже частичное его выполнение будет учитываться</h3></center></div>

---

# <center>Удачи!</center>