# Написать на pytorch глубокую сеть, проверить работу форвардпасса

Forward pass (прямой проход) - это процесс, в котором входные данные проходят через нейронную сеть от входного слоя до выходного слоя, с применением весов, активаций и функций активации на каждом слое. В результате происходит преобразование входных данных в выходные, которые могут быть использованы для решения задачи, например, для классификации изображений или предсказания цены акций. Форвардпасс является одним из основных шагов обучения нейронной сети, при котором считаются значения выходного слоя и функции потерь, на основе которых осуществляется обратное распространение ошибки (backpropagation) и обновление весов сети.

nn.Sigmoid() - это функция активации, которая применяется в нейронных сетях для преобразования взвешенной суммы входных данных в значение от 0 до 1.

nn.Linear(1, 100) - это слой нейронной сети, который выполняет линейное преобразование входных данных. Он принимает на вход тензор размерности (batch_size, input_size), где input_size - это количество входных признаков (в данном случае равно 1), а batch_size - это количество примеров в одной батче. 

nn.ReLU() является функцией активации в нейронных сетях и обычно используется после слоя линейной трансформации (например, nn.Linear). Она применяет нелинейное преобразование к выходу предыдущего слоя, заменяя все отрицательные значения на ноль, а положительные значения оставляет без изменений.

In [8]:
import torch
import torch.nn as nn

# Определение архитектуры сети
class DeepNN(nn.Module):
    def __init__(self):
        super(DeepNN, self).__init__()
        self.fc1 = nn.Linear(5, 10)
        self.fc2 = nn.Linear(10, 1)
        self.relu = nn.ReLU()
        self.sigmoid = nn.Sigmoid()

    def forward(self, x):
        x = self.fc1(x)
        x = self.relu(x)
        x = self.fc2(x)
        x = self.sigmoid(x)
        return x

# Создание экземпляра
net = DeepNN()

# net.train()

# Создание случайных входных данных
input_data = torch.randn(1, 5)
print(f'input_data: {input_data}')

# Прохождение данных через сеть
output_data = net(input_data)

# Вывод результата
print(output_data)

input_data: tensor([[ 0.9410,  0.4688, -0.3612,  0.6726,  0.9023]])
tensor([[0.4682]], grad_fn=<SigmoidBackward0>)


# Написать адаптивный оптимизатор

Основная идея адаптивных оптимизаторов состоит в том, чтобы адаптировать скорость обучения (learning rate) для каждого параметра модели в зависимости от изменения градиента в процессе обучения. В отличие от простых методов градиентного спуска, где скорость обучения остается постоянной на протяжении всего процесса обучения, адаптивные методы позволяют управлять скоростью обучения для каждого параметра в зависимости от текущего положения в пространстве параметров.
В целом, использование адаптивных оптимизаторов может помочь ускорить процесс обучения и достичь лучшей точности модели.

In [1]:
import numpy as np

class AdamOptimizer:
    def __init__(self, learning_rate=0.001, beta1=0.9, beta2=0.999, epsilon=1e-8):
#     learning_rate — это скорость обучения
        self.learning_rate = learning_rate
#     beta1 и beta2 — коэффициенты для экспоненциального сглаживания градиентов и их квадратов
        self.beta1 = beta1
        self.beta2 = beta2
#     epsilon — малое число для численной стабильности
        self.epsilon = epsilon
#     m и v — две переменные для хранения предыдущих значений градиентов и их квадратов
        self.m = 0
        self.v = 0
#     t — текущая итерация
        self.t = 0
        
    def update(self, w, grad_wrt_w):
#         принимает на вход веса w и градиенты grad_wrt_w и возвращает обновленные веса w.
        self.t = self.t + 1
        self.m = self.beta1 * self.m + (1 - self.beta1) * grad_wrt_w
        self.v = self.beta2 * self.v + (1 - self.beta2) * np.power(grad_wrt_w, 2)
        m_hat = self.m / (1 - np.power(self.beta1, self.t))
        v_hat = self.v / (1 - np.power(self.beta2, self.t))
        w = w - self.learning_rate * m_hat / (np.sqrt(v_hat) + self.epsilon)
        return w

adam = AdamOptimizer()    
adam.update(w=0, grad_wrt_w=5)


-0.000999999998

# Решить задачу нахождения корней квадратного уравнения методом градиентнго спуска

x ** 2 - 6 * x + 4 = 0

посчитать производную от преобразованной функции
надо начать движение от начальной точки в направлении антиградиента с заданным шагом
x = x - lr * grad(x)

- всегда ли сойдемся за приемлемое количество шагов?
Ответ: Если скорость обучения выбрана слишком большой, то мы можем пропустить минимум функции, а если слишком маленькой - то алгоритм будет сходиться очень медленно.

важна ли начальная точка?
Ответ: Начальная точка может влиять на итоговый результат, поскольку метод градиентного спуска может застрять в локальном минимуме функции, если начальная точка находится рядом с таким минимумом.

как найти второй корень?

как влияет ЛР?
Ответ: Скорось обучения (learning rate) влияет на то, как быстро алгоритм сходится. Если скорость обучения слишком мала, то алгоритм будет сходиться очень медленно, а если слишком велика - алгоритм может не сходиться вообще.

In [105]:
import numpy as np
a = 1
b = -6
c = 4

# создаем полиномиальную функцию по ее коэффициентам
plnm=np.poly1d([a, b, c])
print(f'Полином: {plnm}')

# вычисляем производную
df = np.polyder(plnm)
print(f'Производная: {df}')

def grad(x, lr = 0.000001, steps=10000, epsilon=1e-6):
    for step in range(steps):
        # вычисляем значение производной в текущей точке x
        df_dx = np.polyval(df, x)
        if abs(df_dx) < epsilon:
            break
        x = x - lr*df_dx
    return x


x = grad(x=2)
print(f"x: {x}")




Полином:    2
1 x - 6 x + 4
Производная:  
2 x - 6
x: 2.019801346297245
