
# შესავალი უკუგავრცელებასა და გრადიენტულ დაშვებაში
უკუგავრცელება და გრადიენტული დაშვება არის ორი ფუნდამენტური კონცეფცია მანქანური სწავლების სფეროში, განსაკუთრებით ნეირონული ქსელების ტრენირებისას. ამ ლექციაში ჩვენ გავეცნობით ამ ორ მეთოდს და მათ მნიშვნელობას.


გრადიენტული დაშვება არის ოპტიმიზაციის ალგორითმი, რომელიც გამოიყენება ფუნქციის მინიმუმის ან მაქსიმუმის საპოვნელად. მანქანურ სწავლებაში ის გამოიყენება დანაკარგის ფუნქციის მინიმიზაციისთვის.

გრადიენტული დაშვების ძირითადი იდეა მდგომარეობს იმაში, რომ ვიპოვოთ ფუნქციის მინიმუმი (ან მაქსიმუმი) მცირე ნაბიჯებით გადაადგილებით გრადიენტის მიმართულებით.

მათემატიკურად, გრადიენტული დაშვება შეიძლება გამოვსახოთ შემდეგნაირად:

    θ(t+1) = θ(t) - η∇J(θ(t))

სადაც:
* θ - პარამეტრების ვექტორი
* t - იტერაცია
* η - სწავლების სიჩქარე (learning rate)
* ∇J(θ) - დანაკარგის ფუნქციის გრადიენტი

In [None]:
# გრადიენტული დაშვების ვიზუალიზაცია
import numpy as np
import matplotlib.pyplot as plt

def f(x, y):
    return x**2 + y**2

x = np.linspace(-5, 5, 100)
y = np.linspace(-5, 5, 100)
X, Y = np.meshgrid(x, y)
Z = f(X, Y)

plt.figure(figsize=(10, 8))
plt.contour(X, Y, Z, levels=20)
plt.colorbar(label='f(x, y)')
plt.title('გრადიენტული დაშვების ვიზუალიზაცია')
plt.xlabel('x')
plt.ylabel('y')

# გრადიენტული დაშვების სიმულაცია
x, y = 4, 4
lr = 0.1
n_iter = 20

for _ in range(n_iter):
    plt.plot(x, y, 'ro')
    grad_x = 2 * x
    grad_y = 2 * y
    x -= lr * grad_x
    y -= lr * grad_y

plt.show()

უკუგავრცელება არის ალგორითმი, რომელიც გამოიყენება ნეირონულ ქსელებში წონების განახლებისთვის. ეს არის გრადიენტული დაშვების ეფექტური იმპლემენტაცია მრავალშრიანი ნეირონული ქსელებისთვის.

უკუგავრცელების ძირითადი იდეა მდგომარეობს იმაში, რომ გამოვთვალოთ დანაკარგის ფუნქციის გრადიენტი ქსელის ყველა პარამეტრის მიმართ, დაწყებული გამომავალი შრიდან და გაგრძელებული უკან შემავალი შრისკენ.

უკუგავრცელების ალგორითმი შედგება ორი მთავარი ნაბიჯისგან:

1. წინ გავრცელება (Forward Propagation): შემავალი მონაცემები გადის ქსელში და გამოითვლება პროგნოზი.
2. უკუგავრცელება (Backward Propagation): გამოითვლება შეცდომა და ეს შეცდომა ვრცელდება უკან ქსელში წონების განახლებისთვის.

მათემატიკურად, უკუგავრცელება იყენებს ჯაჭვის წესს გრადიენტების გამოსათვლელად:

∂L/∂w = ∂L/∂a * ∂a/∂z * ∂z/∂w

სადაც:
* L - დანაკარგის ფუნქცია
* w - წონა
* a - აქტივაციის ფუნქციის გამოსავალი
* z - წრფივი კომბინაცია (შემავალი * წონა + ცდომილება)

In [None]:
# უკუგავრცელების ვიზუალიზაცია
import networkx as nx

G = nx.DiGraph()
G.add_edges_from([
    ("x1", "h1"), ("x1", "h2"),
    ("x2", "h1"), ("x2", "h2"),
    ("h1", "o1"), ("h2", "o1")
])

pos = {"x1": (0, 1), "x2": (0, 0),
       "h1": (1, 0.75), "h2": (1, 0.25),
       "o1": (2, 0.5)}

plt.figure(figsize=(10, 6))
nx.draw(G, pos, with_labels=True, node_color='lightblue',
        node_size=3000, arrowsize=20)

plt.title("ნეირონული ქსელის არქიტექტურა უკუგავრცელებისთვის")
plt.axis('off')
plt.show()

# გრადიენტული დაშვების ვარიაციები
არსებობს გრადიენტული დაშვების რამდენიმე ვარიაცია, რომლებიც გამოიყენება ოპტიმიზაციის გასაუმჯობესებლად:

1. სტოქასტური გრადიენტული დაშვება (SGD): იყენებს ერთ შემთხვევით მაგალითს ყოველ იტერაციაზე.
2. მინი-ბეტჩ გრადიენტული დაშვება: იყენებს მცირე ჯგუფს შემთხვევით მაგალითებს.
3. მომენტუმით გრადიენტული დაშვება: ამატებს "მომენტუმს" ოპტიმიზაციის პროცესში.
4. Adam: ადაპტური მომენტის შეფასება, აერთიანებს მომენტუმსა და RMSprop-ს.

განვიხილოთ თითოეული შემთხვევა:

**SGD** არის გრადიენტული დაშვების ვარიაცია, რომელიც იყენებს მხოლოდ ერთ შემთხვევით მაგალითს ყოველ იტერაციაზე გრადიენტის გამოსათვლელად და პარამეტრების განახლებისთვის.
განმარტება:

    θ(t+1) = θ(t) - η∇J(θ(t); x(i), y(i))

რომელშიც θ(t) არის პარამეტრების ვექტორი t იტერაციაზე
η არის სწავლების სიჩქარე
∇J(θ(t); x(i), y(i)) არის დანაკარგის ფუნქციის გრადიენტი, გამოთვლილი ერთი შემთხვევითი მაგალითისთვის (x(i), y(i))
მისი უპირატესობები იმით გამოიხატება, რომ არის საკმაოდ სწრაფი და რადგან სტოქასტურია მარტივად აღწევს ლოკალურ მინიმუმებს თავს. თუმცა მაღალი ვარიაციულობა აქვს რაც მის ნაკლად შეგვიძლია განვიხილოთ.

**მინი-ბეტჩ გრადიენტული დაშვება** არის კომპრომისი SGD-სა და ბეტჩ გრადიენტულ დაშვებას შორის. ის იყენებს მცირე ჯგუფს (მინი-ბეტჩს) შემთხვევით მაგალითებს ყოველ იტერაციაზე.
განმარტება:

    θ(t+1) = θ(t) - η(1/m)∑∇J(θ(t); x(i:i+m), y(i:i+m))
რომელშიც m არის მინი-ბეტჩის ზომა.

    ∑∇J(θ(t); x(i:i+m), y(i:i+m)) არის გრადიენტების ჯამი მინი-ბეტჩისთვის.


მისი უპირატესობა SGD სთან უფრო სტაბილურობაა ასევე ეფექტურია გამოთვლების თვალსაზრისით. ნაკლი ისაა, რომ უნდა შეირჩეს მინი-ბეჩის ზომა ხელით.

**მომენტუმით გრადიენტული დაშვება** ამატებს "მომენტუმის" ტერმინს ოპტიმიზაციის პროცესში, რაც ეხმარება ალგორითმს გადალახოს ლოკალური მინიმუმები და დააჩქაროს კონვერგენცია.

განმარტება:

    v(t) = γv(t-1) + η∇J(θ(t))
    θ(t+1) = θ(t) - v(t)

რომელშიც v(t) არის სიჩქარის ვექტორი
γ არის მომენტუმის კოეფიციენტი (ჩვეულებრივ 0.9)

ამ პროცესის უპირატესობა არის კონვერგენციას სიჩქარე და ლოკალური მინიმუმების გადალახვა.

**Adam** არის ადაპტური სწავლების სიჩქარის ოპტიმიზაციის ალგორითმი, რომელიც აერთიანებს მომენტუმისა და RMSprop-ის იდეებს.
განმარტება:


    m(t) = β1m(t-1) + (1-β1)∇J(θ(t))
    v(t) = β2v(t-1) + (1-β2)(∇J(θ(t)))^2
    m̂(t) = m(t) / (1-β1^t)
    v̂(t) = v(t) / (1-β2^t)
    θ(t+1) = θ(t) - η * m̂(t) / (√v̂(t) + ε)

*  m(t) არის პირველი მომენტის შეფასება (გრადიენტის საშუალო)
*  v(t) არის მეორე მომენტის შეფასება (გრადიენტის ვარიანსი)
*  β1 და β2 არის დაშლის კოეფიციენტები (ჩვეულებრივ β1 = 0.9 და β2 = 0.999)
*  ε არის მცირე რიცხვი ნულით გაყოფის თავიდან ასაცილებლად


ადაპტური სწავლების სიჩქარე თითოეული პარამეტრისთვის
კარგად მუშაობს მრავალ პრაქტიკულ პრობლემაზე
ეფექტურია არასტაციონარული მიზნების შემთხვევაში, თუმცა შეიძლება იყოს გამოთვლითად უფრო ძვირი, ვიდრე სხვა.


ყველა ეს მეთოდი მიზნად ისახავს გრადიენტული დაშვების გაუმჯობესებას სხვადასხვა გზით და მათი არჩევა დამოკიდებულია კონკრეტულ პრობლემაზე და მონაცემთა ნაკრებზე. პრაქტიკაში, Adam ხშირად გამოიყენება როგორც კარგი საწყისი წერტილი, მაგრამ ექსპერიმენტირება სხვადასხვა მეთოდებით შეიძლება სასარგებლო იყოს ოპტიმალური შედეგების მისაღწევად.

ახლა განვიხილოთ მარტივი პრაქტიკული მაგალითი უკუგავრცელებისა და გრადიენტული დაშვების გამოყენებით

In [None]:
import torch
import torch.nn as nn
import torch.optim as optim

# მონაცემების შექმნა
X = torch.tensor([[0, 0], [0, 1], [1, 0], [1, 1]], dtype=torch.float32)
y = torch.tensor([[0], [1], [1], [0]], dtype=torch.float32)

# მოდელის განსაზღვრა
class XORNet(nn.Module):
    def __init__(self):
        super(XORNet, self).__init__()
        self.hidden = nn.Linear(2, 2)
        self.output = nn.Linear(2, 1)
        self.sigmoid = nn.Sigmoid()

    def forward(self, x):
        x = self.sigmoid(self.hidden(x))
        x = self.sigmoid(self.output(x))
        return x

model = XORNet()

# დანაკარგის ფუნქციისა და ოპტიმიზატორის განსაზღვრა
criterion = nn.BCELoss()
optimizer = optim.SGD(model.parameters(), lr=0.1)

# მოდელის ტრენირება
epochs = 10000
for epoch in range(epochs):
    # წინ გავრცელება
    outputs = model(X)
    loss = criterion(outputs, y)

    # უკუგავრცელება და ოპტიმიზაცია
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()

    if (epoch + 1) % 1000 == 0:
        print(f'ეპოქა [{epoch+1}/{epochs}], დანაკარგი: {loss.item():.4f}')

# შედეგების შემოწმება
with torch.no_grad():
    predicted = model(X)
    print("\nსაბოლოო პროგნოზები:")
    print(predicted)

ამ მაგალითში ჩვენ გამოვიყენეთ მარტივი ნეირონული ქსელი XOR ლოგიკური ოპერაციის შესასწავლად.
მოდელი იყენებს უკუგავრცელებას გრადიენტების გამოსათვლელად და სტოქასტურ გრადიენტულ დაშვებას (SGD) წონების განახლებისთვის.

# დასკვნა
უკუგავრცელება და გრადიენტული დაშვება არის ფუნდამენტური ტექნიკები ნეირონული ქსელების ტრენირებისთვის.
ისინი საშუალებას გვაძლევს ეფექტურად ვიპოვოთ ოპტიმალური პარამეტრები რთული, არაწრფივი ფუნქციებისთვის.

ამ ტექნიკების გაგება და გამოყენება არის კრიტიკული ღრმა სწავლების სფეროში წარმატებისთვის.