# Nesterov Accelerated Gradient (NAG)
モーメンタムに加え、次の位置での勾配を予測して更新する手法  
収束速度がさらに向上し、勾配の「先読み」によりオーバーシュートを抑制する  


In [1]:
import torch
import torch.nn as nn
import torch.optim as optim
import numpy as np

# シード固定
torch.manual_seed(42)
np.random.seed(42)

# サンプルデータ生成： y = 2*x + 1 にノイズ
X = np.linspace(-1, 1, 100).reshape(-1, 1)
y = 2 * X + 1 + np.random.normal(0, 0.1, X.shape)

# NumPyからTensorに変換
X_tensor = torch.tensor(X, dtype=torch.float32)
y_tensor = torch.tensor(y, dtype=torch.float32)

# シンプルな線形モデル：入力1次元、出力1次元
def create_model():
    return nn.Linear(1, 1)

# 訓練ループ（エポック数は固定：100エポック）
def train_model(model, optimizer, epochs=100):
    criterion = nn.MSELoss()
    for epoch in range(epochs):
        model.train()
        optimizer.zero_grad()
        preds = model(X_tensor)
        loss = criterion(preds, y_tensor)
        loss.backward()
        optimizer.step()
    return loss.item()


In [3]:
model_nesterov = create_model()
# Nesterov: momentum=0.9 と nesterov=True を設定
optimizer_nesterov = optim.SGD(model_nesterov.parameters(), lr=0.1, momentum=0.9, nesterov=True)
loss_nesterov = train_model(model_nesterov, optimizer_nesterov)
print("SGD with Nesterov Loss:", loss_nesterov)


SGD with Nesterov Loss: 0.008149058558046818
