### 1. 손실 함수 (Loss Function) ###


역할:

모델의 예측값과 실제 값(라벨) 간의 차이를 수치적으로 평가하여, 이 차이를 최소화하는 방향으로 모델 파라미터를 업데이트할 수 있게 해줍니다.

종류:
회귀 문제 (Regression):

MSELoss (Mean Squared Error Loss):
예측값과 실제 값의 차이의 제곱의 평균을 계산합니다.

L1Loss (Mean Absolute Error Loss):
예측값과 실제 값의 차이의 절대값의 평균을 계산합니다.
이상치에 덜 민감할 때 사용

분류 문제 (Classification):

Binary Cross Entropy Loss:
이진 분류 문제에서 사용되며, 확률로 표현된 예측값과 실제 라벨 사이의 크로스 엔트로피를 계산합니다.

CrossEntropyLoss:
다중 클래스 분류 문제에서 사용되며, 내부적으로 softmax와 log loss 계산을 함께 수행합니다.


ex) criterion = nn.CrossEntropyLoss()


### 2. 옵티마이저 (Optimizer) ###

역할:

손실 함수로부터 계산된 gradient(기울기)를 기반으로 모델 파라미터를 업데이트하여, 손실 값을 최소화하는 방향으로 학습을 진행합니다.

-주요 옵티마이저 종류:-

SGD (Stochastic Gradient Descent):

가장 기본적인 옵티마이저입니다.
    학습률(lr)과 모멘텀(momentum) 등의 하이퍼파라미터를 사용합니다.

EX) optimizer = optim.SGD(model.parameters(), lr=0.01, momentum=0.9)

Adam (Adaptive Moment Estimation):

학습률을 자동으로 조절하고, 모멘텀과 RMSprop의 장점을 결합한 옵티마이저입니다.
일반적으로 빠르게 수렴하고, 튜닝이 쉬워 많이 사용됩니다.

EX)optimizer = optim.Adam(model.parameters(), lr=0.001)

-옵티마이저 선택 시 고려사항:-

-학습률 (Learning Rate):-
너무 크면 학습이 불안정해지고, 너무 작으면 수렴 속도가 느려지므로 적절한 값을 찾아야 합니다.

-문제의 특성과 모델 복잡도:-

간단한 문제나 모델에서는 SGD가 효과적일 수 있고, 복잡하거나 비선형적인 문제에서는 Adam과 같은 옵티마이저가 더 나은 성능을 보일 수 있습니다.

-모멘텀 및 기타 하이퍼파라미터:-

옵티마이저에 따라 추가 하이퍼파라미터들이 있으므로, 실험을 통해 최적의 설정을 찾는 것이 중요합니다.



### 모멘텀 ###

모멘텀은 최적화 알고리즘에서 사용하는 개념으로, 현재의 기울기 업데이트에 이전 업데이트들의 '관성'을 더해주는 역할을 합니다. 물리학에서 물체가 이동할 때 관성을 유지하려는 성질과 비슷하게, 기울기 변화에 일종의 가속도를 부여하여 학습이 빠르게 수렴하고, 진동이나 노이즈를 줄이는 데 도움을 줍니다.

수렴 속도 향상: 지속적인 기울기를 반영해 더 빠르게 최저점에 도달하도록 도와줍니다.

진동 완화: 불필요한 진동을 줄여 학습 과정을 안정시키는 역할을 합니다.

EX) optimizer = optim.SGD(model.parameters(), lr=0.01, momentum=0.9)


In [39]:
import torch
import torch.nn as nn
from torch.nn import functional as F
import torch.optim as optim

x_data=torch.linspace(0,10,100).unsqueeze(1)
y_data=3*x_data+2+torch.randn(100,1)*0.5  # 노이즈를 쬐끔 추가

model=nn.Linear(1,1)

criter=nn.MSELoss()

#optim=optim.SGD(model.parameters(),lr=0.01)

optim=optim.Adam(model.parameters(),lr=0.001)

num_epoch=100
for epoch in range(num_epoch):
    optim.zero_grad()
    out=model(x_data)
    loss=criter(out, y_data)
    loss.backward()
    optim.step()

    if(epoch+1)%2==0:
        print(f"epoch : {epoch+1}, loss : {loss.item():.4f}")#, out : {out}

predict=model(x_data)
print("최종 예측 결과 일부:\n", predict[:5])

epoch : 2, loss : 211.3057
epoch : 4, loss : 210.9183
epoch : 6, loss : 210.5313
epoch : 8, loss : 210.1446
epoch : 10, loss : 209.7584
epoch : 12, loss : 209.3725
epoch : 14, loss : 208.9871
epoch : 16, loss : 208.6021
epoch : 18, loss : 208.2176
epoch : 20, loss : 207.8335
epoch : 22, loss : 207.4499
epoch : 24, loss : 207.0667
epoch : 26, loss : 206.6841
epoch : 28, loss : 206.3018
epoch : 30, loss : 205.9201
epoch : 32, loss : 205.5389
epoch : 34, loss : 205.1582
epoch : 36, loss : 204.7780
epoch : 38, loss : 204.3982
epoch : 40, loss : 204.0190
epoch : 42, loss : 203.6403
epoch : 44, loss : 203.2621
epoch : 46, loss : 202.8845
epoch : 48, loss : 202.5073
epoch : 50, loss : 202.1306
epoch : 52, loss : 201.7545
epoch : 54, loss : 201.3789
epoch : 56, loss : 201.0038
epoch : 58, loss : 200.6292
epoch : 60, loss : 200.2552
epoch : 62, loss : 199.8816
epoch : 64, loss : 199.5086
epoch : 66, loss : 199.1361
epoch : 68, loss : 198.7641
epoch : 70, loss : 198.3927
epoch : 72, loss : 198.0

### 기본 학습 루프 ###

Forward Pass:
입력 데이터를 모델에 넣어 예측값을 계산합니다.

Loss 계산:
예측값과 실제 정답 사이의 오차(손실)를 계산합니다.

Backward Pass:
손실에 대해 역전파를 수행하여, 각 파라미터의 기울기(gradient)를 계산합니다.

파라미터 업데이트:
옵티마이저를 사용해 계산된 기울기를 기반으로 파라미터를 업데이트합니다.

In [57]:
import torch
import torch.nn as nn
import torch.optim
import torch.nn.functional as F

class simple(nn.Module):
    def __init__(self, input, output, hidden):
        super(simple, self).__init__()
        self.fc1=nn.Linear(input, hidden)
        self.fc2=nn.Linear(hidden, output)

    def forward(self,x):
        x=F.relu(self.fc1(x))
        x=self.fc2(x)
        return x

model=simple(input=1,output=1,hidden=4)
print(model)

dummy=torch.randn(2,1)
output=model(dummy)
print(output)

simple(
  (fc1): Linear(in_features=1, out_features=4, bias=True)
  (fc2): Linear(in_features=4, out_features=1, bias=True)
)


In [59]:
import torch
import torch.nn as nn
import torch.optim as optim

# 1. 데이터 생성: y = 3x + 2 (약간의 노이즈 추가)
x_data = torch.linspace(0, 10, 100).unsqueeze(1)  # (100, 1)
y_data = 3 * x_data + 2 + torch.randn(100, 1) * 0.5

# 2. 간단한 선형 회귀 모델 정의 (nn.Linear 사용)
#model = nn.Linear(1, 1)

# 3. 손실 함수와 옵티마이저 설정
criterion = nn.MSELoss()
optimizer = optim.SGD(model.parameters(), lr=0.01)

# 4. 학습 루프
num_epochs = 100
for epoch in range(num_epochs):
    optimizer.zero_grad()      # 기울기 초기화
    outputs = model(x_data)    # forward pass
    loss = criterion(outputs, y_data)  # 손실 계산
    loss.backward()            # 역전파로 기울기 계산
    optimizer.step()           # 파라미터 업데이트

    if (epoch + 1) % 10 == 0:
        print(f"Epoch {epoch+1}, Loss: {loss.item():.4f}")

# 5. 최종 예측 결과 확인
predictions = model(x_data)
print("최종 예측 결과 일부:\n", predictions[:5])


Epoch 10, Loss: 304.0767
Epoch 20, Loss: 228.6935
Epoch 30, Loss: 178.3635
Epoch 40, Loss: 144.7560
Epoch 50, Loss: 122.3124
Epoch 60, Loss: 107.3220
Epoch 70, Loss: 97.3076
Epoch 80, Loss: 90.6149
Epoch 90, Loss: 86.1394
Epoch 100, Loss: 83.1414
최종 예측 결과 일부:
 tensor([[14.3386],
        [14.4897],
        [14.6409],
        [14.6508],
        [14.6508]], grad_fn=<SliceBackward0>)


optimizer.zero_grad():
이전 에폭에서 계산된 기울기를 초기화합니다.

outputs = model(x_data):
입력 데이터를 모델에 넣어 forward pass를 수행합니다.

loss = criterion(outputs, y_data):
예측 결과와 실제 데이터 간의 손실(오차)을 계산합니다.

loss.backward():
손실에 대한 미분을 수행해 각 파라미터에 대한 gradient를 계산합니다.

optimizer.step():
계산된 gradient를 기반으로 모델의 파라미터를 업데이트합니다.