In [None]:
import torch


# 1. 데이터 준비
# y = 2 * x + 1 에 노이즈를 추가한 가상 데이터
X = torch.randn(100, 1) * 10
y = 2 * X + 1 + torch.randn(100, 1) * 2


# 2. 모델 파라미터 초기화
w = torch.randn(1, requires_grad=False) # autograd를 사용하지 않으므로 False
b = torch.randn(1, requires_grad=False)


# 3. 하이퍼파라미터 설정
learning_rate = 1e-3 
epochs = 1000# 반복횟수 중요함


# 4. 훈련 루프
for epoch in range(epochs):
    # 순전파: 예측값 계산
    y_pred = w * X + b
   
    # 손실 계산 (MSE)
    loss = torch.mean((y_pred - y) ** 2)
   
    # 역전파: 기울기 수동 계산
    # d(loss)/d(w) 와 d(loss)/d(b)
    grad_w = torch.mean(2 * (y_pred - y) * X)
    grad_b = torch.mean(2 * (y_pred - y))
   
    # 파라미터 업데이트
    w = w - learning_rate * grad_w
    b = b - learning_rate * grad_b
   
    if (epoch + 1) % 100 == 0:
        print(f'Epoch [{epoch+1}/{epochs}], Loss: {loss.item():.4f}, w: {w.item():.4f}, b: {b.item():.4f}')


print(f'\nTraining finished. Learned parameters: w = {w.item():.4f}, b = {b.item():.4f}')

# Loss가 줄지만, 줄어드는건 중요한게 아니다.


Epoch [100/1000], Loss: 9.4269, w: 1.9921, b: -1.2428
Epoch [200/1000], Loss: 7.4283, w: 1.9933, b: -0.7971
Epoch [300/1000], Loss: 6.0887, w: 1.9943, b: -0.4323
Epoch [400/1000], Loss: 5.1909, w: 1.9951, b: -0.1336
Epoch [500/1000], Loss: 4.5891, w: 1.9957, b: 0.1109
Epoch [600/1000], Loss: 4.1858, w: 1.9962, b: 0.3111
Epoch [700/1000], Loss: 3.9155, w: 1.9967, b: 0.4750
Epoch [800/1000], Loss: 3.7343, w: 1.9970, b: 0.6092
Epoch [900/1000], Loss: 3.6129, w: 1.9973, b: 0.7190
Epoch [1000/1000], Loss: 3.5315, w: 1.9976, b: 0.8090

Training finished. Learned parameters: w = 1.9976, b = 0.8090


In [None]:
import torch
import math


# 1. 데이터 준비
dtype = torch.float
device = "cpu"
x = torch.linspace(-math.pi, math.pi, 2000, device=device, dtype=dtype)
y = torch.sin(x)


# 2. 모델 파라미터(가중치) 랜덤 초기화
a = torch.randn((), device=device, dtype=dtype)
b = torch.randn((), device=device, dtype=dtype)
c = torch.randn((), device=device, dtype=dtype)
d = torch.randn((), device=device, dtype=dtype)


# 3. 하이퍼파라미터 설정
learning_rate = 1e-6
epochs = 2000


# 4. 훈련 루프
for t in range(epochs):
    # 순전파: 예측값 y_pred 계산
    y_pred = a + b * x + c * x ** 2 + d * x ** 3


    # 손실(Loss) 계산: Mean Squared Error (MSE)
    loss = (y_pred - y).pow(2).sum()
    if t % 200 == 199:
        print(f'Epoch [{t+1}/{epochs}], Loss: {loss.item():.4f}')


    # 역전파: 손으로 직접 기울기 계산
    # loss = sum((y_pred - y)^2)
    # d(loss)/d(param) = d(loss)/d(y_pred) * d(y_pred)/d(param)
    grad_y_pred = 2.0 * (y_pred - y)
    grad_a = grad_y_pred.sum()
    grad_b = (grad_y_pred * x).sum()
    grad_c = (grad_y_pred * x ** 2).sum()
    grad_d = (grad_y_pred * x ** 3).sum()


    # 경사하강법으로 파라미터 업데이트
    a -= learning_rate * grad_a
    b -= learning_rate * grad_b
    c -= learning_rate * grad_c
    d -= learning_rate * grad_d


print(f'\nResult: y = {a.item():.4f} + {b.item():.4f}x + {c.item():.4f}x^2 + {d.item():.4f}x^3')


# 오차가 줄고 있다  즉 학습이 일어나고 있다
#  어느순간 오차가 줄지 않거나 오히려 오차가 늘어나는 경우도 생길 수 있다.
# 어쨌든 w 찾기가 핵심이다.

Epoch [200/2000], Loss: 235.2242
Epoch [400/2000], Loss: 108.3784
Epoch [600/2000], Loss: 52.6331
Epoch [800/2000], Loss: 28.1171
Epoch [1000/2000], Loss: 17.3269
Epoch [1200/2000], Loss: 12.5736
Epoch [1400/2000], Loss: 10.4774
Epoch [1600/2000], Loss: 9.5520
Epoch [1800/2000], Loss: 9.1429
Epoch [2000/2000], Loss: 8.9618

Result: y = 0.0044 + 0.8458x + -0.0008x^2 + -0.0918x^3


In [None]:
import torch


# 1. 잎 노드(leaf nodes) 생성. 기울기 계산이 필요하므로 requires_grad=True로 설정.
a = torch.tensor(2.0, requires_grad=True)
b = torch.tensor(3.0, requires_grad=True)


# 2. 연산을 통해 중간 노드와 루트 노드 생성
c = a + b
Q = c * (b + 1)


# 3. 각 텐서의 속성 확인
print("--- Leaf Node 'a' ---")
print(f"a.data: {a.data}") # 텐서에서 값을꺼낼땐 .data사용
print(f"a.requires_grad: {a.requires_grad}")
print(f"a.grad: {a.grad}")
print(f"a.grad_fn: {a.grad_fn}") # 사용자가 직접 생성했으므로 grad_fn이 없음
print(f"a.is_leaf: {a.is_leaf}\n") # 끝에 있다.


print("--- Intermediate Node 'c' ---")
print(f"c.data: {c.data}")
print(f"c.requires_grad: {c.requires_grad}") # requires_grad=True인 텐서로부터 파생되었으므로 True
print(f"c.grad_fn: {c.grad_fn}") # 덧셈의 미분 함수를 가리킴
print(f"c.is_leaf: {c.is_leaf}\n") # 연산의 결과이므로 잎 노드가 아님


print("--- Root Node 'Q' ---")
print(f"Q.data: {Q.data}")
print(f"Q.requires_grad: {Q.requires_grad}")
print(f"Q.grad_fn: {Q.grad_fn}") # 곱셈의 미분 함수를 가리킴
print(f"Q.is_leaf: {Q.is_leaf}")






--- Leaf Node 'a' ---
a.data: 2.0
a.requires_grad: True
a.grad: None
a.grad_fn: None
a.is_leaf: True

--- Intermediate Node 'c' ---
c.data: 5.0
c.requires_grad: True
c.grad_fn: <AddBackward0 object at 0x7c117755e9e0>
c.is_leaf: False

--- Root Node 'Q' ---
Q.data: 20.0
Q.requires_grad: True
Q.grad_fn: <MulBackward0 object at 0x7c117755de40>
Q.is_leaf: False


In [10]:
import torch


a = torch.tensor(2.0, requires_grad=True)
b = torch.tensor(3.0, requires_grad=True)
c = a + b
Q = c * (b + 1)


# 역전파 수행
Q.backward()


# 각 잎 노드의 .grad 속성에 저장된 기울기 확인
print("--- Gradients after Q.backward() ---")
print(f"Gradient of Q with respect to a (dQ/da): {a.grad}")
print(f"Gradient of Q with respect to b (dQ/db): {b.grad}")


# 중간 노드의 기울기는 기본적으로 저장되지 않음
print(f"Gradient of c: {c.grad}")


--- Gradients after Q.backward() ---
Gradient of Q with respect to a (dQ/da): 4.0
Gradient of Q with respect to b (dQ/db): 9.0
Gradient of c: None


  print(f"Gradient of c: {c.grad}")


In [12]:
import torch
import math


# 1. 데이터 준비 (동일)
dtype = torch.float
device = "cpu"
x = torch.linspace(-math.pi, math.pi, 2000, device=device, dtype=dtype)
y = torch.sin(x)


# 2. 모델 파라미터(가중치) 랜덤 초기화
# 핵심: requires_grad=True로 설정하여 autograd가 이 텐서들을 추적하도록 함
a = torch.randn((), device=device, dtype=dtype, requires_grad=True)
b = torch.randn((), device=device, dtype=dtype, requires_grad=True)
c = torch.randn((), device=device, dtype=dtype, requires_grad=True)
d = torch.randn((), device=device, dtype=dtype, requires_grad=True)


# 3. 하이퍼파라미터 설정
learning_rate = 1e-6
epochs = 2000


# 4. 훈련 루프
for t in range(epochs):
    # 순전파: 예측값 y_pred 계산 (동일)
    y_pred = a + b * x + c * x ** 2 + d * x ** 3


    # 손실(Loss) 계산 (동일)
    # 이제 loss는 스칼라 값이 아닌, grad_fn을 가진 0차원 텐서가 됨
    loss = (y_pred - y).pow(2).sum()
    if t % 200 == 199:
        print(f'Epoch [{t+1}/{epochs}], Loss: {loss.item():.4f}') # .item()으로 스칼라 값 추출


    # 역전파: autograd를 사용하여 자동으로 기울기 계산
    # 이 한 줄이 수동 기울기 계산 코드를 모두 대체!
    loss.backward()


    # 경사하강법으로 파라미터 업데이트
    # 주의: 기울기 업데이트 연산은 추적할 필요가 없으므로 torch.no_grad() 블록 안에서 수행
    with torch.no_grad():
        a -= learning_rate * a.grad
        b -= learning_rate * b.grad
        c -= learning_rate * c.grad
        d -= learning_rate * d.grad


        # 중요: 다음 반복을 위해 기울기를 수동으로 0으로 초기화
        # 그렇지 않으면 기울기가 계속 누적됨
        a.grad.zero_()
        b.grad.zero_()
        c.grad.zero_()
        d.grad.zero_()


print(f'\nResult: y = {a.item():.4f} + {b.item():.4f}x + {c.item():.4f}x^2 + {d.item():.4f}x^3')




Epoch [200/2000], Loss: 1338.0642
Epoch [400/2000], Loss: 657.5425
Epoch [600/2000], Loss: 326.2810
Epoch [800/2000], Loss: 164.5588
Epoch [1000/2000], Loss: 85.3935
Epoch [1200/2000], Loss: 46.5459
Epoch [1400/2000], Loss: 27.4402
Epoch [1600/2000], Loss: 18.0248
Epoch [1800/2000], Loss: 13.3764
Epoch [2000/2000], Loss: 11.0777

Result: y = -0.0486 + 0.8446x + 0.0084x^2 + -0.0916x^3


In [None]:
import torch
import torch.nn as nn
from torchvision.models import resnet18, ResNet18_Weights


# 1. 사전 훈련된 resnet18 모델 로드
model = resnet18(weights=ResNet18_Weights.DEFAULT)


# 2. 모델의 모든 파라미터를 고정
print("--- Freezing all parameters ---")
for param in model.parameters():
    param.requires_grad = False
    # print(f"Parameter shape: {param.shape}, requires_grad={param.requires_grad}") # 모든 파라미터 확인용


# 3. 마지막 분류기(classifier) 레이어만 새로운 레이어로 교체
# 새로운 레이어의 파라미터는 기본적으로 requires_grad=True 입니다.
num_features = model.fc.in_features
model.fc = nn.Linear(num_features, 10) # 10개 클래스로 분류하는 새로운 레이어


print("\n--- Checking requires_grad status after modification ---")
# 4. 파라미터들의 requires_grad 상태 확인
trainable_params = 0
frozen_params = 0
for name, param in model.named_parameters():
    if param.requires_grad:
        print(f"  Trainable: {name}, Shape: {param.shape}")
        trainable_params += param.numel()
    else:
        frozen_params += param.numel()


print(f"\nTotal trainable parameters: {trainable_params}")
print(f"Total frozen parameters: {frozen_params}")

# 마지막 층만 학습하게 만듦
# parameters 천만개..나중에는 더 걸림,


Downloading: "https://download.pytorch.org/models/resnet18-f37072fd.pth" to /root/.cache/torch/hub/checkpoints/resnet18-f37072fd.pth
100%|██████████| 44.7M/44.7M [00:01<00:00, 33.1MB/s]


--- Freezing all parameters ---

--- Checking requires_grad status after modification ---
  Trainable: fc.weight, Shape: torch.Size([10, 512])
  Trainable: fc.bias, Shape: torch.Size([10])

Total trainable parameters: 5130
Total frozen parameters: 11176512


In [None]:
import torch


# 기울기 추적이 필요한 텐서
x = torch.randn(3, requires_grad=True)
y = x * 2
z = y * 3 
print(f"Original z: {z}")
print(f"z.grad_fn: {z.grad_fn}\n")


# 1. z를 계산 그래프에서 분리
detached_z = z.detach()
print("--- After detach() ---")
print(f"detached_z: {detached_z}")
print(f"detached_z.requires_grad: {detached_z.requires_grad}")
print(f"detached_z.grad_fn: {detached_z.grad_fn}\n")


# 2. 분리된 텐서로 추가 연산을 해도 기울기 추적이 되지 않음
w = detached_z + 1
print("--- Further operation on detached tensor ---")
print(f"w.requires_grad: {w.requires_grad}\n")


# 3. detach()와 메모리 공유
# detached_z의 값을 in-place 연산으로 변경하면 원본 z의 값도 변경됨
print("--- Memory Sharing Demonstration ---")
print(f"Original z before modification: {z}")
detached_z.mul_(10) # In-place multiplication  # 원본 반영
print(f"Modified detached_z: {detached_z}")
print(f"Original z after modification: {z}\n")


# 4. 역전파 시 detach()의 효과
# z에 대한 역전파는 x까지 정상적으로 전달됨
z.sum().backward()
print("--- Backward Propagation ---")
print(f"Gradient of x (from z): {x.grad}")


# w.sum().backward() # 이 코드를 실행하면 detached_z가 잎 노드처럼 동작하므로 오류가 발생하지 않지만,
# 기울기는 x까지 전파되지 않습니다.


Original z: tensor([-1.2030,  6.2042, -4.3672], grad_fn=<MulBackward0>)
z.grad_fn: <MulBackward0 object at 0x7c11776af970>

--- After detach() ---
detached_z: tensor([-1.2030,  6.2042, -4.3672])
detached_z.requires_grad: False
detached_z.grad_fn: None

--- Further operation on detached tensor ---
w.requires_grad: False

--- Memory Sharing Demonstration ---
Original z before modification: tensor([-1.2030,  6.2042, -4.3672], grad_fn=<MulBackward0>)
Modified detached_z: tensor([-12.0305,  62.0420, -43.6725])
Original z after modification: tensor([-12.0305,  62.0420, -43.6725], grad_fn=<MulBackward0>)

--- Backward Propagation ---
Gradient of x (from z): tensor([6., 6., 6.])
