In [1]:
import torch
import numpy as np
import torch.optim as optim

문제 1 (주관식 - 개념 설명)
- 경사 하강법(Gradient Descent)의 목표와 핵심 원리를 "손실(Loss)"과 "경사(Gradient)"라는 키워드를 사용하여 2~3줄로 간략히 설명하시오

답안을 작성하세요.
- 경사 하강법은 손실(Loss) 을 최소화하기 위해
손실 함수에 대한 경사(Gradient) 를 계산하고,
경사가 가리키는 방향의 반대로 weight와 bias를 반복적으로 업데이트하는 최적화 방법이다.


문제 2 (실습 문제 - 코드 작성)

평균 제곱 오차(MSE: Mean Squared Error) 손실 함수를 파이토치 텐서를 사용하여 직접 구현하시오.

- 함수 mse(Yp, Y)는 예측값 텐서 Yp와 실제값 텐서 Y를 입력받아 MSE 손실 값을 계산하여 반환해야 합니다.

- MSE 공식: $\text{loss} = \frac{1}{n} \sum_{i=1}^{n} (Yp_i - Y_i)^2$


In [2]:
import torch

# 아래 함수를 완성하시오
def mse(Yp, Y):
    # Yp: 예측값 텐서, Y: 실제값 텐서
    loss = ((Yp-Y)**2).mean()
    return loss

# --- 테스트 코드 (수정 불필요) ---
Yp_test = torch.tensor([1.0, 2.5, 3.8])
Y_test  = torch.tensor([1.2, 2.0, 4.0])
# 예상 MSE = ((1.0-1.2)^2 + (2.5-2.0)^2 + (3.8-4.0)^2) / 3 = (0.04 + 0.25 + 0.04) / 3 = 0.33 / 3 = 0.11
test_loss = mse(Yp_test, Y_test)
print(f"테스트 MSE 손실: {test_loss:.4f}")

테스트 MSE 손실: 0.1100


문제 3 (실습 문제 - 코드 빈칸 채우기)

아래 코드의 빈칸 ( # TODO: ... 부분)을 채워 파라미터 W와 B를 업데이트하는 과정을 완성하시오.

요구사항

1. loss.backward()를 호출하여 경사를 계산합니다.
2. torch.no_grad() 컨텍스트 내에서 W와 B를 학습률(lr)과 계산된 경사(.grad)를 이용하여 업데이트합니다.
3. 다음 반복을 위해 W와 B의 경사 값을 0으로 초기화합니다 (.grad.zero_()).

- 참고 : first_ml.ipynb)의 경사 하강법 반복 학습 부분을 참고

In [3]:
import torch
import numpy as np # 예시 데이터 생성을 위해 사용

# 예시 데이터 (수정 불필요)
X = torch.tensor([-5.,  5.,  0.,  2., -2.]).float()
Y = torch.tensor([-6.7, 10.3, -3.3, 5.0, -5.3]).float()

# 초기 파라미터 및 학습률 (수정 불필요)
W = torch.tensor(1.0, requires_grad=True).float()
B = torch.tensor(1.0, requires_grad=True).float()
lr = 0.001

# 예측 함수 및 손실 함수 (수정 불필요)
def pred(X): return W * X + B
def mse(Yp, Y): return ((Yp - Y)**2).mean()

# --- 1회 반복 학습 과정 ---
# 예측 계산 (수정 불필요)
Yp = pred(X)

# 손실 계산 (수정 불필요)
loss = mse(Yp, Y)

# TODO: 1. 경사 계산
loss.backward()

# 경사 업데이트 (torch.no_grad() 사용)
with torch.no_grad():
    W -= lr * W.grad
    B -= lr * B.grad

W.grad.zero_()
B.grad.zero_()


# --- 결과 확인 (수정 불필요) ---
print(f"업데이트 후 W: {W.item():.4f}") # 초기 W=1.0, 초기 loss=13.3520, W.grad=-19.04, lr=0.001 -> 1.0 - 0.001*(-19.04) = 1.01904
print(f"업데이트 후 B: {B.item():.4f}") # 초기 B=1.0, B.grad=2.0, lr=0.001 -> 1.0 - 0.001*(2.0) = 0.998
print(f"W의 현재 경사: {W.grad}") # 초기화 후에는 0 또는 None 이어야 함
print(f"B의 현재 경사: {B.grad}") # 초기화 후에는 0 또는 None 이어야 함

업데이트 후 W: 1.0190
업데이트 후 B: 0.9980
W의 현재 경사: 0.0
B의 현재 경사: 0.0


문제 4 (실습 문제 - 코드 빈칸 채우기)
- torch.optim 라이브러리를 사용하여 확률적 경사 하강법(SGD) 옵티마이저를 생성하고, 이를 이용해 파라미터를 업데이트하는 코드의 빈칸을 채우시오

요구사항
1. optim.SGD를 사용하여 W와 B를 업데이트하는 옵티마이저(optimizer)를 생성합니다. 학습률(lr)도 지정해야 합니다.
2. 계산된 경사를 이용하여 파라미터를 업데이트하기 위해 optimizer.step()를 호출합니다.
3. 다음 반복을 위해 옵티마이저에 연결된 파라미터들의 경사도를 0으로 초기화하기 위해 optimizer.zero_grad()를 호출합니다.

In [4]:
import torch
import torch.optim as optim
import numpy as np # 예시 데이터 생성을 위해 사용

# 예시 데이터 (수정 불필요)
X = torch.tensor([-5.,  5.,  0.,  2., -2.]).float()
Y = torch.tensor([-6.7, 10.3, -3.3, 5.0, -5.3]).float()

# 초기 파라미터 및 학습률 (수정 불필요)
W = torch.tensor(1.0, requires_grad=True).float()
B = torch.tensor(1.0, requires_grad=True).float()
lr = 0.001

# 예측 함수 및 손실 함수 (수정 불필요)
def pred(X): return W * X + B
def mse(Yp, Y): return ((Yp - Y)**2).mean()

# TODO: 1. SGD 옵티마이저 생성 (파라미터: [W, B], 학습률: lr)
optimizer = optim.SGD([W,B], lr=lr)

# --- 1회 반복 학습 과정 ---
# 예측 계산 (수정 불필요)
Yp = pred(X)

# 손실 계산 (수정 불필요)
loss = mse(Yp, Y)

# 경사 계산 (수정 불필요)
loss.backward()

# TODO: 2. 옵티마이저를 이용한 파라미터 업데이트
optimizer.step()

# TODO: 3. 옵티마이저 경사 초기화
optimizer.zero_grad()


# --- 결과 확인 (수정 불필요) ---
# 결과는 문제 3과 동일해야 함
print(f"옵티마이저 사용 후 W: {W.item():.4f}")
print(f"옵티마이저 사용 후 B: {B.item():.4f}")
print(f"W의 현재 경사: {W.grad}")
print(f"B의 현재 경사: {B.grad}")

옵티마이저 사용 후 W: 1.0190
옵티마이저 사용 후 B: 0.9980
W의 현재 경사: None
B의 현재 경사: None


문제 5(주관식-개념설명)

모델 학습 시 발생할 수 있는 과소적합(Underfitting)과 과대적합(Overfitting)의 특징을 편향(Bias)과 분산(Variance) 관점에서 각각 설명하시오. (각각 1~2줄)

- 과소적합 : 모델이 너무 단순하여 편향(Bias)이 크고 분산(Variance)은 작다.
훈련 데이터조차 잘 설명하지 못해 훈련·검증 오차가 모두 크게 나타난다.
- 과대적합 : 모델이 지나치게 복잡하여 편향(Bias)은 작고 분산(Variance)이 크다.
훈련 데이터에는 잘 맞지만, 새로운 데이터에서는 검증 오차가 크게 증가한다.

문제 6 (주관식 - 평가 지표 선택)
- 다음과 같은 두 가지 상황에 가장 적합한 분류 모델 평가 지표를 각각 선택하고 그 이유를 간략히 설명하시오.

- 상황 1: 환자의 의료 데이터를 분석하여 암 진단 여부를 예측하는 모델 (실제 암 환자를 놓치면 안 되는 경우, 즉 FN(False Negative)을 최소화해야 함)

- 상황 2: 이메일 데이터를 분석하여 스팸 메일 여부를 필터링하는 모델 (정상 메일을 스팸으로 잘못 분류하면 안 되는 경우, 즉 FP(False Positive)를 최소화해야 함)

- 선택 가능한 지표: 정확도(Accuracy), 정밀도(Precision), 재현율(Recall), F1-Score

- 상황1 : 재현율은 실제 양성(암 환자) 중에서 모델이 얼마나 많이 놓치지 않고 맞혔는지를 나타내는 지표이다.
암 환자를 놓치는 False Negative(FN) 를 최소화해야 하므로 재현율이 가장 적합하다.
- 상황2 : 정밀도는 모델이 스팸이라고 예측한 메일 중에서 실제로 스팸인 비율을 의미한다.
정상 메일을 스팸으로 잘못 분류하는 False Positive(FP) 를 줄이기 위해 정밀도가 중요하다.