## 1. DNN 기본 개념과 비선형성

- 딥러닝의 목적은 **데이터 예측을 잘하는 것**
- Perceptron은 하나의 뉴런이고, 여러 개가 모여 신경망을 구성
- 단순 선형 분류기로는 복잡한 데이터를 분류할 수 없음
    
    ⇒ 뉴런에 **비선형 활성화 함수**를 추가하여 해결
    

## 2. Loss Function, Optimization

- 예: 선형 회귀 모델
    
    `y = ax + b`
    
- 평균 제곱 오차 (MSE):
    
    $$
    \text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2
    $$
    
- 손실 함수Loss(a)를 미분했을 때, **기울기(gradient)가 0이 되는 지점**을 찾는 것이 목적
    
    ⇒ 이 지점은 **손실 함수의 최소값을 의미**하며, 그곳에서 모델의 예측이 가장 정확해짐
    
- 따라서, 경사하강법(Gradient Descent)을 사용하여 파라미터 a를 반복적으로 다음과 같이 업데이트함:
    
    (여기서 η는 learning rate)
    

$$
a \leftarrow a - \eta \cdot \frac{d}{da} \text{Loss}(a)
$$

## 3. Backpropagation

- 입력 → 출력까지 계산: **Forward propagation**
- 예측값과 실제값의 차이를 바탕으로 가중치를 조정: **Backpropagation**
- 미분(chain rule)을 통해 gradient 계산
    
    $$
    \frac{\partial \text{Loss}}{\partial w} = \frac{\partial \text{Loss}}{\partial \hat{y}} \cdot \frac{\partial \hat{y}}{\partial z} \cdot \frac{\partial z}{\partial w}
    $$
    
- 계산된 gradient로 가중치 업데이트 (경사하강법 사용)

In [31]:
import torch

# y : 실제값, x : 입력 값, a : 가중치
x = torch.tensor(2, dtype=torch.float32, requires_grad=False)
y = torch.tensor(3, dtype=torch.float32, requires_grad=False)
a = torch.tensor(3, dtype=torch.float32, requires_grad=True)

In [None]:
# 손실 함수(MSE)
loss = (a * x - y) ** 2
print(f"loss : {loss}")

# 역전파
loss.backward()
print(f"x grad : {x.grad}")
print(f"y grad : {y.grad}")
print(f"a grad : {a.grad}")

# gradient는 계산시 계속 누적되기 때문에 0으로 초기화 필수
a.grad.zero_()

loss : 9.0
x grad : None
y grad : None
a grad : 12.0


tensor(0.)

In [None]:
losses = []
for idx in range(100):
  loss = (a * x - y) ** 2
  losses.append(loss.item())
  grad = loss.backward()
  print(f"a value: {a.item()}, dl/da :  {a.grad}" )

  # requires_grad=True로 만든 텐서는 모든 연산이 자동으로 추적
  # torch.no_grad()를 사용하여 연산을 추적하지 않도록 설정해 메모리 절약
  with torch.no_grad():
    a -= 0.01 * a.grad

  a.grad.zero_()
print(losses)
print(f"final a : {a.item()}")

a value: 3.0, dl/da :  12.0
a value: 2.880000114440918, dl/da :  11.040000915527344
a value: 2.7696001529693604, dl/da :  10.156801223754883
a value: 2.668032169342041, dl/da :  9.344257354736328
a value: 2.574589490890503, dl/da :  8.596715927124023
a value: 2.4886224269866943, dl/da :  7.908979415893555
a value: 2.4095325469970703, dl/da :  7.2762603759765625
a value: 2.3367700576782227, dl/da :  6.694160461425781
a value: 2.2698285579681396, dl/da :  6.158628463745117
a value: 2.208242177963257, dl/da :  5.665937423706055
a value: 2.151582717895508, dl/da :  5.2126617431640625
a value: 2.0994560718536377, dl/da :  4.795648574829102
a value: 2.051499605178833, dl/da :  4.411996841430664
a value: 2.0073795318603516, dl/da :  4.0590362548828125
a value: 1.9667891263961792, dl/da :  3.7343130111694336
a value: 1.9294459819793701, dl/da :  3.435567855834961
a value: 1.8950903415679932, dl/da :  3.1607227325439453
a value: 1.8634830713272095, dl/da :  2.907864570617676
a value: 1.83440446