## 01. 미분


미분의 기본 개념은 함수의 변화율을 구하는 데 있다. 이는 함수가 입력의 변화에 따라 얼마나 변하는지를 수학적으로 분석하는 도구이다.


### 01-01. 평균 변화율


먼저, 함수 $f(x)$의 **평균 변화율**을 살펴본다. 이는 두 점 $x$와 $x + h$ 사이에서 함수 $f(x)$가 얼마나 변했는지를 나타내는 지표이다.


$$
평균변화율 = \frac{f(x + h) − f(x)}{h}
$$


예를 들어, $f(x) = 2x$라 할 때, $x=5$에서 $x=8$로 바뀌었다고 하면, 평균 변화율은 다음과 같다.


$$
\frac{f(8) - f(5)}{3} = \frac{16 - 10}{3} = 2
$$


이는 $h$만큼의 변화에 대해 함수 $f$가 얼마나 변하는지를 나타내며, 기울기의 개념과도 연결된다.


### 01-02. 순간 변화율 (미분의 정의)


**순간 변화율**은 평균 변화율에서 $h$가 0에 극한으로 가까워질 때를 의미한다. 이를 통해 미분을 정의할 수 있다.


$$
f′(x) = \lim_{h→0}\frac{f(x + h) − f(x)}{h}
$$


**예: $f(x) = x^2$의 미분**


$$
\frac{(x + h)^2 − x^2}{h} = \frac{x^2 + 2xh + h^2 − x^2}{h} = \frac{2xh + h^2}{h} = 2x + h
$$


극한을 취하면 다음과 같다.


$$
\lim_{h → 0}(2x + h) = 2x
$$


따라서, $f(x) = x^2$의 미분은 $f′(x) = 2x$이다.


### 01-03. 다양한 미분 예시


#### 01-03-01. 다항 함수 $f(x) = x^2$


위와 같이 전개 및 극한을 통해 다음을 얻는다.


$$
f′(x) = 2x
$$


#### 01-03-02. 상수 함수 $f(x) = c$


$$
\frac{f(x + h) − f(x)}{h} = \frac{c − c}{h} = 0
$$


상수 함수는 입력 변화에 관계없이 값이 일정하므로 미분값은 항상 0이다.


$$
f′(x) = 0
$$


#### 01-03-03. 선형 함수 $f(x) = mx + b$


$$
\frac{f(x + h) − f(x)}{h} = \frac{m(x + h) + b − (mx + b)}{h} = \frac{mh}{h} = m
$$


따라서, 선형 함수의 미분은 $f′(x) = m$이다.


### 01-04. 미분의 기본 규칙


1. 상수 $c$의 미분은 $0$이다.
2. $f(x) = x^n$ 형태의 미분은 $nx^{n−1}$이다.
3. 함수의 선형 조합 $af(x) + bg(x)$의 미분은 $af′(x) + bg′(x)$이다.


### 01-05. 미분 표기


라이프니츠는 미분을 다음과 같은 표기로 정의하였다:


* $d$: differential, 미소한 변화
* $dx$: $x$의 미소 변화
* $\frac{d}{dx}$: $x$에 대한 미분 연산자


**연쇄 법칙 표기**


합성 함수 $z = f(g(x))$에 대해 다음과 같이 연쇄법칙을 적용할 수 있다:


$$
\frac{dz}{dx} = \frac{dz}{dy} \cdot \frac{dy}{dx}
$$


### 01-06. 미분의 연쇄 법칙


합성 함수 $y = f(g(x))$의 미분은 내부 함수와 외부 함수의 미분을 곱하여 구한다.


* $y = f(u)$
* $u = g(x)$


이때:


$$
\frac{dy}{dx} = \frac{dy}{du} \cdot \frac{du}{dx}
$$


**예시**


$z = y^2$, $y = 5x + 2$인 경우,


$$
\frac{dz}{dx} = \frac{dz}{dy} \cdot \frac{dy}{dx} = 2y \cdot 5 = 10y
$$


$y = 5x + 2$이므로:


$$
\frac{dz}{dx} = 10(5x + 2) = 50x + 20
$$


이는 직접 미분한 결과와 동일하다.


## 02. 미분과 수치미분 개념


**수학적 미분 (Analytical Differentiation)**


$$
f(x) = x^2 \Rightarrow f'(x) = 2x
$$


* 수학적으로 정확한 **도함수**를 구함
* 함수의 변화율을 계산하는 공식 기반 미분


**수치미분 (Numerical Differentiation)**
$$
f'(x) \approx \frac{f(x+h) - f(x-h)}{2h}
$$
* 도함수를 직접 구하지 않고, **근사값으로 기울기를 계산**
* 여기서 $h$는 아주 작은 수 (예: $h = 1e-4$)
* 실제 계산 과정을 코드로 볼 수 있어 **직관적**


**미분 vs 수치미분 비교표**


| 항목    | 수학적 미분 (Analytical) | 수치미분 (Numerical)          |
| ----- | ------------------- | ------------------------- |
| 정의 방식 | 공식에 따라 도함수 계산       | 근사값으로 기울기 계산              |
| 정확도   | 매우 정확함              | 근사값, 오차 발생 가능             |
| 속도    | 빠름                  | 느림 (함수값 여러 번 계산 필요)       |
| 용도    | 모델 학습, 역전파 계산       | 디버깅, 검증용 (Gradient Check) |


**수치미분 방식비교**


> 중앙차분(Central Difference) 방식이 가장 보편적으로 사용된다.


| 방식   | 수식                                           | 정확도    | 계산 비용 | 특징         |
| ---- | -------------------------------------------- | ------ | ----- | ---------- |
| 전진차분 | $f'(x) \approx \frac{f(x+h) - f(x)}{h}$    | 1차 정확도 | 낮음    | 간단하지만 오차 큼 |
| 후진차분 | $f'(x) \approx \frac{f(x) - f(x-h)}{h}$    | 1차 정확도 | 낮음    | 전진과 비슷     |
| 중앙차분 | $f'(x) \approx \frac{f(x+h) - f(x-h)}{2h}$ | 2차 정확도 | 높음    | 정확하고 균형잡힘  |


In [1]:
import numpy as np
import torch

In [2]:
def f(x):
    return x**2

# 수학적 미분
def df(x):
    return 2 * x


# 수치미분 (중앙차분)
def nummerical_diff(x, h=1e-4):
    return (f(x + h) - f(x - h)) / (2 * h)

# 전진차분
def nummerical_diff_forward(x, h=1e-4):
    return (f(x + h) - f(x)) / h

# 후진차분
def nummerical_diff_backward(x, h=1e-4):
    return (f(x) - f(x - h)) / h



x = np.array(4)
print(f(x))
print(df(x)) # x에 따른 f(x) 순간 기울기 (미분)
print(nummerical_diff(x))
print(nummerical_diff_forward(x))
print(nummerical_diff_backward(x))


16
8
7.999999999999119
8.00009999998963
7.9999000000086085


## 03. PyTorch의 자동미분

In [None]:
# 연산을 시작하는 텐서 (requires_grad=True)
x = torch.tensor(4., requires_grad=True)
# x # => tensor(4., requires_grad=True)
# y = f(x) # X ** 2
y = f(x)

print(y) # => tensor(16., grad_fn=<PowBackward0>)
print(y.grad_fn) # tensor 연산기록객체, 직접실행불가
y.backward() # 미분(기울기)계산이 거꾸로 처리, 계산 결과는 x.grad 속성에 저장

print(x.grad)


In [None]:
# 복잡한 연산
x = torch.tensor([4.0], requires_grad=True) # 리프텐서 ( 연산그래프 시작점) 미분대상
y = (x * 3 + 5) ** 2

print(y)
print(y.grad_fn)
print(y.grad_fn.next_functions)

# 연산그래프 추적 함수
def print_grad_fn_tree(fn, indent=0):
    # 재귀함수 종료 조건
    if fn is None:
        return

    print(" " * indent + f'{fn.__class__.__name__}')

    if hasattr(fn, 'next_functions'):
        for sub, _ in fn.next_functions:
            print_grad_fn_tree(sub, indent + 4)

print_grad_fn_tree(y.grad_fn)

y.backward()
print(x.grad)

## 04. 다변수함수 미분(편미분)

In [5]:
# 다변수 미분
def f(x, y):
    return x ** 2 + y ** 2

# (도함수) f에 대한 x편미분
def df_dx(x, y):
    return 2 * x

# (도함수) f에 대한 x편미분
def df_dy(x, y):
    return 2 * y


# 수치미분
def numerical_partial_diff(f, x, y, var='x', h=1e-4):
    if var == 'x':
        return (f(x + h, y) - f(x - h, y)) / (2 * h)
    else:
        return (f(x, y + h) - f(x, y - h)) / (2 * h)



print(f(3, 4))
print('df_dx : ', df_dx(3, 4))
print('df_dy : ', df_dy(3, 4))

print('x에 대한 수차편미분 : ', numerical_partial_diff(f, 3, 4, var='x'))
print('y에 대한 수차편미분 : ', numerical_partial_diff(f, 3, 4, var='y'))


25
df_dx :  6
df_dy :  8
x에 대한 수차편미분 :  6.00000000000378
y에 대한 수차편미분 :  7.999999999999119


In [None]:
# torch 자동미분
x = torch.tensor(3., requires_grad=True)
y = torch.tensor(4., requires_grad=True)

z = f(x, y) # x ** 2 + y ** 2
print(z) # => tensor(25., grad_fn=<AddBackward0>)
print_grad_fn_tree(z.grad_fn)

z.backward()
print(x.grad.item()) # => 6.0
print(y.grad.item()) # => 8.0

## 05. 선형층 함수 형태

* 입력: $x$ (고정)
* 실제 정답: $y$ (고정)
* 예측: $\hat{y} = wx + b$
* 손실: $L = (\hat{y} - y)^2 = (wx + b - y)^2$




즉, 손실 함수를


$$
L(w, b) = (wx + b - y)^2
$$


로 보고, $w$와 $b$에 대해 편미분한다.


**수학적 미분**


$$
\frac{\partial L}{\partial w} = 2(wx + b - y) \cdot x \\
$$
$$
\frac{\partial L}{\partial b} = 2(wx + b - y)
$$


In [6]:
# 선형층 + 손실함수 구현
def L(w, x, b, y):
    y_hat = w * x + b
    loss = (y_hat - y) ** 2
    return loss

def dL_dw(w, x, b, y):
    return 2 * (w * x + b - y) * x


def dL_db(w, x, b, y):
    return 2 * (w * x + b - y)

# x, y : 지도학습에 제공된 값(고정)
# w, b : 모델이 학습할 가중치/절편 (미분대상)

w, x, b, y = 2.0, 3.0, 1.0, 10.0
print(L(w, x, b, y)) # => 9.0
print('L을 w로 편미분 : ', dL_dw(w, x, b, y))
print('L을 b로 편미분 : ', dL_db(w, x, b, y))
# => L을 w로 편미분 :  -18.0
# => L을 b로 편미분 :  -6.0

9.0
L을 w로 편미분 :  -18.0
L을 b로 편미분 :  -6.0


In [None]:
# torch
x = torch.tensor(3.0)
y = torch.tensor(10.0)
w = torch.tensor(2.0, requires_grad=True) # ==> 학습대상이므로 requires_grad=True
b = torch.tensor(1.0, requires_grad=True) # ==> 학습대상이므로 requires_grad=True

loss = L(w, x, b, y)
print(loss) # => tensor(9., grad_fn=<PowBackward0>)

loss.backward()
print('L을 w로 편미분한 기울기 : ', w.grad.item())
print('L을 b로 편미분한 기울기 : ', b.grad.item())
# => L을 w로 편미분한 기울기 :  -18.0
# => L을 b로 편미분한 기울기 :  -6.0
print(x.grad)
print(y.grad)
# => None
# => None
# ==> 설정 안해줫으므로 None이 나옴

## 06.벡터/행렬 형태


* 예측 함수: $\hat{y} = \mathbf{w}^\top \mathbf{x} + b$
* 손실 함수: $L = (\hat{y} - y)^2$
* 가중치 벡터 $\mathbf{w}$에 대한 편미분
* NumPy 및 PyTorch 코드 비교


**목표**


$$
\hat{y} = \mathbf{w}^\top \mathbf{x} + b \\
L = (\hat{y} - y)^2 = (\mathbf{w}^\top \mathbf{x} + b - y)^2
$$


* $\mathbf{x}$: 입력 벡터 (예: 특징 3개짜리 입력)
* $\mathbf{w}$: 가중치 벡터
* $b$: 편향
* $y$: 정답 (스칼라)


**수학적으로 편미분**


손실 함수:


$$
L(\mathbf{w}, b) = (\mathbf{w}^\top \mathbf{x} + b - y)^2
$$


1. $\frac{\partial L}{\partial \mathbf{w}}$


$$
\frac{\partial L}{\partial \mathbf{w}} = 2(\mathbf{w}^\top \mathbf{x} + b - y) \cdot \mathbf{x}
$$


2. $\frac{\partial L}{\partial b}$


$$
\frac{\partial L}{\partial b} = 2(\mathbf{w}^\top \mathbf{x} + b - y)
$$


In [7]:
# 벡터/행렬형태의 선형층 + 손실함수
X = np.array([[1., 2., 3.], [4., 5., 6.]]) # (2, 3) (==> 2행 3열 모양)
y = np.array([2.])
W = np.array([[0.1, 0.2, 0.3]]) # (1, 3)
b = np.array([0.5])

def L(W, X, b, y): # ==> 값이 여러개인 애들만 대문자로 함
    y_hat = X @ W.T + b
    # ==> W를 전치해서 (2, 3) @ (3,1) 로 연산이 가능한 모양으로
    loss = (y_hat - y) ** 2
    return np.mean(loss)

def dL_dW(W, X, b, y):
    y_hat = X @ W.T + b
    return np.mean(2 * (y_hat - y) * X, axis=0)

def dL_db(W, X, b, y):
    y_hat = X @ W.T + b
    return np.mean(2 * (y_hat - y), axis=0)

print(L(W, X, b, y)) # => 1.4499999999999997
print('L에 대한 W편미분 : ', dL_dW(W, X, b, y))
print('L에 대한 b편미분 : ', dL_db(W, X, b, y))
# => L에 대한 W편미분 :  [6.7 8.3 9.9]
# => L에 대한 b편미분 :  [1.6]


1.4499999999999997
L에 대한 W편미분 :  [6.7 8.3 9.9]
L에 대한 b편미분 :  [1.6]


In [None]:
# 자동미분
X = torch.tensor([[1., 2., 3.], [4., 5., 6.]]) # (2, 3)
y = torch.tensor([2.])
W = torch.tensor([[0.1, 0.2, 0.3]], requires_grad=True) # (1, 3)
b = torch.tensor([0.5], requires_grad=True)

def L(W, X, b, y): # ==> 값이 여러개인 애들만 대문자로 함
    y_hat = X @ W.T + b
    # ==> W를 전치해서 (2, 3) @ (3,1) 로 연산이 가능한 모양으로
    loss = (y_hat - y) ** 2
    return torch.mean(loss)

loss = L(W, X, b, y)
print(loss) # => tensor(1.4500, grad_fn=<MeanBackward0>)

loss.backward()
print(w.grad)
print(b.grad)
# => tensor(-18.)
# => tensor([1.6000])


## 07.Gradient Descent 가중치 업데이트 방식 비교


| 방식                | 설명                | 특징           |
| ----------------- | ----------------- | ------------ |
| **Batch GD**      | 전체 데이터로 한 번에 업데이트 | 가장 안정적, 느림   |
| **Mini-Batch GD** | 일부 데이터(배치)마다 업데이트 | 일반적인 학습 방식   |
| **SGD**           | 한 데이터마다 바로 업데이트   | 노이즈 큼, 빠른 반응 |




**공통 조건**


* 문제: 단순 선형 회귀 $y = wx + b$
* 손실: MSE (평균제곱오차)
* 데이터: 임의의 간단한 샘플로 구성 (2차원 입력, 100개 샘플)


### tensor 직접 제어

- BGD
- Mini-Batch GD
- SGD

In [None]:
# 데이터 생성
torch.manual_seed(42)

X = torch.randn(100, 2)
W_true = torch.tensor([[2.0, -3.0]])
b_true = torch.tensor([5.0])
y = X @ W_true + b_true + torch.randn(100, 1) * 0.5

print(X.shape, y.shape)
# => RuntimeError: mat1 and mat2 shapes cannot be multiplied (100x2 and 1x2)

In [None]:
# 데이터 생성
torch.manual_seed(42)

X = torch.randn(100, 2)
W_true = torch.tensor([[2.0, -3.0]])
b_true = torch.tensor([5.0])
y = X @ W_true.T + b_true + torch.randn(100, 1) * 0.5

print(X.shape, y.shape)
# => torch.Size([100, 2]) torch.Size([100, 1])

In [None]:
# 1. BGD
W = torch.zeros(1, 2, requires_grad=True)
b = torch.zeros(1, requires_grad=True)

lr = 0.1

for epoch in range(20):
    y_hat = X @ W.T + b
    loss = torch.mean((y_hat - y) ** 2) # 스칼라
    loss.backward()

    # 최적화함수 대신 직접 갱신
    with torch.no_grad():
        W -= lr * W.grad
        b -= lr * b.grad

        W.grad.zero_() # 메소드_ 형식일때는 in-place 처리 ( W.grad = W.grad.zer() 랑 같음)
        b.grad.zero_()

    print(f'epoch {epoch+1} : loss {loss.item():.4f}')


In [None]:
# 2. Mini-batch 방식
W = torch.zeros(1, 2, requires_grad=True)
b = torch.zeros(1, requires_grad=True)

lr = 0.1
batch_size = 20 # 100개의 샘플을 20개씩 5번 처리 (하나의 epoch당)

for epoch in range(20):
    indices = torch.randperm(X.size(0))
    # print(indices.numpy())

    for i in range(0, X.size(0), batch_size):
        batch_index = indices[i: i + batch_size]
        # print("         ", batch_index.numpy())

        X_batch = X[batch_index]
        y_batch = y[batch_index]
        # ==> 차례대로 batch size만큼 끌어와서 학?습

        y_hat = X_batch @ W.T + b
        loss = torch.mean((y_hat - y_batch) ** 2)

        loss.backward() # ==> 기울기 꼐산

        # 최적화함수 대신 직접 갱신
        with torch.no_grad(): # ==> 옵티마이저 대신 직접 하는거

            # 기울기 갱신
            W -= lr * W.grad
            b -= lr * b.grad

            # 기울기 초기화
            W.grad.zero_()
            b.grad.zero_()

    print(f'epoch {epoch+1} : loss {loss.item():.4f}')
    # ==> 출력 너무 많아서 일부로 한칸 앞에


In [None]:
# 3. SGD 확률적 경사하강법
# batch_size = 1 인 미니배치 경사하강법
W = torch.zeros(1, 2, requires_grad=True)
b = torch.zeros(1, requires_grad=True)

lr = 0.1

for epoch in range(20):
    indices = torch.randperm(X.size(0)) # 데이터 샘플 수 만큼 index를 뽑아둔 것

    for i in indices:
        X_i = X[i]
        y_i = y[i]

        y_hat = X_i @ W.T + b
        loss = torch.mean((y_hat - y_i) ** 2)

        loss.backward() # ==> 기울기 꼐산

        # 최적화함수 대신 직접 갱신
        with torch.no_grad(): # ==> 옵티마이저 대신 직접 하는거

            # 기울기 갱신
            W -= lr * W.grad
            b -= lr * b.grad

            # 기울기 초기화
            W.grad.zero_()
            b.grad.zero_()

    print(f'epoch {epoch+1} : loss {loss.item():.4f}')


## DataSet / DataLoader
- BGD
- Mini-batch GD
- SGD

In [None]:
# 데이터 생성
X = torch.linspace(0, 10, 100).unsqueeze(1)
y = 3 * X + 1 + torch.randn_like(X) * 0.5
# print(X)

In [None]:
# 데이터셋 클래스
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import Dataset

class MyDataset(Dataset):
    # Dataset 상속 시 len, getitem 필수 작성

    def __init__(self, X, y):
        super().__init__()
        self.X = X
        self.y = y

    def __len__(self):
        """ 전체 데이터 수를 반환 """
        return len(self.X)

    def __getitem__(self, idx):
        return self.X[idx], self.y[idx]


dataset = MyDataset(X, y)

model = nn.Linear(1, 1)
criterion = nn.MSELoss()
optimizer = optim.Adam(model.parameters(), lr=0.01)

In [None]:
# 1. BGD
from torch.utils.data import DataLoader


dataloader = DataLoader(dataset, batch_size=len(dataset), shuffle=True)
model = nn.Linear(1, 1)
optimizer = optim.Adam(model.parameters(), lr=0.01)

for epoch in range(200):
    for X_batch, y_batch in dataloader: # 1번 반복
        # print(X_batch, y_batch) # ==> range(1)로 바꾸고 확인하기
        optimizer.zero_grad()
        pred = model(X_batch)
        loss = criterion(pred, y_batch)
        loss.backward()
        optimizer.step()
    print(f'Epoch {epoch + 1} : Loss {loss.item():4f}')



In [None]:
# 2. Mini-batch
from torch.utils.data import DataLoader


# drop_last=True : 마지막 배치캐수가 지정한 batch_size보다 작은 경우 버림
# ==> drop_last = 100개(위에서 정함)를 batch_size로 나눴을 떄 남은 짜투리를 어떻게 처리할지 정함
dataloader = DataLoader(dataset, batch_size=16, shuffle=True, drop_last=True)
# ==>  batch_size만 바꿔주면 끝
model = nn.Linear(1, 1)
optimizer = optim.Adam(model.parameters(), lr=0.01)

for epoch in range(200):
    for X_batch, y_batch in dataloader:
        # print(len(X_batch)) # ==> range(1)로 바꾸고 확인하기
        optimizer.zero_grad()
        pred = model(X_batch)
        loss = criterion(pred, y_batch)
        loss.backward()
        optimizer.step()
    print(f'Epoch {epoch + 1} : Loss {loss.item():4f}')



In [None]:
# 3. SGD
from torch.utils.data import DataLoader


dataloader = DataLoader(dataset, batch_size=1, shuffle=True)
model = nn.Linear(1, 1)
optimizer = optim.Adam(model.parameters(), lr=0.01)

for epoch in range(200):
    for X_batch, y_batch in dataloader:
        # print(len(X_batch)) # ==> range(1)로 바꾸고 확인하기
        optimizer.zero_grad()
        pred = model(X_batch)
        loss = criterion(pred, y_batch)
        loss.backward()
        optimizer.step()
    print(f'Epoch {epoch + 1} : Loss {loss.item():4f}')

