

## 1. Cost Function (비용 함수) 정의

**최소 제곱 오차(Mean Squared Error, MSE)**를 기반으로 한 비용 함수의 정의입니다.

$$
\text{cost}(W) = \frac{1}{m}\sum_{i=1}^{m} (Wx^{(i)} - y^{(i)})^2
$$

$\Downarrow$

경사 하강법의 미분 계산을 용이하게 하기 위해 $\frac{1}{2}$을 추가하여 재정의합니다.

$$
\text{cost}(W) = \frac{1}{2m}\sum_{i=1}^{m} (Wx^{(i)} - y^{(i)})^2
$$

---

## 2. Gradient Descent (경사 하강법)

비용 함수 $\text{cost}(W)$를 최소화하기 위해 가중치 $W$를 업데이트하는 공식입니다.

$\alpha (런닝레이트)$

**기본 공식:**

$$
W := W - \alpha \frac{\partial}{\partial W} \text{cost}(W)
$$

---

## 3. Full Update Equation (전체 업데이트 수식)

재정의된 $\text{cost}(W)$를 경사 하강법 공식에 대입하고 $W$에 대해 편미분한 결과입니다.

$$
W := W - \alpha \frac{\partial}{\partial W} \frac{1}{2m} \sum_{i=1}^{m} (Wx^{(i)} - y^{(i)})^2
$$

**편미분 적용:**

$$
W := W - \alpha \frac{1}{2m} \sum_{i=1}^{m} 2(Wx^{(i)} - y^{(i)}) x^{(i)}
$$

**최종 업데이트 공식:**

$$
W := W - \alpha \frac{1}{m} \sum_{i=1}^{m} (Wx^{(i)} - y^{(i)}) x^{(i)}
$$

---

### 수식 표기 설명:

* **$W$**: 가중치 (Weight)
* **$x^{(i)}$**: $i$번째 훈련 데이터의 입력 값 (특징)
* **$y^{(i)}$**: $i$번째 훈련 데이터의 실제 레이블 (정답)
* **$m$**: 훈련 데이터의 총 개수
* **$\alpha$**: 학습률 (Learning Rate)
* **$Wx^{(i)}$**: $i$번째 데이터에 대한 **예측 값** ($\hat{y}^{(i)}$)

In [2]:
import matplotlib.pyplot as plt
import numpy as np

In [3]:
def mse( x, y, w ):
    c = 0
    for i in range( len(x)):
        hx = w*x[i]
        c = c+ (hx-y[i])**2
    return c/len(x)

In [4]:
def gradient( x, y, w ):
    c = 0
    for i in range( len(x)):
        hx = w*x[i]
        c = c+ (hx-y[i])*x[i]
    return c/len(x)

In [5]:
x_data = np.array( [1,2,3] )
y_data = np.array( [1,2,3] )

In [6]:
w = 10
for epoch in range(200):
    c = mse( x_data, y_data, w)
    g = gradient( x_data,y_data, w)
    w = w-0.1*g
    print( epoch, "cost=", c, "w=", w)
print("w=", w)

0 cost= 378.0 w= 5.8
1 cost= 107.51999999999998 w= 3.56
2 cost= 30.583466666666666 w= 2.365333333333333
3 cost= 8.69929718518518 w= 1.7281777777777778
4 cost= 2.47446675489712 w= 1.3883614814814815
5 cost= 0.7038483213929583 w= 1.2071261234567903
6 cost= 0.2002057447517751 w= 1.1104672658436214
7 cost= 0.05694741184050483 w= 1.0589158751165981
8 cost= 0.016198374923521403 w= 1.0314218000621858
9 cost= 0.004607537756023892 w= 1.0167582933664991
10 cost= 0.0013105885172690224 w= 1.008937756462133
11 cost= 0.0003727896226898598 w= 1.004766803446471
12 cost= 0.0001060379371206724 w= 1.002542295171451
13 cost= 3.0161902114324568e-05 w= 1.0013558907581073
14 cost= 8.579385490296031e-06 w= 1.0007231417376572
15 cost= 2.4403585394623746e-06 w= 1.000385675593417
16 cost= 6.941464290019953e-07 w= 1.0002056936498225
17 cost= 1.9744609536079287e-07 w= 1.0001097032799053
18 cost= 5.616244490256599e-08 w= 1.0000585084159495
19 cost= 1.597509543893363e-08 w= 1.0000312044885065
20 cost= 4.544027147100

$$
W := W - \alpha \frac{\partial}{\partial W} \text{cost}(W)
$$

$$
\frac{\partial}{\partial W} \text{cost}(W)
$$