# Implementing linear regression with gradient descent from scratch

우리는 주어진 샘플을 가장 잘 설명할 수 있는 직선을 구하고자 합니다.

![](https://miro.medium.com/v2/resize:fit:810/format:webp/1*1Y77kIQXPfM3wy9c8Kr7ig.png)

In [None]:
import numpy as np

In [None]:
np.random.seed(0)
x = np.random.rand(100)
print(x)

In [None]:
# 우리는 w와 b를 모릅니다!
w_true = 3
b_true = 5
y = w_true*x + b_true + np.random.rand(100) - 0.5
print(y)

In [None]:
import matplotlib.pyplot as plt
plt.rcParams["figure.figsize"] = (20, 10)
plt.rc('font', size=20)

plt.plot(x, w_true*x + b_true, 'r-')
plt.scatter(x, y)
plt.show()

Mean square error를 정의해 봅시다.

$$ MSE = \frac{1}{n} \sum_{\textrm{for all i's}}(\hat{y_i}-y_i)^2$$
- $ \hat{y_i}$: predicted value 
- $ y_i$: true value

주요 아이디어는 그래디언트의 반대 방향으로 작은 단계를 반복적으로 수행하여 미분 가능 함수의 로컬 최소값을 찾는 것

![](https://miro.medium.com/v2/resize:fit:790/format:webp/1*4Wob-p3zS7V9hBPlJ6kJjA.png)

- 선형 회귀의 경우 로컬 최소값을 찾아 손실 함수(MSE)를 최소화해야 함을 의미함
- 따라서 그래디언트를 계산하고 반복적으로 반대 방향으로 작은 단계를 수행
- 그래디언트를 계산할 수 있으려면 몇 가지 작업이 필요함
    - 각 매개변수에 대한 손실 함수의 1차 편도함수를 도출해야 함

우선, loss function을 정의해 봅시다.
$$ \displaystyle \mathcal{L}(w, b) = \frac{1}{2n}\sum_{i=0}^{N-1}(\hat{y_i}-y_i)^2 = \frac{1}{2n}\sum_{i=0}^{N-1}\{(wx_i+b)-y_i\}^2 $$

In [None]:
def calc_loss(w, b, x, y):
    n = len(x)
    return (1/(2*n))*((w * x + b - y)**2).sum()

$w$에 대한 편미분: (let, $z = (wx_i+b)-y_i$)

1. $ \displaystyle \mathcal{L} = \frac{1}{2n}(z)^2$

2. $ \displaystyle \frac{\partial \mathcal{L}}{\partial z} = \frac{1}{2n}2z = \frac{1}{n}((wx_i+b)-y_i)$

3. $ \displaystyle \frac{\partial z}{\partial w} = \frac{\partial}{\partial w}((wx_i+b)-y_i) = x_i$

$ \displaystyle \therefore \frac{\partial \mathcal{L}}{\partial w} = \frac{\partial \mathcal{L}}{\partial z} \frac{\partial z}{\partial w} = \frac{1}{n}((wx_i+b)-y_i)x_i$

In [None]:
def calc_dldw(w, b, x, y):
    n = len(x)
    output = 0
    for ind in range(n):
        output += (w * x[ind] + b - y[ind]) * x[ind]
    output = output / n
    return output

$b$에 대한 편미분: (let, $z = (wx_i+b)-y_i$)

1. $ \displaystyle \mathcal{L} = \frac{1}{2n}(z)^2$

2. $ \displaystyle \frac{\partial \mathcal{L}}{\partial z} = \frac{1}{2n}2z = \frac{1}{n}((wx_i+b)-y_i)$

3. $ \displaystyle \frac{\partial z}{\partial b} = \frac{\partial}{\partial b}((wx_i+b)-y_i) = 1$

$ \displaystyle \therefore \frac{\partial \mathcal{L}}{\partial b} = \frac{\partial \mathcal{L}}{\partial z} \frac{\partial z}{\partial b} = \frac{1}{n}((wx_i+b)-y_i)$

In [None]:
def calc_dldb(w, b, x, y):
    n = len(x)
    output = 0
    for ind in range(n):
        output += (w * x[ind] + b - y[ind])
    output = output / n
    return output

우리는 $w$와 $b$에 대해 모르니, 랜덤하게 초기화합니다.

In [None]:
w_esti = 10*np.random.rand(1)
b_esti = 10*np.random.rand(1)
print(w_esti, b_esti)

현재의 cost를 계산합니다.

In [None]:
calc_loss(w_esti, b_esti, x, y)

샘플 중 랜덤하게 10개 선택합시다.

In [None]:
idx = np.random.randint(100, size=10)

Iteration 이후 $w$와 $b$가 증가할지 감소할지 예상해 봅시다.

In [None]:
print(calc_dldw(w_esti, b_esti, x[idx], y[idx]))
print(calc_dldb(w_esti, b_esti, x[idx], y[idx]))

In [None]:
plt.scatter(x, y)
plt.scatter(x[idx], y[idx], c='r')
plt.show()

In [None]:
print(f"w_estimation_prev: {w_esti}, b_estimation_prev: {b_esti}")
dldw = calc_dldw(w_esti, b_esti, x[idx], y[idx])
dldb = calc_dldb(w_esti, b_esti, x[idx], y[idx])

In [None]:
alpha = 0.1

w_esti = w_esti - alpha*dldw
b_esti = b_esti - alpha*dldb
print(f"w_estimation_curr: {w_esti}, b_estimation_curr: {b_esti}")

In [None]:
for iter in range(1000):
    print(f"Trial: {iter}")
    print(f"Current error: {calc_loss(w_esti, b_esti, x, y)}")
    print(f"w_esti: {w_esti.round(4)}, b_esti: {b_esti.round(4)}")
    idx = np.random.randint(100, size=10)
    dldw = calc_dldw(w_esti, b_esti, x[idx], y[idx])
    dldb = calc_dldb(w_esti, b_esti, x[idx], y[idx])
    w_esti = w_esti - alpha*dldw
    b_esti = b_esti - alpha*dldb


In [None]:
plt.plot(x, w_true*x + b_true, label='Real')
plt.plot(x, w_esti*x + b_esti, label='Estimation')
plt.scatter(x, y)
plt.legend()
plt.show()