# Linear Regression

- linear regression 에 대한 gradient descent 를 직접 구현해본다.
    - OR 문제
    - XOR 문제
- 손실 함수의 최솟값인(실제와 예측의 차이가 최소가 됐다는 뜻) 지점의 가중치를 찾고 싶으니까 경사 하강법을 사용해서 손실을 줄여 나가는 것
    - 조금 더 상세히:
        1. 목표: 손실 함수의 최솟값 찾기
           - 이 최솟값에서 모델의 예측과 실제 값의 차이가 가장 작습니다.
        2. 방법: 경사 하강법 사용
           - 손실 함수의 기울기(그래디언트)를 계산합니다.
           - 이 기울기를 따라 조금씩 내려가면서 손실을 줄여나갑니다.
        3. 과정:
           - 현재 가중치에서 손실 함수의 기울기를 계산합니다.
           - 기울기의 반대 방향으로 가중치를 조금씩 조정합니다.
           - 이 과정을 반복하여 점진적으로 손실을 줄여나갑니다.
        4. 결과:
           - 이 과정을 통해 손실 함수가 최소가 되는 지점의 가중치를 찾게 됩니다.
           - 이 가중치를 사용하면 모델의 예측이 실제 값과 가장 가깝게 됩니다.
        - 이 접근 방식의 핵심은 "점진적 개선"입니다. 한 번에 최적의 가중치를 찾는 것이 아니라, 조금씩 개선해 나가면서 최적점에 접근하는 것입니다.
        - 예를 들어, 선형 회귀에서:
            1. 처음에는 예측이 실제 값과 많이 다를 수 있습니다.
            2. 경사 하강법을 통해 가중치를 조정합니다.
            3. 조정된 가중치로 다시 예측을 합니다.
            4. 새 예측은 이전보다 실제 값에 더 가까워집니다.
            5. 이 과정을 반복하면서 점점 더 좋은 예측을 하게 됩니다.
        
        - 이 방법은 복잡한 모델(예: 딥러닝)에서도 동일하게 적용되며, 대부분의 머신러닝 알고리즘의 학습 과정에서 핵심적인 역할을 합니다.

## 경사 하강법(Gradient Descent)
- 최적화 알고리즘으로, 함수의 최소값을 찾는 데 사용
- 머신러닝에서는 주로 손실 함수를 최소화하는 모델 파라미터를 찾는 데 사용됩니다.
### 경사 하강법의 기본 아이디어와 작동 방식
1. 현재 위치에서 함수의 기울기(그래디언트)를 계산합니다.
2. 기울기의 반대 방향으로 작은 스텝을 이동합니다.
3. 새로운 위치에서 1, 2를 반복합니다.
4. 기울기가 0에 가까워지거나 정해진 반복 횟수에 도달하면 종료합니다.

### 예시: 1차원 함수 최소화
간단한 1차 함수 f(x) = x^2 + 2를 최소화하는 예를 들어보겠습니다.

1. 초기화
    - 시작점 x = 5 (임의의 값)
    - 학습률(learning rate) α = 0.1
2. 반복
    a) 그래디언트 계산: f'(x) = 2x
    b) x 업데이트: x = x - α * f'(x)
1회차:
    f'(5) = 2 * 5 = 10
    x = 5 - 0.1 * 10 = 4

2회차:
    f'(4) = 2 * 4 = 8
    x = 4 - 0.1 * 8 = 3.2

... (반복)
10회차:
    f'(0.5242) ≈ 1.0484
    x ≈ 0.4193

이런 식으로 계속 반복하면 x는 0에 수렴하게 됩니다 (f(x)의 최소점).

### 실제 머신러닝에서의 적용
선형 회귀를 예로 들어보겠습니다.
목표는 MSE(평균 제곱 오차)를 최소화하는 가중치 w와 편향 b를 찾는 것입니다.

1. 초기화
    - w와 b를 랜덤한 작은 값으로 초기화
    - 학습률 α 설정 (예: 0.01)
2. 반복
    a) 예측: ŷ = wx + b
    b) 손실 계산: MSE = (1/n) * Σ(y - ŷ)^2
    c) 그래디언트 계산:
        ∂MSE/∂w = (2/n) * Σ(wx + b - y)x
        ∂MSE/∂b = (2/n) * Σ(wx + b - y)
    d) 파라미터 업데이트:
        w = w - α * (∂MSE/∂w)
        b = b - α * (∂MSE/∂b)
3. 종료 조건 확인
    - 손실이 충분히 작아졌거나
    - 그래디언트가 거의 0이 되었거나
    - 최대 반복 횟수에 도달

In [1]:
import torch

## OR 문제
- 0 or 0 -> 0
- 0 or 1 -> 1
- 1 or 0 -> 1
- 1 or 1 -> 1

In [2]:
x = torch.tensor(
    [
        [0.0, 0.0],
        [0.0, 1.0],
        [1.0, 0.0],
        [1.0, 1.0],
    ]
)
y = torch.tensor([0, 1, 1, 1])
print(x.shape, y.shape)

torch.Size([4, 2]) torch.Size([4])


- linear regression 의 $w, b$ 를 정의한다.
- 우리가 찾을 식은 b + $wi*xi + wi-1*xi-1 + ... + w0*x0 = y$
- 이 문제에 맞게 표현하면, $b + \mathbf{w}^T \mathbf{x} = y$
        $$
        \mathbf{w} = \begin{bmatrix} w_1 \\ w_2 \end{bmatrix}, \quad
        \mathbf{x} = \begin{bmatrix} x_1 \\ x_2 \end{bmatrix}
        $$ 
- 즉 벡터 $w$ 와 스칼라 $b$ 를 찾는 것


## 학습한 모델의 성능을 측정
- 왜냐하면, 잘 학습을 했는지 잘못 학습을 했는지 판별해야하니까. 
    - 잘못 학습을 했다면, 내용을 바꿔서 다시 학습해야죠.
- Linear Regression 에서는 성능 평가 함수(loss function)로 주로 MSE(Mean Squared Error) 를 사용한다.
    - MSE: 예측값과 실제값의 차이의 제곱을 평균한 값.
        - 이것을 사용하는 이유는 다음과 같다.
            - 제곱을 사용함으로써, 오차의 방향을 무시(음수 오차든 양수 오차든 동등하게 취급)
            - 제곱을 사용함으로써, 큰 오차일 수록 큰 가중치가 적용되는 것
                - 예를들어, 오차가 2면 제곱일 때 4고, 오차가 3이면 제곱일 때 9인데 평균을 내니까 오차가 3인 것의 가중치가 큰 것
            - 미분이 가능해서 최적화 알고리즘을 사용하기에 적합하다.
            - 단위가 원래 변수의 제곱이라서 직관적으로 이해하기가 쉽다.
            - 통계적으로 가우시안 노이즈를 가정할 때 최대 우도 추정과 관련이 있다는데 이건 무슨 소리인지 모르겠음
    $$MSE = \frac{1}{n} \sum_{i=1}^n (y_i - \hat{y}_i)^2$$
    - $n$은 데이터 포인트의 수
    - $y_i$는 실제값
    - $\hat{y}_i$는 예측값

In [3]:
def predict(w, b, x):
    return torch.matmul(x, w.T) + b  # (N, 1) shape 인 tensor


def loss(y, pred):
    # torch.nn.MSELoss() 와 같음
    return (
        (y - pred).pow(2).mean()
    )  # (N, 1) 과 (N, 1) 에 대해서 연산 진행 후 scalar 반환

- MSE 기반으로 $w$ 와 $b$ 의 gradient 를 구하는 수식은 아래와 같음
- $w$의 gradient
$$\frac{\partial l}{\partial w} = \frac{1}{n} \sum_{i=1}^n 2(wx_i^T + b - y)x_i.$$
    - $\frac{\partial l}{\partial w}$: MSE 손실 함수 l에 대한 w의 편미분
    - $\frac{1}{n}$: n개의 샘플에 대한 평균
    - $\sum_{i=1}^n$: 모든 샘플에 대해 합산
    - $wx_i^T + b$: i번째 샘플에 대한 예측값
    - $y_i$: i번째 샘플의 실제값
    - $(wx_i^T + b - y_i)$: 예측값과 실제값의 차이 (오차)
    - $2(wx_i^T + b - y_i)$: MSE의 미분 결과로 나오는 2를 곱한 항
    - $x_i$: 오차와 입력을 곱함 (체인 룰 적용)

- $b$에 대한 gradient
$$\frac{\partial l}{\partial b} = \frac{1}{n} \sum_{i=1}^n 2(wx_i^T + b - y).$$
    - $\frac{\partial l}{\partial b}$: MSE 손실 함수 l에 대한 b의 편미분
    - 나머지 항목들은 w의 그래디언트와 동일한 의미를 가집니다.
    - w의 그래디언트와 다른 점은 마지막에 $x_i$를 곱하지 않는다는 것입니다.

In [4]:
def cal_gradient_w(w, b, x, y):
    tmp1 = torch.matmul(w, x.T)
    tmp2 = tmp1 + b
    tmp3 = 2 * (tmp2 - y[None])
    grad_item = tmp3.T * x
    return grad_item.mean(dim=0, keepdim=True)


def cal_gradient_b(w, b, x, y):
    grad_item = 2 * (torch.matmul(w, x.T) + b - y[None])
    return grad_item.mean(dim=-1, keepdim=True)

## Gradient Descent
$$w^{(new)} = w^{(old)} - \eta \frac{\partial l}{\partial w} \biggr\rvert_{w = w^{(old)}}$$

In [5]:
def update(x, y, w, b, lr):
    w = w - lr * cal_gradient_w(w, b, x, y)
    b = b - lr * cal_gradient_b(w, b, x, y)
    return w, b

In [6]:
def train(n_epochs, lr, w, b, x, y):
    for e in range(n_epochs):
        w, b = update(x, y, w, b, lr)
        print(
            "Epoch",
            e,
            "Loss:",
            loss(y, predict(w, b, x)),
        )
    return w, b

In [7]:
w = torch.randn((1, 2))  # 1 행 2 열
b = torch.randn((1, 1))  # 1 행 1 열
print(w.shape, b.shape)

torch.Size([1, 2]) torch.Size([1, 1])


In [8]:
w, b = train(100, 0.1, w, b, x, y)

Epoch 0 Loss: tensor(2.1933)
Epoch 1 Loss: tensor(1.5819)
Epoch 2 Loss: tensor(1.2778)
Epoch 3 Loss: tensor(1.1215)
Epoch 4 Loss: tensor(1.0355)
Epoch 5 Loss: tensor(0.9826)
Epoch 6 Loss: tensor(0.9450)
Epoch 7 Loss: tensor(0.9146)
Epoch 8 Loss: tensor(0.8876)
Epoch 9 Loss: tensor(0.8624)
Epoch 10 Loss: tensor(0.8383)
Epoch 11 Loss: tensor(0.8151)
Epoch 12 Loss: tensor(0.7928)
Epoch 13 Loss: tensor(0.7714)
Epoch 14 Loss: tensor(0.7508)
Epoch 15 Loss: tensor(0.7312)
Epoch 16 Loss: tensor(0.7124)
Epoch 17 Loss: tensor(0.6944)
Epoch 18 Loss: tensor(0.6774)
Epoch 19 Loss: tensor(0.6611)
Epoch 20 Loss: tensor(0.6456)
Epoch 21 Loss: tensor(0.6309)
Epoch 22 Loss: tensor(0.6169)
Epoch 23 Loss: tensor(0.6035)
Epoch 24 Loss: tensor(0.5908)
Epoch 25 Loss: tensor(0.5788)
Epoch 26 Loss: tensor(0.5673)
Epoch 27 Loss: tensor(0.5563)
Epoch 28 Loss: tensor(0.5459)
Epoch 29 Loss: tensor(0.5360)
Epoch 30 Loss: tensor(0.5266)
Epoch 31 Loss: tensor(0.5176)
Epoch 32 Loss: tensor(0.5090)
Epoch 33 Loss: tenso

In [9]:
print(predict(w, b, x))
print(y)

tensor([[0.2152],
        [0.7459],
        [0.7444],
        [1.2751]])
tensor([0, 1, 1, 1])


## XOR
- 0 xor 0 -> 0
- 0 xor 1 -> 1
- 1 xor 0 -> 1
- 1 xor 1 -> 0

In [10]:
x = torch.tensor([[0.0, 0.0], [0.0, 1.0], [1.0, 0.0], [1.0, 1.0]])
y = torch.tensor([0, 1, 1, 0])
print(x.shape, y.shape)

torch.Size([4, 2]) torch.Size([4])


In [11]:
# w = torch.randn((1, 2))
# b = torch.randn((1, 1))

In [12]:
w, b = train(100, 0.1, w, b, x, y)
print(w, b)

Epoch 0 Loss: tensor(0.3888)
Epoch 1 Loss: tensor(0.3551)
Epoch 2 Loss: tensor(0.3357)
Epoch 3 Loss: tensor(0.3237)
Epoch 4 Loss: tensor(0.3155)
Epoch 5 Loss: tensor(0.3094)
Epoch 6 Loss: tensor(0.3045)
Epoch 7 Loss: tensor(0.3004)
Epoch 8 Loss: tensor(0.2967)
Epoch 9 Loss: tensor(0.2935)
Epoch 10 Loss: tensor(0.2905)
Epoch 11 Loss: tensor(0.2878)
Epoch 12 Loss: tensor(0.2852)
Epoch 13 Loss: tensor(0.2829)
Epoch 14 Loss: tensor(0.2807)
Epoch 15 Loss: tensor(0.2786)
Epoch 16 Loss: tensor(0.2767)
Epoch 17 Loss: tensor(0.2749)
Epoch 18 Loss: tensor(0.2733)
Epoch 19 Loss: tensor(0.2717)
Epoch 20 Loss: tensor(0.2703)
Epoch 21 Loss: tensor(0.2689)
Epoch 22 Loss: tensor(0.2677)
Epoch 23 Loss: tensor(0.2665)
Epoch 24 Loss: tensor(0.2654)
Epoch 25 Loss: tensor(0.2644)
Epoch 26 Loss: tensor(0.2634)
Epoch 27 Loss: tensor(0.2625)
Epoch 28 Loss: tensor(0.2617)
Epoch 29 Loss: tensor(0.2609)
Epoch 30 Loss: tensor(0.2602)
Epoch 31 Loss: tensor(0.2595)
Epoch 32 Loss: tensor(0.2589)
Epoch 33 Loss: tenso

In [13]:
print(predict(w, b, x))
print(y)

tensor([[0.4849],
        [0.4979],
        [0.4979],
        [0.5109]])
tensor([0, 1, 1, 0])


- 제대로 처리하지 못함.