# LinearRegression from Scratch


# 구현할 것
- 공부시간과 성적간의 관계를 모델링한다.
    - **머신러닝 모델(모형)이란** 수집한 데이터를 기반으로 입력값(Feature)와 출력값(Target)간의 관계를 하나의 공식으로 정의한 함수이다. 그 공식을 찾는 과정을 **모델링**이라고 한다.
    - 이 예제에서는 공부한 시험시간으로 점수를 예측하는 모델을 정의한다.
    - 입력값과 출력값 간의 관계를 정의할 수있는 다양한 함수(공식)이 있다. 여기에서는 딥러닝과 관계가 있는 **Linear Regression** 을 사용해본다.

# 데이터 확인
- 입력데이터: 공부시간
- 출력데이터: 성적

|공부시간|점수|
|-|-|
|1|20|
|2|40|
|3|60|

우리가 수집한 공부시간과 점수 데이터를 바탕으로 둘 간의 관계를 식으로 정의 할 수 있으면 **내가 몇시간 공부하면 점수를 얼마 받을 수 있는지 예측할 수 있게 된다.**   
수집한 데이터를 기반으로 앞으로 예측할 수있는 모형을 만드는 것이 머신러닝 모델링이다.

  

## 학습(훈련) 데이터셋 만들기
- 모델을 학습시키기 위한 데이터셋을 구성한다.
- 입력데이터와 출력데이터을 각각 다른 행렬로 구성한다.
- 하나의 데이터 포인트의 입력/출력 값은 같은 index에 정의한다.

### 선형회귀 (Linear Regression)
- Feature들의 가중합을 이용해 Target을 추정한다.
- Feature에 곱해지는 가중치(weight)들은 각 Feature가 Target 얼마나 영향을 주는지 영향도가 된다.
    - 음수일 경우는 target값을 줄이고 양수일 경우는 target값을 늘린다.
    - 가중치가 0에 가까울 수록 target에 영향을 주지 않는 feature이고 0에서 멀수록 target에 많은 영향을 준다.
- 모델 학습과정에서 가장 적절한 Feature의 가중치를 찾아야 한다.
      

\begin{align}
&\large \hat{y} = W\cdot X + b\\
&\small \hat{y}: \text{모델추정값}\\
&\small W: \text{가중치}\\
&\small X: \text{Feature(입력값)}\\
&\small b: \text{bias(편향)}
\end{align}



## Train dataset 구성
- Train data는 feature(input)와 target(output) 각각 2개의 행렬로 구성한다.
- Feature의 행은 관측치(개별 데이터)를 열을 Feature(특성, 변수)를 표현한다. 이 문제에서는 `공부시간` 1개의 변수를 가진다.
- Target은 모델이 예측할 대상으로 행은 개별 관측치, 열은 각 항목에 대한 정답으로 구성한다.   
  이 문제에서 예측할 항목은 `시험점수` 한개이다.

In [3]:
study_hours = [[1], [2], [3]]
scores = [[20],[40],[60]]

In [4]:
import torch

X_train = torch.tensor(study_hours, dtype=torch.float32)
y_train = torch.tensor(scores, dtype=torch.float32)


A module that was compiled using NumPy 1.x cannot be run in
NumPy 2.1.2 as it may crash. To support both 1.x and 2.x
versions of NumPy, modules must be compiled with NumPy 2.0.
Some module may need to rebuild instead e.g. with 'pybind11>=2.12'.

If you are a user of the module, the easiest solution will be to
downgrade to 'numpy<2' or try to upgrade the affected module.
We expect that some modules will need time to support NumPy 2.

Traceback (most recent call last):  File "<frozen runpy>", line 198, in _run_module_as_main
  File "<frozen runpy>", line 88, in _run_code
  File "/opt/miniconda3/envs/ml/lib/python3.12/site-packages/ipykernel_launcher.py", line 18, in <module>
    app.launch_new_instance()
  File "/opt/miniconda3/envs/ml/lib/python3.12/site-packages/traitlets/config/application.py", line 1075, in launch_instance
    app.start()
  File "/opt/miniconda3/envs/ml/lib/python3.12/site-packages/ipykernel/kernelapp.py", line 739, in start
    self.io_loop.start()
  File "/opt/min

NameError: name 'study_hours' is not defined

## 파라미터 (weight, bias) 정의
- 학습대상 / 최적화대상

In [5]:
X_train

tensor([[1.],
        [2.],
        [3.]])

In [7]:
# y_pred = X_train * weight + bias
# 랜덤한 값 생성
weight = torch.randn(1, 1, requires_grad=True) # shape (1:X의 feature갯수, 1: 출력값(예측)의 갯수)
bias = torch.randn(1, requires_grad=True)

weight, bias

(tensor([[-2.0236]], requires_grad=True), tensor([0.1116], requires_grad=True))

In [8]:
# 추론 (W * x + b)
pred = X_train @ weight + bias
pred

tensor([[-1.9120],
        [-3.9357],
        [-5.9593]], grad_fn=<AddBackward0>)

In [20]:
# 오차 - MSE
loss = torch.mean((y_train - pred) ** 2)
loss

tensor(1480.9337, grad_fn=<MeanBackward0>)

In [21]:
# weight, bias gradient 계산
loss.backward()

In [22]:
weight.grad, bias.grad

(tensor([[-166.2587]]), tensor([-70.9980]))

In [24]:
# weight 값 변경
# new_weight = weight - weight.grad * learning_rate
lr = 0.01
new_weight = weight.data - weight.grad * lr
new_bias = bias.data - bias.grad * lr

In [26]:
print(new_weight.data, weight.data)
print(new_bias.data, bias.data)

tensor([[3.4656]]) tensor([[1.8030]])
tensor([1.6050]) tensor([0.8950])


In [30]:
pred2 = torch.mean(X_train @ new_weight + new_bias)
loss2 = torch.mean((y_train - pred2) ** 2)

print(pred2, loss2)

tensor(8.5361) tensor(1256.6406)


### 모델링

In [10]:
weight =  torch.randn(1, 1, requires_grad=True)
bias = torch.randn(1, requires_grad=True)

In [11]:
# 추론 함수 (예측 모델)
def linear_model(X) :
    return X @ weight + bias

# 오차 계산 함수 (MSE)
def loss_fn(pred, y) :
    return torch.mean((pred-y) ** 2)

### 학습
1. 모델을 이용해 추정한다.
   - pred = model(input)
1. loss를 계산한다.
   - loss = loss_fn(pred, target)
1. 계산된 loss를 파라미터에 대해 미분하여 계산한 gradient 값을 각 파라미터에 저장한다.
   - loss.backward()
1. optimizer를 이용해 파라미터를 update한다.
   - optimizer.step()  
1. 파라미터의 gradient(미분값)을 0으로 초기화한다.
   - optimizer.zero_grad()
- 위의 단계를 반복한다.   

In [15]:
epochs = range(1000) # 반복 횟수
lr = 0.01

for epoch in epochs :
    # 1. 추정
    pred = linear_model(X_train)
    # 2. loss 계산
    loss = loss_fn(pred, y_train)
    # 3. parameter들의 gradient를 계산
    loss.backward()
    # 4. parameter update
    weight.data = weight.data - weight.grad * lr
    bias.data = bias.data -  bias.grad * lr
    # 5. gradient 초기화
    weight.grad = None
    bias.grad = None
    # 로그 출력
    if epoch % 100 == 0 or epoch == 1000-1 :
        print(f"{epoch+1}/{epochs} loss = {loss.item():.5f}")

1/range(0, 1000) loss = 0.00046
101/range(0, 1000) loss = 0.00028
201/range(0, 1000) loss = 0.00017
301/range(0, 1000) loss = 0.00011
401/range(0, 1000) loss = 0.00007
501/range(0, 1000) loss = 0.00004
601/range(0, 1000) loss = 0.00003
701/range(0, 1000) loss = 0.00002
801/range(0, 1000) loss = 0.00001
901/range(0, 1000) loss = 0.00001
1000/range(0, 1000) loss = 0.00000


In [50]:
weight.data, bias.data

(tensor([[19.7538]]), tensor([0.5597]))

In [18]:
new_X = torch.tensor([[5], [4], [2]], dtype=torch.float32)
linear_model(new_X)

tensor([[99.9938],
        [79.9961],
        [40.0006]], grad_fn=<AddBackward0>)

# 다중 입력, 다중 출력
- 다중입력: Feature가 여러개인 경우
- 다중출력: Output 결과가 여러개인 경우

다음 가상 데이터를 이용해 사과와 오렌지 수확량을 예측하는 선형회귀 모델을 정의한다.  
[참조](https://www.kaggle.com/code/aakashns/pytorch-basics-linear-regression-from-scratch)


|온도(F)|강수량(mm)|습도(%)|사과생산량(ton)|오렌지생산량|
|-|-|-|-:|-:|
|73|67|43|56|70|
|91|88|64|81|101|
|87|134|58|119|133|
|102|43|37|22|37|
|69|96|70|103|119|

```
사과수확량  = w11 * 온도 + w12 * 강수량 + w13 * 습도 + b1
오렌지수확량 = w21 * 온도 + w22 * 강수량 + w23 *습도 + b2
```

- `온도`, `강수량`, `습도` 값이 **사과**와, **오렌지 수확량**에 어느정도 영향을 주는지 가중치를 찾는다.
    - 모델은 사과의 수확량, 오렌지의 수확량 **두개의 예측결과를 출력**해야 한다.
    - 사과에 대해 예측하기 위한 weight 3개와 오렌지에 대해 예측하기 위한 weight 3개 이렇게 두 묶음, 총 6개의 weight를 정의하고 학습을 통해 가장 적당한 값을 찾는다.
        - `개별 과일를 예측하기 위한 weight들 @ feature들` 의 계산 결과를  **Node, Unit, Neuron** 이라고 한다.
        - 두 과일에 대한 Unit들을 묶어서 **Layer** 라고 한다.
- 목적은 우리가 수집한 train 데이터셋을 이용해 **정확한 예측을 위한 weight와 bias 들**을 찾는 것이다.

## Train Dataset
- Train data는 feature(input)와 target(output) 각각 2개의 행렬로 구성한다.
- Feature의 행은 관측치(개별 데이터)를 열을 Feature(특성, 변수)를 표현한다. 이 문제에서는 `온도, 강수량, 습도` 세개의 변수를 가진다.
- Target은 모델이 예측할 대상으로 행은 개별 관측치, 열은 각 항목에 대한 정답으로 구성한다. 이 문제에서 예측할 항목은 `사과수확량, 오렌지 수확량` 2개의 값이다.

In [2]:
#  input: 생산환경 (temp, rainfall, humidity) : (5, 3)
environs = [
    [73, 67, 43], 
    [91, 88, 64], 
    [87, 134, 58], 
    [102, 43, 37], 
    [69, 96, 70]
]

# Targets: 생산량 - (apples, oranges) - (5, 2)
apple_orange_output = [
    [56, 70], 
    [81, 101], 
    [119, 133], 
    [22, 37], 
    [103, 119]
]

In [6]:
# data set tenor 처리
X = torch.tensor(environs, dtype=torch.float32)
y = torch.tensor(apple_orange_output, dtype=torch.float32)

## weight와 bias
- weight: 각 feature들이 생산량에 영향을 주었는지의 가중치로 feature에 곱해줄 값.
    - 사과, 오렌지의 생산량을 구해야 하므로 가중치가 두개가 된다.
    - weight의 shape: `(3, 2)`
- bias는 모든 feature들이 0일때 생산량이 얼마일지를 나타내는 값으로 feature와 weight간의 가중합 결과에 더해줄 값이다.
    - 사과, 오렌지의 생산량을 구하므로 bias가 두개가 된다.
    - bias의 shape: `(2, )`

### Linear Regression model
모델은 weights `w`와 inputs `x`의 내적(dot product)한 값에 bias `b`를 더하는 함수.

$$
\hspace{2.5cm} X \hspace{1.1cm} \cdot \hspace{1.2cm} W \hspace{1.2cm}  + \hspace{1cm} b \hspace{2cm}
$$

$$
\left[ \begin{array}{cc}
73 & 67 & 43 \\
91 & 88 & 64 \\
\vdots & \vdots & \vdots \\
69 & 96 & 70
\end{array} \right]
%
\cdot
%
\left[ \begin{array}{cc}
w_{11} & w_{21} \\
w_{12} & w_{22} \\
w_{13} & w_{23}
\end{array} \right]
%
+
%
\left[ \begin{array}{cc}
b_{1} & b_{2} \\
b_{1} & b_{2} \\
\vdots & \vdots \\
b_{1} & b_{2} \\
\end{array} \right]
$$


<center style="font-size:0.9em">
$w_{11},\,w_{12},\,w_{13}$: 사과 생산량 계산시 각 feature들(생산환경)에 곱할 가중치   <br>
$w_{21},\,w_{22},\,w_{23}$: 오렌지 생산량 계산시 각 feature들(생산환경)에 곱할 가중치    
</center>

<center>
<img src="figures/3_unit_layer.png">
</center>

In [30]:
# weight / bias 정의 -> 초기값은 random

weight = torch.randn(3, 2, requires_grad=True)
bias = torch.randn(2, requires_grad=True)

# weight(3: input feature 갯수 , 2 : output 갯수)
# bias (2 : output 갯수)

In [38]:
pred = X @ weight + bias
pred

tensor([[  98.5771,  -22.2787],
        [ 126.6030,  -30.1395],
        [ 167.5319, -116.6961],
        [  92.1661,   43.9837],
        [ 121.9021,  -61.9948]], grad_fn=<AddBackward0>)

In [40]:
# loss 계산 (MSE)
loss = torch.mean((pred - y)**2) # 전체 추론한 결과의 평균 오차를 계산
loss

tensor(13239.7314, grad_fn=<MeanBackward0>)

In [41]:
# loss를 가지고 파라미터들 (weight, bias)의 gradient 계산
loss.backward()

In [42]:
weight.data

tensor([[ 0.5367,  0.9635],
        [ 0.9293, -1.7289],
        [-0.0547,  0.5288]])

In [44]:
weight.grad

tensor([[  3988.2917, -10433.9824],
        [  3640.1494, -13651.4873],
        [  2296.7097,  -7850.9058]])

In [45]:
bias.data,  bias.grad

(tensor([-0.5091,  0.4881]), tensor([  45.1560, -129.4251]))

In [47]:
# 파라미터 업데이트
lr = 0.00001

weight.data = weight.data - lr * weight.grad
bias.data = bias.data - lr * bias.grad

pred2 = X @ weight + bias
loss2 = torch.mean((pred2 - y) ** 2)

loss.item(), loss2.item()

(13239.7314453125, 6804.6806640625)

##  모델링

In [48]:
weight = torch.randn(3, 2, requires_grad=True)
bias = torch.randn(2, requires_grad=True)

# 모델 정의
def model(X) :
    return X @ weight + bias

# loss 함수 (MSE)
def loss_fn(pred, y) :
    return torch.mean((pred - y) ** 2) # 전체 오차의 평균

In [54]:
epochs = 5000
lr = 0.00001

for epoch in range(epochs) :
    # 1. 추론
    pred = model(X)
    # 2. loss 계산
    loss = loss_fn(pred, y)
    # 3. parameter들 gradient 계산
    loss.backward()
    # 4. parameter update
    weight.data = weight.data - lr * weight.grad
    bias.data = bias.data - lr * bias.grad
    # 5. gradient 초기화
    weight.grad =  None
    bias.grad = None
    # 6. log 출력
    if epoch % 100 == 0 or epoch == epochs-1 :
        print(f"{epoch+1:04d}/{epochs} loss = {loss.item():.5f}")

0001/5000 loss = 0.53224
0101/5000 loss = 0.53225
0201/5000 loss = 0.53225
0301/5000 loss = 0.53224
0401/5000 loss = 0.53224
0501/5000 loss = 0.53224
0601/5000 loss = 0.53224
0701/5000 loss = 0.53224
0801/5000 loss = 0.53224
0901/5000 loss = 0.53224
1001/5000 loss = 0.53224
1101/5000 loss = 0.53224
1201/5000 loss = 0.53224
1301/5000 loss = 0.53224
1401/5000 loss = 0.53224
1501/5000 loss = 0.53224
1601/5000 loss = 0.53224
1701/5000 loss = 0.53223
1801/5000 loss = 0.53223
1901/5000 loss = 0.53223
2001/5000 loss = 0.53223
2101/5000 loss = 0.53223
2201/5000 loss = 0.53223
2301/5000 loss = 0.53223
2401/5000 loss = 0.53223
2501/5000 loss = 0.53223
2601/5000 loss = 0.53223
2701/5000 loss = 0.53223
2801/5000 loss = 0.53222
2901/5000 loss = 0.53222
3001/5000 loss = 0.53223
3101/5000 loss = 0.53222
3201/5000 loss = 0.53222
3301/5000 loss = 0.53222
3401/5000 loss = 0.53222
3501/5000 loss = 0.53222
3601/5000 loss = 0.53222
3701/5000 loss = 0.53222
3801/5000 loss = 0.53222
3901/5000 loss = 0.53222


In [57]:
# 새로운 데이터로 추론

p = model(X)
print(p)
print(y)

tensor([[ 57.4188,  70.1766],
        [ 82.0480, 100.7532],
        [118.6512, 132.9801],
        [ 21.0494,  37.0318],
        [101.9616, 119.1167]], grad_fn=<AddBackward0>)
tensor([[ 56.,  70.],
        [ 81., 101.],
        [119., 133.],
        [ 22.,  37.],
        [103., 119.]])


In [60]:
new_X = torch.tensor([68, 82, 56],  dtype=torch.float32)
new_X = new_X.unsqueeze(dim=0)

model(new_X)

tensor([[81.0113, 95.4744]], grad_fn=<AddBackward0>)

# pytorch built-in 모델을 사용해 Linear Regression 구현

In [71]:
inputs = torch.tensor(
    [[73, 67, 43], 
     [91, 88, 64], 
     [87, 134, 58], 
     [102, 43, 37], 
     [69, 96, 70]], dtype=torch.float32)

In [72]:
targets = torch.tensor(
    [[56, 70], 
    [81, 101], 
    [119, 133], 
    [22, 37], 
    [103, 119]], dtype=torch.float32)

## nn.Linear
Pytorch는 nn.Linear 클래스를 통해 Linear Regression 모델을 제공한다.  
nn.Linear에 입력 feature의 개수와 출력 값의 개수를 지정하면 random 값으로 초기화한 weight와 bias들을 생성해 모델을 구성한다.

In [76]:
import torch

## Optimizer와 Loss 함수 정의
- torch.optim 모듈에 다양한 Optimizer 클래스가 구현되있다.
- torch.nn 또는 torch.nn.functional 모듈에 다양한 Loss 함수가 제공된다. 이중 mse_loss() 를 사용한다.

In [77]:
# 선형 회귀 모델 정리
import torch
import torch.nn as nn

model = nn.Linear(3, 2) # 3 : input feature 갯수 , 2 : output 갯수 # weight, bias, X @ weight + bias

In [78]:
loss_fn = torch.nn.functional.mse_loss # 함수
# loss_fn = torch.nn.MSELoss() 클래스 -> 객체 생성

In [79]:
# optimizer (torch.optim 모듈에 정의) weight.data = weight.data - lr * weight.grad
optimizer = torch.optim.SGD(
    model.parameters(), # 최적화 대상 파라미터들을 모델에서 조회해 전달
    lr = 0.00001,
)

list(model.parameters()) # 1번 텐서 weight / 2번 텐서 bias

[Parameter containing:
 tensor([[-0.3517,  0.1757,  0.2677],
         [-0.0240, -0.1319, -0.1833]], requires_grad=True),
 Parameter containing:
 tensor([ 0.0005, -0.3246], requires_grad=True)]

## Model Train

In [81]:
# 학습 로직 함수 구현
def train (inputs, targets, epochs, model, loss_fn, optimizer)  :
    lr = 0.00001
    
    for epoch in range(epochs) :
        # 추론
        pred = model(inputs)
        # loss 계산
        loss = loss_fn(pred, targets) # torch.nn.functionall.mse_losss(pred, targets)
        # gradient 계산
        loss.backward()
        # 파라미터 업데이트
        optimizer.step()
        # 파라미터 초기화
        optimizer.zero_grad()
        # 로그
        if epoch % 100 == 0 or epoch == epochs - 1 :
            print(f"{epoch}/{epochs} - {loss.item()}")

In [86]:
model = nn.Linear(3, 2)
optimizer = torch.optim.SGD(model.parameters(), lr=0.0001)

train(inputs, targets, 5000, model, nn.functional.mse_loss, optimizer)

0/5000 - 12772.0078125
100/5000 - 4.411526679992676
200/5000 - 1.1059350967407227
300/5000 - 0.5996366143226624
400/5000 - 0.522042453289032
500/5000 - 0.5101489424705505
600/5000 - 0.5083187818527222
700/5000 - 0.5080389976501465
800/5000 - 0.5079915523529053
900/5000 - 0.507982075214386
1000/5000 - 0.5079742670059204
1100/5000 - 0.5079706907272339
1200/5000 - 0.5079675912857056
1300/5000 - 0.5079671740531921
1400/5000 - 0.5079569816589355
1500/5000 - 0.5079562067985535
1600/5000 - 0.5079514384269714
1700/5000 - 0.507946252822876
1800/5000 - 0.5079442262649536
1900/5000 - 0.5079383850097656
2000/5000 - 0.5079374313354492
2100/5000 - 0.5079326033592224
2200/5000 - 0.5079256296157837
2300/5000 - 0.5079246163368225
2400/5000 - 0.5079189538955688
2500/5000 - 0.5079146027565002
2600/5000 - 0.5079125761985779
2700/5000 - 0.5079047679901123
2800/5000 - 0.5079020857810974
2900/5000 - 0.5078997611999512
3000/5000 - 0.5078930854797363
3100/5000 - 0.5078886151313782
3200/5000 - 0.507886052131652