edwith의 부스트 코스 : "파이토치로 시작하는 딥러닝 기초" 를 바탕으로 작성되었습니다.  
https://www.boostcourse.org/ai214

# Linear Regression
- Data definition
- Hypothesis
- Compute loss
- Gradient descent

## Data definition
본 장에서 model 하려고 하는 것은 공부한 시간과 성적간의 관계임.

실제로 주어진 데이터, 공부한 시간과 성적은 training data 라고 함.  
학습이 끝난 후 model 을 판별하기 위한 data를 test data 라고 함.

model 을 학습시키기 위한 data 는 `torch.tensor` 의 형태를 띄고 입력과 출력을 각기 다른 tensor 에 저장함.  
입력 : x_train (공부한 시간)  
출력 : y_train (성적)  

```python
x_train = torch.FloatTensor([[1], [2], [3]])
y_train = torch.FloatTensor([[2], [4], [6]])
```

## Hypothesis

$$y = Wx + b$$
Linear regression 은 학습 data 와 가장 잘 맞는 하나의 직선을 찾는 일임.  
이러한 직선 y 는 위의 식처럼 나타낼 수 있음.   
여기서 x애 곱해지는 W(weight), b(bias)는 각각 가중치, 편향이라는 뜻을 가짐. 

먼저 W, b 를 정의 해줌. 0으로 초기화를 시켜준 후, W와 b를 학습시키기 위해 requires_grad 라는 옵션값은 True로 지정함. 

```python
W = torch.zeros(1, requires_grad=True)
b = torch.zeros(1, requires_grad=True)

hypothesis = x_train * W + b
```

## Compute loss
학습을 하려면 얼마나 정답과 가까운지 알아야한. 이 숫자를 cost loss 라고 함.  
Linear regression 에서는 이 cost, loss 를 계산하기 위한 함수로 MSE, mean Squared Error 이라고 함.  
$$cost(W, b) = \frac{1}{m} \sum^{m}_{i=1} \left(H(x^{(i)}) - y^{(i)} \right)^{2}$$ 

MSE로 계산된 loss 값은 단순히 예측값과 실제 Training dataset 의 y 값의 차이를 제곱해서 평균한 값임.  
이를 PyTorch로 다음과 같이 구현할 수 있음

```python
cost = torch.mean((hypothesis - y_train) ** 2)
```

## Gradient descent
loss 값을 줄이기 위해 경사하강법을 사용하는데 SGD stochastic Gradient Descent 방법을 사용함.  
`torch.optim` 라이브러리에 해당 경사하강법 함수가 존재. 이를 optimizer 로 설정해줌. 

```python
optimizer = optim.SGD([w, b], lr=0.01)
```
학습시킬 값을 리스트 형태로 넣어주고, learning_rate 값을 지정

아래의 코드 3줄은 gradient 초기화, gradient 계산, step() 으로 업데이트하는 코드로 실질적으로 학습을 시켜주는 코드임
```python
optimizer.zero_grad()
cost.backward()
optimizer.step()
```


In [10]:
import torch
import torch.optim as optim

x_train = torch.FloatTensor([[1], [2], [3]])
y_train = torch.FloatTensor([[2], [4], [6]])

W = torch.zeros(1, requires_grad=True)
b = torch.zeros(1, requires_grad=True)

optimizer = optim.SGD([W, b], lr=0.01)

epoch = 1000
for _ in range(1, epoch + 1):
    hypothesis = x_train * W + b
    cost = torch.mean((hypothesis - y_train) ** 2)
    
    optimizer.zero_grad()
    cost.backward()
    optimizer.step()

print('학습 완료', '\nW : ', W, '\nb : ', b)

학습 완료 
W :  tensor([1.9708], requires_grad=True) 
b :  tensor([0.0664], requires_grad=True)


이렇게 반복적으로 학습을 진행하면 W와 b가 각각 하나의 숫자로 수렴하게 됨. 