## 딥러닝 모델 학습방법
- loss function: 예측값과 실제값간의 오차값
    - 손실 함수(loss function)는 실제값과 모델이 예측한 값 간의 차이를 계산해주는 함수입니다. 
    - 손실 함수의 값은 가중치와 편향을 업데이트하는 데에 사용됩니다. 
    - MSE (Mean Squared Error)
        - MSE는 평균 제곱 오차 함수로, 수식은 다음과 같습니다.
        ![image-6.png](attachment:image-6.png)
        $Loss(w0​,w1​)​=1/N​∑​(yi​−f(xi​))^2
                    =1/N​(yi​−(w0​+w1​xi​))^2​$
        - 여기서 $f(xi​)=w0​+w1​xi​$는 모델 $f(x)$에 $xi$를 넣어서 나온 예측값이다.
- optimization: 오차값을 최소화하는 모델의 인자를 찾는것

- gradient descent: 가장 기본적인 최적화 알고리즘
    - gradient는 기울기 벡터를 의미
    - 선형 함수의 각 파라미터들의 편미분으로 구성된 열벡터로 정의
    -  학습률(learning rate)을 나타내는 $α$가 있고, gradient를 나타내는 수식인 $\triangledown Loss(W)$가 있다.
    ![image-2.png](attachment:image-2.png)
    ![image.png](attachment:image.png)
    - 우리가 구해야할 $w0$, $w1$에 대한 gradient는 다음과 같다.
    ![image-3.png](attachment:image-3.png)
    - $w0$, $w1$에 대한 gradient를 구하기 위해 $Loss$를 각각에 대해 편미분하면 다음과 같다.
    ![image-4.png](attachment:image-4.png)
- 가중치
    - 위와 같이 구한 $w0$, $w1$의 gradient를 $α$를 이용해 가중치를 업데이트하는 공식
    ![image-5.png](attachment:image-5.png)

    

In [1]:
import numpy as np

# 사용할 1차 선형 회귀 모델

def linear_model(w0, w1, X):
    
    f_x = w0 + w1 * X
    
    return f_x
    
'''
1. 설명 중 '손실 함수' 파트의 수식을 참고해
   MSE 손실 함수를 완성하세요. 
'''

def Loss(f_x, y):
    
    ls = np.mean(np.square(y - f_x))
    
    return ls

'''
2. 설명 중 'Gradient' 파트의 마지막 두 수식을 참고해 두 가중치
   w0와 w1에 대한 gradient인 'gradient0'와 'gradient1'을
   반환하는 함수 gradient_descent 함수를 완성하세요.
   
   Step01. w0에 대한 gradient인 'gradient0'를 작성합니다.
   
   Step02. w1에 대한 gradient인 'gradient1'을 작성합니다.
'''

def gradient_descent(w0, w1, X, y):
    
    gradient0 = 2 * np.mean((y - (w0 + w1 * X)) * -1)
    gradient1 = 2 * np.mean((y - (w0 + w1 * X)) * -1 * X)
    
    return np.array([gradient0, gradient1])

'''
3. 설명 중 '가중치 업데이트' 파트의 두 수식을 참고해 
   gradient descent를 통한 가중치 업데이트 코드를 작성하세요.
   
   Step01. 앞서 완성한 gradient_descent 함수를 이용해
           w0와 w1에 대한 gradient인 'gd'를 정의하세요.
           
   Step02. 변수 'w0'와 'w1'에 두 가중치 w0와 w1을 
           업데이트하는 코드를 작성합니다. 앞서 정의한
           변수 'gd'와 이미 정의된 변수 'lr'을 사용하세요.
'''

def main():
    
    X = np.array([1,2,3,4]).reshape((-1,1))
    y = np.array([3.1, 4.9, 7.2, 8.9]).reshape((-1,1))
    
    # 파라미터 초기화
    w0 = 0
    w1 = 0
    
    # learning rate 설정
    lr = 0.001
    
    # 반복 횟수 1000으로 설정
    for i in range(1000):
    
        gd = gradient_descent(w0, w1, X, y)
        
        w0 = w0 - lr * gd[0]
        w1 = w1 - lr * gd[1]
        
        # 100회마다의 해당 loss와 w0, w1 출력
        if (i % 100 == 0):
        
            loss = Loss(linear_model(w0,w1,X),y)
        
            print("{}번째 loss : {}".format(i, loss))
            print("{}번째 w0, w1 : {}, {}".format(i, w0, w1),'\n')

    return w0, w1

if __name__ == '__main__':
    main()

0번째 loss : 39.80526573375
0번째 w0, w1 : 0.012050000000000002, 0.03505 

100번째 loss : 1.4088818550020328
100번째 w0, w1 : 0.5956839328965645, 1.7137245928510965 

200번째 loss : 0.08492622860667261
200번째 w0, w1 : 0.7129266308916146, 2.0222518370363343 

300번째 loss : 0.03808809478420731
300번째 w0, w1 : 0.7433441610180002, 2.0765698140220747 

400번째 loss : 0.03531467697283942
400번째 w0, w1 : 0.7573915882750667, 2.0837935212742202 

500번째 loss : 0.03412659366543372
500번째 w0, w1 : 0.7681528769083021, 2.0823608526346415 

600번째 loss : 0.033056629416450725
600번째 w0, w1 : 0.7780637167868475, 2.079403378165377 

700번째 loss : 0.032050551054706465
700번째 w0, w1 : 0.787583266851497, 2.0762423007849082 

800번째 loss : 0.031103013292289844
800번째 w0, w1 : 0.7968036334081118, 2.0731204929145344 

900번째 loss : 0.030210557013104773
900번째 w0, w1 : 0.8057485947959019, 2.070080758386106 

