# 경사 하강법(Gradient Descent)

## 다항식 생성

**𝑦 ̂=𝜃_0+𝜃_1 𝑥_1+𝜃_2 𝑥_2+⋯+𝜃_𝑛 𝑥_𝑛**

In [1]:
import numpy as np
import matplotlib as plt

np.random.seed(42)

x1 = np.random.rand(100)
x2 = np.random.rand(100)
x3 = np.random.rand(100)

#다항식 정의
y=0.5*x1+0.3*x2+0.7*x3+0.6

w1 = np.random.uniform(low=-1.0, high=1.0)
w2 = np.random.uniform(low=-1.0, high=1.0)
w3 = np.random.uniform(low=-1.0, high=1.0)

bias = np.random.uniform(low=-1.0, high=1.0)

print("다항식: (0.5*X1)+(0.3*X2)+(0.7*X3)+0.6")
print(f"시작 다항식: ({w1}*X1)+({w2}*X2)+({w3}*X3)+{bias}")

다항식: (0.5*X1)+(0.3*X2)+(0.7*X3)+0.3
시작 다항식: (-0.8966365576627846*X1)+(0.06270926313629599*X2)+(0.08127024322021303*X3)+0.2748598029964131


## 경사 하강법  
- 배치 경사 하강법
- 확률적 경사 하강법
- 미니배치 경사 하강법

### 배치 경사 하강법(Batch Gradient Descent)

1. 전체 학습 데이터를 하나의 batch로 묶어 학습시키는 경사하강법을 말한다.    
2. 일반적으로 경사 하강법을 말한다면 배치 경사 하강법을 의미한다.  

**장점**  
* 전체 학습 데이터에 대해 한번의 연산이 시행되기 때문에 연산 횟수가 적다.
* 전체 데이터에 대해 그래디언트를 계산하여 진행하기 때문에, 수렴이 안정적으로 진행된다.(장점이자 단점:local minima 발생 가능성이 증가함)  
  
**단점**
* 지역 최적화 상태가 되면 빠져나오기 힘들다.
* 전체 데이터를 한 번에 처리해야하기 때문에 많은 메모리가 필요하다.

#### 𝜃^((𝑛𝑒𝑥𝑡 𝑠𝑡𝑒𝑝))=𝜃−𝜂∇_𝜃 𝑀𝑆𝐸(𝜃)  
* 기울기가 양수라면 음의 방향으로 x를 옮기고 기울기가 음수라면 양의 방향으로 x를 옮긴다.

<u>clear()← 편의상 초기화함수를 만들었습니다.</u>

In [17]:
def clear():
    global x1,x2,x3,y,w1,w2,w3,bias
    
    x1 = np.random.rand(100)
    x2 = np.random.rand(100)
    x3 = np.random.rand(100)
    
    y=0.5*x1+0.3*x2+0.7*x3+0.6
    
    w1 = np.random.uniform(low=-1.0, high=1.0)
    w2 = np.random.uniform(low=-1.0, high=1.0)
    w3 = np.random.uniform(low=-1.0, high=1.0)
    
    bias = np.random.uniform(low=-1.0, high=1.0)

In [15]:
clear()

#학습 횟수
epoch=1000

#학습률
lr=0.5

for i in range(epoch):
    predict=w1*x1+w2*x2+w3*x3+bias
    
    #MSE
    error = ((predict - y)**2).mean()
    
    w1 = w1 - 2*lr*((predict - y)*x1).mean()
    w2 = w2 - 2*lr*((predict - y)*x2).mean()
    w3 = w3 - 2*lr*((predict - y)*x3).mean()
    
    bias = bias - 2*lr*(predict - y).mean()
    
    if i%10 == 0:        
        print("epoch", i, "w1= ", w1 , "w2= ", w2, "w3= ", w3,"bias= ", bias, "error= ", error)
        
    if error < 0.000001:
        break
        
print("학습 완료: ","w1= ", w1 , "w2= ", w2, "w3= ", w3,"bias= ", bias, "error= ", error)

epoch 0 w1=  0.6450190135871198 w2=  1.6019913722037358 w3=  -0.009154326398487789 bias=  1.416827882436558 error=  2.1884223852020215
epoch 10 w1=  0.5358162148606961 w2=  0.7386426608850817 w3=  0.23677364799861242 bias=  0.794350238340745 error=  0.08713002179807486
epoch 20 w1=  0.5275377901352251 w2=  0.4627084743529975 w3=  0.45235901719458127 bias=  0.6668275990533399 error=  0.008992821464873775
epoch 30 w1=  0.5203487283405774 w2=  0.36289648879875636 w3=  0.5733681566573198 bias=  0.6311152558971026 error=  0.0017484804520239788
epoch 40 w1=  0.5127092982497067 w2=  0.32444785769821277 w3=  0.6357128278008094 bias=  0.6168466897167567 error=  0.0004032653538179698
epoch 50 w1=  0.5070885552121236 w2=  0.3092780624308609 w3=  0.6672505152693967 bias=  0.609672014871212 error=  9.853490433595831e-05
epoch 60 w1=  0.5036547559538269 w2=  0.30330032901934934 w3=  0.6832061824583263 bias=  0.6056773338270333 error=  2.4964515815261574e-05
epoch 70 w1=  0.5017672271807347 w2=  0.30