# 경사 하강법(Gradient Descent)  
- 배치 경사 하강법
- 확률적 경사 하강법
- 미니배치 경사 하강법

## 다항식 생성

**𝑦 ̂=𝜃_0+𝜃_1 𝑥_1+𝜃_2 𝑥_2+⋯+𝜃_𝑛 𝑥_𝑛**

In [1]:
import numpy as np
import matplotlib as plt

np.random.seed(1)

x1 = np.random.rand(100)
x2 = np.random.rand(100)
x3 = np.random.rand(100)

#다항식 정의
y=0.5*x1+0.3*x2+0.7*x3+0.6

w1 = np.random.uniform(low=-1.0, high=1.0)
w2 = np.random.uniform(low=-1.0, high=1.0)
w3 = np.random.uniform(low=-1.0, high=1.0)

bias = np.random.uniform(low=-1.0, high=1.0)

print("다항식: (0.5*X1)+(0.3*X2)+(0.7*X3)+0.6")
print(f"시작 다항식: ({w1}*X1)+({w2}*X2)+({w3}*X3)+{bias}")

다항식: (0.5*X1)+(0.3*X2)+(0.7*X3)+0.6
시작 다항식: (0.6237173954410795*X1)+(0.7499232899117962*X2)+(0.3768265047718866*X3)+0.13898882549075142


### 배치 경사 하강법(Batch Gradient Descent)

1. 전체 학습 데이터를 하나의 batch로 묶어 학습시키는 경사하강법을 말한다.    
2. 일반적으로 경사 하강법을 말한다면 배치 경사 하강법을 의미한다.  

**장점**  
* 전체 학습 데이터에 대해 한번의 연산이 시행되기 때문에 연산 횟수가 적다.
* 전체 데이터에 대해 그래디언트를 계산하여 진행하기 때문에, 수렴이 안정적으로 진행된다.(장점이자 단점:local minima 발생 가능성이 증가함)  
  
**단점**
* local minima 문제에 빠지기 쉽다.
* 전체 데이터를 한 번에 처리해야하기 때문에 많은 메모리가 필요하다.

#### 𝜃^((𝑛𝑒𝑥𝑡 𝑠𝑡𝑒𝑝))=𝜃−𝜂∇_𝜃 𝑀𝑆𝐸(𝜃)  
* 기울기가 양수라면 음의 방향으로 x를 옮기고 기울기가 음수라면 양의 방향으로 x를 옮긴다.

<u>clear()← 편의상 초기화함수를 만들었습니다.</u>

In [2]:
def clear():
    x1 = np.random.rand(100)
    x2 = np.random.rand(100)
    x3 = np.random.rand(100)
    
    y=0.5*x1+0.3*x2+0.7*x3+0.6
    w1 = np.random.uniform(low=-1.0, high=1.0)
    w2 = np.random.uniform(low=-1.0, high=1.0)
    w3 = np.random.uniform(low=-1.0, high=1.0)
    
    bias = np.random.uniform(low=-1.0, high=1.0)
    

In [3]:
np.random.seed(1)

clear()

#학습 횟수
epoch=1000

#학습률
lr=0.5

for i in range(epoch):
    predict=w1*x1+w2*x2+w3*x3+bias
    
    #MSE
    error = ((predict - y)**2).mean()
    
    w1 = w1 - 2*lr*((predict - y)*x1).mean()
    w2 = w2 - 2*lr*((predict - y)*x2).mean()
    w3 = w3 - 2*lr*((predict - y)*x3).mean()
    
    bias = bias - 2*lr*(predict - y).mean()
    
    if i%10 == 0:        
        print("epoch", i, "w1= ", w1 , "w2= ", w2, "w3= ", w3,"bias= ", bias, "error= ", error)
        
    if error < 0.000001:
        break
        
print("학습 완료: ","w1= ", w1 , "w2= ", w2, "w3= ", w3,"bias= ", bias, "error= ", error)

epoch 0 w1=  0.7888048891846277 w2=  0.8827749229682258 w3=  0.6000135051280101 bias=  0.5010159578166877 error=  0.1588294379116109
epoch 10 w1=  0.6338108537682828 w2=  0.5263795570271584 w3=  0.6582659833031241 bias=  0.47863629584535794 error=  0.009268771110196859
epoch 20 w1=  0.5721611907341524 w2=  0.39706279801997035 w3=  0.6962116047134397 bias=  0.5208067543977063 error=  0.0015805270347264188
epoch 30 w1=  0.5406593883077175 w2=  0.34428725217893363 w3=  0.7090555071770006 bias=  0.5519965789570817 error=  0.0003902956831623779
epoch 40 w1=  0.5233217374858541 w2=  0.32126493022425534 w3=  0.7108233493430988 bias=  0.5710212362288867 error=  0.0001144161639667147
epoch 50 w1=  0.5135600180414222 w2=  0.31070932122120165 w3=  0.7090148707857701 bias=  0.582381429418219 error=  3.782061999287842e-05
epoch 60 w1=  0.5079863506121942 w2=  0.3056395091761132 w3=  0.7066010580911658 bias=  0.5892120768825869 error=  1.3488398153833027e-05
epoch 70 w1=  0.504759859921235 w2=  0.30

### 확률적 경사 하강법(Stochastic Gradient Descent)
1.진행되는 step마다 한 개의 샘플을 무작위로 선택하고 선택된 샘플에 대한 기울기를 계산한다.  

**장점**  
* 매우 적은 데이터셋을 처리하기 때문에 처리속도가 빠르다.  
* local minima 문제를 해결하기 용이하다.  

**단점**  
* 불안정하게 수렴한다.

In [4]:
np.random.seed(2)

clear()

epoch=1000
lr=0.5

for i in range(epoch):
    x1_sgd = np.random.choice(x1)
    x2_sgd = np.random.choice(x2)
    x3_sgd = np.random.choice(x3)
    y_sgd = 0.5*x1_sgd + 0.3*x2_sgd + 0.7*x3_sgd + 0.6
    
  
    predict_sgd = w1*x1_sgd + w2*x2_sgd + w3*x3_sgd + bias
    
  
    w1 = w1 - 2*lr*((predict_sgd - y_sgd)*x1_sgd)
    w2 = w2 - 2*lr*((predict_sgd - y_sgd)*x2_sgd)
    w3 = w3 - 2*lr*((predict_sgd - y_sgd)*x3_sgd)
    bias = bias - 2*lr * (predict_sgd - y_sgd)
    

    predict = w1*x1 + w2*x2 + w3 + bias
    error = ((y - predict)**2).mean()
    
    if i%100 == 0:
        print("| epoch ", epoch,"| w1= ", w1, "| w2= ", w2, "| w3= ", w3,"| bias= ", bias, "| error= ", error)
        
    if i < 0.000001:
        break
        
print("학습 완료: ","| w1= ", w1 , "| w2= ", w2, "| w3= ", w3,"| bias= ", bias, "| error= ", error)


| epoch  1000 | w1=  0.5023676025092302 | w2=  0.3016448630384415 | w3=  0.7026010675193107 | bias=  0.5982504196253167 | error=  0.13645976547692393
학습 완료:  | w1=  0.5023676025092302 | w2=  0.3016448630384415 | w3=  0.7026010675193107 | bias=  0.5982504196253167 | error=  0.13645976547692393


### 미니 배치 경사하강법(Mini-Batch Stochastic Gradient Descent)
1.전체 데이터를 N등분하고 각각의 학습 데이터를 배치 방식으로 학습한다.

**특징**
- bgd와 sgd의 장점을 결합한 형태


In [5]:
np.random.seed(3)

clear()

epoch=10
lr=0.5


for i in range(epoch):
    print("epoch: ", i)
    print("-"*50)
    batch_size = 10
    batch_number = 100/10
    start = 0
    end = 10
    
    for iteration in range(int(batch_number)):
        x1_batch = x1[start: end]
        x2_batch = x2[start: end]
        x3_batch = x3[start: end]
        y_batch = 0.4*x1_batch + 0.3*x2_batch + 0.7*x3_batch + 0.6
        
        start += 10
        end += 10

        predict_batch = w1*x1_batch + w2*x2_batch + w3*x3_batch + bias

   
        w1 = w1 - 2*lr*((predict_batch - y_batch)*x1_batch).mean()
        w2 = w2 - 2*lr*((predict_batch - y_batch)*x2_batch).mean()
        w3 = w3 - 2*lr*((predict_batch - y_batch)*x3_batch).mean()
        bias = bias - 2*lr * (predict_batch - y_batch).mean()

        predict = w1*x1 + w2*x2 + w3*x3 + bias
        error = ((y - predict)**2).mean()

        print("iteration ", iteration,"| w1= ", w1, "| w2= ", w2, "| w3= ", w3,"| bias= ", bias, "| error= ", error)

    if error < 0.000001:
            break
print("학습 완료: ","| w1= ", w1 , "| w2= ", w2, "| w3= ", w3,"| bias= ", bias, "| error= ", error)

epoch:  0
--------------------------------------------------
iteration  0 | w1=  0.48751358474493944 | w2=  0.28083765133854954 | w3=  0.6786188332881772 | bias=  0.5649572695735684 | error=  0.0039638346717659175
iteration  1 | w1=  0.4896338891764221 | w2=  0.2905136680022561 | w3=  0.6866008849816067 | bias=  0.5821439878711558 | error=  0.0012519753372817622
iteration  2 | w1=  0.4652464968568942 | w2=  0.28599169983616796 | w3=  0.676556933243502 | bias=  0.5600511255269344 | error=  0.006034865569841523
iteration  3 | w1=  0.4733150284618749 | w2=  0.3028735088174844 | w3=  0.6894101940843715 | bias=  0.5855313902891923 | error=  0.0010877187870094486
iteration  4 | w1=  0.45699064755753516 | w2=  0.2971923011392916 | w3=  0.685301699275525 | bias=  0.5685383254183647 | error=  0.004001539684372399
iteration  5 | w1=  0.4613838071940182 | w2=  0.3068211663610783 | w3=  0.697497023407061 | bias=  0.5888358424025933 | error=  0.0009191649179891212
iteration  6 | w1=  0.447217707909