4.경사하강법

Contents
<div id="toc"></div>

# 1. 경사하강법

경사 하강법 (GD; Gradient Descent)
- 주어진 문제의 **비용 함수의 결과 값을 최소화** 하도록 반복하여 매개변수를 조정해 가는 최적화(optimization) 기법 중 하나
- "늦은 밤에 산 속에서 길을 잃었을 때 가장 좋은 방법은 매 위치에서 가장 가파른 **경사를 따라서 아래로 내려가는 것**"

- 변수 θ에 대해서 비용 함수의 현재 경사(gradient)를 계산하여 비용 함수의 값이 감소되는 방향으로 진행한다.
- 결과적으로 경사가 0이 되면 비용 함수의 값은 최소값에 수렴하게 된다.

- 학습 스텝은 매 계산마다 적용되는 이동 거리에 해당하며, **학습률(learning rate)**이라고 한다.
    - 이 학습률이 너무 작은 경우에는 결과 값이 최소값에 수렴하기까지 계산 반복이 많이 발생한다.
    - 반대로, 학습률이 너무 큰 경우에는 아예 반대쪽으로 건너 뛰어서 잘못된 곳으로 가게 될 수도 있다

- 경사 하강법은 **전역 최적값(global optimum)**을 찾지 못하고 **지역 최적값(local optimum)**을 구하게 될 수도 있다는 문제가 있다

In [6]:
x_old = 0
x_new = 5

learning_rate = 0.01
precision = 0.000001

def cost_function(x):
    return 4+x**3 -9 *x**2

while abs(x_new - x_old) > precision:
    x_old = x_new
    x_new = x_old - learning_rate * cost_function(x_old)
    
print("지역 최적값 =", x_new)

지역 최적값 = 8.95006461747015


- 경사 하강법의 구현 예시
![image.png](img/ch4_1.png)

## 1.1. 회귀 분석에서의 경사 하강법
- 선형 회귀 분석에서의 비용 함수 RSS는 2차 함수이면서 볼록 함수(convex function)이므로, 별도의 지역 최소값이 없고 1개의 전역 최소값만 존재한다.
- 따라서 선형 회귀에서는 경사 하강법을 이용하여 RSS의 전역 최소값을 구할 수 있다.

## 1.2. 경사 하강법의 유형
- 경사 하강법은 학습 데이터를 어떻게 할당하는가에 따라서 크게 3종류로 구분할 수 있다. 
  
  
1. 배치 경사 하강법 (batch gradient descent)
    - 경사를 1회 계산하기 위해서 전체 학습 데이터를 사용
2. 확률적 경사 하강법 (SGD; stochastic gradient descent)
    - 경사를 1회 계산하기 위해서 1개의 학습 데이터를 사용
3. 미니배치 경사 하강법 (mini-batch gradient descent)
    - 경사를 1회 계산하기 위해서 일부 학습 데이터를 사용

- 배치 (Batch)
    - 1회의 경사 업데이트에 사용되는 데이터 집합
    - 이 때 사용되는 데이터 집합의 개수를 배치 크기라고 한다. 
        - 예) 전체 데이터가 100개 있을 때 배치 크기가 20이면 :  
            1개의 배치마다 20개의 데이터가 있다.  
            배치는 총 5개가 있고, 경사는 5회 업데이트된다.  
  
  
- 에폭 (Epoch)
    - 전체 데이터들을 한 번 사용한 횟수, 즉 학습의 반복 횟수
        - 예) 데이터 100개, 배치가 5개일 때 에폭이 1000이면 :  
            학습이 총 1000회 수행된다.  
            경사는 총 5000회 업데이트된다

- 경사 하강법은 **배치 크기와 적용**에 따라서 크게 3종류로 구분할 수 있다.
    1. 배치 경사 하강법 (batch gradient descent)
        - 1개의 배치에 전체 학습 데이터가 모두 들어간다.
    2. 확률적 경사 하강법 (SGD; stochastic gradient descent)
        - 1개의 배치에 임의의 학습 데이터 1개만 들어간다.
        - 중복된 데이터도 뽑힐 수 있다.
    3. 미니배치 경사 하강법 (mini-batch gradient descent)
        - 1개의 배치에 임의의 학습 데이터 여러 개가 들어간다.

![image.png](img/ch4_2.png)

# 2. 실습

LinearRegression() => OLS

SGGRegressor => SGD

In [24]:
import sklearn
sklearn.__version__

'0.23.1'

In [48]:
import sklearn.datasets as d

diab = d.load_diabetes()
X = diab.data
y = diab.target

In [49]:
import sklearn.model_selection as ms

X_train, X_test, y_train, y_test = \
ms.train_test_split(X,y, test_size=0.3, random_state = 2)

In [51]:
import sklearn.linear_model as lm

# reg = lm.LinearRegression().fit(...)
# 인자를 넣지 않아도 잘 동작한다.
# SGDRegressor()는 인자를 넣어야 잘 동작한다.

reg = lm.SGDRegressor().fit(X_train, y_train)
y_pred = reg.predict(X_test)

# 매 경사마다 임의의 자료 1개를 선택함

print("MSE =",mt.mean_squared_error(y_test, y_pred))
print("R2 =",mt.r2_score(y_test, y_pred))

coefs = pd.Series(np.round(reg.coef_,3), index=diab.feature_names)
coefs.sort_values(ascending = False)

MSE = 3621.6577463442936
R2 = 0.3813656405640853




s5     224.729
bmi    215.477
bp     179.408
s4     132.603
s6     118.209
age     58.919
s1      50.543
s2      26.369
sex    -21.258
s3    -140.372
dtype: float64

In [42]:
help(lm.SGDRegressor())

Help on SGDRegressor in module sklearn.linear_model._stochastic_gradient object:

class SGDRegressor(BaseSGDRegressor)
 |  SGDRegressor(loss='squared_loss', *, penalty='l2', alpha=0.0001, l1_ratio=0.15, fit_intercept=True, max_iter=1000, tol=0.001, shuffle=True, verbose=0, epsilon=0.1, random_state=None, learning_rate='invscaling', eta0=0.01, power_t=0.25, early_stopping=False, validation_fraction=0.1, n_iter_no_change=5, warm_start=False, average=False)
 |  
 |  Linear model fitted by minimizing a regularized empirical loss with SGD
 |  
 |  SGD stands for Stochastic Gradient Descent: the gradient of the loss is
 |  estimated each sample at a time and the model is updated along the way with
 |  a decreasing strength schedule (aka learning rate).
 |  
 |  The regularizer is a penalty added to the loss function that shrinks model
 |  parameters towards the zero vector using either the squared euclidean norm
 |  L2 or the absolute norm L1 or a combination of both (Elastic Net). If the
 |

In [29]:
#########################################################

In [52]:
reg = lm.SGDRegressor(max_iter=1000000, tol=0.0001, eta0 = 0.1).fit(X_train, y_train)
y_pred = reg.predict(X_test)

print("MSE =",mt.mean_squared_error(y_test, y_pred))
print("R2 =",mt.r2_score(y_test, y_pred))

coefs = pd.Series(np.round(reg.coef_,3), index=diab.feature_names)
coefs.sort_values(ascending = False)

MSE = 3445.9583281968708
R2 = 0.4113777799244678


s5     268.675
bmi    259.381
bp     215.643
s4     144.615
s6     129.105
age     58.140
s1      45.429
s2      13.551
sex    -41.138
s3    -163.317
dtype: float64

**그때 그때 다르게 나온다.**

비용함수에 꺽인점이 있으면 안된다. 비용함수는 모든 점에서 미분가능해야함

배치 경사 하강법은 배치 크기가 전체데이터, 배치는 1개

보폭 -> learning rate

데이터 사이즈 별로 처리하는 부담이 다름, 데이터가 많을수록 시간이 오래 걸림

데이터가 적으면 전체를 대표한다고 말하기 어렵다. -> 경사를 따라가는게 부드럽지 않을 수 있다 


천 만 개 데이터를 배치 경사 하강법으로 : 배치 크기 천만 배치개수 1. 에폭 1 (경사 갱신 천만) 
확률적 경사 하강법으로 : 배치 크기 1, 배치개수 1000 . 에폭 천만. (경사 갱신 천만 * 천만) 이 맞나요..?! 
그래도 확률적 경사 하강법이 더 빠를까요?

확률 경사가 더빠름

In [1]:
%%javascript
$.getScript('https://kmahelona.github.io/ipython_notebook_goodies/ipython_notebook_toc.js')

<IPython.core.display.Javascript object>