## 경사하강법
```
특성 수가 매우 많거나, 훈련 샘플이 많아 메모리에 모두 담을 수 없을 때 적합한 방식

경사하강법의 목표 : 비용함수 최소화, 하산할 때 기울기가 가파를수록 빨리 내려감.

세타를 임의의 값으로 시작해서 한번에 조금씩 비용함수(ex. MSE)가 감소되는 방향으로 진행하여 알고리즘이 최솟값에 수렴할 때 까지 진행
```

## 학습 스텝
```
경사하강법에서 중요한 파라미터는 스텝의 크기임.
학습률 하이퍼파라미터로 조정됨.

학습률이 작으면 최솟값 도달까지 시간이 오래 걸림.

학습률이 크면 세타값을 넘어 더 경사값이 올라 갈수도 있음.

적절한 학습률 중요
```

## 경사하강법 사용 조건
```
반드시 모든 특성의 스케일을 같게 만들어야함.

시간 줄이기 위해
```

## 비용 함수의 그레이디언트 벡터 (비용함수의 미분값) (Loss functional)
$$ \frac{2}{m} X^t(X\theta - y)$$

In [2]:
import numpy as np

np.random.seed(42)
m = 100
X = 2 * np.random.rand(m,1)
y = 4 + 3 * X + np.random.randn(m,1)

### add_dummy_feature
```
add_dummy_feature(X) : x0 = 1을 추가함.
```

In [8]:
from sklearn.preprocessing import add_dummy_feature

X_b = add_dummy_feature(X)
theta_best = np.linalg.inv(X_b.T @ X_b) @ X_b.T @ y

theta_best

array([[4.21509616],
       [2.77011339]])

### 새로운 데이터 X_new 예측

In [9]:
X_new = np.array([[0],[2]])
X_b_new = add_dummy_feature(X_new)
y_predict = X_b_new @ theta_best
y_predict

array([[4.21509616],
       [9.75532293]])

### 선형회귀
```
세타0 : intercept_ , 세타1 : coef_
세타0 = b          , 세타1 = w
```

In [10]:
from sklearn.linear_model import LinearRegression
lin_reg = LinearRegression()
lin_reg.fit(X, y)
lin_reg.intercept_, lin_reg.coef_

(array([4.21509616]), array([[2.77011339]]))

In [11]:
eta = 0.1 # 학습률
n_epochs = 1000
m = len(X_b)

np.random.seed(42)
theta = np.random.randn(2,1)

for epoch in range(n_epochs):
    gradients = 2 / m * X_b.T @ (X_b @ theta - y)
    theta = theta - eta * gradients
    
theta

array([[4.21509616],
       [2.77011339]])

## SGDRegressor
```
max_iter : 최대 학습 수
tol : 허용 오차, 그 값까지 허용
eta0 : 학습률
n_iter_no_change : 숫자만큼 세타 값이 바뀌지 않는 다면 스탑
```

In [12]:
from sklearn.linear_model import SGDRegressor

sgd_reg = SGDRegressor(max_iter=1000, tol=1e-5, penalty=None, eta0=0.01,
                       n_iter_no_change=100, random_state=42)

sgd_reg.fit(X, y.ravel())

In [13]:
sgd_reg.intercept_, sgd_reg.coef_

(array([4.21278812]), array([2.77270267]))