# 2. Linear Regression
# language : Python
https://www.youtube.com/watch?v=4swNt7PiamQ&list=PLqnslRFeH2Upcrywf-u2etjdxxkL8nl7E&index=2

## 1. 모델 구성

In [31]:
import numpy as np

class LinearRegression:

    def __init__(self, lr=0.001, n_iters=1000):
        self.lr = lr
        self.n_iters = n_iters
        self.weights = None
        self.bias = None

    def fit(self, X, y):
        # init parameters
        n_samples, n_features = X.shape
        self.weights = np.zeros(n_features)
        self.bias = 0

        for _ in range(self.n_iters):
            y_predicted = np.dot(X, self.weights) + self.bias

            dw = (1/n_samples) * np.dot(X.T, (y_predicted - y))
            db = (1/n_samples) * np.sum(y_predicted - y)

            self.weights -=  self.lr * dw
            self.bias -= self.lr * db

    def predict(self, X):
        y_predicted = np.dot(X, self.weights) + self.bias
        return y_predicted


### Update Rules
$$ \hat y = b + wx_i \\ w = w - \alpha \cdot dw \\ b = b - \alpha \cdot db $$

$$ \frac{dJ}{dw} = dw = \frac{1}{N} \sum^n_{i=1} -2x_i(y_i-(wx_i+b)) = \frac{1}{N} \sum^n_{i=1} -2x_i(y_i-\hat{y}) = \frac{1}{N} \sum^n_{i=1} 2x_i(\hat{y}-y_i) \\ \frac{dJ}{db} = db = \frac{1}{N} \sum^n_{i=1} -2(y_i-(wx_i+b)) = \frac{1}{N} \sum^n_{i=1} -2(y_i-\hat{y}) = \frac{1}{N} \sum^n_{i=1} (\hat{y}-y_i) $$

## 2. sample data 만들기

In [32]:
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn import datasets
import matplotlib.pyplot as plt

In [33]:
X, y = datasets.make_regression(n_samples=100, n_features=1, noise=20, random_state=4)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1234)

# fig = plt.figure(figsize=(8,6))
# plt.scatter(X[:,0], y, color='b', marker='o', s=30)
# plt.show()

print(X_train.shape)
print(y_train.shape)

(80, 1)
(80,)


## 3. 함수 적용해보기

In [34]:
regressor = LinearRegression(lr=0.001,n_iters=1000)
regressor.fit(X_train, y_train)
predicted = regressor.predict(X_test)

def mse(y_true, y_predicted):
    return np.mean((y_true-y_predicted)**2)

mse_value = mse(y_test, predicted)
print(mse_value)

783.815546512549


## 4. 배운거 정리 & 느낀점

### 경사하강법
본 예제는 회귀 계수에 대한 추정을 경사하강법을 통해 진행하고 있다. 간략하게 정리해두자. 함수의 기울기를 이용해 함수의 최소값을 찾는 방법
기울기의 값이 양수라는 것은 $x$값이 커질수록 함수 값이 커진다는 것을 의미하고, 반대로 기울기가 음수라면 $x$값이 커질수록 함수의 값이 작아진다.

- gradient의 방향 성분을 이용하자 

특정 포인트 $ x $에서 $ x $가 커질수록 함수값이 커지는 중이라면 음의 방향으로 x를 옮겨야 한다.(기울기의 부호는 양수) 반대로 특정 포인트 $x$에서 $x$가 커질수록 함수값이 작아지는 중이라면 양의 방향으로 $x$로 옮기면 된다. 
 gradient의 방향 성분을 이용하자 **
특정 포인트 $ x $에서 $ x $가 커질수록 함수값이 커지는 중이라면 음의 방향으로 x를 옮겨야 한다.(기울기의 부호는 양수) 반대로 특정 포인트 $x$에서 $x$가 커질수록 함수값이 작아지는 중이라면 양의 방향으로 $x$로 옮기면 된다. 
$$ x_{i+1} = x_i - 이동거리 \times 기울기의부호 $$

- 얼마나 이동시켜야 할까?

기울기 값은 극소값에 가까울 수록 그 값이 작아진다. 그렇기에 기울기의 크기에 비례하는 factor를 이용하면 $x$의 값이 극소값에서 멀 때는 많이 이동하고, 극소값에 가까워졌을 때는 조금씩 이동할 수 있게 된다.  
최적화하고자 하는 함수 $f(x)$에 대해서 
$$ x_{i+1} = x_i - \alpha \frac{df}{dx}(x_i)$$
