## 선형 모델(Linear Models)

선형 모델은 100여년 전에 개발되었고, 지난 몇십년 동안 폭넓게 연구되고 현재도 널리 쓰인다. 

선형 모델은 입력 feature에 대한 선형 함수를 만들어 예측을 수행한다. 

####  회귀의 선형 모델
회귀의 경우 선형모델을 위한 일반적인 예측함수는 다음과 같다. 
- 예측y = w[0] * x[0] + w[1] * x[1] + ... + w[p] * x[p] + b  

여기서 w는 weight b는 bias의 약자이다 

x[0] 부터 x[p] 까지는 하나의 데이터 포인트에 대한 feature를 나타내며 (feature의 수는 p+1개 이다)

우리는 여기서 모델을 만들것이고 
여기서 w와 b 는 모델이 학습할 파라미터이다.
그리고 예측 y는 모델이 만들어낸 예측값이다. 

만약에 특성이 하나인 데이터 셋이라면 식은 다음과 같다. 
예측 y= w[0]* x[0] + b
여기서 w[0]는 기울기이고 b는 y축과 만나는 절편이다. 

만약에 feature가 많아지면 w는 각 feature에 해당하는 기울기를 모두 가지게 된다. 

여기서 기울기는 x값이 y값에 얼마나 영향을 주냐 하는 정도를 나타내는것으로 볼수 있다. 

아무튼, 다른게 생각하면 예측값은 입력 feature에 w의 각 가중치(음수도 가능)를 곱해서 더한 가중치 합으로 볼 수 있다.

In [None]:
import mglearn 
import matplotlib.pyplot as plt
mglearn.plots.plot_linear_regression_wave()
plt.show()

회귀를 위한 선형 모델은 feature가 하나일 때는 직선, 두개일 떈 평면이 되며, 더 높은 차원에서는 초평면(hyperplace)이 되는 회귀모델의 특징을 가진다. 

초평면 부터는 그림으로 그리지 못한다. 
2차원을 나타내기 위해 3차원이 필요하고 1차원직선을 나타내기 위해 2차원이 필요하기 때문이다. 

이 직선과 KNeighborsRegression을 사용하여 만든 이전 그림의 선과 비교해보면 직선을 사용한 예측이 더 제약이 많아 보인다. 

즉, 데이터의 상세정보를 모두 잃어버린것처럼 보이는데 이 말도 어느정도 사실이다. 

따라서 target y가 feature들의 선형 조합이라는 것은 매우 과한(떄론 비현실적인) 가정이다.

하지만 1차원 데이터셋만 놓고 봐서 생긴 편견일 수 있다. 

feature가ㅣ 많은 데이터셋이라면 선형 모델은 매울 훌륭한 성능을 낼 수 있다. 

그래서 회귀를 위한 선형모델은 다양하게 존재하며 이 모델들은 훈련 데이터로부터 모델 파라미터 w와 b를 학습하는 방법과 
모델의 복잡도를 제어하는 방법에서 차이가 난다. 

##  선형 회귀(최소제곱법) : Ordinary least squares 

    선형회귀(linear regression) 또는 최소 제곱법(ordinary least squares)은 가장 간단하고 오래된 회귀용 선형 알고리즘이다 
    선형 회귀는 예측과 훈련 세트에 있는 target y사이의 평균제곱오차(mean squared error)를 최소화 하는 파라미터 w와 b를 찾는다. 
    평균 제곱오차는 예측값과 target 값의 차이를 제곱하여 더한 후에 샘플의 수로 나눈것이다. 
    최소 제곱법은 추가 매개변수가 없는 것이 장점이지만, 모델의 복잡도를 제어할 방법또한 없다. 

In [4]:
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

X, y = mglearn.datasets.make_wave(n_samples=60)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)
lr = LinearRegression().fit(X_train, y_train)

기울기 파라미터 w는 가중치(weight) 또는 계수(coefficient)라고 하며 lr 객체의 coef_속성에 저장되어있고 , 편향(bias)또는 
절편(intercept) 파라미터 b는 intercept_속성에 저장되어있다. 

In [6]:
print("lr.coef_:", lr.coef_)
print("lr.intercept_:", lr.intercept_)

lr.coef_: [0.39390555]
lr.intercept_: -0.031804343026759746


intercept_속성은 항상 실수값 하나지만, coef_속성은 각 입력 feature에 하나씩 대응되는 Numpy 배열이다. 
wave 데이터셋에는 입력 feature가 하나뿐이므로 lr.coef_도 원소를 하나만 가지고 있는것이다. 

In [8]:
print("Training set score: {:.2f}".format(lr.score(X_train, y_train)))
print("Test set score: {:.2f}".format(lr.score(X_test, y_test)))

Training set score: 0.67
Test set score: 0.66


하지만 훈련 세트와 테스트 세트의 점수가 매우 비슷, 즉, 과대적합이 아니라 과소적합인 상태를 의미한다. 
1차원 데이터셋에서는 모델이 매우 단순하므로 과대적합을 걱정할 필요가 없다. 
그러나 feature가 많은 고차원 데이터셋에서는 선형 모델의 성능이 매우 높아져서 과대적합될 가능성이 높아진다. 

In [9]:
X, y = mglearn.datasets.load_extended_boston()
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
lr = LinearRegression().fit(X_train, y_train)

In [11]:
print("Training set score: {:.2f}".format(lr.score(X_train, y_train)))
print("Test set score: {:.2f}".format(lr.score(X_test, y_test)))

Training set score: 0.95
Test set score: 0.61


feature수를 많이 늘렸더니 과대적합이 발생한것을 볼 수 있다. 
이런 train과 test의 성능의 차이는 모델이 과대적합되었다는 확실한 신호이므로 복잡도를 제어할 수 있는 모델을 사용해야한다. 

때문에 이러한 문제를 제어하기 위해 수학자들이 개발한것이 새로운 선형회귀 알고리즘들이다. 