### 선형 회귀(최소제곱법)

In [3]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
import mglearn

X,y = mglearn.datasets.make_wave(n_samples=60)
X_train, X_test, y_train, y_test = train_test_split(X,y, random_state = 0)

In [15]:
practice = LinearRegression().fit(X_train, y_train)
print(practice.coef_)  #기울기의 파라미터, 즉 weight의미, 여기서는 X의 feature이 하나 이므로 coef_도 하나로 나옴
print(practice.intercept_) #편향, bias
print('train accuracy: {}'.format(practice.score(X_train, y_train)))
print('test accuracy: {}'.format(practice.score(X_test, y_test)))

[0.44153666]
-0.01711124414733381
train accuracy: 0.6592061059587275
test accuracy: 0.6932519118518163


#### Accuracy가 낮은 편이다. 하지만 test 정확도와 train 정확도가 비슷한 것으로 보아 과소적합된 것을 알 수 있다. 이 경우 feature의 갯수가 너무 적기 때문에 일어난 것이다.
(행렬에서 조건이 변수보다 많을때 조건을 모두 충족하는 변수를 찾기 힘든 것처럼..)

### 복잡한 데이터에서 식

In [22]:
X, y = mglearn.datasets.load_extended_boston()
print(X.shape)   #꽤 복잡한 데이터이라는 것을 알 수 있다

(506, 104)


In [31]:
X_train, X_test, y_train, y_test = train_test_split(X,y, random_state = 1)
boston = LinearRegression().fit(X_train, y_train)

print('train accuracy: {}'.format(boston.score(X_train, y_train)))
print('test accuracy: {}'.format(boston.score(X_test, y_test)))

train accuracy: 0.9281262443260945
test accuracy: 0.8962092351509607


### Overfitting을 줄이기 위한 Method

**릿지(Ridge) 회귀** <br>L2 규제를 사용하여 과대적합을 막음

In [27]:
from sklearn.linear_model import Ridge
ridge = Ridge().fit(X_train, y_train)
print('train accuracy: {}'.format(ridge.score(X_train,y_train)))
print('test accuracy: {}'.format(ridge.score(X_test,y_test)))

train accuracy: 0.8406599011793963
test accuracy: 0.8836280810371688


또 다른 방법은 alpha(learning rate) 값을 줄이는 것. 계수에 대한 제약이 풀리면서 정확도는 줄어들지만 정확도는 커진다

In [39]:
practice = LinearRegression(0.2).fit( X_train, y_train)
print(practice.coef_)  #기울기의 파라미터, 즉 weight의미, 여기서는 X의 feature이 하나 이므로 coef_도 하나로 나옴
print(practice.intercept_) #편향, bias
print('train accuracy: {}'.format(practice.score(X_train, y_train)))
print('test accuracy: {}'.format(practice.score(X_test, y_test)))

[-1.41091241e+02 -4.89988810e+00 -6.30016655e+01  1.19613502e+01
 -5.24626962e+00  9.96397131e+01  4.67677818e+01 -3.99133703e+01
  1.87656969e+01  3.42078734e+01  7.93073960e+00  3.91787065e+01
  2.70703623e+01  2.13778047e+01  1.33800827e+03  3.19887289e+02
  2.06705158e+02 -2.28569053e+01  4.91676336e+01 -3.07271052e+01
 -2.28532847e+01 -1.59958078e+01 -3.21335873e+02  2.57816736e+02
 -1.00073255e+01  5.73923006e+01 -8.56306444e+00 -1.97335532e+01
 -1.33382261e+01 -6.44706136e+01  1.33388891e+01  5.31012457e+00
 -1.53341101e+01 -3.01867843e+00  4.33051219e+01 -5.39579262e+00
  1.61648685e+01 -1.70474624e+01  2.29673613e+01 -6.75860883e+00
  3.84013021e+01  3.98626764e+01  6.19358616e+00  5.17782999e+01
 -4.89946281e+01  2.63873305e+01 -4.31659746e+00  8.81679294e+00
 -1.02963088e+01  1.19613502e+01 -2.46527746e+01 -2.96373831e+01
 -4.04711034e-01  1.47458169e+01 -1.74968434e+01  3.13284574e+01
 -1.44075248e+01  6.60910261e+00 -8.91065375e+00 -2.81005650e+00
  1.42066481e+01 -2.76496

**Lasso 회귀**<br>L1 규제를 사용하여 계수의 절댓값을 0에 가깝게 만든다. 

In [40]:
from sklearn.linear_model import Lasso

lasso = Lasso().fit(X_train, y_train)
print('train accuracy: {}'.format(lasso.score(X_train, y_train)))
print('test accuracy: {}'.format(lasso.score(X_test, y_test)))

train accuracy: 0.2391823851442012
test accuracy: 0.20215528139551964


Lasso 는 feature selection을 자동으로 해주는 것. 특성이 많은데 그 중 일부만 중요한 데이터면 Lasso로 하는게 낫다