# 선형 회귀 분석(linear regression)
- 선형 회귀 분석은 피처 데이터와 타깃 데이터 간의 선형 관계를 파악하는 알고리즘 이다. 
- 선형 회귀 분석을 설명하기 위해 오직 1개의 피처만 존재하는 데이터 셋을 가정하고 해당 피처를 x라고 가정한다. 또한 예측하려는 타깃 데이터를 y라고 한다. 만약 피처데이터 x와 타깃 데이터 y 사이에 선형 관계가 존재할 때 이를 수식화 하면 y = wx + b가 된다 
- 즉, 데이터 x가 주어질 때, 데이터 x에 가중치 w를 곱하고 y 절편 b를 더하면 타깃 데이터 값을 예측할 수 있다 

In [1]:
# 데이터 불러오기
from sklearn import datasets
raw_boston = datasets.load_boston()

In [2]:
# 피쳐, 타겟 데이터 지정
X = raw_boston.data
y = raw_boston.target

In [3]:
# 트레이닝/테스트 데이터 분할
from sklearn.model_selection import train_test_split
X_tn, X_te, y_tn, y_te=train_test_split(X,y,random_state=1)

In [4]:
#데이터 표준화
from sklearn.preprocessing import StandardScaler
std_scale = StandardScaler()
std_scale.fit(X_tn)
X_tn_std = std_scale.transform(X_tn)
X_te_std  = std_scale.transform(X_te)

In [5]:
# 선형 회귀분석 학습
from sklearn.linear_model import LinearRegression 
clf_lr =  LinearRegression()
clf_lr.fit(X_tn_std, y_tn)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)

In [71]:
# 선형 회귀분석 모형 추정 계수 확인
print(clf_lr.coef_)
print(clf_lr.intercept_)

[-1.07145146  1.34036243  0.26298069  0.66554537 -2.49842551  1.97524314
  0.19516605 -3.14274974  2.66736136 -1.80685572 -2.13034748  0.56172933
 -4.03223518]
22.344591029023768


# 릿지 회귀 분석 (ridge regression, L2 제약식)
- 기본적인 회귀 분석에는 제약식이 포함될 수 있다. 제약이 없으면 우리가 추정하려는 가중치 W가 폭발적으로 커질 수 있으며, 이로 인해 분산이 커지는 문제가 발생할 수 있다. 이러한 현상을 방지하기 위해 제약식을 사용하게 된다. 이때 L2 제약식(constraint)을 사용한 릿지 회귀 분석(ridge regression)을 사용 

In [178]:
# 릿지 회귀분석(L2 제약식 적용)
from sklearn.linear_model import Ridge
clf_ridge = Ridge(alpha=1)
clf_ridge.fit(X_tn_std, y_tn)

Ridge(alpha=1, copy_X=True, fit_intercept=True, max_iter=None, normalize=False,
      random_state=None, solver='auto', tol=0.001)

In [179]:
# 릿지 회귀분석 모형 추정 계수 확인
print(clf_ridge.coef_)
print(clf_ridge.intercept_)

[-1.05933451  1.31050717  0.23022789  0.66955241 -2.45607567  1.99086611
  0.18119169 -3.09919804  2.56480813 -1.71116799 -2.12002592  0.56264409
 -4.00942448]
22.344591029023768


# 라쏘 회귀 분석(Lasso regression, L1 제약식)
- 기본적인 회귀 분석식에 L1 제약식을 적용한 회귀 분석 방법을 라쏘 회귀 분석(Lasso regression)이라고 한다. 

In [193]:
# 라쏘 회귀분석(L1 제약식 적용)
from sklearn.linear_model import Lasso
clf_lasso = Lasso(alpha=0.01)
clf_lasso.fit(X_tn_std, y_tn)

Lasso(alpha=0.01, copy_X=True, fit_intercept=True, max_iter=1000,
      normalize=False, positive=False, precompute=False, random_state=None,
      selection='cyclic', tol=0.0001, warm_start=False)

In [194]:
# 라쏘 회귀분석 모형 추정 계수 확인
print(clf_lasso.coef_)
print(clf_lasso.intercept_)

[-1.04326518  1.27752711  0.1674367   0.66758228 -2.41559964  1.99244179
  0.14733958 -3.09473711  2.46431135 -1.60552274 -2.11046422  0.55200229
 -4.00809905]
22.344591029023768


# 엘라스틱 넷(Elastic net)
- 릿지 회귀 분석과 라쏘 회귀 분석을 합쳐 놓은 형태이며, 엘라스틱 넷은 L1 제약식과 L2 제약식을 동시에 적용한 것이다 

In [211]:
# 엘라스틱넷
from sklearn.linear_model import ElasticNet
clf_elastic = ElasticNet(alpha=0.01, l1_ratio=0.01)
clf_elastic.fit(X_tn_std, y_tn)

ElasticNet(alpha=0.01, copy_X=True, fit_intercept=True, l1_ratio=0.01,
           max_iter=1000, normalize=False, positive=False, precompute=False,
           random_state=None, selection='cyclic', tol=0.0001, warm_start=False)

In [212]:
# 엘라스틱넷 모형 추정 계수 확인
print(clf_elastic.coef_)
print(clf_elastic.intercept_)

[-1.02916603  1.23681955  0.15236504  0.67859622 -2.34646781  2.02965524
  0.14575132 -2.98592423  2.32013379 -1.48829485 -2.09271972  0.56506801
 -3.9495281 ]
22.344591029023768


In [213]:
# 예측
pred_lr = clf_lr.predict(X_te_std)
pred_ridge = clf_ridge.predict(X_te_std)
pred_lasso = clf_lasso.predict(X_te_std)
pred_elastic = clf_elastic.predict(X_te_std)

In [214]:
# 모형 평가-R제곱값
from sklearn.metrics import r2_score
print(r2_score(y_te, pred_lr))
print(r2_score(y_te, pred_ridge))
print(r2_score(y_te, pred_lasso))
print(r2_score(y_te, pred_elastic))

0.7789410172622859
0.7789704562726603
0.7787621490259895
0.7787876079239252


In [215]:
# 모형 평가-MSE
from sklearn.metrics import mean_squared_error
print(mean_squared_error(y_te, pred_lr))
print(mean_squared_error(y_te, pred_ridge))
print(mean_squared_error(y_te, pred_lasso))
print(mean_squared_error(y_te, pred_elastic))

21.897765396049483
21.894849212618773
21.915483810504824
21.91296189093687
