# 정규화 회귀분석 실습

python의 scikit-learn 패키지를 이용해 정규화 회귀분석을 직접 실행해보자.

### 데이터 불러오기 및 분할하기

다중 회귀분석과 동일한 데이터에 대해 분석해 보자.

In [1]:
from sklearn import datasets
data = datasets.load_diabetes()

x = data['data']
y = data['target']

print(x.shape, y.shape)

(442, 10) (442,)


In [2]:
from sklearn.model_selection import train_test_split

# 데이터 나누기 - 6:2:2 비율
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=1)
x_train, x_val, y_train, y_val = train_test_split(x_train, y_train, test_size=0.25, random_state=1)

print(x_train.shape, x_val.shape, x_test.shape)

(264, 10) (89, 10) (89, 10)


### 모델 학습하기

Training data를 이용해 각 모델을 학습해 보자. 먼저 아래와 같이 각 모델을 import 한다. 

In [3]:
from sklearn.linear_model import Ridge, Lasso, ElasticNet

[Ridge](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Ridge.html?highlight=ridge#sklearn.linear_model.Ridge), [Lasso](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Lasso.html?highlight=lasso#sklearn.linear_model.Lasso), [ElasticNet](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.ElasticNet.html?highlight=elasticnet#sklearn.linear_model.ElasticNet) 에 대한 자세한 설명은 링크를 참조하자. 이를 보고 적절한 hyperparameter를 이용해 각 모델을 구현해 보자.

In [16]:
# TODO: Ridge, Lasso, ElasticNet 모델 객체 생성하기
ridge_model = Ridge(alpha=1.0, normalize = True, solver= 'sparse_cg')
lasso_model = Lasso(alpha=1.0, normalize = True, selection= 'random')
elastic_model = ElasticNet(random_state=0, normalize = True, selection= 'random')

Training data와 fit() 함수를 이용해 각 모델을 학습하자.

In [17]:
# TODO: 각 모델 학습하기
ridge_model.fit(x_train,y_train)
lasso_model.fit(x_train,y_train)
elastic_model.fit(x_train,y_train)

ElasticNet(alpha=1.0, copy_X=True, fit_intercept=True, l1_ratio=0.5,
           max_iter=1000, normalize=True, positive=False, precompute=False,
           random_state=0, selection='random', tol=0.0001, warm_start=False)

### 결과 분석하기

각 모델의 설명력을 확인해 보자. 지난번에 사용한 r2_score 을 이용할 수도 있지만, 각 모델에서 제공하는 score 함수를 이용해 R-square 점수를 얻을 수도 있다. 이를 사용하는 방법을 위 링크에서 확인한 후 각 모델의 training 및 validation data에 대한 R-square 값을 계산해 보자.

In [18]:
# TODO: Ridge 모델의 training & validation data에 대한 R-square 계산하기
ridge_train_r2 = ridge_model.score(x_train, y_train)
ridge_val_r2 = ridge_model.score(x_val, y_val)
print ("Ridge training R-square: %.4f", ridge_train_r2)
print ("Ridge validation R-square: %.4f", ridge_val_r2)

Ridge training R-square: %.4f 0.46778000263449715
Ridge validation R-square: %.4f 0.4316114912473237


In [19]:
# TODO: Lasso 모델의 training & validation data에 대한 R-square 계산하기
lasso_train_r2 = lasso_model.score(x_train, y_train)
lasso_val_r2 = lasso_model.score(x_val, y_val)
print ("Lasso training R-square:", lasso_train_r2)
print ("Lasso validation R-square: ", lasso_val_r2)

Lasso training R-square: 0.41500598935794014
Lasso validation R-square:  0.41013035276796794


In [20]:
# TODO: ElasticNet 모델의 training & validation data에 대한 R-square 계산하기
elastic_train_r2 = elastic_model.score(x_train, y_train)
elastic_val_r2 = elastic_model.score(x_val, y_val)
print ("ElasticNet training R-square:", elastic_train_r2)
print ("ElasticNet validation R-square:: ", elastic_val_r2)

ElasticNet training R-square: 0.01662891819917356
ElasticNet validation R-square::  -0.010825164005326071


수업 시간에 배운 Ridge와 Lasso의 가장 큰 차이점은 바로 변수를 선택할 수 있는지에 대한 여부였다. 각 모델의 회귀계수 값을 불러와 0이 아닌 회귀계수가 몇 개인지, 즉 회귀분석에 선택된 변수가 몇 개인지 세어 보자.

In [21]:
# TODO: 각 모델이 사용한 변수의 개수 세어보기
ridge_used_variables = len([i for i in ridge_model.coef_ if i != 0])
lasso_used_variables = len([i for i in lasso_model.coef_ if i != 0])
elastic_used_variables = len([i for i in elastic_model.coef_ if i != 0])
print("Used variables: Ridge vs Lasso vs ElasticNet = %d vs %d vs %d" % (ridge_used_variables, lasso_used_variables, elastic_used_variables))

Used variables: Ridge vs Lasso vs ElasticNet = 10 vs 3 vs 9


배웠던 내용대로, Lasso와 ElasticNet의 경우 변수를 선택하여 모델을 학습했다는 것을 알 수 있다. Lasso의 파라미터 중 하나인 alpha(수업에서의 lambda)를 변화시켜 보면서, 선택한 변수의 개수가 어떻게 달라지는지 확인해 보자.

In [26]:
alpha_list = [0.1, 0.2, 0.3, 0.4, 0.5]
for alpha in alpha_list:
    # TODO: 각 alpha를 이용한 Lasso 모델의 training & validation data에 대한 R-square 및 변수 개수 계산하기
    lasso = Lasso(alpha=alpha).fit(x_train, y_train)
    lasso_train_score = lasso.score(x_train, y_train)
    lasso_val_score = lasso.score(x_val, y_val)
    lasso_used_variables = [i for i,v in enumerate(lasso.coef_) if v != 0]
    
    print(f"======================= alpha={alpha} =======================")
    print(f"training score: {lasso_train_score}")
    print(f"test score: {lasso_val_score}")
    print(f"number of features used: {lasso_used_variables}")

training score: 0.5235751180360693
test score: 0.5069048023185211
number of features used: [1, 2, 3, 4, 6, 8, 9]
training score: 0.5071415602372211
test score: 0.4955423855658678
number of features used: [1, 2, 3, 5, 6, 8, 9]
training score: 0.49013814822662916
test score: 0.4778194788910723
number of features used: [2, 3, 6, 8, 9]
training score: 0.47938789068122767
test score: 0.4692110402945575
number of features used: [2, 3, 6, 8, 9]
training score: 0.4655636442898821
test score: 0.4578788232273355
number of features used: [2, 3, 6, 8, 9]


### 직접 분석해 보기

Scikit-learn에서 제공하는 [Wine](https://scikit-learn.org/stable/datasets/index.html#wine-recognition-dataset) 데이터셋을 이용하여 자유롭게 회귀분석을 진행하고 적절한 모델을 선택해 보자.

In [45]:
data = datasets.load_wine()

# TODO: 데이터 나누기, 모델 생성하기, 학습하기, 선택하기
x = data['data']
y = data['target']

print(x.shape, y.shape)

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=1)
x_train, x_val, y_train, y_val = train_test_split(x_train, y_train, test_size=0.25, random_state=1)

print(x_train.shape, x_val.shape, x_test.shape)

alpha_list = [0.00005, 0.0005, 0.005, 0.1, 1, 5]

best_r2s = 0
best_vars = []
best_alpha = 0

for alpha in alpha_list:
    ridge = Ridge(alpha=alpha).fit(x_train, y_train)
    ridge_train_score = ridge.score(x_train, y_train)
    ridge_val_score = ridge.score(x_val, y_val)
    ridge_used_variables = [i for i,v in enumerate(ridge.coef_) if v != 0]
    
    if ridge_val_score > best_r2s:
      best_r2s = ridge_val_score
      best_vars = ridge_used_variables
      best_alpha = alpha

    print(f"======================= alpha={alpha} =======================")
    print(f"training score: {ridge_train_score}")
    print(f"test score: {ridge_val_score}")
    print(f"number of features used: {ridge_used_variables}")


selected_ridge = Ridge(alpha=best_alpha).fit(x_train[:,best_vars], y_train)
selected_ridge_train_score = selected_ridge.score(x_train[:,best_vars], y_train)
selected_ridge_test_score = selected_ridge.score(x_test[:,best_vars], y_test)
selected_ridge_coef = selected_ridge.coef_

print(f"\n\n======================= Selected Model =======================")
print(f"-model detail-\ncoeficients: {selected_ridge_coef}\nselected variables: {best_vars}")
print(f"training score: {selected_ridge_train_score}")
print(f"test score: {selected_ridge_test_score}")

(178, 13) (178,)
(106, 13) (36, 13) (36, 13)
training score: 0.9123755728486186
test score: 0.8385345193164556
number of features used: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]
training score: 0.912375572407081
test score: 0.8385342268768469
number of features used: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]
training score: 0.9123755286290881
test score: 0.8385312655927674
number of features used: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]
training score: 0.9123605712806592
test score: 0.8384554001645159
number of features used: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]
training score: 0.9117622923885996
test score: 0.8372009309633288
number of features used: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]
training score: 0.908365369750988
test score: 0.8296683081305065
number of features used: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]


-model detail-
coeficients: [-0.12526452  0.03719586 -0.14162027  0.04016817 -0.00190459  0.15888157
 -0.31870033 -0.26332681 -0.05407429  0.09441402 -