## 필요한 라이브러리 불러오기

In [1]:
import pandas as pd
import numpy as np 
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

## 데이터 확인하기

In [2]:
df = pd.read_excel('C:/Users/jaeb0/Desktop/Machine-Learning-by-Examples-master/Real_Estate_Price.xlsx')
df.head()

Unnamed: 0,No,X1 transaction date,X2 house age,X3 distance to the nearest MRT station,X4 number of convenience stores,X5 latitude,X6 longitude,Y house price of unit area
0,1,2012.916667,32.0,84.87882,10,24.98298,121.54024,37.9
1,2,2012.916667,19.5,306.5947,9,24.98034,121.53951,42.2
2,3,2013.583333,13.3,561.9845,5,24.98746,121.54391,47.3
3,4,2013.5,13.3,561.9845,5,24.98746,121.54391,54.8
4,5,2012.833333,5.0,390.5684,5,24.97937,121.54245,43.1


In [3]:
df.info() # 결측치 없음

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 414 entries, 0 to 413
Data columns (total 8 columns):
 #   Column                                  Non-Null Count  Dtype  
---  ------                                  --------------  -----  
 0   No                                      414 non-null    int64  
 1   X1 transaction date                     414 non-null    float64
 2   X2 house age                            414 non-null    float64
 3   X3 distance to the nearest MRT station  414 non-null    float64
 4   X4 number of convenience stores         414 non-null    int64  
 5   X5 latitude                             414 non-null    float64
 6   X6 longitude                            414 non-null    float64
 7   Y house price of unit area              414 non-null    float64
dtypes: float64(6), int64(2)
memory usage: 26.0 KB


In [4]:
df.shape

(414, 8)

## 변수 설명
---

|칼럼명 | 설명|
|:---|:---|
| No | 일련 번호 |
| X1 transaction date | 거래 날짜(예: 2013.250 = 2013 March, 2013.500 = 2013 June, etc.) |
| X2 house age | 주택 연령(단위: 연) |
| X3 distance to the nearest MRT station | 가장 가까운 지하철 역까지의 거리(단위: 미터) |
| X4 number of convenience stores | 생활권 내에 위치한 편의점 수 |
| X5 latitude | 위도(부동산의 위치) |
| X6 longitude | 경도(부동산의 위치) |
| Y house price of unit area | 평당 부동산 가격(단위: 100,000 대만 달러) |

In [5]:
df.columns = ['No', 'X1', 'X2', 'X3', 'X4', 'X5', 'X6', 'Y'] # 변수명 변경
df.columns

Index(['No', 'X1', 'X2', 'X3', 'X4', 'X5', 'X6', 'Y'], dtype='object')

In [6]:
df.head()

Unnamed: 0,No,X1,X2,X3,X4,X5,X6,Y
0,1,2012.916667,32.0,84.87882,10,24.98298,121.54024,37.9
1,2,2012.916667,19.5,306.5947,9,24.98034,121.53951,42.2
2,3,2013.583333,13.3,561.9845,5,24.98746,121.54391,47.3
3,4,2013.5,13.3,561.9845,5,24.98746,121.54391,54.8
4,5,2012.833333,5.0,390.5684,5,24.97937,121.54245,43.1


## 자료 분할

In [7]:
Y = df['Y']
X = df[['X2', 'X3', 'X4', 'X5', 'X6']]

In [8]:
from sklearn.model_selection import train_test_split
X_tr, X_ts, Y_tr, Y_ts = train_test_split(X, Y,
                                        test_size=0.3, random_state=20230320)

In [9]:
print(X_tr.shape, X_ts.shape, Y_tr.shape, Y_ts.shape)

(289, 5) (125, 5) (289,) (125,)


## Linear Regression

In [10]:
from sklearn.linear_model import LinearRegression
reg = LinearRegression()

reg.fit(X_tr, Y_tr)
Y_tr_pred = reg.predict(X_tr)

print(reg.score(X_tr, Y_tr)) # 결정계수, 설명력 / 다중선형회귀모델의 성능

from sklearn.metrics import mean_squared_error
mse_tr = mean_squared_error(Y_tr, Y_tr_pred)

print(mse_tr)


0.6428229051392103
64.18507709939749


In [11]:
Y_ts_pred = reg.predict(X_ts)
mse_ts = mean_squared_error(Y_ts, Y_ts_pred)

print(reg.score(X_ts, Y_ts)) # 결정계수, 설명력 / 다중선형회귀모델의 성능
print(mse_ts)

0.4069411912522527
116.07424965949674


## Ridge Regression Lasso Regression

선형 모델(Linear model)의 예측력(accuracy) 혹은 설명력(interpretability)을 높이기 위해 여러 정규화(regularization) 방법들을 사용한다. 

대표적인 shrinkage 방법에는 ridge regression과 lasso가 있음.

### Ridge Regression

In [12]:
from sklearn.linear_model import Ridge
reg = Ridge(alpha=1.0)
# 과소적합을 줄이기 위해 alpha를 줄이면 모델의 복잡도가 증가해서 훈련과 테스트에서 성능이 좋아진다. 반대로 alpha를 높이면 성능은 떨어지지만 일반화에는 도움을 줌.
reg.fit(X_tr, Y_tr)
Y_tr_pred = reg.predict(X_tr)
# R square, R-squared는 우리말로는 결정계수라고 하며, 0에 가까울수록 설명력이 낮고, 1에 가까울수록 높다고 해석할 수 있다. 설명력이 낮다는 것은 데이터가 모형에 fit하지 않다는 의미.
print(reg.score(X_tr, Y_tr)) 
# MSE, 평균 제곱 오차, 작을 수록 원본과의 오차가 적은 것이므로 추측한 값의 정확성이 높은 것. 
mse_tr = mean_squared_error(Y_tr, Y_tr_pred) 
print(mse_tr)

0.597609616742818
72.30994972811628


In [13]:
# 테스트 자료에 대한 R^2
print(reg.score(X_ts, Y_ts))
# 테스트 자료에 대한 MSE
Y_ts_pred = reg.predict(X_ts)
mse_ts = mean_squared_error(Y_ts, Y_ts_pred)
print(mse_ts)

0.42101077569527456
113.32053209699556


#### Ridge regression 모형의 hyperparameter인 $\alpha$의 최적값을 선택하려면 cross-validation을 이용한다.

sklearn.linear_model 모듈에 이를 위한 RidgeCV 클래스가 준비되어 있다.
RidgeCV는 지정된 여러 $\alpha$ 중에서 최적의 것을 CV로 찾아주는 일을 함.

In [14]:
from sklearn.linear_model import RidgeCV
alpha_vals = [0.001, 0.01, 0.05, 0.1, 0.2, 0.5, 1, 2, 3, 5]
reg = RidgeCV(alphas=alpha_vals)

reg.fit(X_tr, Y_tr)
print(reg.alpha_)

0.001


In [15]:
import numpy as np
alpha_vals = np.arange(0.0001, 0.005, 0.001)
reg = RidgeCV(alphas=alpha_vals)

reg.fit(X_tr, Y_tr)
print(reg.alpha_)

0.0021


In [16]:
reg = Ridge(alpha=0.002)

reg.fit(X_tr, Y_tr)
print(reg.score(X_tr, Y_tr))

0.6426409287496864


In [17]:
Y_tr_pred = reg.predict(X_tr)
mse_tr = mean_squared_error(Y_tr, Y_tr_pred)
print(mse_tr)

64.21777843652104


In [18]:
print(reg.score(X_ts, Y_ts))

Y_ts_pred = reg.predict(X_ts)
mse_ts = mean_squared_error(Y_ts, Y_ts_pred)
print(mse_ts)

0.40968548079235934
115.53713370317381


## Lasso 모형 

In [19]:
from sklearn.linear_model import LassoCV
alphas = np.arange(0.1, 3, 0.2)
lasso = LassoCV(alphas=alphas)

lasso.fit(X_tr, Y_tr)
lasso.alpha_

0.1

In [20]:
from sklearn.linear_model import LassoCV
alphas = np.arange(0.0001, 3, 0.01)
lasso = LassoCV(alphas=alphas)

lasso.fit(X_tr, Y_tr)
lasso.alpha_

0.0001

In [21]:
alphas = np.arange(0.002, 0.2, 0.002)
lasso = LassoCV(alphas=alphas)

lasso.fit(X_tr, Y_tr)
lasso.alpha_

0.002

In [22]:
from sklearn.linear_model import Lasso
lasso = Lasso(alpha=0.004)
lasso.fit(X_tr, Y_tr)
print(lasso.score(X_tr, Y_tr))
Y_tr_pred = lasso.predict(X_tr)
print(mean_squared_error(Y_tr, Y_tr_pred))

0.6418956112429998
64.35171272939291


In [23]:
print(lasso.score(X_ts, Y_ts))
Y_ts_pred = lasso.predict(X_ts)
print(mean_squared_error(Y_ts, Y_ts_pred))

0.4129472937490898
114.89872738343367


## GridSearchCV

최적의 ridge regression model과 최적의 lasso model을 비교할 때는 CV에서 얻어진 예측성능을 비교하여 결정하여야 한다.

이를 위해서는 GridSearchCV를 사용하는 것이 편리하다.


In [24]:
from sklearn.model_selection import GridSearchCV
ridge = Ridge()
alpha_vals = [0.0001, 0.001, 0.01, 0.1, 1, 2, 3, 5]
ridge_params = {'alpha': alpha_vals}
ridge_gs = GridSearchCV(ridge, param_grid = ridge_params,
                        cv=10, refit=True)
ridge_gs.fit(X_tr, Y_tr)

In [25]:
ridge_gs.best_estimator_ # 최고로 좋은 모델을 받아볼 수 있음.

## 1차로 찾은 최적값 주변에서 다시 CV를 실행해본다.

In [26]:
alpha_vals = [0.0002, 0.005, 0.002]
ridge_params = {'alpha': alpha_vals}
ridge_gs = GridSearchCV(ridge, param_grid = ridge_params,
                        cv=10, refit=True)
ridge_gs.fit(X_tr, Y_tr)

In [27]:
ridge_gs.best_params_

{'alpha': 0.002}

#### 최적 $\alpha$에 대한 CV를 실행한 결과

매개변수 cv에 10을 주었기 때문에 교차검증에 의해 10개의 예측력 평가 점수가 나오는데 이 10개의 평균을 최적 $\alpha$의 CV 결과로 사용한다.

In [28]:
print(ridge_gs.best_score_)

0.6215782767972855


GridSearchCV의 refit 매개변수에 True를 주면, fit() 메소드를 실행한 결과는 CV로 찾은 최적 $\alpha$ 값을 이용한 Ridge regression 모형을 전체 훈련 자료로 훈련한 모형이다.
따라서 predict() 메소드로 바로 예측할 수 있다.

In [29]:
Y_tr_pred = ridge_gs.predict(X_tr)
mean_squared_error(Y_tr, Y_tr_pred)

64.21777843652104

In [30]:
Y_ts_pred = ridge_gs.predict(X_ts)
mean_squared_error(Y_ts, Y_ts_pred)

115.53713370317381

#### GridSearchCV를 이용하여 Lasso에 대한 CV를 실시하고 최적의 Lasso 모형과 최적의 Ridge 모형을 비교

In [31]:
lasso = Lasso()
lasso_alphas = np.arange(0.001, 3, 0.001)
lasso_params = {'alpha': lasso_alphas}
lasso_gs = GridSearchCV(lasso, param_grid = lasso_params, cv=10)
lasso_gs.fit(X_tr, Y_tr)

In [32]:
lasso_gs.best_score_

0.62275493667958

In [33]:
lasso_gs.best_params_

{'alpha': 0.002}

In [34]:
print(lasso_gs.score(X_ts, Y_ts))
Y_ts_pred = lasso_gs.predict(X_ts)
mean_squared_error(Y_ts, Y_ts_pred)

0.4104015456257425


115.39698455267387