# 회귀분석 알고리즘 비교

- 선형회귀분석
- 릿지
- 라소
- 엘라스틱넷
- XGBoostRegressor
- SVR
- RandomForestRegressor
- etc...

In [2]:
# 데이터 로드
import warnings
warnings.filterwarnings("ignore")
import pandas as pd
import numpy as np

df = pd.read_csv('./extrafiles/house_price.csv')
print(df.columns)
df

Index(['housing_age', 'income', 'bedrooms', 'households', 'rooms',
       'house_value'],
      dtype='object')


Unnamed: 0,housing_age,income,bedrooms,households,rooms,house_value
0,23,6.7770,0.141112,2.442244,8.103960,500000
1,49,6.0199,0.160984,2.726688,5.752412,500000
2,35,5.1155,0.249061,1.902676,3.888078,500000
3,32,4.7109,0.231383,1.913669,4.508393,500000
4,21,4.5625,0.255583,3.092664,4.667954,500000
...,...,...,...,...,...,...
17684,34,2.3013,0.214583,2.748299,4.897959,26600
17685,33,2.6750,0.246622,3.428571,4.698413,22500
17686,39,2.3667,0.340771,1.876812,3.572464,17500
17687,19,2.1000,0.386107,2.987805,3.774390,14999


In [5]:
# X, y 데이터 분리
X = df[['housing_age', 'income', 'bedrooms', 'households', 'rooms']]
y = df[['house_value']]

# 회귀 분석에서는 스케일링을 일반적으로 하지 않는다.
# 결측 및 이상치 탐색 - 둘다 문제 없음
print(X.describe())
print(X.isna().sum())

        housing_age        income      bedrooms    households         rooms
count  17689.000000  17689.000000  17689.000000  17689.000000  17689.000000
mean      27.378823      3.671141      0.213278      2.952117      5.244001
std       11.280230      1.525937      0.051167      0.731573      1.184922
min        1.000000      0.499900      0.100000      0.750000      1.640000
25%       18.000000      2.532900      0.177464      2.470270      4.426829
50%       28.000000      3.453900      0.204104      2.854962      5.190779
75%       36.000000      4.591800      0.240157      3.316092      5.953728
max       51.000000      9.905500      0.498127      6.954023     11.901869
housing_age    0
income         0
bedrooms       0
households     0
rooms          0
dtype: int64


In [6]:
# train_test_split 적용
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=3333) # stratify=y 는 생략
X_train

Unnamed: 0,housing_age,income,bedrooms,households,rooms
13088,37,2.7072,0.226885,2.258721,9.212209
3883,47,3.0114,0.245010,2.281159,4.211594
1518,36,6.1187,0.175136,3.034884,6.406977
17425,43,1.9620,0.233122,3.600962,4.557692
9887,37,3.8882,0.179827,2.627072,6.052486
...,...,...,...,...,...
2620,32,4.5875,0.157741,2.754902,6.712418
8242,26,6.1185,0.147651,2.806569,7.069343
3215,45,2.9375,0.257767,2.507669,4.492331
3701,26,5.7301,0.155489,3.299145,6.244444


In [15]:
# 모델적용
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Ridge
from sklearn.linear_model import Lasso
from sklearn.linear_model import ElasticNet

# 서포트벡터 리그레서
from sklearn.svm import SVR

# 앙상블도 가능한지 테스트 해보기
from sklearn.ensemble import RandomForestRegressor

# XGBoost
from xgboost import XGBRegressor

model_lr = LinearRegression().fit(X_train, y_train)
model_rg = Ridge().fit(X_train, y_train)
model_la = Lasso().fit(X_train, y_train)
model_el = ElasticNet(alpha=0).fit(X_train, y_train)


In [16]:
print("train data model score : r2")
print("lr : ", model_lr.score(X_train, y_train))
print("rg : ", model_rg.score(X_train, y_train))
print("la : ", model_la.score(X_train, y_train))
print("el : ", model_el.score(X_train, y_train)) 
# 이것만 예측 성능이 낮은 이유는?!? alpha 값. 엄격도가 기본 1로 높다.
# alpha=0 로 정해주면 선형회귀분석과 같아짐.

model score : r2
lr :  0.5752118322948723
rg :  0.5749178334642232
la :  0.5752116926831701
el :  0.5752118322948723


In [17]:
print("test data model score : r2")
print("lr : ", model_lr.score(X_test, y_test))
print("rg : ", model_rg.score(X_test, y_test))
print("la : ", model_la.score(X_test, y_test))
print("el : ", model_el.score(X_test, y_test)) 

# 테스트 데이터를 이용한 분석도 얼추 비슷함.

train data model score : r2
lr :  0.5690310480584497
rg :  0.5695031388870768
la :  0.5690487697733491
el :  0.5690310480584497


In [50]:
# 커널 서포트 벡터 머신의 경우 제일 중요한 하이퍼 파라미터는 C와 커널 값이다.

# C 는 오류를 허용하는 정도를 의미함. 값이 클수록 엄격하게 적용한다.
# kernel은 분류 기준선을 긋는 모양을 이야기 한다.
# 커널의 기본값은 rbf (Radial Biad Function) 이고, linear, poly, sigmoid, precomputed(정방행렬만가능) 가 존재한다.
# gamma = 결정경계를 얼마나 유연하게 그을 것이지를 정하는 파라미터

model_svr = SVR(C=1, kernel='poly').fit(X_train, y_train)
print("훈련데이터셋 : ", model_svr.score(X_train, y_train))

# 훈련데이터에 과정합 여부를 확인해보자.
print("테스트데이터셋 : ", model_svr.score(X_test, y_test))

# 모델에 과적합 되는 케이스는 없는 듯 하다. 일반화 높은 모델을 생성하는 분류 기준을 생성 하는 모델이다.

# C=1 일때 - 대부분 테스트 데이터도 동일한 결과값이 나옴
# rbf = -0.035
# linear = 0.17
# poly = -0.033
# sigmoid = -0.036
# precomputed(정방행렬만가능)

# C=100일때 - 대부분 테스트 데이터도 동일한 결과값이 나옴
# rbf = 0.023
# linear = 0.53
# poly = 0.015
# sigmoid = -0.022

# C=1000일때 - 대부분 테스트 데이터도 동일한 결과값이 나옴
# rbf = 0.30
# linear = 0.54
# poly = 0.37
# sigmoid = -10

# C=10000일때 - 대부분 테스트 데이터도 동일한 결과값이 나옴
# rbf = 0.52
# linear = 0.56
# poly = 0.46
# sigmoid = -1114 ??????

훈련데이터셋 :  -0.033298717993629934
테스트데이터셋 :  -0.03395708997055347


In [72]:
# RadnomForestRegressor - 앙상블 모델 답게 높은 훈련데이터 과대적합 스코어가 나타난다.
model_rf = RandomForestRegressor().fit(X_train, y_train)
# print("훈련데이터 Score : ", model_rf.score(X_train, y_train))
# print("테스트데이터 Score : ", model_rf.score(X_test, y_test))

# 그래도 높은 스코어를 기록 했다.
# 교차 검증을 한번 더 수행
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import KFold
kfold = KFold(n_splits=5, shuffle=True, random_state=1234)

# 랜덤 포레스트의하이퍼 파라미터는 n_estimators : 나무의 수(기본:100), max_features : 선택변수 수 산정식(기본:auto) 외, sqrt, log2, none
score = cross_val_score(RandomForestRegressor(n_estimators=100, max_features='sqrt'), X_train, y_train, cv=kfold)
print("cross validation score : >> ", score)
print("cross validation score : >> ", score.mean())
print("test data score : >> ", model_rf.score(X_test, y_test))

# 훈련데이터 과적합은 있지만 전반적으로 좋은 성능을 보여준다.
# 하이퍼 파라미터는 나무 수를 조절 하는 것인데. 1000개부터는 수행 시간이 너무 오래 걸리므로 시험현장에서 하이퍼 파라미터 조정이 불가능 하다.

# 10일때 : 0.58 <- 10은 유의미한 확률 저하가 나타난다.
# 100일때 : 0.61
# 1000일때 : 0.62
# 10000일때 : 0.62 더이상의 증가는 없는 듯.

# n_estimators=100 기본 값 상에서 max_features 조정 시 - sqrt 기본으로 쓰면 좋을 듯
# auto : 0.615
# sqrt : 0.627
# log2 : 0.6261

cross validation score : >>  [0.61745347 0.6298076  0.64199271 0.62268773 0.6198372 ]
cross validation score : >>  0.6263557416673102
test data score : >>  0.6156488763750536


In [71]:
# XGBRegressor 사용하기
model_xgb = XGBRegressor().fit(X_train, y_train)
print("XGBRegressor score : >>", model_xgb.score(X_train, y_train))
# XGBRegressor score : >> 0.8170815056274494

# XGB 도 기본 적으로는 앙상블이라서 교차검증이 필요하다.
score = cross_val_score(XGBRegressor(), X_train, y_train, cv=kfold)
print("CV Score : >>", score.mean())
# CV Score : >> 0.6102331501695587

# 테스트 데이터도 돌려보기
print("Test Data XGBRegressor score : >>", model_xgb.score(X_test, y_test))
# XGBRegressor score : >> 0.6070257572844351

XGBRegressor score : >> 0.8170815056274494
CV Score : >> 0.6102331501695587
XGBRegressor score : >> 0.6070257572844351


## 리니어 모델
- 4가지 종류 모두 57% 대의 상대적으로 낮은 성능을 보인다.
- 별다른 하이퍼 파라미터도 존재하지 않는다. ElasticNet 은 alpha 값으로 블랜딩 정도를 조정 할 수 있는데
- 가장 좋은 값이 선형회귀분석 값이랑 동일하다.

## 서포트벡터머신
- C value 오류값의 허용정도를 1000이상 올렸을때 정확도가 동반 상승 했다. 56% 대. 회귀성능은 별로인듯

## 랜덤포레스트 (앙상블)
- n_estimators=1000, max_features='sqrt' 일때 6%까지 예측율이 상승한다.
- 다만 나무의 수 n_estimators 는 100을 초과하면 수행 속도가 증가함에 따라 기본 값 사용을 권장.

## XGBRegressor (앙상블)
- 별다른 하이퍼 파라미터 성정 없이 기본 성능이 61%에 달한다.
- 테스트 데이처를 이용한 설명력은 랜덤 포레스트가 미약하게 조금 더 좋다. +- 0.5%
- 하지만 작성 코드가 간결하고 하이퍼 파라미터 튜닝이 필요없다는 점이 장점이다.

In [85]:
# XGBBoost를 이용하여 아래 값들 구하기.
pred_test = model_xgb.predict(X_test)

# MSE
from sklearn.metrics import mean_squared_error
mse = mean_squared_error(y_test, pred_test)
print("MSE : >>", mse)

# RMSE
print("RMSE : >>", np.sqrt(mse))

# MAE
from sklearn.metrics import mean_absolute_error
mae = mean_absolute_error(y_test, pred_test)
print("MAE : >>", mae)

# MAPE
def MAPE(y_data, pred):
    return np.mean(np.abs((y_data - pred) / y_data))*100
print(MAPE(y_test['house_value'], pred_test))

MSE : >> 3586420866.149504
RMSE : >> 59886.733640677914
MAE : >> 44137.73239979581
27.965207586760528
