### Regression Evaluation Metrics

**R-Square, Adjusted R-Square**  
**R-Square(결정계수)**는 회귀모델의 회귀선이 종속변수 y값을 얼마나 잘 설명할 수 있는가를 의미한다. 
$$R^2 = \frac{SSR}{SST}=1-\frac{SSE}{SST}$$  
$$SSR=\Sigma(\hat{y_i}-\bar{y})^2$$
$$SSE=\Sigma(y_i-\hat{y_i})^2$$
$$SST=\Sigma(y_i-\bar{y_i})^2=SSR+SSE$$  
- SSR(Sum of Square Regression)
- SSE(Explained Sum of Squares)
- SST(Total Sum of Squares)  

**Adjusted R-Square**는 R-Square가 독립 변수의 개수가 많아질수록 값이 커지는 문제를 보정한 기준이다. 실제로 설명력이 전혀 없는 변수를 계속 추가하면 R-Square는 계속 증가하게 된다. Adjusted R-Squared는 SSE와 SST를 각각의 자유도로 나누어 구하면 된다.
$$Adj R^2 = 1-\frac{\frac{SSE}{T-k}}{\frac{SST}{T-1}}=\frac{(n-1)(1-R^2)}{(n-k-1)}$$

**RMSE(Root Mean Square Error)**  
회귀 모델은 분류 모델과 달리 실젯값을 정확히 예측하기가 어려다.실제 100,000 이라는 값을 100,010으로 예측했을 때 틀렸다고 하기에 애매하다. 
그래서 수치를 정확히 맞춘 비율이 아닌, 실제 수치와의 차이를 회귀 모델 평가 지표로 사용한다.  
$$RMSE=\sqrt{\frac{1}{n}\Sigma_{i=1}^{n}(y_i-\hat{y_i})^2}$$  
표본 평균이 100이고 RMSE가 5라면, 예측값이 표본 평균 대비 5%의 변동성을 가진다고 해석한다.  
다만, RMSE는 예측값의 스케일에 영향을 받는다. 종속변수의 단위가 커지면 RMSE도 커진다. 그래서 모델 간 정확도 비교를 할 때, 표본 데이터가 다르면 RMSE 절대치를 비교해서는 안된다.

**MAE(Mean Absolute Error)**  
MAE는 실젯값과 예측값의 차이 절댓값 합을 n으로 나눈 값이다. 
$$MAE=\frac{1}{n}\Sigma_{i=1}^n|y_i-\hat{y_i}|$$  
RMSE는 '평균 제곱 오차'이고, MAE는 '평균 절대 오차'이다. RMSE는 실젯값과 예측값의 오차가 들쑥날쑥하지 않은 모델을 더 우수하게 평가하는 특성이 있다. 절대적인 전체 오차 크기를 더 중시할지, 모델의 예측 안정성을 중시할징에 따라 MAE와 RMSE를 선택할 수 있다.

**MAPE(Mean Absolute Percentage Error)**  
MAPE는 MAE를 퍼센트로 변환한 것이다. 따라서 스케일에 관계없이 절대적인 차이를 비교할 수 있으므로 다른 데이터가 들어간 모델 간 성능을 비교하기에 유용하다. MAPE 값은 0부터 무한대의 값을 가질 수 있으며, 0에 가까울수록 우수한 모델이다.  
$$MAPE=\frac{100}{n}\Sigma_{i=1}^{n}|\frac{|y_i-\hat{y_i}}{y_i}|$$  
실젯값이 0인 관측지가 많은 데이터는 MAPE 평가 기준을 사용하는 것이 적합하지 않다. 또한 MAPE 기준으로 모델을 학습하면 실젯값보다 작은 값으로 예측하도록(under forecast) 편향될 수 있다. 또한, 실젯값이 0과 가까운 매우 작은 값인 경우에 MAPE가 과도하게 높아지는 경우가 발생할 수 있다.

**RMSLE(Root Mean Square Logarithmic Error)**  
RMSLE는 앞에서 본 RMSE와 동일한 수식에서 실젯값과 예측값에 1을 더해준 다음 로그를 취해준 평가 방식이다. 로그를 취해 줌으로써 MAPE와 마찬가지로 상대적 비율을 비교할 수 있고, RMSE보다 오차 이상치에 덜 민감하다. 1을 더해주는 이유는 실젯값이 0일 때, log0이 무한대로 수렴할 수 있기 때문이다.  
$$RMSLE=\sqrt{\frac{1}{n}\Sigma_{i=1}^{n}(log(y_i+1)-log(\hat{y_i}+1))^2}$$  
RMSLE는 RME와 다르게 절댓값 오차의 스케일이 다르더라도, 비율 오차가 동일하면 같은 값이 산출된다. 또한 로그 특성상 실젯값보다 크게 예측하는 경우보다 작게 예측하는 경우에 패널티를 높게 준다.  
이런 특성은 상품 수요 예측에 적합하다. 일반적으로 수요를 높게 예측해서 재고비용이 생기는 것보다 수요를 낮게 예측해서 기회 손실이 발생하는 경우가 타격이 더 크기 때문이다.

**AIC와 BIC**  
아카이게 정보 기준이라고 불리는 AIC(Akaike's Information Criterion)는 최대 우도(likelihood)에 독립변수가 얼마나 많은가에 따라 패널티를 반영하여 계산하는 모델 평가 척도다. 즉 모델의 정확도와 함께 독립변수가 많고 적음가지 따져서 우수한 모델을 선택할 수 있도록 하는 평가 방법이다.  
AIC가 작을수록 좋은 모델이며 우도가 높을수록, 변수가 적을수록 값은 작아진다. 변수가 늘어날 수록 모델의 bias는 감소하지만 variance는 증가한다. AIC는 적정한 변수의 개수를 찾는데에 유용한 모델 평가 방법이다.  
$$AIC=-2ln(Likelihood)+2k$$  
-2ln(Likelihood)는 모델의 적합도를 의미하고, k는 모델의 상수항을 포함한 독립변수의 개수를 의미한다.  
AICc는 관측치가 적은 경우에 관측치수를 반영하여 보정된 방식이다.  
$$AICc=AIC+\frac{2k(k+1)}{n-k-1}$$  
비슷한 개념으로 BIC(Bayes Information Criterion)가 있다.
$$BIC=-2ln(Likelihood)+kln(n)$$  
BIC는 변수의 개수 x ln(n)으로 패널티를 부여한다. 관측치가 8개 이상만 되어도 BIC가 AIC보다 변수 개수에 대한 패널티를 강하게 부여하기에, 변수의 개수를 줄이는 것을 중요하게 여기는 상황에서는 BIC로 모델을 평가하는 것이 좋다.

In [1]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error # MSE
from sklearn.metrics import mean_absolute_error # MAE
from sklearn.metrics import mean_absolute_percentage_error # MAPE
from sklearn.metrics import mean_squared_log_error # MSLE

In [2]:
# https://www.kaggle.com/datasets/harlfoxem/housesalesprediction
df = pd.read_csv('../input/housesalesprediction/kc_house_data.csv')

In [3]:
df.head()

Unnamed: 0,id,date,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,...,grade,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15
0,7129300520,20141013T000000,221900.0,3,1.0,1180,5650,1.0,0,0,...,7,1180,0,1955,0,98178,47.5112,-122.257,1340,5650
1,6414100192,20141209T000000,538000.0,3,2.25,2570,7242,2.0,0,0,...,7,2170,400,1951,1991,98125,47.721,-122.319,1690,7639
2,5631500400,20150225T000000,180000.0,2,1.0,770,10000,1.0,0,0,...,6,770,0,1933,0,98028,47.7379,-122.233,2720,8062
3,2487200875,20141209T000000,604000.0,4,3.0,1960,5000,1.0,0,0,...,7,1050,910,1965,0,98136,47.5208,-122.393,1360,5000
4,1954400510,20150218T000000,510000.0,3,2.0,1680,8080,1.0,0,0,...,8,1680,0,1987,0,98074,47.6168,-122.045,1800,7503


In [4]:
# 독립변수와 종속변수 분리하여 생성
x = df[[ 'bedrooms', 'bathrooms', 'sqft_living',
       'sqft_lot', 'floors', 'waterfront', 'view', 'condition', 'grade',
       'sqft_above', 'sqft_basement', 'yr_built', 'yr_renovated', 
       'sqft_living15', 'sqft_lot15']]
# 'id', 'date'는 키값에 해당하므로 변수에서 제외 해준다.
y = df[['price']]

# 학습셋과 테스트셋 분리하여 생성(7:3)
# df_train, df_test = train_test_split(df, test_size = 0.4) 
x_train, x_test, y_train, y_test = train_test_split(x, y, train_size=0.6, test_size=0.4)

In [5]:
# 다중회귀모델 생성
mreg = LinearRegression(fit_intercept=True)
mreg.fit(x_train, y_train)

# 테스트셋에 모델 적용
y_predict = mreg.predict(x_test)

In [10]:
# RMSE 산출 (MSE에 루트 적용)
MSE = mean_squared_error(y_test, y_predict)
RMSE = np.sqrt(MSE)
print(("RMSE : {:.2f}".format(RMSE)))

# MAE 산출
MAE = mean_absolute_error(y_test, y_predict)
print(("MAE : {:.2f}".format(MAE)))

# MAPE 산출
MAPE = mean_absolute_percentage_error(y_test, y_predict)
print(("MAPE : {:.2f}".format(MAPE)))

# RMSLE 산출 (MSLE에 루트 적용)

# 음수값 전처리
y_predict_df = pd.DataFrame(y_predict,columns=['price2'])
y_predict_df2 = y_predict_df.copy()
y_predict_df2.loc[y_predict_df2['price2'] < 0, 'price2'] = 0
y_predict_rmsle = y_predict_df2.to_numpy()

MSLE = mean_squared_log_error(y_test, (y_predict_rmsle))
RMSLE = np.sqrt(MSLE)
print(("RMSLE : {:.2f}".format(RMSLE)))

RMSE : 215489.03
MAE : 140888.39
MAPE : 0.29
RMSLE : 0.75


In [11]:
# RMSLE ver. 2
  
def rmsle(predicted_values, actual_values):
    
    # 테스트셋 y 값과 예측값에 +1 및 로그 
    log_y_test = np.log(y_test + 1)
    log_y_predict = np.log(y_predict + 1)

    # 테스트셋 y 값 - 예측값 및 제곱
    diff = log_y_predict - log_y_test
    diff_square = np.square(diff)

    # 차이값 평균 및 루트
    mean_diff = diff_square.mean()
    final_rmsle = np.sqrt(mean_diff)  

    return final_rmsle

rmsle(y_test, y_predict)

  log_y_predict = np.log(y_predict + 1)


price    0.371062
dtype: float64