#  Metirc
- 모델 성능 평가지표
- 실제값과 모델에 의해 예측된 값을 비교하여 모델의 성능을 측정
- 모델 평가 목적
    - 최적의 모델을 찾기 위해

- 회귀 문제 성능측정
    - 실제값과 예측값의 차이를 측정

# 회귀 문제 성능측정

## 당뇨병 진행 예측
- 당뇨병 진행도를 예측하는 데이터셋

In [1]:
from sklearn.datasets import load_diabetes
diabetes = load_diabetes()
diabetes.data, diabetes.target

(array([[ 0.03807591,  0.05068012,  0.06169621, ..., -0.00259226,
          0.01990842, -0.01764613],
        [-0.00188202, -0.04464164, -0.05147406, ..., -0.03949338,
         -0.06832974, -0.09220405],
        [ 0.08529891,  0.05068012,  0.04445121, ..., -0.00259226,
          0.00286377, -0.02593034],
        ...,
        [ 0.04170844,  0.05068012, -0.01590626, ..., -0.01107952,
         -0.04687948,  0.01549073],
        [-0.04547248, -0.04464164,  0.03906215, ...,  0.02655962,
          0.04452837, -0.02593034],
        [-0.04547248, -0.04464164, -0.0730303 , ..., -0.03949338,
         -0.00421986,  0.00306441]]),
 array([151.,  75., 141., 206., 135.,  97., 138.,  63., 110., 310., 101.,
         69., 179., 185., 118., 171., 166., 144.,  97., 168.,  68.,  49.,
         68., 245., 184., 202., 137.,  85., 131., 283., 129.,  59., 341.,
         87.,  65., 102., 265., 276., 252.,  90., 100.,  55.,  61.,  92.,
        259.,  53., 190., 142.,  75., 142., 155., 225.,  59., 104., 182.,
   

In [2]:
data = diabetes.data
target = diabetes.target

In [3]:
data.shape  # 변수가 10개라 어떤 변수가 target을 판단할지 어려움이 있을 수도

(442, 10)

In [4]:
target.shape

(442,)

In [4]:
print(target.min())
print(target.max())

25.0
346.0


## 학습셋과 검증셋 분리

In [5]:
from sklearn.model_selection import train_test_split
x_train, x_vaild, y_train, y_vaild = train_test_split(data, target , test_size = 0.2)

## Linear Regression 모델을 이용한 학습 및 예측
$$
y = w_1 x_1 + ... + w_{10} x_{10} + w_0
$$

- w : 가중치
- b : 편향

In [6]:
from sklearn.linear_model import LinearRegression
model = LinearRegression()

In [7]:
model.fit(x_train, y_train)

LinearRegression()

In [8]:
y_vaild_predict = model.predict(x_vaild)

In [9]:
y_vaild_predict

array([ 89.43624498, 256.79376935, 136.53118437, 104.56291872,
       147.94346412,  80.66477089, 183.35047974, 118.28332862,
       129.08505622, 246.99304407, 119.46574214, 195.63084321,
       154.39294132, 102.75522787, 214.86999593,  55.26310482,
       239.43598509,  98.82269936, 189.14759644, 138.96412718,
       143.21598892, 124.10946802,  72.79113197, 243.24058658,
       288.93308878, 144.46772746, 200.48315863, 182.96562639,
       251.40443542, 192.3777655 , 103.87416875, 177.04122932,
       208.01538237, 261.96604481, 174.86382863, 174.7250261 ,
       117.9304046 , 174.36744168, 172.3180998 , 120.44622645,
       138.49406659, 128.74272537,  61.09498791,  87.12615264,
       156.1483333 ,  64.11743532,  70.47778329,  69.61209746,
        73.2568742 , 109.44054327,  94.31189813, 140.41244611,
       129.55148038, 154.59218544, 229.58627615, 190.82388193,
       164.40984913, 116.35815425, 122.12236064, 164.07334083,
       114.93858667, 209.09904092, 158.90139378, 167.19

## 회귀 평가 지표


### MSE(Mean Squared Error)
$$
MSE = \frac{1}{n}{\sum_{i=1}^{n}(y_i-\hat{y}_i)^2}
$$
- 실제값과 예측값의 차이를 제곱해서 평균화
- 이상치에 민감 (제곱된거 때문에)
- 직관적이지 못하다.
- 손실함수로 주로 사용한다.

In [10]:
from sklearn.metrics import mean_squared_error
mse = mean_squared_error(y_vaild_predict, y_vaild)
print(mse)

3086.6859878134464


### RMSE(Root Mean Squared Error)
$$
RMSE = \sqrt{\frac{1}{n}{\sum_{i=1}^{n}(y_i-\hat{y}_i)^2}}
$$
- MSE에 루트
- 이상치 민감


In [11]:

# 방법1
import numpy as np
print(np.sqrt(mse))

# 방법2
# https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_squared_error.html
rmse = mean_squared_error(y_vaild_predict, y_vaild, squared=False)
print(rmse)

55.557951616428824
55.557951616428824


### MAE(Mean Absolute Error)
$$
MAE = \frac{1}{n}{\sum_{i=1}^{n}|y_i-\hat{y}_i|}
$$
- 실제값과 예측값의 차이를 절대값으로 변환해서 평균화
- 직관적이다.

In [12]:
from sklearn.metrics import mean_absolute_error
mae = mean_absolute_error(y_vaild_predict, y_vaild,)
mae

46.301768446369095

### MAPE (Mean Absolute Percentage Error)
$$
MAPE = \frac{100}{n}{\sum_{i=1}^{n}\frac{|y_i-\hat{y}_i|}{y_i}}
$$
- 실제값에 대한 절대오차 비율의 평균을 퍼센트로 표현

In [13]:

# 방법1
def mape(true,pred):
   return np.mean(np.abs((true - pred) / true))
print(mape(y_vaild_predict, y_vaild))

# 방법2
from sklearn.metrics import mean_absolute_percentage_error
mean_absolute_percentage_error(y_vaild_predict, y_vaild)

0.3259607376767888


0.3259607376767888

### SMAPE (Symmetric Mean Absolute Percentage Error)
$$
SMAPE = \frac{100}{n}{\sum_{i=1}^{n}\frac{|y_i-\hat{y_i}|}{{|y_i|}+|\hat{y_i}|}}
$$
- 기존 mape의 단점을 보완한것
- MAPE와 다른점은 각 실제값과 예측값을 절대값으로 변경후 핪으로 나눈다.
- MAPE와 다르게 실제값에 0이 존재해도 계산이 가능하다.
- 실제값보다 예측값이 크거나 작을수도있다.
- 예측값이 실제값보다 작을때, 분모가 작아지기 때문에 오차가 커지게 된다. (과소추정에 대한 패널티가 줄수가 있다.)


In [14]:
def smape(true,pred):
   error =  np.abs(true - pred) / (np.abs(true) + np.abs(pred))
   return np.mean(error)
smape(y_vaild_predict, y_vaild)

0.1666054247831908

### 결정계수 R2 
- 결정계수는 실제 관측값의 분산대비 예측값의 분산을 계산하여 데이터 예측의 정확도 성능을 측정하는 지표 
- 0~1까지 수로 나타내어지며 1에 가까울수록 100%의 설명력을 가진 모델이라고 평가를 하게된다.
- R^2 =1 : 현재 가지고 있는 X변수로 Y를 100% 설명. 즉, 모든 관측치가 회귀직선에 있다.
- R^2 = 0 : 현재 가지고 있는 X변수는 Y 설명(예측)에 전혀 도움이 되지 않는다
- 사용하고 있는 X변수의 품질


$$
R^2 = \frac{SSR}{SST} =\frac{오차^2}{편차^2} =  1- \frac{SSE}{SST}
$$

- SST (Sum of Squared Total): 관측치 - 예측값
- SSE (Sum of Squared Error): 관측값 - 예측값, 즉 잔차제곱합 RSS와 같은 의미이다.
- SSR (Sum of Squares due to Regression): 예측값 - 평균값

In [15]:
from sklearn.metrics import r2_score
r2_score(y_vaild, y_vaild_predict)

0.5218301593639314