<a href="https://colab.research.google.com/github/minsaee/ai_chat_python/blob/master/605_%EA%B8%B0%EA%B3%84%ED%95%99%EC%8A%B5_%ED%9A%8C%EA%B7%80%EB%B6%84%EC%84%9D_%EC%84%B1%EB%8A%A5%ED%8F%89%EA%B0%80.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

【모델 예측 성능평가】
- 모델 예측 성능평가하는 학습모델이 실제값을 얼마나 정확하게 맞추었는지를  나타내는 것이다.
- 머신러닝 모델은 여러가지 방법으로 예측 성능을 평가할 수 있다.
- 이를 성능평가지표(Evaluation Metric)라 하며, 일반적으로 분석 알고리즘이 회귀분석인지 분류분석인지에 따라 여러 종류가 있다.
-  회귀분석 성능평가 종류

|종류	|	잔차 계산 |	이상치 영향|
|---|---|---|
|MAE	(Mean Absolute Error) |	Absolute Value|	Yes|
|MSE	(Mean Squared Error)	|Square|	No|
|RMSE	(Root Mean Squared Error) |	Square|	No|
|MAPE	(Mean Absolute Percentage Error)	| Absolute Value|	 Yes|
|MPE	(Mean Percentage Error)	|N/A	|Yes|

### 1. 평균 절대 오차 (MAE : Mean Absolute Error)
- 실제 값과 예측 값의 차이(Error)를 절대값으로 변환해 평균한다.
- MAE는 에러에 절대값을 취하기 때문에 에러의 크기 그대로 반영된다.
- 에러에 따른 손실이 선형적으로 올라갈 때 적합하다.
- 0에 가까울수록 좋은 모델이라고 할 수 있다.
- 이상치에 영향을 받는다.
- 회귀평가를 위한 지표로 주로 쓰인다

 $$ MAE = \frac{1}{n}\sum_{i=1}^{n} |Y_i-\hat{Y_i}|$$

In [2]:
import numpy as np
testVAI = np.array([1, 1.7, 1.5])
predVAI = np.array([1.1, 2, 1.7])
print(testVAI - predVAI)

mae = sum(np.abs(testVAI-predVAI))/len(predVAI)
print(mae)

[-0.1 -0.3 -0.2]
0.20000000000000004


In [7]:
# sklearn의 mean_absolute_error()로 계산하기.
from sklearn.metrics import mean_absolute_error
testVAI = np.array([1, 1.7, 1.5])
predVAI = np.array([1.1, 2, 1.7])
mean_absolute_error(testVAI, predVAI)

0.20000000000000004

### 2 평균 제곱 오차(MSE : Mean Squared Error)

- 실제값과 예측값의 차이를 제곱해 평균한다.
- 예측값과 실제값 차이의 면적의 평균과 같다.
- 이상값(특이값)이 존재하면 수치가 많이 늘어난다.
- MSE가 0에 가까울수록 추측한 값이 원본에 가까운 것이기 때문에 정확도가 높다고 할 수 있다.


 $$ MSE = \frac{1}{n}\sum_{i=1}^{n} (Y_i-\hat{Y_i})^2$$

In [8]:
import numpy as np
testVAI = np.array([1, 1.7, 1.5])
predVAI = np.array([1.1, 2, 1.7])

mse = sum((testVAI-predVAI)**2)/len(predVAI)
print(mse)

0.04666666666666667


In [10]:
# sklearn의 mean_squared_error()로 계산하기.
from sklearn.metrics import mean_squared_error
testVAI = np.array([1, 1.7, 1.5])
predVAI = np.array([1.1, 2, 1.7])

# squared : defult = True
# True return MSE
print(mean_squared_error(testVAI, predVAI))
print(mean_squared_error(testVAI, predVAI, squared = True))

0.04666666666666667
0.04666666666666667


### 3 루트 평균 제곱근 오차(RMSE)

- 실제값과 예측값의 차이를 제곱해 평균한 것에 루트를 씌운다
- 에러에 제곱을 하면 에러가 클수록 그에 따른 가중치가 높이 반영된다.
- 이때, 손실이 기하급수적으로 증가하는 상황에서 실제 오류평균보다 값이 더 커지지 않도록 하기 위해 사용한다.


 $$ RMSE = \sqrt{\frac{1}{n}\sum_{i=1}^{n} (Y_i-\hat{Y_i})^2}$$

In [11]:
import numpy as np
testVAI = np.array([1, 1.7, 1.5])
predVAI = np.array([1.1, 2, 1.7])
# np.sqrt : 제곱근
rmse = np.sqrt(sum((testVAI-predVAI)**2)/len(predVAI))
print(rmse)

0.21602468994692867


In [12]:
# sklearn의 mean_squared_error()로 계산하기.
from sklearn.metrics import mean_squared_error
testVAI = np.array([1, 1.7, 1.5])
predVAI = np.array([1.1, 2, 1.7])

mean_squared_error(testVAI, predVAI, squared = False)

0.21602468994692867

### 4 평균 제곱 로그 오차 (MSLE : Mean Squared Log Error)

- 실제값과 예측값의 차이를 제곱해 평균한 것에 로그를 적용한다.
- RMSE와 같이 손실이 기하급수적으로 증가하는 상황에서 실제 오류평균보다 값이 더 커지지 않도록 해준다.
 $$ MSLE = \log(\frac{1}{n}\sum_{i=1}^{n} (Y_i-\hat{Y_i})^2)$$

numpy와 sklearn의 구현값에 차이가 있음.

In [20]:
import numpy as np
testVAI = np.array([1, 2, 3, 2, 3, 5, 4, 6, 5, 6, 7])
predVAI = np.array([1, 1, 2, 2, 3, 4, 4, 5, 5, 7, 7])

msle = np.log(sum((testVAI-predVAI)**2)/len(predVAI))
print(msle)

-0.7884573603642702


In [21]:
# sklearn의 mean_squared_log_error()로 계산하기.
from sklearn.metrics import mean_squared_log_error
testVAI = np.array([1, 2, 3, 2, 3, 5, 4, 6, 5, 6, 7])
predVAI = np.array([1, 1, 2, 2, 3, 4, 4, 5, 5, 7, 7])

mean_squared_log_error(testVAI, predVAI)

0.029272467607503513