# 회귀 평가


**회귀 평가지표**
<table border="1" cellpadding="5" cellspacing="0">
    <thead>
        <tr>
            <th>평가 지표</th>
            <th>설명</th>
            <th>LaTeX 수식</th>
        </tr>
    </thead>
    <tbody>
        <tr>
            <td><strong>평균 제곱 오차 (MSE)</strong></td>
            <td>예측 값과 실제 값의 차이를 제곱하여 평균을 낸 값입니다.</td>
            <td>$$\text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2$$</td>
        </tr>
        <tr>
            <td><strong>평균 절대 오차 (MAE)</strong></td>
            <td>예측 값과 실제 값의 차이의 절대값을 평균한 값입니다.</td>
            <td>$$\text{MAE} = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i|$$</td>
        </tr>
        <tr>
            <td><strong>루트 평균 제곱 오차 (RMSE)</strong></td>
            <td>평균 제곱 오차의 제곱근으로, 실제 오차의 크기와 같은 단위를 가집니다. 큰 오차에 대해 더 가중치를 부여하므로 MAE 대비 크다.</td>
            <td>
            $$\text{RMSE} = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2}
            $$</td>
        </tr>
        <tr>
            <td><strong>평균 제곱 로그 오차 (MSLE)</strong></td>
            <td>실제 값과 예측 값의 로그 차이를 제곱하여 평균을 낸 값입니다.</td>
            <td>$$\text{MSLE} = \frac{1}{n} \sum_{i=1}^{n} \left( \log(y_i + 1) - \log(\hat{y}_i + 1) \right)^2$$</td>
        </tr>
        <tr>
            <td><strong>루트 평균 제곱 로그 오차 (RMSLE)</strong></td>
            <td>MSLE의 제곱근으로, 로그 스케일에서의 예측 정확도를 측정합니다.</td>
            <td>$$
            RMSLE = \sqrt{\frac{1}{n} \sum_{i=1}^{n} \left( \log(y_i + 1) - \log(\hat{y}_i + 1) \right)^2}$$</td>
        </tr>
        <tr>
            <td><strong>결정 계수 (R-squared, $R^2$)<strong></td>
            <td>모델이 데이터의 변동성을 얼마나 설명하는지를 나타냅니다.</td>
            <td>$$R^2 = 1 - \frac{\sum_{i=1}^{n} (y_i - \hat{y}_i)^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2}$$</td>
        </tr>
        <tr>
            <td>조정된 결정 계수 (Adjusted $R^2$)</td>
            <td>독립 변수의 개수를 고려하여 조정한 결정 계수입니다.</td>
            <td>$$\text{Adjusted } R^2 = 1 - \frac{(1-R^2)(n-1)}{n-p-1}$$</td>
        </tr>
        <tr>
            <td>설명 분산 점수 (Explained Variance)</td>
            <td>예측이 실제 데이터를 얼마나 잘 설명하는지를 나타냅니다.</td>
            <td>$$\text{Explained Variance} = 1 - \frac{\text{Var}(y - \hat{y})}{\text{Var}(y)}$$</td>
        </tr>
        <tr>
            <td>평균 절대 백분율 오차 (MAPE)</td>
            <td>예측 값과 실제 값의 차이를 실제 값으로 나눈 백분율의 절대값을 평균한 값입니다.</td>
            <td>$$\text{MAPE} = \frac{1}{n} \sum_{i=1}^{n} \left| \frac{y_i - \hat{y}_i}{y_i} \right| \times 100$$</td>
        </tr>
        <tr>
            <td>최대 절대 오차 (Max Error)</td>
            <td>가장 큰 오차의 절대값을 측정합니다.</td>
            <td>$$\text{Max Error} = \max(|y_i - \hat{y}_i|)$$</td>
        </tr>
        <tr>
            <td>Huber Loss</td>
            <td>MSE와 MAE의 장점을 결합한 손실 함수입니다.</td>
            <td>$$L_\delta(y, \hat{y}) = \begin{cases} \frac{1}{2}(y_i - \hat{y}_i)^2, & \text{if } |y_i - \hat{y}_i| \le \delta \\ \delta(|y_i - \hat{y}_i| - \frac{1}{2}\delta), & \text{otherwise} \end{cases}$$ </td>
        </tr>
        <tr>
            <td>로그 코사인 이탈 (Log-Cosh Loss)</td>
            <td>로그 하이퍼볼릭 코사인 함수의 값을 손실로 사용합니다.</td>
            <td>$$\text{Log-Cosh Loss} = \sum_{i=1}^{n} \log(\cosh(\hat{y}_i - y_i))$$</td>
        </tr>
        <tr>
            <td>대수 평균 제곱 오차 (Log-MSE)</td>
            <td>예측 값의 로그와 실제 값의 로그 간의 차이를 제곱하여 평균을 낸 값입니다.</td>
            <td>$$\text{Log-MSE} = \frac{1}{n} \sum_{i=1}^{n} (\log(y_i + 1) - \log(\hat{y}_i + 1))^2$$</td>
        </tr>
    </tbody>
</table>


In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [20]:
# 실제값
y_true = np.array([3, 0.5, 2, 7])

# 예측값
y_pred = np.array([2.5, 0.0, 2, 50])


In [4]:
# 평균제곱오차 MSE - Mean Squared Error
from sklearn.metrics import mean_squared_error, mean_absolute_error

mse = mean_squared_error(y_true, y_pred)
mse

462.375

In [5]:
# 평균절대오차 MAE - Mean Absolute Error
from sklearn.metrics import mean_absolute_error

mae = mean_absolute_error(y_true, y_pred)
mae

11.0

In [6]:
# 루트평균제곱오차 RMSE - Root Mean Squared Error # 0에 가까울수록 좋은 것
from sklearn.metrics import root_mean_squared_error

rmse = root_mean_squared_error(y_true, y_pred)
rmse

21.502906780247176

In [9]:
# R^2 결정계수 # 1에 가까울수록 좋은 것
from sklearn.metrics import r2_score
r2 = r2_score(y_true, y_pred)
r2

-78.76280323450135

In [10]:
# Huber Loss
# - 지정한 delta 값보다 오차가 작으면 MSE, 크면 MAE 적용

In [21]:
import numpy as np

def huber_loss(y_true, y_pred, delta=1.0):
   error = y_true - y_pred
   is_small_error = np.abs(error) <= delta

   squared_loss = 0.5 * (error ** 2)
   linear_loss = delta * (np.abs(error) - 0.5 * delta)

    # np.where(조건, 값1, 값2) : 삼항연산자
   return np.where(is_small_error, squared_loss, linear_loss).mean()


huber_loss(y_true, y_pred)

np.float64(10.6875)