# 머신러닝 Workshop2 - 측정 공식(Evaluation Metric)

지금까지 선형 회귀(Linear Regression), 로지스틱 회귀(Logistic Regression) 등 많은 알고리즘을 다뤘지만 현업에서, 그리고 실제 연구에서 이 알고리즘을 사용하기 위해서는 알고리즘의 성능을 정량적으로 측정하고 그 성능을 분석하는게 중요합니다. 이번 시간에는 구현한 머신러닝 모델의 성능을 평가(evaluate)하는 다양한 방법에 대해 살펴볼 것입니다.

측정 공식은 크게 1) 분류(Classification) 문제인지 2) 회귀(Regression) 문제인지에 따라 달라집니다. 먼저 분류 문제부터 보겠습니다.

## 분류(Classification) 문제에서 사용하는 측정 공식

### 오차행렬(Confusion Matrix)

이진 분류 모델의 성능을 평가하는 방법으로 잘 활용되는 방법은 Confusion Matrix를 만들어보는 것입니다. Confusion Matrix는 다음과 같은 2x2 행렬에서 실제값과 예측값이 어떻게 매핑되는지를 나타냅니다. 

<img src="http://drive.google.com/uc?export=view&id=1bcJ-dYqnocfV7EOs7nXAJ9cWq1Oq5BWd" width="800">


이진 분류에서 사용하는 용어 중 "**positive**"와 "**negative**"는 모델이 내놓은 예측값 기준으로 분류한 것이고, "**true**"와 "**false**"는 예측값과 실제값의 일치 여부를 기준으로 분류한 것입니다. 각 경우별로 살펴본다면 다음과 같습니다. <br>
- True Negative(TN): 실제 False인 값을 False라고 예측 (정답)
- False Positive(FP): 실제 False인 값을 True라고 예측 (오답)
- False Negative(FN): 실제 True인 값을 False라고 예측 (오답)
- True Positive(TP): 실제 True인 값을 True라고 예측 (정답) <br>

우선, 분류 모델에 대한 측정 공식을 알아보기 위한 예제 데이터셋을 랜덤으로 생성합니다.

In [1]:
import numpy as np

# numpy를 사용하여 랜덤한 값을 만들 것입니다. 
# numpy의 random(np.random)은 랜덤 값을 생성하는 기능들을 포함하고 있습니다. 
# 코드를 실행할 때마다 랜덤으로 값이 만들어지기 때문에 결과를 고정하기 위해 seed를 고정합니다.
np.random.seed = 123

# np.random.randint()는 최솟값(low), 최대값(high), 개수(size)를 입력받습니다. 
# 최솟값과 최댓값 사이에서 지정한 개수만큼 랜덤하게 정수(Integer)를 추출합니다.
y_true = np.random.randint(low=0, high=2, size=20)
y_pred = np.random.randint(low=0, high=2, size=20)

# y_true와 y_pred의 shape를 확인합니다.
# 20개가 잘 뽑혔다면 (20, 1) 또는 (20, )이 출력됩니다.
print(y_true.shape)
print(y_pred.shape)

# y_true와 y_pred의 값을 확인합니다.
print(y_true)
print(y_pred)

(20,)
(20,)
[1 0 1 1 0 0 1 1 1 0 0 0 0 1 0 1 1 1 1 1]
[0 0 0 1 1 1 1 0 0 0 1 1 0 0 0 1 0 1 1 1]


사이킷런은 Confusion Matrix를 만드는 **confusion_matrix()** API를 제공합니다. 실제값인 y_true와 예측값인 y_pred를 confusion_matrix()의 인자로 입력합니다. 

In [1]:
# 사이킷런의 confusion_matrix를 불러옵니다.
# Evaluation Metric과 관련된 함수는 사이킷런의 metrics에 포함되어 있습니다.
# Write your code!



출력된 Confusion Matrix은 array 형태입니다. 이진 분류의 TN, FP, FN, TP는 위의 표에서와 위치가 같습니다. 즉, TN은 array[0,0], FP는 array[0,1], FN은 array[1,0], TP는 array[1,1]에 해당합니다.

In [2]:
# Confusion Matrix의 각 요소를 가져와봅시다. 
# Write your code!



### 정확도(Accuracy)

Accuracy는 실제값과 예측값이 얼마나 같은지를 판단하는 지표입니다. 즉, Confusion Matrix에서 True에 해당하는 값인 **TN**과 **TP**에 좌우됩니다. Accuracy는 Confusion Matrix와 관련하여 다음과 같이 정의될 수 있습니다.
$$ Accuracy = \frac{예측값과 실제값이 일치하는 데이터 수}{전체 데이터 수} = \frac{TN + TP}{TN + FP + FN + TP}$$ 

Accuracy를 구하는 기능은 다음과 같이 구현할 수 있습니다. 

In [3]:
# Write your code!



사이킷런은 Accuracy를 측정하는 **accuracy_score()** 함수를 제공합니다. 첫 번째 파라미터로 실제값, 두 번째 파라미터로 예측값을 입력하면 됩니다. 

In [4]:
# Write your code!



그러나, **불균형한 데이터 세트**에서는 Accuracy만으로는 모델 신뢰도가 떨어질 수 있습니다. 예를 들어, 전체 데이터가 100개라고 할 때 10개만 1, 나머지 90개는 0인 데이터 세트가 있다고 가정합시다. 이 데이터 세트에 모든 데이터를 0으로 예측하는 모델을 이용해 Accuracy를 측정하면 90%의 Accuracy를 나타냅니다. 적절하지 않은 모델을 사용하고도 높은 수치가 나타날 수 있다는 것이 Accuracy를 평가 지표로 사용할 때의 문제점입니다. <br>

불균형한 데이터 세트에서 Accuracy의 이러한 **단점을 보완**할 수 있는 평가 지표로 정밀도(Precision)와 재현율(Recall)이 있습니다. Precision와 Recall은 "**positive**" 데이터 세트의 예측 성능에 좀더 초점을 맞춘 평가 지표입니다.

### 정밀도(Precision)

Precision는 "positive"로 예측한 대상 중에 예측값과 실제값이 일치하는 데이터의 비율을 말합니다. 따라서 Precision이 높을수록 좋은 모형입니다. Precision는 Confusion Matrix와 관련하여 다음과 같이 정의될 수 있습니다. 
$$Precision = \frac{TP}{FP + TP} $$

Precision을 구하는 기능은 다음과 같이 구현할 수 있습니다. 

In [5]:
# Write your code!



사이킷런은 Precision을 계산하는 **precision_score()** 함수를 제공합니다. 첫 번째 파라미터로 실제값, 두 번째 파라미터로 예측값을 입력하면 됩니다. 

In [6]:
# Write your code!



### 재현율(Recall)

Recall은 실제값이 "positive"인 대상 중에 예측값과 실제값이 일치하는 데이터의 비율을 말합니다. 따라서 Recall이 높을수록 좋은 모형입니다. Recall은 민감도(Sensitivity) 또는 TPR(True Positive Rate)라고도 불립니다. Recall은 Confusion Matrix와 관련하여 다음과 같이 정의될 수 있습니다.
$$ Recall = \frac{TP}{FN + TP} $$

Recall을 구하는 기능은 다음과 같이 구현할 수 있습니다.

In [7]:
# Write your code!



사이킷런은 재현율을 계산하는 **recall_score()** 함수를 제공합니다. 첫 번째 파라미터로 실제값, 두 번째 파라미터로 예측값을 입력하면 됩니다. 

In [8]:
# Write your code!



상황에 따라 Precision이 더 중요할 수도 있고 Recall이 더 중요한 지표가 될 수도 있습니다. <br>

실제 "negative"인 데이터를 "positive"로 잘못 판단했을 때 업무상 큰 영향을 주는 경우에는 Precision이 상대적으로 더 중요한 지표가 됩니다. 반대로 실제 "positive"인 데이터를 "negative"로 잘못 판단했을 때 업무상 큰 영향을 주는 경우에는 Recall이 상대적으로 더 중요한 지표가 됩니다. <br>

예를 들어 스팸 메일 여부를 판단하는 모델의 경우, 실제 스팸 메일(positive)인데 일반 메일(negative)로 분류한다면 사용자는 불편함을 느끼는 정도일 것입니다. 그러나 실제로 중요한 일반 메일(negative)를 스팸 메일(positive)로 분류하는 경우 업무에 차질이 생기게 될 것입니다. 이때에는 Precision이 더 중요한 지표가 됩니다. <br>

다른 예로, 암 환자를 판단하는 모델에서는 Recall이 더 중요한 지표가 됩니다. 실제로 암 환자(positive)인데 암 환자가 아니라고(negative) 판단하는 경우에 제때 치료를 받지 못하게 되므로 심각한 문제를 일으킬 수 있습니다. 반면 실제로 암 환자가 아닌(negative) 경우에 암 환자(positive)인 것으로 잘못 판단되는 경우에는 재검사 비용이 소모되기는 하겠지만 생명을 앗아가지는 않을 것입니다. <br>

Precision와 Recall의 공식을 살펴보면, 두 지표 모두 TP를 높이는 데 동일하게 초점을 맞추지만, Precision은 FP를, Recall은 FN을 낮추는 데 초점을 맞춥니다. 이러한 특성 때문에 Precision와 Recall은 분류의 성능을 평가하는 데 있어서 서로 보완적으로 작용합니다. <br>

따라서 Precision와 Recall 중 어느 하나만 매우 높고 다른 수치는 매우 낮은 결과를 나타내는 경우 바람직하지 않습니다.

## 2) 측정 공식 - 회귀 모델

이번에는 회귀 모델의 성능을 평가하는 방법에 대해 알아보겠습니다. <br>

수치(Float) 값을 예측하는 모델은 정확도 등의 분류 모델 평가 기준으로 평가하는 것이 애매합니다. 분류 모델은 맞게 분류했는지/아닌지만 평가하면 되지만, 회귀 모델은 정확하게 예측하지 못했더라도, 정답과 비슷하게 맞추면 성능이 좋다고 평가해야 합니다. 따라서 회귀의 평가를 위한 지표는 실제값과 예측값의 차이를 기반으로 합니다. <br>

이때 실제값과 예측값의 차이를 그냥 더하면 +와 -가 섞여서 오류가 상쇄됩니다. 이 때문에 오류의 절댓값 평균이나 제곱, 또는 제곱한 뒤 다시 루트를 씌운 평균값을 구합니다. 일반적으로 회귀의 성능을 평가하는 지표로는 **MAE**, **MSE**, **RMSE**, **R^2**, **MSLE**, **RMSLE** 등이 있습니다. 

우선, 회귀 모델에 대한 측정 공식을 알아보기 위한 예제 데이터셋을 랜덤으로 생성합니다

In [17]:
import numpy as np
import pandas as pd

# 코드를 실행할 때마다 랜덤으로 값이 만들어지기 때문에 결과를 고정하기 위해 seed를 고정합니다.
np.random.seed = 123

# np.random.randint()는 최솟값(low), 최대값(high), 개수(size)를 입력받습니다. 
# 최솟값과 최댓값 사이에서 지정한 개수만큼 랜덤하게 정수(Integer)를 추출합니다.
y_true = np.random.randint(low=10, high=900, size=500)

# np.random.random()는 개수(size)를 입력받습니다.
# 구간 [0.0, 1.0)에서 지정한 개수만큼 랜덤하게 Floats를 추출합니다.
y_pred = y_true + np.round(np.random.random(500), decimals=1) * np.random.randint(low=-10, high=10, size=500)

# y_true와 y_pred의 shape를 확인합니다.
# 500개가 잘 뽑혔다면 (500, 1) 또는 (500, )이 출력됩니다.
print(y_true.shape)
print(y_pred.shape)

# y_true와 y_pred의 값을 확인합니다.
y_df = pd.DataFrame(y_true, columns=['y_true'])
y_df['y_pred'] = y_pred
y_df[y_df['y_true'] > y_df['y_pred']].head(10)

(500,)
(500,)


Unnamed: 0,y_true,y_pred
4,732,728.8
5,92,91.8
6,359,357.2
7,483,482.2
9,707,706.0
10,285,282.5
12,281,280.5
13,637,635.8
14,399,398.1
15,101,100.7


### MAE (Mean Absolute Error)

MAE(Mean Absolute Error)는 실제값과 예측값의 차이를 **절댓값**으로 변환해 평균한 것입니다. 
$$ MAE = \frac{1}{n}\sum_{i=1}^{n}\left|Y_{i}-\hat{Y}_{i}\right| $$

MAE를 구하는 기능은 다음과 같이 구현할 수 있습니다. 

In [16]:
# Write your code!


사이킷런은 MAE를 계산하는 **mean_absolute_error()** 함수를 제공합니다. 첫 번째 파라미터로 실제값을, 두 번째 파라미터로 예측값을 입력하면 됩니다. 

In [17]:
# Write your code!


### MSE (Mean Squared Error)

MSE(Mean Squared Error)는 실제값과 예측값의 차이를 **제곱**해 평균한 것입니다. 
$$ MSE = \frac{1}{n}\sum_{i=1}^{n}(Y_{i}-\hat{Y}_{i})^2 $$

MSE를 구하는 기능은 다음과 같이 구현할 수 있습니다. 

In [18]:
# Write your code!


사이킷런은 MSE를 계산하는 **mean_squared_error()** 함수를 제공합니다. 첫 번째 파라미터로 실제값을, 두 번째 파라미터로 예측값을 입력하면 됩니다.

In [19]:
# Write your code!
