# 모델 평가방법 및 오버피팅
> 머신러닝 모델을 평가하는 방법과 오버피팅에 대해 알아봅시다.

- toc: true 
- badges: true
- comments: true
- categories: [Day 4]
- permalink: /model_evaluation_overfitting
- exec: colab

<br><br>

### 1. 모델 평가방법과 오버피팅이란?

![](img/bao_0.png)

지난 시간까지 우리는 다양한 모델에 대해 학습하였고 모델의 결과물에 대해 Accuracy를 사용하여 평가하였습니다. 하지만 정말 모든 경우에서 Accuracy를 사용하는 것이 정답일까요?<br>
이번 시간에는 Accuracy를 비롯한 Precision, Recall, F1 Score등의 모델 평가방법에 대해 알아보고 오버피팅이 무엇인지에 대해 학습하도록 하겠습니다.<br><br>

### 2. Accuracy

Accuracy는 모델이 예측하여 맞은 개수를 전체 개수로 나눈 값입니다.

예를 들어, 양성과 음성이 각각 500명인 질병 환자에 대해 감염 여부를 예측하는 모델을 실행하였을때 아래와 같은 결과가 나왔다고 가정해봅시다.

- 예측 #1

In [51]:
#collapse-hide
import pandas as pd

case1_df = pd.DataFrame(
    columns=['Pos', 'Neg'],
    index=['Pos', 'Neg'],
    data=[[390, 110],
          [10, 490]]
)

case1_df.head(2)

Unnamed: 0,Pos,Neg
Pos,390,110
Neg,10,490


모델의 결과가 양성 400명, 음성 600명으로 예측하였고, Accuracy는 (390+490)/1000 = 0.88이 됩니다.

하지만 다음과 같은 모델은 어떨까요?

- 예측 #2

In [52]:
#collapse-hide
import pandas as pd

case2_df= pd.DataFrame(
    columns=['Pos', 'Neg'],
    index=['Pos', 'Neg'],
    data=[[0, 100],
          [0, 900]]
)

case2_df.head(2)

Unnamed: 0,Pos,Neg
Pos,0,100
Neg,0,900


동일하게 1000명을 대상으로 예측을 진행했지만, 이번에는 실제 양성의 수가 100명, 음성의 수가 900명입니다.
모델의 예측 결과가 1000명 모두 음성으로 판단하였기 때문에 Accuracy는 900/1000 = 0.90이 됩니다.

두 번째 예측이 첫 번째 예측보다 0.02 높은 Accuracy를 기록했습니다. 그러므로, Accuracy에 기반하여 판단한다면 두 번째 모델이 더 좋은 모델이라고 판단할 수 있겠습니다.<br>
하지만, 두 번째 예측은 양성을 단 한명도 예측해내지 못했습니다. 양성을 단 한명도 예측하지 못하는 모델이 Accuracy가 높다는 것만을 이유로 더 좋다고 판단하는 것이 옳은 선택일까요?<br>
이처럼 불균형한 데이터에서는 Accuracy를 사용할 경우 잘못된 성능 예측 결과를 가져올 수 있음을 꼭 기억해야 합니다.<br>

문제가 생겼다면 이를 해결할 방법을 찾아야합니다. Accuracy의 문제를 해결하기 위해 사용되는 Precision, Recall과 이를 이용한 F1 Score에 대해 알아보도록 하겠습니다.<br><br>

### 3. Precision

Precision은 모델이 True라고 분류한 항목에서 실제 True인 것의 비율로, 모델의 관점에서 보는 평가 방법입니다.

![](img/precision.png)

두 번째 모델을 이용하여 Precision을 계산해보도록 하겠습니다.<br>
모델이 양성(Pos)이라고 분류한 항목의 합은 0입니다. 그러므로 P(Pos) =  0입니다.<br>
모델이 음성(Neg)이라고 분류한 항목의 합은 1000이고, 실제 음성은 900입니다. 그러므로 P(Neg) = 900/(900+100) = 0.90입니다.

이제 두 Presicion의 평균을 구하면 두 번째 모델의 Presicion을 알아낼 수 있습니다.<br>
모든 항목의 Presicion을 더하고 항목의 개수만큼 나눠주면 됩니다. 두 번째 모델의 Precision은 (0 + 0.9) / 2 = 0.45입니다.<br><br>

### 4. Recall

Recall은 실제 True인 항목에서 모델이 True라고 예측한 것의 비율로, 데이터 관점에서 보는 평가 방법입니다.

![](img/recall.png)

마찬가지로 두 번째 모델을 이용하여 Recall을 계산해 보겠습니다.<br>
실제 양성인 항목에서 모델이 양성으로 예측한 값은 0, 음성으로 예측한 값은 100 입니다. 그러므로 R(Pos) = 0/100 = 0입니다. <br>
실제 음성인 항목에서 모델이 음성으로 예측한 값은 900, 양성으로 예측한 값은 0 입니다. 그러므로 R(Neg) = 900/900 = 1입니다.

두 Recall의 평균을 구하면 두 번째 모델의 Recall을 알아낼 수 있습니다.<br>
Presicion과 마찬가지로 모든 Recall을 더하고 항목의 개수로 나눠주면 됩니다. 두 번째 모델의 Recall은 (0 + 1) / 2 = 0.5입니다.<br><br>

### 5. F1 Score

앞서 구한 Presicion과 Recall을 이용하여 F1 Score를 계산할 수 있습니다.

F1 Score를 구하는 식은 2 * (Presicion * Recall) / (Presicion + Recall)입니다.
이를 이용하여 두 번째 모델의 F1 Score를 계산하면 2 * (0.45 * 0.5) / (0.45 + 0.5) = 0.473입니다.

![](img/evaluation_result.png)<br>
두 번째 모델의 평가가 끝났습니다. Accuracy는 0.90이 나왔지만, F1 Score는 0.473이 나왔습니다. 이 모델을 Accuracy만 믿고 사용했다면 부정확한 예측를 대량으로 만들어버리는 좋지 못한 결과를 초래하였을 겁니다.<br>
이를 방지하기 위해서는 아래 그림처럼 Accuracy 이외에도 Precision, Recall, F1 Score를 이용한 평가를 진행하여 모델의 성능을 정확하게 알아내야 합니다.

![](img/kochat_evaluation.png)<br><br>

### 6. Overfitting

Overfitting은 공통적인 특징을 학습하는 것에 그치지 않고, 더욱 자세한 특징까지 학습하여 나타나는 현상입니다.

![](img/bao_1.png)<br>
예를 들어, 지폐를 구분하는 모델을 만들고 학습 데이터로 원화, 달러, 엔화를 사용하여 학습을 시켜봅시다.

![](img/bao_2.png)<br>
모델은 직사각형 사이즈에, 금액이 적혀있고, 일련번호가 적힌 것들을 지폐라고 분류할 수 있게 되었습니다.

여기서 그치지 않고 새로운 특징으로 "사람의 얼굴이 있다"는 것을 학습시켜 보았습니다. 더 자세한 특징을 학습시켰으니 모델이 더 정확한 판단을 내릴수 있다고 생각할 것입니다.<br>
하지만, 아래와 같이 결과는 더 나빠집니다. 사람의 얼굴이 없는 지폐는 지폐가 아니라고 판단해버리게 되었습니다.

![](img/bao_3.png)<br>

이처럼, 샘플 데이터만 가지고 너무 자세한 특징까지 학습하게 되어 새로운 데이터에 대해 예측하지 못하는 모델을 overfitting 모델이라고 합니다.<br> 이를 해결하기 위한 가장 기본적인 방법은 샘플 데이터를 충분히 사용하여 다양한 테스트 데이터에도 예측할 수 있도록 하는 것이며, 이외에도 Regularization과 Dropout등의 방법을 통해 해결할 수 있습니다.