# 3.1 분류 결과에 대한 평가 행렬

- 스팸 분류 예에서의 지표 
    - 정확도
    - 정밀도
    - 재현율
    - F-점수
- 학습할 개념
    - 혼동행렬
    - 마이크로 평균, 매크로 평균

### 3.1.1 그냥 정확도를 사용하면 될까?

- 분류에서는 결과가 얼마나 바르게 나위었는가를 기준으로 분류기의 성능 평가
- 정확도의 정의
> $ 정확도 = \frac{정답과 일치한 수}{전체 데이터 수}$
- 분류 문제는 일반적으로 무작위로 선택한 결과를 최저 성능으로 삼음
- 대상 클래스의 분포 자체가 치우친 경우 정확도만으로는 의미가 없음

### 3.1.2 데이터 분포가 치우친 경우를 위한 지표 - 정밀도와 재현율

- **정밀도**<sup>precision</sup>: 출력 결과가 정담을 얼마나 맞혔는지에 대한 지표
> $ 정밀도 = \frac{진짜 정답의 수}{정답으로 출력한 수} = \frac{TP}{TP + FP}$
- **재현율**<sup>recall</sup>: 출력 결과가 실제 정답 중 얼마나 맞혔는지에 대한 지표
> $ 재현율 = \frac{정답으로 출력한 수}{전체 데이터에 포함된 진짜 정답 수} = \frac{TP}{TP + FN}$
- 정밀도와 재현율은 상충관계

### 3.1.3 균형 잡힌 성능을 평가하는 F-점수

- **F-점수**<sup>F-measure</sup>: 정밀도와 재현율의 상충관계를 평가에 반영하여 실제 분류기를 비교하는 데 사용되는 지표
- 정밀도와 재현율의 조화평균
> $ F-점수 = \frac{2}{\frac{1}{정밀도}+\frac{1}{재현율}}$
- 재현율과 정밀도가 균형을 이룰 때 F-점수가 높아진다.

### 3.1.4 혼동행렬 따라잡기

- 혼동행렬<sup>confusion matrix</sup>: 
![혼동행렬](./images/confmatrix.png)

- 사이킷런의 혿동행렬 계산 함수 confusion_matrix 사용 코드

In [2]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix

# 데이터를 훈련 데이터와 테스트 데이터로 분할
data_train, data_test, label_train, label_test = train_test_split(data, label)

# 분류기로 예측. 선형 SVM 사용 예
classifier = svm.SVC(kernel='linear')
label_pred = classifier.fit(data_train, label_train).predict(data_test)

# 혼동행렬 계산
cm = confusion_matrix(label_test, label_pred)
print(cm)

NameError: name 'data' is not defined

### 3.1.5 다중 클래스 분류의 평균 구하기 - 마이크로 평균과 매크로 평균

- 마이크로 평균<sup>micro-average</sup>: 모든 클래스의 결과를 합쳐 전체를 평가.
> $ 정밀도_{마이크로 평균} = \frac{TP_1 + TP_2 + TP_3}{TP_1 + TP_2 + TP_3 + FP_1 + FP_2 + FP_3}$ (3 개의 클래스 분류 시)
- 매크로 평균<sup>macro-average</sup>: 클래스별 정밀도를 계산한 다음 클래스 단위로 이 정밀도의 평균을 구해 계산. 클래스를 나누지 않은 전체 성능의 양상을 알기에 적합. 클래스마다 데이터의 수에 차이가 나는 경우 사용
> $ 정밀도_{매크로 평균} = \frac{정밀도_1 + 정밀도_2 + 정밀도_3}{3}$  (3 개의 클래스 분류 시)

### 3.1.6 분류 모델 비교하기

- 모델들의 성능 비교 시에는 F-점수를 많이 사용.
- F-점수 외에도 ROC 곡선<sup>receiver operating characteristics curve</sup>나 이 곡선으로부터 계산하는 AUC<sup>area ubnder the curve</sup> 등의 지표가 있다.
- 학습 모델의 성능이 높은 것과 비지니스 목적을 달성하는 것은 별개의 문제!

---

# 3.2 회귀 모델 평가하기

- 평균제곱근오차와 결정 계수

### 3.2.1 평균제곱근오차<sup>root mean squared error</sup>(RMSE) 

- 평균제곱근오차: 예측값 배열과 실젯값 배열의 각 요소의 차를 제곱하여 합하고 전체 배열 수로 나눈 뒤 제곱근을 취한 값
> $ RMSE = \sqrt{\frac{\sum_i{(예측값_i - 실젯값_i)^2}}{N}} $
- 평균제곱근오차 코드

In [3]:
from math import sqrt

sum = 0

for predict, actual in zip(predicts, actual):
    sum += (predict - actual) ** 2
    
sqrt(sum / len(predicts))

NameError: name 'predicts' is not defined

- 사이킷런에는 mean_squared_error 함수(평균제곱근오차가 아닌 평균제곱오차 함수임!)로 정의

In [4]:
from sklearn.metrics import mean_squared_error
from math import sqrt

rms = sqrt(mean_squared_error(y_actual, y_predict))

NameError: name 'y_actual' is not defined


### 3.2.2 결정 계수<sup>coefficient determination</sup>

- 회귀로 근사한 방정식을 평가하는 지표로 R<sup>2</sup>로 표현됨
> $ 결정 계수(R^2) = 1 - \frac{\sum_i{(예측값_i - 실젯값_i)^2}}{\sum_i{(예측값_i - 실젯값의 평균)^2}} $

- 항상 평균을 출력하는 예측 모델보다 성능이 얼마나 더 좋은가를 표현
- 1에 가까울수록 성능이 좋음
- 사이킷런의 r2_score 함수를 사용하여 적용

In [6]:
from sklearn.linear_model import LinearRegression
lr = LinearRegression()

lr.fit(x, y)

from sklearn.metrics import r2_score
r2 = r2_score(y, lr.predict(x))

NameError: name 'x' is not defined

- 회귀 모델은 linearRegression의 score(x, y) 함수를 이용하여 결정 계수를 구할 수 있다.

---

# 3.3 머신러닝 시스템의 A/B 테스트

> A/B테스트  
변수 A에 비해 대상이 변수 B에 대해 보이는 응답을 테스트하고, 두 변수 중 어떤 것이 더 효과적인지를 판단함으로써 단일 변수에 대한 두 가지 버전을 비교하는 방법

- 온라인 서비스에서 모델을 적용하지 않았을 경우와 각각의 모델을 적용 했을 경우의 성과를 비교하는 방식으로 최적의 모델을 선택
- 시스템을 A/B 테스트를 적용할 수 있는 형태로 구성할 경우 새로운 모델을 단계적으로 출시하거나 롤백하는 것이 가능하여 검증 주기를 빠르게 하거나 기회 비용을 줄일 수 있음


---

# 3.4 정리

- 분류 작업에서 사용되는 지표들
    - 정밀도
    - 정확도
    - 재현율
    - F-점수
- 실무에서는 혼동행렬을 작성하여 성능을 파악하는 것이 중요
- 회귀 작업용 평가 지표들
    - 평균제곱근오차
    - 결정 계수
- 모델의 성능향상만을 좇지 말고 비지니스 관점에서의 KPI를 염두에 두어야 한다.