# 혼동행렬
작성일 : 2020-10-05

---

## 혼동행렬 (Confusion Matrix)
- 모델 성능을 평가할 때 사용되는 지표
- 예측값이 실제값을 얼마나 정확히 예측했는지 보여주는 행렬

In [None]:
import pandas as pd
Y_actual = pd.Series([0,0,1,0,0,1,0], name = 'actual')
Y_predict = pd.Series([0,0,1,1,0,0,1], name = 'predict')

pd.crosstab(Y_actual, Y_predict)

predict,0,1
actual,Unnamed: 1_level_1,Unnamed: 2_level_1
0,3,2
1,1,1


|| 예측 (예) | 예측 (아니오)|
|--|:--:|:--:|
실제 (예) | TP | FN
실제 (아니오) | FP | TN

- `TR (True Positive)` : 참긍정, 병에 관해 예라고 예측한 환자가 실제로 병을 가진 경우
- `TN (True Negative)` : 참부정 : 병에 관해 아니오라고 예측한 환자가 실제로 병이 없는 경우
- `FP (False Positive)` : 거짓 긍정, 병에 관해 예라고 예측한 환자가 실제로 병이 없는 경우
- `FN (False Negative)` : **거짓 부정, 병에 관해 아니오라고 예측한 환자가 실제로 병을 가진 경우**


|| 예측 (불량품) | 예측 (정상)|
|--|:--:|:--:|
실제 (불량품) | TP | FN
실제 (정상) | FP | TN

- `TR (True Positive)` : 참긍정, 불량품을 정확하게 불량품으로 예측
- `TN (True Negative)` : 참부정, 정상을 정상으로 예측
- `FP (False Positive)` : 거짓 긍정, 정상을 불량품으로 잘못 예측
- `FN (False Negative)` : **거짓 부정, 불량품을 정상으로 잘못 예측**

In [None]:
from sklearn.metrics import confusion_matrix, classification_report

In [None]:
print(confusion_matrix(Y_actual, Y_predict))

[[3 2]
 [1 1]]


In [None]:
print(classification_report(Y_actual, Y_predict))

              precision    recall  f1-score   support

           0       0.75      0.60      0.67         5
           1       0.33      0.50      0.40         2

    accuracy                           0.57         7
   macro avg       0.54      0.55      0.53         7
weighted avg       0.63      0.57      0.59         7



### 정확도
- 정확도 = 예측결과와 실제값이 동일한 건수 / 전체 데이터 수  
  `= (TP + TN) / (TP + TN + FP + FN)`  
  `= (3 + 1) / (3 + 1 + 2 + 1)`  


### 정밀도
- 정밀도 (precision) : 정밀도는 예 클래스에 속한다고 출력한 값이 실제로 예 클래스에 속하는 비율  

- 정밀도 `= TP / (TP + FP)`  
0 정밀도 `= 3 / (3 + 1)`  
1 정밀도 `= 1 / (2 + 1)`  

### 재현율
- 재현율 (recall) : 실제값 중에서 모델이 검출한 실제값의 비율을 나타내는 지표  
실제 암환자들이 병원에 갔을 때 암환자라고 예측될 확률

- 재현율 `= TP / (TP + FN)`  
0 재현율 `= 3 / (3 + 2)`  
1 재현율 `= 1 / (1 + 1)`

### f1-score 
- f1-score : 정밀도와 재현율의 조화평균  

- f1점수 `= 2 * 재현율 * 정밀도 / (재현율 + 정밀도)`  
0 f1 점수 `= 2 * 0.6 * 0.75 / (0.6 + 0.75)`
1 f1 점수 `= 2 * 0.5 * 0.33 / (0.5 + 0.33)`

[문제8] 서울과 부산(400km)를 왕복하는데 서울에서 부산 가는데 시속 150km/h로 가고 오는데 시속 100km/h로 왔다면 왕복하는데 걸린 평균 시속은?

In [None]:
800/((400/150) + (400/100))

120.00000000000001

= 120km/h

유방암 데이터 classification_report

In [None]:
confusion_matrix(Y_test,clf.predict(X_test))

array([[71,  0],
       [ 3, 40]])

In [None]:
print(classification_report(Y_test, clf.predict(X_test)))

              precision    recall  f1-score   support

           B       0.96      1.00      0.98        71
           M       1.00      0.93      0.96        43

    accuracy                           0.97       114
   macro avg       0.98      0.97      0.97       114
weighted avg       0.97      0.97      0.97       114



```
정확도 (accuracy) = (71 + 40) / 114
B 정밀도 (precision) = (71 / 71 + 3)
M 정밀도 (precision) = 40 / 40

B 재현율 (recall) = 71 / 71
M 재현율 (recall) = 40 / (40 + 3)

B F1점수 = (2 * 0.96 * 1.0) / (0.96 + 1.0)
M F1점수 = (2 * 1.0 * 0.93) / (1.0 + 0.93)
```

### 참고 | 가중평균(weighted mean)
각 항의 수치에 그 중요도에 비례하는 계수를 곱한 다음 산출하는 평균

[문제9] 수강생이 다른 세 반의 평균은?  

<br/>

|반|수강생|반평균|
|--|:--:|:--:|
|1반|40|70|
|2반|35|75|
|3반|25|80|

In [None]:
(40 * 70 + 35 * 75 + 25 * 80) / (40 + 35 + 25)

74.25

[문제10] 홍하든, 박커리 두 학생이 확률통계(3학점), 컴퓨터시스템(2학점)을 수강한 결과  
홍하든은 확률통계에서 A학점, 컴퓨터시스템에서 B학점을 받았고  
박커리는 확률통계에서 B학점, 컴퓨터시스템에서 A학점을 받았다.  
A학점은 평점 4, B학점은 평점 3일 때 각 학생들의 평균평점을 구하세요.

In [None]:
# 홍하든
(4 * 3 + 3 * 2) / (3 + 2)

3.6

In [None]:
# 박커리
(3 * 3 + 4 * 2) / (3 + 2)

3.4

### 참고 | 변화율

[문제10] 전년도 대비 증가율?  

<br/>

|년도|수익|증가율|
|--|--:|--:|
|2015|635|
|2016|998|
|2017|1265|
|2018|1701|
|2019|2363|

In [None]:
# 2016년
(998 - 635) / 635 * 100

57.16535433070866

In [None]:
# 2017년
(1265 - 998) / 998 * 100

26.753507014028056

In [None]:
(1701 - 1265) / 1265 * 100

34.466403162055336

In [None]:
(2363 - 1701) / 1701 * 100

38.918283362727806

|년도|수익|증가율|
|--|--:|--:|
|2015|635|
|2016|998|57.2%|
|2017|1265|26.8%|
|2018|1701|34.5%|
|2019|2363|38.9%|

[문제11] 5년동안 연평균 변화율은?

In [None]:
((998/635) * (1265/998) * (1701/1265) * (2365/1701))**(1/4) - 1

0.38919865750632154

In [None]:
(2363/635)**(1/4) - 1

0.3889048648162128

### 참고 | 절단평균, 절사평균, Trimmed mean
- 자료중에서 큰 관측값이나 작은 관측값을 각각 몇 만큼 버린 나머지 관측값들로 평균을 구한다.
- 2014년 국회의원 재산 공개  
평균 97억 5667만원  
500억 이상 제외한 평균 18억 686만원
