# 분류 기법
- 관측 데이터가 어떤 그룹(레이블, 클래스)에 속하는지 분석하는 행위
- 이러한 분류 작업을 수행하는 기법 또는 학습 모형을 분류기 (classifier)
- 분류를 하기 위해서는 클래스에 대한 정보가 주어져야 함
- 클래스는 상호 배타적인 그룹 명칭이며, 범주형 데이터 또는 이산형 데이터

## 데이터의 유형

### 범주형 (Categorical) 데이터
- 여러 개의 범주로 나뉘어져 있는 데이터, 정성적(질적; qualitative) 자료
- 명목형 (nominal) 데이터
    - 순서를 매길 수 없고, 단순히 분류를 할 수 있는 데이터
    - 성별, 종교, 색상, 혈액형
- 순서형 (ordinal) 데이터
    - 범주 간의 순서 또는 서열이 존재하는 데이터
    - 일반적으로 수치 연산이 무의미하거나 불가능

### 수치형 (Numeric) 데이터
- 수치의 형태로 표현되어 측정이 가능한 데이터, 정량적(양적; quantitative) 자료
- 이산형 (discrete) 데이터
    - 정수 등 특정한 형태로 표현되어 계수할 수 있는 데이터
    - 인원 수, 진료 횟수, 사고 건수
- 연속형 (continuous) 데이터
    - 논리적으로 계량할 수 있는 데이터
    - 실수의 형태로서, 수치 연산의 산술적 의미
    - 키, 몸무게, 온도, 점수

## 분류 기법의 형태
### 이진 분류 (Binary Classification)
- 두 개의 클래스를 구별하는 분류 기법
- 대표적으로 로지스틱 회귀, 서포트 벡터 머신(SVM; Support Vector Machine), 인공 신경망 학습

### 다중 분류 (Multiclass Classification)
- 세 개 이상의 클래스들을 구분하는 분류 기법으로서, 다항(multinomial) 분류
- 다항 로지스틱 회귀, 랜덤 포레스트, 나이브 베이즈 분류기
- 이진 분류 기법을 여러 개 조합하여 분류

## 분류의 성능 평가 지표

### 정확도 (Accuracy)

$$ 정확도 = \frac{\mbox{실제 결과와 동일한 예측 결과의 수}}{\mbox{전체 예측 결과의 수}} $$

### 오차 행렬 (Confusion Matrix)
- 4분면 행렬을 이용하여 실제 결과 값과 예측 결과 값이 얼마나 매칭되었는지를 표현
    - TP : 실제로 Positive이고 예측도 Positive로 했다.
    - FP : 실제로 Negative인데 예측을 Positive로 했다.
    - FN : 실제로 Positive인데 예측을 Negative로 했다.
    - TN : 실제로 Negative이고 예측도 Negative로 했다.
    
![](../img/confusion_matrix.png)

### 정밀도 (Precision)
- Positive로 예측한 결과들 중 실제로 Positive인 결과들의 비율

> 정답으로 찾아낸 결과들 중에서 실제로 정답이 얼마나 많이 있는가?

$$ 정밀도 = \frac{\mbox{True Positive}}{\mbox{True Positive + False Positive}} $$

![](../img/precision.png)

### 재현율 (Recall)
- 실제로 Positive인 결과들 중 Positive로 예측한 결과들의 비율

> 원래의 정답들 중에서 실제로 정답으로 찾아낸 결과가 얼마나 많이 있는가?

$$ 정밀도 = \frac{\mbox{True Positive}}{\mbox{True Positive + False Negative}} $$

![](../img/recall.png)

### F1 스코어 (F1 Score)
- 정밀도와 재현율을 결합한 지표로서, 두 수치의 조화 평균

$$ F1 = \frac{2}{\frac{1}{정밀도} + \frac{1}{재현율}} = 2 \times \frac{정밀도 \times 재현율}{정밀도 + 재현율} $$

## 사이킷런으로 성능 평가 지표 확인
|함수명|설명|
|---|---|
|**accuracy_score**|정확도를 계산한다.|
|**confusion_matrix** |오차 행렬을 도출한다.|
|**precision_score** |정밀도를 계산한다.|
|**recall_score** |재현율을 계산한다.|
|**f1_score** |F1 스코어를 계산한다.|
|**classification_report** | 정밀도, 재현율, F1 스코어를 함께 보여준다|

## 예제

In [1]:
acutal_result = [1,0,0,1,1]
predicted_result = [0,1,0,1,0]

In [2]:
import sklearn.metrics as mt

  return f(*args, **kwds)
  return f(*args, **kwds)


In [4]:
accuacy = mt.accuracy_score(acutal_result,predicted_result)
accuacy

0.4

In [6]:
matrix = mt.confusion_matrix(acutal_result,predicted_result)
matrix # 분류한 갯수를 보여줌

array([[1, 1],
       [2, 1]])

In [7]:
precision = mt.precision_score(acutal_result,predicted_result)
precision

0.5

In [8]:
recall = mt.recall_score(acutal_result,predicted_result)
recall

0.3333333333333333

In [9]:
f1score = mt.f1_score(acutal_result,predicted_result)
f1score

0.4

In [11]:
scores = mt.classification_report(acutal_result,predicted_result)
print(scores)

              precision    recall  f1-score   support

           0       0.33      0.50      0.40         2
           1       0.50      0.33      0.40         3

   micro avg       0.40      0.40      0.40         5
   macro avg       0.42      0.42      0.40         5
weighted avg       0.43      0.40      0.40         5

