> # **분류**

## 1. 분류란?

### 1-1. 분류

- 대표적인 지도학습의 사례 (vs 회귀)
- 분류: 기존 데이터가 어떤 레이블에 속하는지 패턴을 알고리즘으로 인지한 뒤에 새롭게 관측된 데이터에 대한 레이블을 판별하는 것
- 회귀는 연속형 변수를 예측하기 위해 사용하는 반면, 분류는 범주형 변수를 예측할때 사용

### 1-2. 이진 분류와 다중 분류

- 이진 분류(Binary Classification): 예측하고자 하는 변수 어떤 기준에 대하여 참 또는 거짓의 값만을 가질 때
- 다중 분류(Multiclass Classification): 예측하고자 하는 변수가 가질 수 있는 값이 3개 이상일 때

## 2. 분류 모델

### 2-1. 로지스틱 회귀

- 이진 분류 문제를 푸는 대표적인 알고리즘
- 샘플이 특정 클래스에 속할 확률을 추정하여 기준치에 따라 분류
- 독립 변수의 선형 회귀에 로지스틱 함수를 적용하여 출력값을 0에서 1사이로 변환

> 시그모이드 함수 ≈ 로지스틱 함수:  출력이 0과 1사이의 값을 가지면서 S자 형태로 그려지는 함수

![image.png](attachment:image.png)

- 입력값이 커지면 1에 수렴하고, 입력값이 작아지면 0에 수렴
- 입력값이 $(-\infin, \infin)$일 때, 출력값($y$)은 0~1의 값을 가짐

> 시그모이드 함수의 가중치

시그모이드 함수가 $H(x)=\frac{1}{1+e^{-(wx+b)}}=sigmoid(wx+b)=\sigma(wx+b)$일 때,     
인공지능은 주어진 데이터에 적합한 가중치 $w$와 $b$를 계산해서 찾음

1. 가중치 w의 변화에 따른 그래프 변화 (기울기 변화 - 커질수록 급격해짐)

![image.png](attachment:image.png)

2. 가중치 b에 따른 그래프 변화 (그래프의 위치 변화 - 오른쪽을 갈수록 작아짐)

![image.png](attachment:image.png)

### 2-2. 의사결정나무 (Decision Tree)

의사결정나무: 조건에 따라 데이터를 분류하며, 최종적으로 데이터가 순수한 label의 집합으로 구성될 때까지 분류를 반복하는 분석 방법

![image.png](attachment:image.png)

- Root Node: 가장 상위에 위치한 노드
- Parent Node: 주어진 노드의 상위에 있는 노드
- Child Node: 하나의 노드로부터 분리된 2개 이상의 노드들
- Binary Tree(이진 트리): Tree 중에서 children이 최대 2개인 tree
- Leaf Nodes: 자식마디가 없는 노드, 모델에서 label에 해당
- Edge: Parent node와 child node를 연결하는 연결선
- Height: 특정 노드에서 가장 멀리 있는 leaf node까지의 경로에 있는 edge 개수
- Depth: Root node에서 특정 노드에 도달하기 위한 edge의 수

> CART (이진분할) 알고리즘

- 데이터셋을 임계값을 기준으로 두 child로 나누는 알고리즘 
- 임계값을 불순도 (지니계수) 가 낮아지는 방향으로 나눔
- 불순도 : 분류하려는 데이터 집합에서 서로 다른 범주가 섞여 있는 정도

> CART 알고리즘의 주요 단계

1. 임계값 설정
2. 불순도 감소 알고리즘

> 모수 설정, 차이점 시각화, Prunnung

1. Hyperparameter 설정
- min_samples_split : 분할되기 위해 노드가 가져야 하는 최소 샘플 수
- min_samples_leaf : 리프 노드가 가지고 있어야 하는 최소 샘플 수
- min_weight_fraction_leaf :  min_samples_leaf 와 같지만 가중치가 부여된 전체 샘플 수에서의 비율
- max_leaf_nodes : 리프 노드의 최대 개수
- max_features : 각 노드에서 분할에 사용할 특성의 최대 수

2. 시각화


3. Prunning (가지치기)
- 불필요한 노드 치우기
- 노드가 너무 많아지면 과적합이 될 확률이 높음
- 가지치기를 통해 하부 트리를 제거하여 일반화 성능을 높일 수 있음
- 깊이가 줄어들고 결과의 개수가 줄어든다

### 2-3. SVM (support vector machine)

svm : 클래스를 분류할 수 있는 다양한 경계선 중 최적의 라인을 찾아내는 알고리즘

![image.png](attachment:image.png)

- Support vector (서포트 벡터): 데이터 중에서 결정 경계와 가장 가까이에 있는 데이터들의 집합
- Decision Boundary (결정 경계): 데이터 분류의 기준이 되는 경계
- Margin (마진): 결정 경계에서 서포트 벡터까지의 거리(여유 공간)
- Hyperplane (초평면): n차원 공간의 (n-1)차원 평면
- Slack Variables (슬랙 변수/여유변수): 완벽한 분리가 불가능할 때 분류를 위해 허용된 오차에 대한 변수

결정 경계는 데이터로부터 가장 멀리 떨어져 있는게 좋음       
= 따라서 SVM은 Margin이 가장 큰 경우를 선택함

장점
- 데이터가 적을때 효과적
- 연산량 최소화
- 정확성이 뛰어나며, 비선형 모델 분류 가능
- 다른 모델에 비해 과대 적합의 가능성이 낮고, 노이즈의 영향 적음   

단점
- 데이터 전처리 과정이 주용
- 데이터가 많아질수록 최적화를 위한 평가 과정이 많아서 속도 느림

### 2-4. KNN (K-Nearest Neighbor)

KNN : 데이터로부터 거리가 가까운 k개의 다른 데이터 레이블을 참조하여 분류하는 알고리즘    
k개의 이웃 설정 -> 가까운 k개의 데이터를 기분으로 분류

> KNN 알고리즘 계산 순서

1. 데이터 준비 (각 데이터를 특정 벡터와 레이블로만 이루어짐)
2. k 값설정 (보통 홀수개)
3. 거리 계산       
새로운 데이터가 주어지면, 이 값과 기존 모든 데이터 간의 거리를 계산
4. 가장 가까운 k개의 이웃 선택
5. 분류하기

> 최적의 K 선택하는 법

- 일반적으로 학습용 데이터 개수의 제곱근으로 설정
- k를 너무 크게 설정하면 주변에 있는 점과의 근접성이 떨어져서 분류가 잘 이뤄지지 않고 과소적합
- k를 너무 작게 설정하면 이상값, 잡음 데이터와 이웃이 될 가능성 있음

## 3. 분류 평가 지표

### 3-1. 혼동 행렬

혼동 행렬: 분류 모델의 예측 결과를 정확한 예측과 잘못된 예측으로 구분하여 나타낸 표

![image.png](attachment:image.png)

1. 정확도 (Accuracy): 모든 가능한 예측 중 참인 비율   
(TP+TN) / (TP+TN+FP+FN)     
2. 정밀도 (Precision)     
(TP) / (TP+FP)    
3. 재현도 (Recall)      
(TP) / (TP+FN)      
- 정밀도와 재현도는 Trade-off 관계

![image.png](attachment:image.png)

정밀도 & 재현도 그래프에서 두 값이 만나는 지점을 Threshold로 정하면 예측 오류를 최소화 할 수 있음

### 3-2. F1-Score

F1-Score : 정밀도와 재현율의 조화 평균    
= (2 * 정밀도 * 재현율) / (정밀도 + 재현율)

### 3-3. ROC / AUC Curve

> 1. ROC Curve

![image.png](attachment:image.png)

True Positive Rate (TPR) : 참인 것들 중에 참이라고 예측한 비율        
False Positive Rate (FPR) : 거짓인 것들 중에 참이라고 잘못 예측한 비율 

> 2. AUC Curve

ROC와 x축 사이의 면적

![image.png](attachment:image.png)

## 4. 하이퍼파라미터 최적화

### 4-1. 하이퍼파라미터 최적화

- 하이퍼파라미터: 학습 시작 전에 사용자가 직접 설정하는 변수    
- 하이퍼파라미터 최적화: 적절한 하이퍼파라미터를 찾아 모델 성능을 향상시키는 것

하이퍼 파라미터 최적화 과정    
1. Hyperparameter 탐색 범위 설정    
2. 평가 지표 계산 함수(성능 평가 함수) 정의     
3. 1단계에서 샘플링한 Hyperparameter 값을 사용하여 검증 데이터로 정확도 평가
4. 위 단계를 특정 횟수 반복하며, 정확도 결과를 보고 하이퍼파라미터의 범위 좁힘

### 4-2. 하이퍼파라미터 최적화 방법

1. Grid Search
- 정해진 범위에서 하이퍼파라미터는 모두 순회하며 가장 좋은 성능을 내는 값을 찾음
- 범위가 넓고 꼼꼼해 최적해를 정확히 찾을 수 있음
- 시간이 오래 걸린다는 단점

2. Random Search
- 정해진 범위에서 하이퍼파라미터를 무작위로 탐색해 가장 좋은 성능을 내는 값을 찾음
- 속도가 Grid Search 보다 따르지만 무작위이기 때문에 정확도가 떨어짐
3. Bayesian Optimization
- 사전 정보를 바탕으로 최적 하이퍼파라미터 값을 확률적으로 추정하며 탐색
- "Gausain Process"라는 통계학을 기반으로 만들어진 모델로, 여러 개의 하이퍼 파라미터들에 대해 "Aquisition Fucntion"을 적용했을 때, 가장 큰 값이 나올 확률이 높은 지점을 찾아냄
