# 분류 (Classification)

## 분류란?

### 머신러닝

머신러닝
- 컴퓨터가 스스로 어떠한 판단이나 예측을 할 수 있게 하는 학습 알고리즘이나 기술을 개발하는 인공지능의 분야
- 프로세스
  1. 알고리즘을 이용한 데이터 분석
  2. 분석 결과 스스로 학습
  3. 학습 결과를 기반으로 판단 / 예측 

### 지도학습과 비지도 학습

1. 지도 학습 (Supervised Learning)
- 정답이 있는 데이터 사용 (labeled data: 독립변수와 종속변수가 모두 존재하는 데이터)\
  *독립변수 (feature): 예측에 사용되는 입력 변수\
   *종속변수 (target/label) : 예측하고자 하는 대상 변수
- 예측값을 이미 만들어둔 정답과 같아지도록 기계를 학습시키는 것
- 회귀, 분류

2. 비지도 학습 (Unsupervised Learning)
- 정답이 없는 데이터 사용 (target/label 없이 feature만 있는 데이터)
- 데이터 속의 패턴 또는 각 데이터 간의 유사도를 기계가 학습하도록 하는 것
- 군집화, 밀도 추정, 차원 축소

3. 강화학습
- 시행착오를 반복해 정답을 찾는 과정
- 알파고

### 지도 학습: 회귀와 분류

- 회귀: 연속형 변수의 예측
- 분류: 범주형 변수의 예측

- 사용 결정 기준: 예측하고자 하는 값(=종속변수, Target, Label)의 데이터 유형 (연속형/범주형)

### 이진 분류와 다중 분류

- 이진 분류\
  예측하고자 하는 변수 어떤 기준에 대해 참(True, 1)/거짓(False, 0)의 값만 가짐

- 다중 분류\
예측하고자 하는 변수가 가질 수 있는 값이 3개 이상

## 분류 모델

### 로지스틱 회귀 (Logistic Regression)

- 이진 분류 문제 활용
- 목표: 샘플이 특정 클래스에 속할 확률 추정
- 독립 변수의 선형 조합(선형 회귀)에 로지스틱 함수를 적용해, 출력값을 0~1 사이로 변환

- 형태: 시그모이드 함수(Sigmoid Function)
  - 1 / 1+e^(-(wx+b))
  - 출력이 0~1 사이의 값을 가지면서 S자 형태
  - 입력값이 커지면 1에 수렴, 입력값이 작아지면 0에 수렴
  - 출력값이 특정값 이상이면 1(True), 이하면 0(False)로 설정
  - 코드
    - def sigmoid(x):\
      return 1/(1+np.exp(-x))
  - 인공지능의 역할: 주어진 데이터에 적합한 시그모이드 함수의 가중치 w와 b 구하기
    - w: 그래프의 기울기 변화
    - b: 그래프의 위치 변화

### 오즈 (Odds, 승산)

- 특정 사건 발생 확률 / 발생하지 않을 확률
- 로지스틱 회귀에서 승산을 사용하는 이유
  - 해석을 더 직관적으로 하기 위해
  - 비선형적 결과를 선형 결과로 변환하기 위해

- 로지스틱 회귀는 선형 회귀 모델에 시그모이드 함수를 적용해 비선형성을 준 모델
  - 가중치 w,b가 증가할 때 어떤 결과가 나오는지 직관적 파악이 어려움
  - 오즈를 활용하면 모델의 결과를 선형적으로 해석할 수 있게 됨

- logit(p) = log (p(A)/1-p(A))
  - 오즈의 로그변환
  - p(A) = 1 / 1+e^(-(wx+b))
    - 양 변에 logit 함수를 적용하면
    - logit(p) = wx+b
      - 선형 관계로 변환됨

- 로그를 사용하는 이유
  - 단순히 오즈로 변환하면, 불균형성을 가짐 (온전한 선형 관계 X)
  - 로그를 취해주면 확률이 0.5일 때를 기준으로 점대칭 함수가 됨
    - 더 직관적인 가중치 해석 가능

### 결정 나무 (Decision Tree)

- 조건에 따라 데이터를  분류해서, 최종적으로 데이터가 순수한 label의 집합으로 구성될 때까지 분류를 반복하는 모델
- 단어 정리
    - Root Node: Decision Tree의 시작이 되는 노드
    - Edge: 노드와 노드를 연결하는 길목 (가지)
    - Leaf Nodes: Tree의 가장 마지막 노드로, 모델에서 label에 해당
    - Height(depth): Tree의 깊이로, 클수록 tree의 구조는 복잡해짐
    - Level: 노드의 절대적 위계, Root node의 level = 0, leaf node의 level = height - 1
    - Parent: 상대적으로 높은 위계의 노드
    - Child: 상대적으로 낮은 위계의 노드
        - Binary Tree(이진 트리): Tree 중에서 children이 최대 2개인 tree

CART (Classification And Regression Tree)
- 가장 대표적인 결정 나무 알고리즘
- 데이터셋을 임계값 기준으로 두 child로 나누는 알고리즘
  - 임계값의 설정 기준: 불순도(지니계수)가 낮아지는 방향
    - 분류하려는 데이터 집합에서 서로 다른 클래스(범주)가 섞여 있는 정도
    - CART 알고리즘에서 사용하는 불순도 확인 기준 = 지니 계수
      - 통계적 분산 정도를 0~1 사이 값으로 정량화해서 표현한 값
      - Gini 최소값 : 0, 데이터가 한 개의 class에만 속하는 경우
      - Gini 최대값 : 모든 class가 동일한 비율로 존재하는 경우 (class 2 = 0.5, class 3 = 0.33...)
- 프로세스
  1. 임의의 임계값 설정
  2. 불순도(지니 계수) 감소 알고리즘
     - Greedy Algorithm
     - CART 알고리즘이 당장의 지니계수를 낮추는 판단만 해 가장 최적의 대안을 제시할 수 없는 문제
     - like Local Minima
     - Tree의 Height 고려 없이, 당장의 Level에서만 최적 선택
- 학습시 고려 사항
  1. Parameter 설정
     1. min_sample_split: 분할되기 의해 노드가 가져야 하는 최소 샘플(데이터) 수
     2. min_sample_leaf: 리프 노드가 가지고 있어야 하는 최소 샘플 수
     3. min_weight_fraction_leaf: min_sample_leaf와 동일, But 가중치가 부여된 전체 샘플 수에서의 비율
     4. max_leaf_nodes: 리프 노드의 최대 개수
     5. max_features: 각 노드에서 분할에 사용할 특성(feature)의 최대 수
  2. 시각화
     - 과적합 여부 눈으로 직관적인 확인
  3. Prunning(가지치기)
     - 불필요한 노드 지우기
     - 과적합을 방지하기 위한 절차
     - 하부 트리를 제거해 일반화 성능 높이기
     - 깊이(Height), 결과 개수(Leaf Nodes) 감소

### 서포트 벡터 머신 (SVM)

- 클래스를 분류할 수 있는 다양한 경계선 중 최적의 라인을 찾아내는 알고리즘
- 명확하게 분류할 수 있는 데이터 집단 + 고차원 공간(다수 Feature)에서 효과적

- 구성
  1. Support Vector
     - 구분하는 선과 가장가까운 포인트
  2. Decision Boundary(결정 경계)
     - 집단을 구분하는 선
  3. Margin
     - 선과 각 점의 거리

- 결정 경계의 선택 기준(최적의 분류 선)
  - Margin(거리)가 가장 큰 경우 선택

### KNN (K=Nearest Neighbor)

- 비슷한 특성을 가진 데이터끼리 서로 가까이 있다는 점을 이용한 분류 알고리즘 (유유상종)
- 데이터로부터 거리가 가까운 k개의 다른 데이터 레이블을 참조해 분류하는 알고리즘

- 프로세스
  1. 데이터 준비
     - 데이터 구성: 특징 벡터(위치 정보) + 레이블(Class, 범주)
  2. K 값 설정
     - 가장 가까운 이웃의 개수
     - 보통 홀수 개로 설정 (짝수 설정 시의 동점 발생 문제)
  3. 거리 계산
     - 새로운 데이터가 주어지면, 이 값과 기존 모든 데이터 간의 거리 계산
     - 유클리드 거리, 맨해튼 거리 등 사용
  4. 가장 가까운 K개의 이웃 선택
     - 계산된 거리 중 가장 작은 값을 가진 K 개의 데이터 선택
  5. 분류하기
     - K개 이웃 중 가장 많이 등장하는 클래스 = 예측 결과
    
- 장점
  1. 훈련 필요 없음
     - 별도의 모델 없이 기존 데이터만을 이용해서 새로운 데이터 분류 가능
  2. 정보 손실 없음
- 단점
  1. 쿼리를 처리하는 데 시간이 오래 걸림
     - 모든 기존 데이터에 대한 신규 데이터의 거리 계산 (데이터 수가 많아질수록, 오래 걸릴 수밖에)
  2. 이상치에 큰 영향을 받음 (Not Robust)

### 앙상블 

- 여러 개의 개별 분류 모델들을 결합해 하나의 분류 모델보다 더 좋은 성능을 내는 머신러닝 기법

1. 보팅 (Voting)
   - 다른 알고리즘의 모델을 병렬로 사용
  
2. 배깅 (Bagging)
   - 동일 알고르짐의 모델을 병렬로 사용
3. 부스팅 (Boosting)
   - 동일 알고리즘의 모델을 직렬로(순차적으로) 사용

## 분류 평가 지표

### 혼동 행렬

- 분류 모델의 예측 결과를 정확한 예측과 잘못된 예측으로 구분해 나타낸 매트릭스 표
- 총 4가지 경우의 수 (예측 성공 여부(T/F), 예측값(P/N)으로 구분)
  1. True Positive(TP)
  2. True Negative(TN)
  3. False Positive(FP) - 위양성 (1종 오류, 알파)
  4. False Negative(FN) - 위음성 (2종 오류, 베타)
- 혼돈행렬을 이용한 분류 모델 평가 지표 (0~1의 값)
  1. 정확도 (Accuracy)
     - 모든 예측 중 참인 비율
     - 모델이 입력된 데이터에 대해 얼마나 정확하게 예측하는지 나타냄
     - TP + TN / 전체
     - 단점: 정답 레이블의 비율이 불균형하면, 모델의 정확도 신뢰 불가능
       - 하나의 레이블이 95%의 비율을 가지고 있다면, 100%로 예측해도 95%의 정확도가 나옴
  2. 정밀도 (Precision)
     - 참이라고 예측한 경우 중 실제 참의 비율
     - 정밀도가 높을수록, 거짓을 참으로 예측하는 정도(FP - 위양성)가 낮음
     - TP / TP + *FP*
  3. 재현도 (Recall)
     - 실제로 참인 경우 중 참으로 예측하는 비율
     - 재현도가 높을수록, 참을 거짓으로 예측한 정도(FN - 위음성)가 낮음 
     - TP / TP + *FN*
  - 모델의 종류와 역할에 따라 특정 평가 지표의 중요도 달라짐
  - 정밀도와 재현도는 서로 Trade-Off 관계
    - 분류를 할 때, 확률 기반의 Threshold를 설정 (Treshold 이상이면 Positive, 이하면 Negative 예측)
      - Threshold 높아지면 -> 정밀도 증가 (재현도 감소)
      - Threshold 낮아지면 -> 재현도 증가 (정밀도 감소)
    - 정밀도 & 재현도 그래프가 Threshold 결정에 도움 가능
      - 모든 임계값에 대해 모델이 해당 임계값에서 가지는 정밀도와 재현도 값을 점으로 표현(->선)
      - 두 값이 만나는 지점을 임계값으로 정할 때, 예측 오류 최소화 가능

### F1-Score

- 정밀도와 재현율의 조화 평균
- 2*Precision*Recall / Precision + Recall
- 정밀도와 재현율 간 균형을 효과적으로 평가하기 위해서 고안된 지표

### ROC Curve

- 얼마나 분류가 잘 되었는가를 보여주는 지표
- 좌상단으로 붙어있는 ROC 커브일 수록 더 좋은 분류
- x축: True Positive Rate(TPR)
  - 참인 것들 중 참이라고 예측한 비율 (=Recall)
  - TP / TP + NF
- y축: False Positive Rate(FPR)
  - 거짓인 것들 중에 참이라고 잘못 예측한 비율
  - FP / TN + NP
- 완벽한 분류기를 만들기는 어려움
  - 현실적인 한계 (비용, 시간 등)을 고려해 적절히 타협한 최선의 ROC Curve 도출 필요

### AUC Curve

- ROC와 x축 사이의 면적 (적분값)
- 모델의 성능을 숫자로 나타낼 수 있음
- 0~1사이의 값을 가지며, 1에 가까울수록 분류 성능 좋은 것으로 해석
- 두 모델의 성능에 대한 수치적 비교 가능

### 다중 분류 평가 지표(참고)

- 이진 분류 평가지표를 사용해서 클래스별로 점수를 구한 뒤, 이를 적절히 평균 내리는 것
1. Macro Average
   - 클래스별로 구한 평가 지표 평균
   - 모든 라벨이 유사한 중요도를 가질 때
2. Weighted Average
   - 클래스별로 구한 평가 지표 가중평균
   - 샘플이 많은 라벨에 중요도를 두고 싶을 때 (특정 클래스의 데이터 수가 많을 때)
3. Micro Average
   - 모든 클래스의 예측 결과를 더해, 전체적인 성능을 평가하는 지표
   - 라벨에 상관없이 전체적인 성능을 평가하고 싶을 때

## 하이퍼파라미터 최적화

### 하이퍼파라미터 최적화

- 하이퍼파라미터 (Hyperparameter)
  - 모델 학습 과정에 반영되는 값
  - 학습 시작 전에 사용자가 직접 설정하는 변수
- 하이퍼파라미터 최적화 (Hyperparameter Optimization)
  - Tuning을 거쳐, 적절한 하이퍼파라미터를 찾음으로써 Model 성능을 향상시키는 것

- Optuna 라이브러리를 통해 하이퍼파라미터 최적화 자동화 가능

### 하이퍼파라미터 최적화 과정

1. 하이퍼파라미터 탐색 범위 설정
2. 평가 지표 계산 함수 (성능 평가 함수) 정의
   - 탐색하려는 하이퍼파라미터를 인수로 사용
3. 1단계에서 샘플링한 하이퍼파라미터 값을 사용해 검증 데이터로 정확도 평가
4. 1~3단계를 특정 횟수 반복, 정확도 결과를 보고 하이퍼파라미터 범위 좁히기

### 하이퍼파라미터 최적화 방법

1. Grid Search
   - 정해진 범위에서 하이퍼파라미터를 모두 순회해, 가장 좋은 성능을 내는 값 탐색
   - 장점
     - 범위가 넓고 step이 작을수록 꼼꼼하게 전 범위를 탐색해 최적해를 정확히 찾을 수 있음
   - 단점
     - 시간이 오래 걸림
   - 적용
     - 넓은 범위, 큰 step을 활용해 범위를 좁히기

2. Random Search
   - 정해진 범위에서 하이퍼파라미터를 무작위로 탐색해, 가장 좋은 성능을 내는 값 탐색
   - 장점
     - 속도가 Grid Search보다 빠름
   - 단점
     - 무작위라는 한계, 정확도 떨어짐
3. Bayesian Optimization
   - 사전 정보를 바탕으로 최적 하이퍼파라미터 값을 확률적으로 추정해 탐색
   - 'Gausain Process'라는 통계학을 기반으로 만들어진 모델로, 여러 개의 하이퍼 파라미터들에 대해 'Aquisition Function"을 적용했을 때, "가장 큰 값"이 나올 확률이 높은 지점을 찾아냄

### 하이퍼파라미터 최적화 검증

- 3가지의 데이터 구성
  1. 훈련 데이터 (Train): 매개변수(가중치와 편향) 학습에 이용
  2. 검증 데이터 (Valid): 하이퍼파라미터 성능을 평가하는 데 이용
  3. 테스트 데이터 (Test): 신경망의 범용 성능을 평가하는 데 이용 (모델의 최종 성능 평가)

