# 지도 학습 vs 비지도 학습

| 지도학습 | 비지도학습 |
| :-- | :-- |
| 목표변수와 다른 변수간의 관계를 기계가 학습하도록 가르치는 방식입니다. | 목표변수, 즉 정답을 알려주지 않고 알고리즘이 스스로 학습하도록 하는 방식입니다. | 
| 이미 알려져 있는 정답값과 유사한 예측값을 도출할 수 있는 패턴을 탐색합니다. | 주어진 데이터 사이의 숨은 패턴이나 관계를 찾습니다. |
| ex) 회귀, 분류 | ex) 군집화, 차원 축소 |


# 회귀 vs 분류

| 회귀 (Regression) | 분류 (Classification) |
| :-- | :-- |
| 주어진 데이터를 기반으로 정답에 가장 근접한 회귀식을 찾는 과정입니다. | 기존 데이터가 어떤 레이블에 속하는지 파악하고 새로운 데이터의 레이블도 판별합니다. | 
| 예측하고자 하는 값이 연속형 변수일 때 사용합니다. | 예측하고자 하는 값이 범주형 변수일 때 사용합니다. |

- 사실 분석법에 있어서 회귀와 분류는 동일한 틀에서 이루어진다고 볼 수 있습니다.
- Charles Darwin의 사촌인 Francis Galton이 부모와 자식 간의 '키'의 관계에 대해 알아보기 위해 고안했던 회귀분석 기법의 아이디어가 범주형 변수도 예측하기 위해 로지스틱 회귀로 발전하고, 오늘날의 DNN까지 이어지게 된 것입니다.
- 즉, 회귀분석과 분류가 아예 다른 방법인게 아니라 회귀분석인데 y가 categorical한 것이 분류(Classification)라고 할 수 있습니다.

# 분류 모델의 4가지 종류

## 로지스틱 회귀 (Logistic Regression)
- 가장 대표적인 분류 알고리즘으로, 예측하고자 하는 변수가 이진 분류(Binary Classification)일 때 사용합니다.
    - 이진 분류란 어떤 값이 True(1)와 False(0)만을 가질 때를 의미합니다.
    - 만약 예측하고자 하는 값이 3개 이상이라면 다중 분류(Multiclass Classification)라고 말합니다.
- 예를 들어, 이메일이 스팸인지 아닌지 구분하거나 환자가 특정 질환을 앓고 있는지 예측하고 싶을 때 로지스틱 회귀분석을 합니다.

#### 시그모이드 함수 (로지스틱 함수)
![image.png](attachment:bb11127b-d341-45a2-a70e-35378def59f8.png)
- 회귀분석에 회귀식이 있는 것처럼, 로지스틱 회귀에는 시그모이드 함수라는 것이 있습니다.
- 시그모이드 함수는 출력값이 0과 1 사이에 존재하며 S자 형태로 그려진다는 특징이 있습니다.
- 입력값이 커지면 급격하게 1로 수렴하고, 작아지면 급격하게 0으로 수렴하기 때문에 이진 분류 작업에 적합합니다.
- 시그모이드 함수를 이해하기 위해서는 먼저 승산(odds)이라는 개념에 대해 이해해야 합니다.
- 승산(odds)
    - '사건 A가 일어날 확률 / 사건 A가 일어나지 않을 확률'에 해당하는 값입니다.
    - 예를 들어 어떤 게임이 6승 4패라는 결과로 나왔다고 했을 때, 승률은 0.6이지만 odds는 6/4 = 1.5가 됩니다.
    - 어떤 사건이 일어날 확률을 p라고 한다면 odds = p / (1-p) 라고 표현할 수 있습니다.
- 로짓(Logit) 함수
    - f{p} = log(p/(1-p)) = log(odds)
    - odds 값에 자연로그를 씌운 것입니다.
    - odds는 음의 값을 반환할 수 없지만 회귀식과 동일한 의미로 사용하기 위해서는 음의 무한대까지 취할 수 있어야 하기 때문에 자연로그를 취해주는 것으로 이해하고 있습니다.
    - 어떤 사건이 벌어질 확률 p가 [0,1] 사이에 있을 때 이를 [-무한대, +무한대] 사이 실수값으로 변환하는 과정을 로짓(Logit) 변환이라고 합니다.
- 이렇게 만들어진 로짓 함수에 역함수를 취하면 바로 시그모이드 함수가 만들어집니다.
    - 따라서 시그모이드 함수는 음의 무한대에서 양의 무한대까지의 입력값을 받게 되면 0과 1 사이의 확률 값을 반환하게 됩니다.

## 의사결정나무 (Decision Tree)

![binary_tree.png](attachment:36001165-aa39-4a78-9a75-5fc3b21d87f7.png)

- 특정 조건에 따라 데이터를 분류하며, 최종적으로 데이터가 순수한 집합으로 구성될 때까지 분류를 반복하는 모델입니다.
- 직관적으로 이해하기 쉽고, 이상치에 강하다는 장점이 있습니다.
- 데이터 분류 작업은 한 쪽 데이터의 불순도가 0이 될때까지 이루어집니다. 이때 불순도는 엔트로피와 지니 계수를 통해 구할 수 있습니다.
    - 불순도란, 분류하려는 데이터 집합에서 서로 다른 범주가 섞여있는 정도를 의미합니다.
    - Decision Tree에서 가장 대표적으로 쓰이는 CART(CLassification And Regression Tree) 알고리즘에서는 지니 계수를 통해 불순도를 확인합니다.

## 서포트 벡터 머신 (SVM)

![svm.png](attachment:32084f85-026b-46db-9c76-731d7a038ebe.png)

- 클래스를 분류할 수 있는 다양한 경계선 중 최적의 라인을 찾아내는 알고리즘입니다.
- 명확하게 분류할 수 있는 데이터 집단에서 특히 뛰어나며, feature가 여러 개인 고차원 공간에서도 효과적입니다.
    - 오버피팅 문제도 피할 수 있습니다.
- 두 집단 사이를 지나가는 최적의 경계선(hyperplane)을 찾는 것을 목표로 하며, 마진을 최대화할 수 있는 경계선이 hyperplane에 해당합니다.
    - 마진(margin)이란 클래스들 사이의 간격, 즉 각 집단의 말단에 위치한 데이터들 사이의 거리를 의미합니다.

## KNN (K-Nearest Neighbor)

![Untitled (13).png](attachment:ce10d5c8-e825-4b62-ba72-05b3023fb10d.png)

- KNN이란, 데이터로부터 거리가 가장 가까운 k개의 다른 데이터들을 참조하여 분류하는 알고리즘입니다.
    - 비슷한 특성을 가진 데이터끼리는 서로 가까이 있을 것이라는 아이디어에서 착안한 방식입니다.
 
- 미리 학습하는 과정이 따로 없어서 새로운 입력값이 들어온 뒤부터 분류가 시작됩니다.
- 데이터셋을 저장만 하고 일반화된 모델을 능동적으로 만들지는 않습니다.
- 학습이 간단하고, 모형이 단순해서 쉽게 구현할 수 있다는 장점이 있습니다.
- 그러나 하이퍼파라미터인 k값을 어떻게 선정하느냐에 따라 성능이 좌우되므로 일관성이 떨어집니다.
- 또, 회귀선만 기억하면 되는 regression과 달리 데이터셋 전체를 메모리에 기억하고 있어야 합니다.

# 분류 평가 지표

## 혼동 행렬 (Confusion Matrix)

![Untitled (14).png](attachment:6a7a911a-644c-4b39-acc0-cc9285fcc054.png)

- 분류 모델의 예측 결과를 정확한 예측과 잘못된 예측으로 구분하여 나타낸 표입니다.
- True Positive (TP) : 참으로 예측했는데 실제로도 참인 경우입니다. (예측 성공)
- True Negative (TN) : 거짓으로 예측했는데 실제로도 거짓인 경우입니다. (예측 성공)
- False Positive (FP) : 참으로 예측했는데 실제로는 거짓인 경우입니다. (예측 실패)
- False Negative (FN) : 거짓으로 예측했는데 실제로는 참인 경우입니다. (에측 실패)
- 정확도 (Accuracy) : 모든 가능한 예측 중 참인 비율입니다.
    - (TP + TN) / (TP + FP + FN + TN)
 
- 정밀도 (precision) : 참이라고 예측한 경우 중 실제로 참인 비율입니다.
    - TP / (TP + FP)
    - 맞다고 예측했는데 실제로 아닐 경우 치명적이라면 정밀도가 중요합니다. (ex 스팸메일 분류)
- 재현율 (Recall) : 실제로 참인 경우 중 참으로 예측한 비율입니다.
    - TP / (TP + FN)
    - 아니라고 예측했는데 실제로 맞을 경우 치명적이라면 재현율이 중요합니다. (ex 암환자 진단)
- 정밀도와 재현율은 서로 Trade-Off 관계에 있기 때문에 상황에 따라 둘 중 하나를 높이는 것에 집중해야 합니다.

### F1-score
- 정밀도와 재현율의 조화평균에 해당하는 값으로, 머신러닝 모델의 성능을 평가하는 지표로 활용할 수 있습니다.

### ROC 커브
![Untitled (15).png](attachment:3ff38409-c23f-4f00-b8b7-f5a495472775.png)
- 가로축을 1-특이도(FPR), 세로축을 민감도(TPR = Recall)로 두어 시각화한 그래프입니다.
    - 특이도는 TN / (FP + TN)으로 구할 수 있습니다. (거짓인 것들 중에 참이라고 잘못 예측한 비율)
- 그래프의 면적이 클수록 (1에 가까울수록) 모델의 성능이 좋다고 평가합니다.

# 하이퍼파라미터 (Hyper Parameters)

- 하이퍼파라미터란 학습 시작 전에 사용자가 직접 설정하는 변수입니다. (ex KNN 분류에서의 K값)
- 따라서 적절한 하이퍼파라미터를 찾아 모델 성능을 향상시켜야 하며, 이 과정을 하이퍼파라미터 최적화라고 합니다.
    - 하이퍼파라미터 최적화 방법에는 Grid Search, Random Search, Bayesian Optimization 등이 있습니다.
        - Grid Search : 정해진 범위에서 Hyperparameter 모두 탐색
        - Random Search : 정해진 범위에서 Hyperparameter 무작위 탐색
        - Bayesian Optimization : 사전 정보를 바탕으로 Hyperparameter 확률적 추정