# 머신 러닝 훑어보기
* 머신 러닝의 특징을 이해하고, 주요 용어에 친숙해지기

## 1. 머신 러닝 모델의 평가
![image.png](attachment:image.png)

* 훈련 데이터: 머신 러닝 모델을 학습하는 용도
* 테스트 데이터: 학습한 머신 러닝 모델의 성능을 평가하기 위한 용도
* 검증 데이터: 모델의 평가가 아닌 모델의 성능을 조정하기 위한 용도, 더 정확하게는 모델이 훈련 데이터에 과적합(overfitting)되고 있는지 판단하거나 하이퍼파라미터의 조정을 위한 용도
* 하이퍼파라미터(초매개변수): 모델의 성능에 영향을 주는 사람이 값을 지정하는 변수. 예시로 학습률(learning rate), 뉴런의 수나 층의 수 등
* 매개변수: 가중치와 편향. 학습을 하는 동안 값이 계속해서 변하는 수.

## 2. 분류(Classification)과 회귀(Regression)
1. 이진 분류 문제: Binary Classification

    주어진 입력에서 두 개의 선택지 중 하나의 답을 선택해야 하는 경우, 예시로 정상 메일인지 스팸 메일인지 판단하는 문제가 있습니다.
2. 다중 클래스 분류: Multi-class Classification

    주어진 입력에서 세 개 이상의 선택지 중 하나의 답을 선택해야 하는 경우, 예시로 서점 직원이 5개의 테마의 책장에 새 책을 끼워넣는 일이 있습니다.
3. 회귀 문제: Regression

    선택지가 정해져 있는 경우가 아니라 어떤 연속적인 값의 범위 내에서 예측값이 나오는 경우, 예시로 역과의 거리, 인구 밀도, 방의 개수 등을 입력하면 부동산 가격을 예측하는 일, 시계열 데이터를 이용한 주가 예측, 생산량 예측, 지수 예측 등이 있습니다.

## 3. 지도 학습과 비지도 학습
* 머신 러닝은 크게 지도 학습, 비지도 학습, 강화 학습으로 나뉩니다. 딥러닝 자연어 처리에서 중요한 학습 방법 중 하나인 자기지도 학습(Self-Supervised Learning)도 있습니다.
### 1. 지도 학습: Supervised Learning
* 지도 학습이란 레이블이라는 정답과 함께 학습하는 것, 보통 정답을 y, 예측값을 y_hat으로 표현합니다.
### 2. 비지도 학습: Unsupervised Learning
* 비지도 학습은 데이터에 별도의 레이블 없이 학습하는 것, 예시로 텍스트 처리 분야와 토픽 모델링 알고리즘인 LSA나 LDA는 비지도 학습에 속합니다.
### 3. 자기지도 학습: Self-Supervised Learning
* 레이블이 없는 데이터가 주어지면, 모델이 학습을 위해서 스스로 데이터로부터 레이블을 만들어서 학습하는 경우, 예시로 Word2Vec과 같은 워드 임베딩 알고리즘이나, BERT와 같은 언어 모델의 학습 방법이 있습니다.

## 4. 샘플(Sample)과 특성(Feature)
* 하나의 데이터, 행렬 관점에서는 하나의 행을 샘플이라고 부르고, 종속 변수 y를 예측하기 위한 각각의 독립 변수 x, 행렬 관점에서는 하나의 열을 특성이라고 부릅니다:

    ![image.png](attachment:image.png)

## 5. 혼동 행렬: Confusion Matrix
* 혼동 행렬에서 각 열은 예측값을 나타내며 각 행은 실제값을 나타냅니다:

    ![image.png](attachment:image.png)
* 머신 러닝에서 다음과 같은 네가지 케이스에 대해 TP, FP, FN, TN을 정의합니다.
    
    ![image-2.png](attachment:image-2.png)
### 1. 정밀도: Precision
* 모델이 True라고 분류한 것 중에서 실제 True인 것의 비율

    ![image-3.png](attachment:image-3.png)
### 2. 재현율: Recall
* 실제 True인 것 중에서 모델이 True라고 예측한 것의 비율

    ![image-4.png](attachment:image-4.png)
### 3. 정확도: Accuracy
* 전체 예측한 데이터 중에서 정답을 맞춘 것에 대한 비율

    ![image-5.png](attachment:image-5.png)
* 주의해야 할 점은 Accuracy로 성능을 예측하는 것이 적절하지 않은 때가 있다는 것입니다. 
* 바로 데이터비율이 고르지 않을 때입니다. 예시로 비오는 날을 예측하는 모델이 있을 때 200일동안 총 6일만 비가 왔다고 가정하고 모델이 200일 내내 날씨가 맑다고 예측한다면, 정확도는 194/200=0.97이므로 97%의 정확도를 보이지만 정작 비가 온 날은 하나도 못 맞춘 셈입니다.
* 그래서 이런 경우엔 F1-Score를 사용합니다.

## 6. 과적합(Overfitting)과 과소적합(Underfitting)
* 과적합이란 훈련 데이터를 과하게 학습한 경우를 말합니다. 이런 경우엔 성능 측정을 위한 데이터인 테스트 데이터나 실제 서비스에서는 정확도가 좋지 않은 현상이 발생합니다.
* 과적합 상황에서는 훈련 데이터에 대해서는 오차가 낮지만, 테스트 데이터에 대해서는 오차가 커집니다:

    ![image.png](attachment:image.png)
* 반면, 테스트 데이터의 성능이 올라갈 여지가 있음에도 훈련을 덜 한 상태를 과소적합이라고 합니다.
* 과소적합은 훈련 자체가 부족한 상태이므로 훈련 횟수인 에포크가 지나치게 적으면 발생할 수 있습니다. 이는 훈련 데이터에 대해서도 정확도가 낮다는 특징이 있습니다.

* 그래서 딥러닝을 할 때 과적합을 막기 위해 Dropout이나 Early Stopping과 같은 몇 가지 방법들이 존재합니다.

* 일반적인 모델의 학습 과정을 다음과 같습니다:

    1. 주어진 데이터를 훈련, 검증, 테스트 데이터로 나눈다. 가령, 6:2:2 비율로 나눌 수 있다.
    2. 훈련 데이터로 모델을 학습한다. (epoch+1)
    3. 검증 데이터로 모델을 평가하여 검증 데이터에 대한 정확도와 오차(loss)를 계산한다.
    4. 검증 데이터의 오차가 증가하였다면 과적합 징후이므로 학습 종료 후 Step 5로 이동, 아니라면 Step 2로 재이동한다.
    5. 모델이 학습이 종료되었으니 테스트 데이터로 모델을 평가한다.