# 지도 학습

## 지도 학습
- 모형(model)
    - 데이터에 나타나는 특성들과 타켓 사이의 관계를 표현하는 수학적 구조
    - 모수(parameter): 데이터를 사용하여 추정(계산)하는 파라미터
    - 초모수(hyperparameter): 추정 모수 이외에 분석자가 지정하거나, 최적값을 찾아 주어야 하는 다른 모든 모수
- 학습: 데이터를 사용하여 모형에 포함된 조정 가능한 모수의 값을 추정하는 과정

## 지도 학습에서의 데이터 분할(partition)
- 학습(훈련)은 일반화를 목적으로 하므로 훈려에 사용되는 데이터와 모형 평가에 사용되는 데이터로 나눠야 함
- 데이터의 분할
    - **훈련 데이터(training data): 모델 구축용 데이터**
        - 훈련 오차를 최소로 하도록 모형의 모수(parameter) 추정
    - 검증 데이터(validation data): 모델 검증용 데이터
        - 모형의 초모수(hyperparameter)를 추정(훈련 데이터를 검증 데이터에 재사용)
    - **테스트 데이터(test data): 평가용 데이터**
        - 훈련 데이터와 독립적으로 따로 떼어놓은(hold-out) 데이터
        - 훈련되고 튜닝된 모형을 적용하여 평가할 대상 데이터
    

## 과대적합 vs 과소적합
- 훈련 데이터 과대 적합(overfitting): 고분산(high-variance) 문제
    - 모형이 데이터의 패턴을 너무 과도하게 반영한 것
    - 훈련 데이터에 대한 성능은 좋지만 샘플에서의 일반화 성능이 나빠짐
- 훈련 데이터 과소 적합(underfitting): 고편향(high-bias) 문제
    - 모형이 너무 단순한 것
- trade-off 관계
    - 저편향과 저분산을 동시에 지향하지만, 이 둘은 상충관계임
    

## 지도학습의 전형적 단계
1. 데이터 읽기(적재)
2. 데이터 전처리 및 준비: 데이터 특성 추출, 데이터 분할 등
3. 훈련용 데이터로 다수의 모델 훈련시키기(모형의 모수 추정)
    - 가능성 있는 몇 개의 모형 선정
4. 검증 데이터를 사용하여 모델 튜닝(하이퍼파라미터 추정)
5. 테스트 데이터로 베스트 모델 평가
6. 모델 디플로이(deploy): 의사결정에 모델 활용

## 사이킷런 API 사용 단계(복습)
- API 사용 단계
    1. 필요한 사이킷런 추정기 클래스를 임포트
    2. 모델 클래스를 인스턴스화(모델의 하이퍼파라미터(초모수 지정)
    3. 데이터를 특징 행렬(X)과 타겟(y)으로 배치
    4. 모델 인스턴스의 fit() 메서드로 모델을 학습(fitting, training, learning)
    5. score() 메서드를 사용하여 모형의 성능(정확도) 평가
    

# 분류

## 분류의 종류
- 이진(binary) 분류 vs 다진(multi-class) 분류
- 이진 분류의 클래스 레이블
    - 긍정 클래스: 상대적으로 더 유의미한 범주(ex. 악성종양, 스팸메일), 보통 1로 표시
    - 부정 클래스: 보통 0 혹은 -1로 표시


## 대표적 분류 알고리즘
- 로지스틱 회귀
- SVM
- 결정트리
- K-최근접 이웃: 게으른 분류기

## 분류의 성능평가 측도
- 이진 분류 정오분류표(confusion matrix)
![그림](https://miro.medium.com/max/625/1*fxiTNIgOyvAombPJx5KGeA.png)

- 정분류율(정확도, accuracy) vs 오분류율(error)
    - accuracy = $\frac{TP + TN}{TP+FN+FP+TN}$
        - +를 +로 맞추고, -를 -로 맞춘 것
    - error = 1 - accuracy
- 정밀도(precision)
    - 결과의 질(quality)를 측정
    - precision = $\frac{TP}{TP+FP}$ = $\frac{실제 양성}{양성이라고 판정나온 사람}$
- 재현율(recall)
    - 결과의 완벽성(completeness) 측도
    - recall = $\frac{TP}{TP+FN}$ = $\frac{실제 양성}{맞춘 값}$
- F-측도(F-measure)
    - 정밀도와 재현율은 서로 trade-off 관계
    - 두 측도를 통합(정밀도와 재현율의 조화평균)
        - F-measure = $2 \frac{precision * recall}{precision + recall}$  