### 지도학습 절차

- 지도학습 : 목표변수(Y)와 설명변수(X)의 관계를 학습해서, 새로운 X가 들어올 때, Y를 예측 / 분류

- 지도학습의 절차 6단계:
  1. 데이터 핸들링 (데이터 불러오기 / 파생변수 생성 / 층별화) : 데이터 구조적인 관점에서 학습을 수행할 수 있는 데이터셋을 구성하는 과정

  2. 학습에 사용될 목표변수(Y)와 설명변수(X)를 설정
    - 유의사항 : 사용되는 X는 새로 들어올 데이터에 대한 값으로 지정 ex. 신규고객 이탈 예측을 할 때 구매횟수와 방문횟수를 넣으면 안 됨.

  3. 학습 데이터(Train Set)와 검증 데이터(Test Set)분할
    - 검증 데이터(Test Set)는 학습에 참여하지 않는다! (교차검증에서 Validation Set과는 다른 개념)

  4. 학습을 수행 (Modeling)
    - 특성공학 (결측값 처리 / Encoding / Scaling ...) -> Pipe Line을 이용해서
    - 학습 (알고리즘)

  5. 학습된 모델 평가
    - 학습 능력 평가
    - 일반화 능력 평가

  6. 새로운 데이터를 적용
    - 학습된 모델을 파일형태로 추출 -> Web, App, System에 넣을 수 있는 형태로 저장

- 사용한 데이터 (https://www.kaggle.com/datasets/uciml/pima-indians-diabetes-database)

### 과적합(Overfitting)

- 과적합 : 학습 데이터에 대해서는 Model이 높은 성능을 나타내지만, 검증데이터에서는 성능이 낮게 나오는 현상
- 해결 : 특성공학을 통해 데이터를 더 깔끔하게 생성


### 특성공학(Feature Engineering)
- **특성공학** : 학습의 목적에 맞게(학습이 잘 수행될 수 있도록) 데이터를 깔끔하게 다듬는 작업
- 대표적 기법 :
  1. Scaling & Encoding : 숫자 데이터의 스케일을 맞추거나, 문자 데이터를 숫자로 변환하여 학습에 사용
  2. Imputation : 데이터 상에 존재하는 결측값에 대해 다른 값으로 대치 (새로 들어오는 데이터가 결측일 수도 있기 때문에)
  3. Cross Validation (교차검증): 학습데이터를 여러 단계로 나누어 분할하여 학습
  4. Hyper Parameter Tuning : 학습 알고리즘 내 존재하는 수학적 구조나 학습에 발생하는 구조, 함수들을 사용자가 통제
  5. Imbalanced Data Sampling : 목표변수의 비율이 깨져있는 데이터를 맞추어 학습
  6. Feature Selection : 목표변수에 가장 영향이 있는 인자를 사용자가 지정한 만큼 선택해서 학습
  7. PCA : 데이터의 차원을 줄이거나 특성을 재구성하여 학습

- Scikit Learn에서 특성공학 기법과 학습을 동시에 수행할 수 있게 Pipe Line 구성하여 학습을 수행

#### 의사결정나무의 하이퍼파라미터
- criterion : 분할 기준
- max_depth : 트리의 최대 깊이(너무 깊으면 과적합 발생 가능)
- min_samples_split : 노드 분할을 위한 최소 샘플 수
- max_leaf_nodes : 리프 노드의 최대 개수
- ...
- => 모델에 따라 하이퍼파라미터가 다름! 또한 너무 많은 튜닝을 해버리면 노트북 자원에 따라 시간이 너무 오래 걸릴 수 있음

- **정확도 Accuracy** = 예측결과가 동일한 데이터 수 / 전체 예측 데이터 수
  - 클래스가 균형을 이룰 때 사용하는 지표
  - 모든 클래스가 동등한 중요도를 가질 때 확인하는 지표(이탈이 더 중요하기 때문에 정확도만을 보고 판단해서는 안됨)
  - 목표변수(Y)가 불균형한(Imbalanced)데이터인 경우엔 적합한 평가지표로 사용하기 어렵다

- **오차 행렬 Confusion Matrix**
  - **정밀도 Precision**  : TP / (TP + FP)
    - 예측을 Positive로 한 대상 중, 예측값과 실제값이 Positive로 일치한 데이터의 비율
    - 문제가 없는 데이터를 문제가 있다고 잘못 판단할 때 발생하는 이슈를 나타내는 지표(중요한 메일이 스팸으로 분류되는 경우)
    - False Positive를 낮추는 데 초점 / 예 - 스팸메시지 분류기

  - **재현율 Recall** : TP / (TP + FN)
    - 실제값이 Positive인 대상 중 예측값과 실제값이 Positive로 일치하는 데이터의 비율
    - 민감도 (Sensitivity) 또는 TPR (True Positive Rate)로 불림
    - 실제 문제가 있는 데이터를 문제가 없다고 잘못 판단할 때 발생하는 이슈를 나타내는 지표
    - False Negative를 낮추는 데 초점 / 예 - 암 진단 (실제로 암인데, 정상으로 분류하는 경우)
    - 이탈 고객인데, 정상 고객으로 분류하는 경우

  - **F1-Score** : 2 x 정밀도 x 재현율 / (정밀도 + 재현율)
    - 정밀도와 재현율이 균형이 필요한 경우에 사용
    - 정밀도와 재현율 둘 다 한쪽으로 치우치지 않을 때, 높은 값을 나타내는 지표

### 과제 2-1. 팀 별로 정해진 모델에 맞게 분류 모델 만들어오기
- 모델의 장단점 및 해당 모델에 맞는 특성공학 기법을 정리한 뒤, 해당 모델에 맞는 특성공학 기법을 적용해야 함
- 사용할 데이터 : 오늘 수업 때 배운 diabetes.csv
- 1조 : 랜덤포레스트, 2조 : Gradient Boosting

### 과제 2-2. (기본) 5. 회귀모델 만들기 예습