# 지도학습, Supervised Learning
- 지도 학습 : 종속변수 (y값) 예측  

## 쓰이는 분석 방법
- 회귀 분석 (Regression): 종속변수가 연속형         
- 분류 분석 (Classification) : 종속변수가 이산(범주)형 범수 (이진 or 다중 분류)         

## 데이터 분석 순서 
1. 원 데이터 -> 데이터 탐색 (EDA, 그래프 그려보거나 기초통계량 등)           
2. 전처리(결측치, 이상치, 변수 처리 등)                       
3. 전처리 완료 -> output = 독립변수와 종속변수로 구성된 데이터 프레임           
4. 데이터 분리 (data split)         
    4-1) Train Data (80%)           
        4-1-1) Train Data : 모델 학습           
        4-1-2) Val Data : hyper parameter 최적화 및 검증            
    4-2) Test Data (20%) : 절대 학습에 사용되면 안된다. only 성능 평가용. Traind Model(Test Data의 독립변수만 입력) -> Y값 예측 및 성능 평가(실제 Y(Test Data의 Y)와 Test Data의 X를 넣어 예측된 Y 비교)          
5. 분석         
    5-1) 회귀 : R², MSE, ...            
    5-2) 분류 : 정확도, 민감도(재현율), 특이도, F1 Score            

### 최신 문제 현황
분류 - 성능 지표 : macro F1 score, Accuracy, AUC,...            
회귀 - RMSE,...         

### ⭐️ 2 유형의 목표 : 적절한 예측값 (y)를 제출. 성능 평가는 출제 기관에서 진행함.
-> train data를 꼭 train / validation set으로 나눠서 성능평가 해보기!

#### 실기 시험에서 주어지는 데이터 set
- X_test : pd.read_csv("data/X_test.csv")
- X_train : pd.read_csv("data/X_train.csv")
- y_train : pd.read_csv("data/y_train.csv")

### 분류 분석시 주의 사항
종속변수(y)를 분리할 때 종속변수의 범주 데이터의 개수가 불균형 할 때가 있으므로 꼭 stratify 옵션을 해야함.

### 분석 모형 평가_회귀 성능
실제값과 예측값의 차이를 계산하는게 핵심 (여러 성능 평가 지표들이 공통으로 가짐)

### 분석 모형 평가_분류 성능
주로 정확도와 F1 Score를 성능 평가 지표로 많이 씀.          
이진 분류(0 or 1)에서 나올 수 있는 경우의 수 4가지로 계산한 값들이 혼동행렬(정확도, 민감도, 특이도, F1 Score)           

혼동 행렬
예측값이 Positive(1) / Negative(0)에 따라 뒤의 값 (P/N)이 정해지고, 실제 값과 예측값의 맞고 틀림에 따라 T/F가 정해져 TP(O), FN(X), FP(X), TN(O)이 계산된다.
- 정확도 : 전체 중 잘 분류한 비율. (TP + TN) / 전체
- 민감도 : 실제 Positive 중 잘 분류한 비율 (= 재현율). TP / (TP + FN)
- 특이도 : 실제 Negative 중 잘 분류한 비율. TN / (FP + TN)
- 정밀도 : 예측 Positive 중 잘 분류한 비율. TP / (TP + FP)
- F1 Score = 2 * 정밀도 * 재현율 / (정밀도 + 재현율)

ROC Curve
- AUC(Area Under the Curve) : ROC 커브의 아래쪽 면적으로 0.5 ~ 1의 값을 가지며 1에 가까울수록 분류의 성능이 좋음.

## 데이터 전처리

### 데이터 탐색 (EDA)
1. 행/열 확인 : df.shape
2. 초기 데이터 확인 : df.head()
3. 데이터 정보 확인 : df.info()
    변수명, 데이터 수, 결측치 수, 데이터 타입 등
4. 기초 통계량 확인 : df.describe()
    - 체험환경에서 모든 열 보기 : pd.options.display.max_columns=None
5. 범주형 변수 빈도 : df.value_counts()


### 결측치 확인 및 처리
1. 결측치 확인 : df.isnull().sum()
2. 결측치 삭제 (행 기준) : df.dropna()
    - 전체 데이터 수에 비해 결측값이나 이상값 비율이 작다면 삭제.
    - 정보 손실이 발생하기 때문에 감안해야함.
    - 최대한 삭제보다는 대체하는걸 추천
3. 결측치 대체 
- 연속형 데이터 : 
    df['A'].median() : 중위수 대체 (이상치에 민감하지 않기 때문에 보통 중위수로 많이 대체함)
    df['A'].mean() : 평균 대체
- 범주형 데이터 : 
    df['A'].mode() : 최빈값으로 대체

### 이상값 확인 및 처리
1. 이상값 확인 : df.describe()
    - train, test 데이터의 데이터 분포 형태를 확인해서 이상치 여부 확인
    - 논리적으로 설명할 수 없는 데이터 (보통 min, max 값에서 확인). ex> 중고차 생산 연도 2060년, 나이 -20세, 성별 T 등
2. 이상값 처리 (train / test data 둘 다 살펴보기!)
    - 연속형 데이터 대체 : 극빈값은 최소값이나 최대값으로 대체
    - 범주형 데이터 대체 : 최빈값으로 대체

### 분석 변수 처리
1. 불필요한 변수 삭제
    - df = df.drop(columns=['변수1', '변수2'])
    - df = df.drop(['변수1', '변수2'], axis=1)
2. 필요시 파생변수 생성
3. 원핫 인코딩 : 머신러닝 모델이 문자를 인식할 수 없으므로 문자형 데이터 처리에 씀
    - x_train = pd.get_dummies(x_train)
    - x_test = pd.get_dummies(x_test)

## 모델 선정 : RandomForest
- 분류, 회귀 문제에 모두 사용 가능
- 모형 자체가 앙상블 모형이라 성능이 좋음
- 이상치에 민감하지 않고 분석속도도 적절함.

다수의 의사결정 나무를 모은 앙상블 모형.            
분류의 경우 다수결의 법칙으로 결과 예측.            
회귀의 경우 나온 값들의 평균으로 예측값을 줌