# 05 다시 살펴보는 머신러닝 주요개념
## 다루는 내용
* 분류와 회귀
    * 회귀 평가지표
* 분류 평가지표
    * 오차 행렬
        * 정확도, 정밀도, 재현율, F1 점수
    * 로그 손실
    * ROC, AUC
* 데이터 인코딩
    * 레이블 인코딩
    * 원-핫 인코딩
* 피처 스케일링
    * min-max 정규화
    * 표준화
* 교차 검증
    * K 폴드
    * 층화 K 폴드
* 주요 머신러닝 모델
    * 선형 회귀
    * 로지스틱 회귀
    * 결정 트리
    * 앙상블
    * 랜덤 포레스트
    * XGBoost
    * LightGBM
* 하이퍼파라미터 최적화
    * 그리드 서치
    * 랜덤 서치
    * 베이지안 최적화

## 5.1 분류와 회귀
* 타깃값이 범주형 데이터면 분류 문제
* 타깃값이 숫자형 데이터면 회귀 문제
### 5.1.1 분류
* 분류(classification)란?
    * 어떤 대상을 정해진 범주에 구분하는 작업
* 이진 분류(binary classification)
    * 타깃값이 두 개인 분류
* 다중 분류(multiclass classification)
    * 타깃값이 세 개 이상인 분류
### 5.1.2 회귀
* 독립 변수(independent variable)
    * 영향을 미치는 변수
* 종속 변수(dependent variable)
    * 영향을 받는 변수
* 회귀(regression)란?
    * 독립변수와 종속변수 간 관계를 모델링하는 방법
    * Y = $\theta_0$ + $\theta_1$x
* 다중선형회귀(multiple linear regression)
    * Y = $\theta_0$ + $\theta_1x_1$ + $\theta_2x_2$ + $\theta_3x_3$
* 회귀 모델의 성능을 측정하는 평가지표
|평가지표|수식|설명|
|--|--|--|
|MAE|${1 \over N} \sum_{i=1}^N\|y_i - \hat{y_i}\|$|평균 절대 오차(Mean Absolute Error)|
|MSE|${1 \over N} \sum_{i=1}^N(y_i - \hat{y_i})^2$|평균 제곱 오차(Mean Squared Error)|
|RMSE|$\sqrt{{1 \over N} \sum_{i=1}^N(y_i - \hat{y_i})^2}$|평균 제곱근 오차(Root Mean Squared Error)|
|MSLE|${1 \over N} \sum_{i=1}^N(log(y_i+1)-log(\hat{y_i}+1))^2$|Mean Squared Log Error|
|RMSLE|$\sqrt{{1 \over N} \sum_{i=1}^N(log(y_i+1)-log(\hat{y_i}+1))^2}$|Root Mean Squared Log Error|
|R$^2$|$ \hat{\sigma}^2 \over {\sigma}^2$|예측 타깃값의 분산/실제 타깃값의 분산, 1에 가까울 수록 성능이 좋음|

In [20]:
import numpy as np
from sklearn.metrics import mean_absolute_error, mean_squared_error, mean_squared_log_error, r2_score

real = np.array([1,2,3,2,3,5,4,6,5,6,7,8,8]) # 실제값
preds = np.array([1,1,2,2,3,4,4,5,5,7,7,6,8]) # 예측값

MAE = mean_absolute_error(real, preds)
MSE = mean_squared_error(real, preds)
RMSE = np.sqrt(MSE)
RMSE2 = mean_squared_error(real, preds, squared=False) # RMSE
MSLE = mean_squared_log_error(real, preds)
RMSLE = np.sqrt(MSLE)
RMSLE2 = mean_squared_log_error(real, preds, squared=False) # RMSLE
R2 = r2_score(real, preds)

print(f'MAE:\t {MAE:.4f}')
print(f'MSE:\t {MSE:.4f}')
print(f'RMSE:\t {RMSE:.4f}')
print(f'RMSE2:\t {RMSE2:.4f}')
print(f'MSLE:\t {MSLE:.4f}')
print(f'RMSLE:\t {RMSLE:.4f}')
print(f'RMSLE2:\t {RMSLE2:.4f}')
print(f'R2:\t\t {R2:.4f}')

MAE:	 0.5385
MSE:	 0.6923
RMSE:	 0.8321
RMSE2:	 0.8321
MSLE:	 0.0296
RMSLE:	 0.1721
RMSLE2:	 0.1721
R2:		 0.8617


* 상관계수란?
    * 두 변수 사이의 상관관계 정도를 수치로 나타낸 값
    * 피어슨 상관계수가 많이 사용됨
    * -1~1 사이의 값을 가짐
    * ![corr](images/corr.PNG)

## 5.2 분류 평가지표
### 5.2.1 오차 행렬
* 오차 행렬(confusion matrix)
    * ![](images/confusion.PNG)
* 정확도(accuracy)
    * 실제값과 예측값의 일치 비율
    * 높은 정확도가 모델의 우수성을 담보하지 않음
    * 평가지표로 잘 사용하지 않음
* 정밀도(precision)
    * 음성을 양성으로 잘못 판단하면 문제가 발생하는 경우에 사용
    * ex) 스팸메일(양성 - 스팸메일, 음성 - 정상메일)
* 재현율(recall)
    * sensitivity, TPR(true positive rate)이라고도 함
    * 양성을 음성으로 잘못 판단하면 문제가 되는 경우에 사용
    * ex) 암 진단(양성 - 암, 음성 - 정상)
* F1 점수(F1 score)
    * 정밀도와 재현율을 조합한 평가지표
### 5.2.2 로그 손실
* 분류 문제에서 타깃값을 확률로 예측할 때 기본적으로 사용하는 평가 지표
* 값이 작을 수록 좋은 지표
* $logloss = -{{1}\over{N}}\sum_{i=1}^N(y_ilog(\hat{y_i})+(1-y_i)log(1-\hat{y_i}))$
### 5.2.3 ROC 곡선과 AUC
* ROC(Receiver Operating Characteristic) 곡선
    * TPR(참 양성 비율)에 대한 FPR(거짓 양성 비율) 곡선
    * sensitivity에 대한 1-specificity 곡선
    * TRP = recall = sensitivity
    * FPR = 1 - TNR = 1 - specificity
    * ![](images/roc.PNG)
* AUC(Area Under the Curve)
    * 곡선 아래 면적
    * 완벽 분류 : 1
    * 무작위 분류 : 0.5

## 5.3 데이터 인코딩
### 5.3.1 레이블 인코딩
### 5.3.2 원-핫 인코딩

## 5.4 피처 스케일링
### 5.4.1 min-max 정규화
### 5.4.2 표준화

## 5.5 교차 검증
### 5.5.1 K 폴드 교차 검증
### 5.5.2 층화 K 폴드 교차 검증

## 5.6 주요 머신러닝 모델
### 5.6.1 선형 회귀 모델
### 5.6.2 로지스틱 회귀 모델
### 5.6.3 결정 트리
### 5.6.4 앙상블 학습
### 5.6.5 랜덤 포레스트
### 5.6.6 XGBoost
### 5.6.7 LightGBM

## 5.7 하이퍼파리미터 최적화
### 5.7.1 그리드 서치
### 5.7.2 랜덤 서치
### 5.7.3 베이지안 최적화

In [1]:
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np