# 05 다시 살펴보는 머신러닝 주요개념
## 다루는 내용
* 분류와 회귀
    * 회귀 평가지표
* 분류 평가지표
    * 오차 행렬
        * 정확도, 정밀도, 재현율, F1 점수
    * 로그 손실
    * ROC, AUC
* 데이터 인코딩
    * 레이블 인코딩
    * 원-핫 인코딩
* 피처 스케일링
    * min-max 정규화
    * 표준화
* 교차 검증
    * K 폴드
    * 층화 K 폴드
* 주요 머신러닝 모델
    * 선형 회귀
    * 로지스틱 회귀
    * 결정 트리
    * 앙상블
    * 랜덤 포레스트
    * XGBoost
    * LightGBM
* 하이퍼파라미터 최적화
    * 그리드 서치
    * 랜덤 서치
    * 베이지안 최적화

## 5.1 분류와 회귀
* 타깃값이 범주형 데이터면 분류 문제
* 타깃값이 숫자형 데이터면 회귀 문제
### 5.1.1 분류
* 분류(classification)란?
    * 어떤 대상을 정해진 범주에 구분하는 작업
* 이진 분류(binary classification)
    * 타깃값이 두 개인 분류
* 다중 분류(multiclass classification)
    * 타깃값이 세 개 이상인 분류
### 5.1.2 회귀
* 독립 변수(independent variable)
    * 영향을 미치는 변수
* 종속 변수(dependent variable)
    * 영향을 받는 변수
* 회귀(regression)란?
    * 독립변수와 종속변수 간 관계를 모델링하는 방법
    * Y = $\theta_0$ + $\theta_1$x
* 다중선형회귀(multiple linear regression)
    * Y = $\theta_0$ + $\theta_1x_1$ + $\theta_2x_2$ + $\theta_3x_3$
* 회귀 모델의 성능을 측정하는 평가지표
|평가지표|수식|설명|
|--|--|--|
|MAE|${1 \over N} \sum_{i=1}^N\|y_i - \hat{y_i}\|$|평균 절대 오차(Mean Absolute Error)|
|MSE|${1 \over N} \sum_{i=1}^N(y_i - \hat{y_i})^2$|평균 제곱 오차(Mean Squared Error)|
|RMSE|$\sqrt{{1 \over N} \sum_{i=1}^N(y_i - \hat{y_i})^2}$|평균 제곱근 오차(Root Mean Squared Error)|
|MSLE|${1 \over N} \sum_{i=1}^N(log(y_i+1)-log(\hat{y_i}+1))^2$|Mean Squared Log Error|
|RMSLE|$\sqrt{{1 \over N} \sum_{i=1}^N(log(y_i+1)-log(\hat{y_i}+1))^2}$|Root Mean Squared Log Error|
|$R^2$|$ \hat{\sigma}^2 \over {\sigma}^2$|예측 타깃값의 분산/실제 타깃값의 분산, 1에 가까울 수록 성능이 좋음|

## 5.2 분류 평가지표
### 5.2.1 오차 행렬
### 5.2.2 로그 손실
### 5.2.3 ROC 곡선과 AUC

## 5.3 데이터 인코딩
### 5.3.1 레이블 인코딩
### 5.3.2 원-핫 인코딩

## 5.4 피처 스케일링
### 5.4.1 min-max 정규화
### 5.4.2 표준화

## 5.5 교차 검증
### 5.5.1 K 폴드 교차 검증
### 5.5.2 층화 K 폴드 교차 검증

## 5.6 주요 머신러닝 모델
### 5.6.1 선형 회귀 모델
### 5.6.2 로지스틱 회귀 모델
### 5.6.3 결정 트리
### 5.6.4 앙상블 학습
### 5.6.5 랜덤 포레스트
### 5.6.6 XGBoost
### 5.6.7 LightGBM

## 5.7 하이퍼파리미터 최적화
### 5.7.1 그리드 서치
### 5.7.2 랜덤 서치
### 5.7.3 베이지안 최적화

In [1]:
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np