### 5.1 분류와 회귀
#### 5.1.1 분류(classification)
- 주어진 피처에 따라 어떤 대상을 유한한 범주(타깃값)로 구분하는 방법
- 타깃값이 2개인 분류 : 이진분류(binary classification)
- 타깃값이 3개 이상인 분류 : 다중분류(multiclass classification)

#### 5.1.2 회귀(regression)
- 독립변수와 종속변수 간 관계를 모델링하는 방법
    - 독립변수(independent variable) : 영향을 미치는 변수
    - 종속변수(dependent variable) : 영향을 받는 변수, 수치형 데이터
- 선형회귀(linear regression)
    - 단순 선형 회귀(simple linear regression) : 독립변수 하나와 종속변수 하나 사이의 관계를 나타낸 모델링 기법, ex. $y = \theta_0 + \theta_1x$
    - 다중 선형 회귀(multiple linear regression) : 독립변수 여러 개와 종속변수 하나 사이의 관계를 나타낸 모델링 기법, ex. $y = \theta_0 + \theta_1x_1 + \theta_2x_2 + \theta_3x_3$

##### 1) 회귀 평가지표(대부분 평가지표 값이 작을수록 모델 성능이 좋음)
- 평균 절대 오차(MAE) : 실제 타깃값과 예측 타깃값 차의 절댓값 평균
- 평균 제곱 오차(MSE) : 실제 타깃값과 예측 타깂값 차의 제곱의 평균
- 평균 제곱근 오차(RMSE) : MSE에 제곱근을 취한 값
- Mean Squared Log Error(MSLE) : MSE에서 타깃값에 로그를 취한 값
- Root Mean Squared Log Error(RMSLE) : MSLE에 제곱근을 취한 값
- 결정계수($R^2$) : 예측 타깃값의 분산/실제 타깃값의 분산, 다른 지표와 달리 1에 가까울수록 모델 성능이 좋음

In [2]:
import numpy as np
from sklearn.metrics import mean_absolute_error, mean_squared_error, mean_squared_log_error, r2_score # MAE, MSE, MSLE, R2

true  = np.array([1, 2, 3, 2, 3, 5, 4, 6, 5, 6, 7, 8, 8]) # 실젯값
preds = np.array([1, 1, 2, 2, 3, 4, 4, 5, 5, 7, 7, 6, 8]) # 예측값

MAE   = mean_absolute_error(true, preds)
MSE   = mean_squared_error(true, preds)
RMSE  = np.sqrt(MSE)
MSLE  = mean_squared_log_error(true, preds)
RMSLE = np.sqrt(MSLE)
R2    = r2_score(true, preds)

print(f'MAE:\t {MAE:.4f}')
print(f'MSE:\t {MSE:.4f}')
print(f'RMSE:\t {RMSE:.4f}')
print(f'MSLE:\t {MSLE:.4f}')
print(f'RMSLE:\t {RMSLE:.4f}')
print(f'R2:\t {R2:.4f}')

MAE:	 0.5385
MSE:	 0.6923
RMSE:	 0.8321
MSLE:	 0.0296
RMSLE:	 0.1721
R2:	 0.8617


##### 2) 상관계수(correlation coefficient)
- 두 변수 사이의 상관관계 정도를 수치로 나타낸 값
- 피어슨 상관계수(pearson correlation coefficient) 
    - 선형 상관관계의 강도(strength)와 방향(direction)을 나타냄
    - -1부터 1 사이의 값을 가짐
    - 상관계수가 음수면 음의 상관관계, 양수면 양의 상관관계가 있다고 함

### 5.2 분류 평가지표
#### 5.2.1 오차행렬(confusion matrix) = 혼동 행렬
- 실제 타깃값과 예측한 타깃값이 어떻게 매칭되는지를 보여주는 표(T로 시작하면 올바르게 예측, F로 시작하면 틀림)
    - 참 양성(true positive) = TP : 실제 타깃값이 양성인데 예측도 양성
    - 거짓 음성(false negative) = FN : 실제 타깃값은 양성인데 예측은 음성
    - 거짓 양성(false positive) = FP : 실제 타깃값이 음성인데 예측을 양성
    - 참 음성(true negative) = TN : 실제 타깃값이 음성인데 예측도 음성 

##### 1) 정확도(accuracy)
