# 훈련 테스트 분할

- 훈련/테스트 분할(train/test split)
  - 머신러닝에서 데이터를 학습을 하기 위한 학습 데이터셋(train dataset)과 학습의 결과로 생성된 모델의 성능을 평가하기 위한 테스트 데이터셋(test dataset)으로 나눔


# 과다적합과 과소적합

- 모델이 데이터에 과다적합(over-fit)된 경우
  - 생성된 모델이 특정 데이터에만 잘 맞아서 해당 데이터셋에 대해서는 성능을 발휘할 수 있지만, 새로운 데이터셋에서는 전혀 성능을 낼 수 없음
- 모델이 데이터에 과소적합(under-fit)된 경우
  - 기존 학습 데이터를 제대로 예측하지 못함


# 홀드아웃 메서드

- 홀드아웃 메서드(hold-out method)
  - 전체 데이터셋에서 일부를 학습 데이터와 테스트 데이터로 나누는 일반적인 데이터 분할 기법
  - 전체 데이터에서 랜덤하게 학습 데이터셋과 테스트 데이터셋을 나눔
  - 일반적으로 7:3 또는 8:2 정도의 비율
- sklearn 모듈이 제공하는 train_test_split 함수 사용
  - X와 y벡터값을 각각 넣고
  - 매개변수 test_size에 테스트 데이터로 사용할 데이터의 비율을 지정
  - random_state는 랜덤한 값을 기준으로 임의로 지정하는 값


In [3]:
import numpy as np
from sklearn.model_selection import train_test_split

X, y = np.arange(10).reshape((5, 2)), range(5)

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.33, random_state=42
)


# 평균 절대 잔차(MAE)

- MAE(Mean Absolute Error)
  - 평균 절대 잔차
  - 모든 테스트 데이터에 대해 예측값과 실제값의 차이에 대해 절댓값을 구하고, 이 값을 모두 더한후에 데이터의 개수만큼 나눈 결과
  - 직관적으로 예측값과 실측값의 차이를 알 수 있음
  - sklearn 모듈에서는 median_absolute_error 함수로 MAE를 구함


In [1]:
from sklearn.metrics import median_absolute_error

y_true = [3, -0.5, 2, 7]
y_pred = [2.5, 0.0, 2, 8]
median_absolute_error(y_true, y_pred)

0.5

# 평균 제급근 오차(RMSE)

- RMSE(Root Mean Squared Error)
  - 평균 제급근 오차
- 오차에 대해 제곱을 한 다음 모든 값을 더하여 평균을 낸 후 제곱근을 구함
- MAE에 비해 상대적으로 값의 차이가 더 큼
- 차이가 크게 나는 값에 대해서 패널티를 주고 싶다면 RMSE 값을 사용
- sklearn 모듈에서 RMSE를 직접적으로 지원하지는 않고 mean_squared_error만 지원


In [2]:
from sklearn.metrics import mean_squared_error

y_true = [3, -0.5, 2, 7]
y_pred = [2.5, 0.0, 2, 8]
mean_squared_error(y_true, y_pred)

0.375

# 결정계수(R-squared)

- 결정계수(R-squared)
  - 두 개의 값의 증감이 얼마나 일관성을 가지는지 나타내는 지표
- 예측값이 크면 클수록 실제값도 커지고, 예측값이 작으면 실제값도 작아짐
- 두 개의 모델 중 어떤 모델이 조금 더 상관성이 있는지를 나타낼 수 있지만, 값의 차이 정도가 얼마인지는 나타낼 수 없다는 한계가 있음
- sklearn 모듈에서 r2_score 사용


In [3]:
from sklearn.metrics import r2_score

y_true = [3, -0.5, 2, 7]
y_pred = [2.5, 0.0, 2, 8]
r2_score(y_true, y_pred)

0.9486081370449679