In [1]:
""" [ Performance Measure ] """
# 만든 모델이 얼마나 실제 값을 잘 대변해주는가를 상대적으로 비교를 하기 위해 만든 지표

# 지표에는 여러가지들이 있다.
#  - Mean Absolute Error
#   :: 잔차의 절대값을 sum 하는 방식
#      (0 에 가까울 수록 높은 적합도를 가짐)
#  - Root Mean Squared Error (RMSE) >> 가장 많이 사용
#   :: 잔차 제곱의 sum 의 루트
#      (0 에 가까울 수록 높은 적합도를 가짐)
#
#  - R-Squared
#   :: 기존 y 값과 예측 y^ 값과의 차이를 상관계수로 표현한 것
#      (1 에 가까울 수록 높은 적합도를 가짐) 
#
# (sklearn 에서는 큰 값일 수록 좋은 value 로 취급하는데, 
#  MAE 나 RMSE 같은 경우는 0 에 가까울 수록 좋은 value 이기에
#  앞에 음수 (-) 를 붙여 사용한다.)

' [ Performance Measure ] '

In [2]:
""" Mean Absolute Error """
from sklearn.metrics import mean_absolute_error

y_true = [3, -0.5,  2, 7]
y_pred = [2.5, 0.0, 2, 8]

mean_absolute_error(y_true, y_pred)

0.5

In [3]:
""" Root Mean Squared Error (RMSE) """
# Cost Function 과 모양의 거의 같다. (루트만 씌운 것)
# sklearn 에서는 루트가 없고 mean_squared_error 만 제공한다.
from sklearn.metrics import mean_squared_error

y_true = [3, -0.5, 2, 7]
y_pred = [2.5, 0.0, 2, 8]

mean_squared_error(y_true, y_pred)

0.375

In [4]:
""" R-Squared """
from sklearn.metrics import r2_score

y_true = [3, -0.5, 2, 7]
y_pred = [2.5, 0.0, 2, 8]
r2_score(y_true, y_pred)

0.9486081370449679

In [5]:
""" Training & Test Data Set """
# - Training 한 데이터로 다시 Test 를 할 경우, Training 데이터에 과도하게 fitting 된 모델을 사용하게 될 가능성이 높다.
#   >> 따라서 새로운 데이터가 출현했을 때, 기존 모델과의 차이가 존재함
# - 모델은 새로운 데이터가 처리 가능하도록 generalize 되야 함
# - 이를 위해 Training Set 과 Test Set 을 분리함

# < 과정 >
# 1. 데이터 set 을 Training set 과 Test set 으로 나눔
# 2. Training Set 을 가지고 모델을 만듬
# 3. 완성된 모델을 RMSE 와 같은 지표로 평가한다.
# (weight 의 값에 따라 model 이 다양하게 생성되므로, Test set 으로 평가한다.)

' Training & Test Data Set '

In [6]:
""" Hold-out Method(Sampling) """
# Training Data Set 과 Test Data Set 을 나누는 과정

# - 데이터를 Training 과 Test 로 나눠서 모델을 생성하고 테스트하는 기법
# - 가장 일반적인 모델 생성을 위한 데이터 랜덤 샘플링 기법
# - Training 과 Test 를 나누는 비율은 데이터의 크기에 따라 다름
# - 일반적으로 Training Data 2/3, Test Data 1/3 을 활용함

import numpy as np
from sklearn.model_selection import train_test_split

X, y = (np.arange(10).reshape(5, 2), range(5))

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.33, random_state=42
)

In [7]:
X_train

array([[4, 5],
       [0, 1],
       [6, 7]])

In [8]:
X_test

array([[2, 3],
       [8, 9]])

In [9]:
y_train

[2, 0, 3]

In [10]:
y_test

[1, 4]