# Linear Regression - Performance Measure
 만든 Model이 얼마나 실제 값을 잘 대변 해주는지에 대한 상대적 지표

## Regression metrics
: 클수록 좋은 것도 있고 반대인 경우도 있어서 실제 sklearn에서 적절하게 - 기호를 붙여서 사용한다

### Mean Absolute Error
: 잔차의 절대값의 Sum

In [10]:
from sklearn.metrics import median_absolute_error
import numpy as np

y_true = np.array([3, -0.5, 2, 7])
y_pred = np.array([2.5, 0.0, 2, 8])
median_absolute_error(y_true, y_pred)

0.5

In [11]:
# 직접 numpy로 구현
np.abs(y_true - y_pred).sum()/len(y_true)

0.5

### RMSE(Root Mean Squared Error)
: 잔체 제곱의 sum의 루트

In [13]:
from sklearn.metrics import mean_squared_error
mean_squared_error(y_true, y_pred)

0.375

In [23]:
# 실제 구현
((y_true-y_pred)**2).sum()/len(y_true)

0.375

### R squared
: 0과 1사이 숫자로 크면 클 수록 높은 적합도를 지님

In [24]:
from sklearn.metrics import r2_score
r2_score(y_true, y_pred)

0.9486081370449679

In [71]:
# sst = total sum of squares : 관측값에서 관측값의 평균을 뺀 결과의 합, 독립변수 y의 분산
# sse = explained  sum of squares : 추정값에서 관측값의 평균을 뺀 결과의 합(겹치는 부분)
# ssr = residual sum of squares : 관측값에서 추정값을 뺀 잔차의 총합 (겹치치 않는 부분)

# sst = sse+ssr
# R-squared 는 설명된 분산 / 종속변수 전체의 분산 = SSE/SST =  1- SSR/SST

## Training & Test data set
- Training한 데이터로 다시 Test를 할 경우, Training 데이터에 과도하게 fitting 된 모델을 사용할 수 있음
- 새로운 데이터가 출현했을 때, 기존 모델과의 차이가 존재
- 모델은 새로운 데이터가 처리가능하도록 generalize 되어야함.
- 이를 위해 Training Set와 Test Set을 분리함

In [73]:
import numpy as np
from sklearn.model_selection import train_test_split

# model_selection 모듈에서 training / test 나눠줌
X, y = np.arange(10).reshape((5, 2)), range(5)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)