# 좋은 모형이란?

## 1. 적합이 좋은 모형
* 회귀직선이 데이터에 완전히 들어맞고, 잔차가 작음
* 설명변수를 증가시킴으로써 적합도를 높일 수 있음 --> 과하면 과적합: 데이터에 지나치게 적합되어 일반적인 예측성을 잃음

## 2. 예측이 좋은 모형
* 미지의 데이터 (모르는 데이터의 설명변수)라도 모형이 반응변수를 정확하게 예측 --> 일반화

## 좋은 모형
* 보통 적합이 좋은 모형보다 예측이 좋은 모형을 고름

## 모형의 좋고 나쁨을 측정하는 지표들
* statsmodels

In [18]:
import numpy as np
import pandas as pd
import statsmodels.formula.api as smf
from scipy import stats

In [3]:
df = pd.read_csv('./ch12_scores_reg.csv')
df

Unnamed: 0,quiz,final_test,sleep_time,school_method
0,4.2,67,7.2,bus
1,7.2,71,7.9,bicycle
2,0.0,19,5.3,bus
3,3.0,35,6.8,walk
4,1.5,35,7.5,walk
5,0.9,40,7.6,bus
6,1.9,23,4.3,walk
7,3.5,37,4.2,bicycle
8,4.0,39,4.7,bicycle
9,5.4,55,7.5,walk


In [8]:
x = np.array(df["quiz"])
y = np.array(df["final_test"])

formula = "final_test ~ quiz" # final_test: 반응변수, quiz: 설명변수
result = smf.ols(formula, df).fit()
# Ordinary Least Square (OLS): 잔차제곱합을 최소화하는 가중치 벡터를 행렬 미분으로 구하는 방법...
result.summary()

0,1,2,3
Dep. Variable:,final_test,R-squared:,0.676
Model:,OLS,Adj. R-squared:,0.658
Method:,Least Squares,F-statistic:,37.61
Date:,"Tue, 17 Nov 2020",Prob (F-statistic):,8.59e-06
Time:,16:24:26,Log-Likelihood:,-76.325
No. Observations:,20,AIC:,156.7
Df Residuals:,18,BIC:,158.6
Df Model:,1,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,23.6995,4.714,5.028,0.000,13.796,33.603
quiz,6.5537,1.069,6.133,0.000,4.309,8.799

0,1,2,3
Omnibus:,2.139,Durbin-Watson:,1.478
Prob(Omnibus):,0.343,Jarque-Bera (JB):,1.773
Skew:,0.67,Prob(JB):,0.412
Kurtosis:,2.422,Cond. No.,8.32


In [9]:
y_hat = np.array(result.fittedvalues) # 예측값
y_hat

array([51.22517229, 70.88637011, 23.69949535, 43.36069316, 33.53009426,
       29.59785469, 36.1515873 , 46.63755947, 49.91442577, 59.08965142,
       51.22517229, 68.92025033, 36.80696056, 81.37234228, 25.66561513,
       67.60950381, 51.22517229, 60.40039794, 32.874721  , 36.80696056])

In [10]:
eps_hat = np.array(result.resid) # 잔차
eps_hat

array([ 15.77482771,   0.11362989,  -4.69949535,  -8.36069316,
         1.46990574,  10.40214531, -13.1515873 ,  -9.63755947,
       -10.91442577,  -4.08965142, -11.22517229,   1.07974967,
        -7.80696056,   6.62765772,  21.33438487,   9.39049619,
         0.77482771,  -5.40039794, -14.874721  ,  23.19303944])

In [11]:
np.sum(eps_hat ** 2) # 잔차제곱합

2417.227825229262

* 잔차제곱합은 동일한 모형 중에서 상대적으로 비교할 때만 사용 가능

# 결정계수 (R-squared)
* 모형의 데이터에 대한 **적합도**를 나타내는 지표
* 0 ~ 1: 1에 가까울수록 데이터에 잘 들어맞는 것
* 결정계수 = 회귀변동 / 총변동 = 1 - (잔차변동 / 총변동)

## 총변동 (Total variation)
* 관측값의 분산값

## 회귀변동 (Regression var.)
* 예측값이 관측값의 평균값에 대해 어느 정도 분산되어 있는지
* 예측값이 관측값에 가까울수록 총변동에 가까워짐

## 잔차변동 (Residual var.)
* 잔차제곱합
* 예측값이 관측값에 가까울수록 잔차변동이 0에 가까워짐

## 총변동 = 회귀변동 + 잔차변동

## 주의!
* 관련 없는 변수가 들어가도 설명변수가 증가하면 결정계수는 증가
==> 조정결정계수

In [12]:
total_var = np.sum((y - np.mean(y)) ** 2)     # 총변동
exp_var   = np.sum((y_hat - np.mean(y)) ** 2) # 회귀변동
unexp_var = np.sum(eps_hat ** 2)              # 잔차변동

total_var, exp_var + unexp_var

(7468.55, 7468.549999999996)

In [13]:
exp_var / total_var # 결정계수

0.6763457665504996

# 조정결정계수 (Adjusted R-square; Adj. R-squared)
* **자유도조정 결정계수**라고도 함: 자유도를 고려한 결정계수
* page 366 식 참고

In [16]:
n = len(df)
p = 1 # 설명변수의 개수

1 - (unexp_var / (n - p - 1)) / (total_var / (n - 1))

0.6583649758033057

# F 검정 (F test; F-statistic)
* 절편 이외의 회귀계수에 관해서 수행되는 검정
* 귀무가설: 회귀계수 = 0, 대립가설: 적어도 하나의 회귀계수는 0이 아님
* page 367 식 참고: 모형의 적합도가 좋을수록 잔차변동보다 회귀변동이 커짐
* F 검정통계량이 일정 값보다 커지면, 모형이 데이터에 적합되어 있다!
* 분산 분석 (ANalysis Of VAriance; ANOVA): 통계학 강의!

In [17]:
f = (exp_var / p) / (unexp_var / (n - p - 1))
f

37.61490671126522

In [20]:
rv = stats.f(p, n - p - 1) # F 분포
1 - rv.cdf(f) # p 값: 귀무가설이 기각되므로 설명변수 증 적어도 하나는 반응변수에 영향을 준다고 해석

8.590875866687497e-06

![image.png](attachment:image.png)
![image-2.png](attachment:image-2.png)