# Chapter 6. 일반선형모델

## 6.4 일반선형모델의 평가

### 6.4.1 분석준비

In [2]:
# 수치 계산에 사용하는 라이브러리
import numpy as np
import pandas as pd
import scipy as sp
from scipy import stats

# 그래프를 그리기 위한 라이브러리
from matplotlib import pyplot as plt
import seaborn as sns
sns.set()

# 통계모델을 추정하는 데 사용하는 라이브러리
import statsmodels.formula.api as smf
import statsmodels.api as sm

# 표시자릿수 지정
%precision 3
# 그래프를 주피터 노트북에 그리기 위한 설정
%matplotlib inline


In [3]:
# 데이터 읽어 들이기
test_result = pd.read_csv("6-3-1-logistic-regression.csv")

# 모델링
mod_glm = smf.glm("result ~ hours", data = test_result, 
                  family=sm.families.Binomial()).fit()

### 6.4.4 피어슨 잔차(실습)

In [5]:
# 예측한 성공확률
pred = mod_glm.predict()
# 종속변수(시험 합격여부)
y = test_result.result

# 피어슨잔차
peason_resid = (y - pred) / np.sqrt(pred * (1 - pred))
peason_resid.head(3)

0   -0.102351
1   -0.102351
2   -0.102351
Name: result, dtype: float64

In [7]:
# 피어슨 잔차 구하기
mod_glm.resid_pearson.head(3)

0   -0.102351
1   -0.102351
2   -0.102351
dtype: float64

In [9]:
# 피어슨 카이제곱통계량
np.sum(mod_glm.resid_pearson**2)

84.91138782569993

In [10]:
# summary() 함수에 출력되는 피어슨 카이제곱통계량
mod_glm.pearson_chi2

84.91138782569993

### 6.4.8 deviance 잔차

In [12]:
# 예측한 성공확률
pred = mod_glm.predict()
# 종속변수(테스트 합격여부)
y = test_result.result

# 합격여부를 완전히 예측할 수 있을 때의 로그우도와 잔차
resid_tmp = 0 - np.log(
    sp.stats.binom.pmf(k = y, n = 1, p = pred))
# deviance 잔차
deviance_resid = np.sqrt(
    2 * resid_tmp
) * np.sign(y - pred)
# 결과확인
deviance_resid.head(3)

0   -0.144369
1   -0.144369
2   -0.144369
Name: result, dtype: float64

In [13]:
mod_glm.resid_deviance.head(3)

0   -0.144369
1   -0.144369
2   -0.144369
dtype: float64

In [14]:
# deviance
sp.sum(mod_glm.resid_deviance ** 2)

68.028