# 第6部　一般化線形モデル｜Pythonで学ぶ統計学入門

## 4章　一般化線形モデルの評価

### 分析の準備

In [2]:
# 数値計算に使うライブラリ
import numpy as np
import pandas as pd
import scipy as sp
from scipy import stats

# グラフを描画するライブラリ
from matplotlib import pyplot as plt
import seaborn as sns
sns.set()

# 統計モデルを推定するライブラリ(ワーニングが出ることもあります)
import statsmodels.formula.api as smf
import statsmodels.api as sm

# 表示桁数の指定
%precision 3
# グラフをjupyter Notebook内に表示させるための指定
%matplotlib inline


In [3]:
# データの読み込み
test_result = pd.read_csv("6-3-1-logistic-regression.csv")

# モデル化
mod_glm = smf.glm("result ~ hours", data = test_result, 
                  family=sm.families.Binomial()).fit()

### ピアソン残差

In [4]:
# ピアソン残差の計算

# 予測された成功確率
pred = mod_glm.predict()
# 応答変数(テストの合否)
y = test_result.result

# ピアソン残差
peason_resid = (y - pred) / sp.sqrt(pred * (1 - pred))
peason_resid.head(3)

0   -0.102351
1   -0.102351
2   -0.102351
Name: result, dtype: float64

In [5]:
# ピアソン残差の取り出し
mod_glm.resid_pearson.head(3)

0   -0.102351
1   -0.102351
2   -0.102351
dtype: float64

In [6]:
# ピアソン残差の2乗和
sp.sum(mod_glm.resid_pearson**2)

84.911

In [7]:
# summary関数でも出力されている
mod_glm.pearson_chi2

84.911

### deviance残差

In [12]:
# deviance残差の計算

# 予測された成功確率
pred = mod_glm.predict()
# 応答変数(テストの合否)
y = test_result.result

# 合否を完全に予測できた時の対数尤度との差異
resid_tmp = 0 - sp.log(
    sp.stats.binom.pmf(k = y, n = 1, p = pred))
# deviance残差
deviance_resid = sp.sqrt(
    2 * resid_tmp
) * np.sign(y - pred)
# 結果の確認
deviance_resid.head(3)

0   -0.144369
1   -0.144369
2   -0.144369
Name: result, dtype: float64

In [13]:
mod_glm.resid_deviance.head(3)

0   -0.144369
1   -0.144369
2   -0.144369
dtype: float64

In [14]:
# deviance
sp.sum(mod_glm.resid_deviance ** 2)

68.028