# 情報量基準

多変量解析において、しばしば全ての変数を用いるのではなく、何らかの基準に基づき、適切な変数を洗濯したいと考える場合がある。  
あるいは、統計モデルの候補の中から適切なモデルを選択したい場合もある。  
このような老婆に、尤度とパラメータの数に基づいた「情報量基準」による変数選択法・モデル選択法が提案されている。

# 赤池情報量基準

情報量基準に代表的なものの一つとして、重回帰分析に限らず、あらゆる統計モデルの選択に幅広く用いられている**赤池情報量基準**(**AIC**)が知られている。  
赤池情報量基準は、データへの統計モデルの当てはまりの良さ(尤度の値の大きさ)と統計モデルの簡潔さ(推定するパラメータの少なさ)のバランスをとる統計モデルを選ぶための方法として提案されたものである。
あるモデルのAICの値は、そのモデルにおける最大尤度を$L$、推定するパラメータ数を$k$とおくと、
$$
AIC = -2 \log L + 2k
$$
で計算される。
統計モデルの候補の中で、AICの値を最小にするモデルを選ぼうというのが赤池情報量基準を用いたモデル選択となる。

# 重回帰分析におけるAIC

個体数n、説明変数の数pの場合の重回帰モデル
$$
y = X \beta + \varepsilon \quad (\varepsilon \sim N(0, \sigma^2 I_n))
$$
におけるAICの値を導出してみる。  
推定するパラメータの数は、$\beta$と$\sigma^2$を合わせて計$p+2$個であるから、AICの値は
$$
AIC = -2 \log L+2(p+2) = n (\log S_e + \log (\frac{2 \pi}{n})+1)+2(p+2)
$$
と表される。

In [2]:
# ワインデータセットの重回帰分析でAICを確認
import pandas as pd
import statsmodels.api as sm
from sklearn.datasets import load_wine

wine_data = load_wine()
wine_df = pd.DataFrame(data=wine_data.data, columns=wine_data.feature_names)
wine_df['class'] = wine_data.target

y_col = ['class']
y= wine_df[y_col]

# 重回帰モデルを作成
# pattern1
x_pattern1_col = ['alcohol']
x = wine_df[x_pattern1_col]
model = sm.GLM(y, sm.add_constant(x), family=sm.families.NegativeBinomial())
result = model.fit()
print(f'Pattern1 AIC:{result.aic.round()}')

# pattern2
x_pattern2_col = ['malic_acid']
x = wine_df[x_pattern2_col]
model = sm.GLM(y, sm.add_constant(x), family=sm.families.NegativeBinomial())
result = model.fit()
print(f'Pattern2 AIC:{result.aic.round()}')

# pattern3
x_pattern3_col = ['ash','alcalinity_of_ash']
x = wine_df[x_pattern3_col]
model = sm.GLM(y, sm.add_constant(x), family=sm.families.NegativeBinomial())
result = model.fit()
print(f'Pattern3 AIC:{result.aic.round()}')

# pattern4
x_pattern4_col = ['magnesium', 'total_phenols', 'flavanoids', 'nonflavanoid_phenols', 'proanthocyanins']
x = wine_df[x_pattern4_col]
model = sm.GLM(y, sm.add_constant(x), family=sm.families.NegativeBinomial())
result = model.fit()
print(f'Pattern4 AIC:{result.aic.round()}')

# pattern5
x_pattern5_col = ['color_intensity','hue','od280/od315_of_diluted_wines']
x = wine_df[x_pattern5_col]
model = sm.GLM(y, sm.add_constant(x), family=sm.families.NegativeBinomial())
result = model.fit()
print(f'Pattern5 AIC:{result.aic.round()}')

Pattern1 AIC:475.0
Pattern2 AIC:472.0
Pattern3 AIC:455.0
Pattern4 AIC:442.0
Pattern5 AIC:444.0


AICに基づき、Pattern4のモデルを選択する

# 重回帰分析におけるAICとF検定統計量との関係

重回帰分析におけるAICは、$F$検定統計量による変数選択と密接な関係があり、$n$が大きい時、$F$検定統計量が2より大きいかどうかを基準とした変数選択と似た結果を与えることが知られている。

# その他の情報量基準

AICは大標本の仮定に基づいて導出されているが、標本の大きさが小さい時も、期待平均対数尤度の不偏推定量を与える基準として、**c-AIC**(**AICの有限修正**)が提案されている。  
そのほかにも、**MDL**(**最小記述長**というものも提案されている。  
中でも、近年、AICの他によく用いられるのは**BIC**(**ベイズ情報量基準**)である。  
最大尤度を$L$、推定するパラメータ数を$k$とおくと、
$$
BIC = -2 \log L + k \log n
$$
で計算される。  
AICと比較すると、推定するパラメータの数によるペナルティが$2k$から$k \log n$に変わっている。  
したがって、$n \geq 8$以上の時により簡潔なモデルを選ぶ傾向にある。  
また、近年、AICより好まれている点として、サンプルサイズが$n \rightarrow \infty$の時、確率$1$で真のモデルを選択することができることが挙げられる。

In [3]:
# ワインデータセットの重回帰分析でBICを確認
# pattern1
x_pattern1_col = ['alcohol']
x = wine_df[x_pattern1_col]
model = sm.OLS(y, sm.add_constant(x))
result = model.fit()
print(f'Pattern1 BIC:{result.bic.round()}')

# pattern2
x_pattern2_col = ['malic_acid']
x = wine_df[x_pattern2_col]
model = sm.OLS(y, sm.add_constant(x))
result = model.fit()
print(f'Pattern2 BIC:{result.bic.round()}')

# pattern3
x_pattern3_col = ['ash','alcalinity_of_ash']
x = wine_df[x_pattern3_col]
model = sm.OLS(y, sm.add_constant(x))
result = model.fit()
print(f'Pattern3 BIC:{result.bic.round()}')

# pattern4
x_pattern4_col = ['magnesium', 'total_phenols', 'flavanoids', 'nonflavanoid_phenols', 'proanthocyanins']
x = wine_df[x_pattern4_col]
model = sm.OLS(y, sm.add_constant(x))
result = model.fit()
print(f'Pattern4 BIC:{result.bic.round()}')

# pattern5
x_pattern5_col = ['color_intensity','hue','od280/od315_of_diluted_wines']
x = wine_df[x_pattern5_col]
model = sm.OLS(y, sm.add_constant(x))
result = model.fit()
print(f'Pattern5 BIC:{result.bic.round()}')

Pattern1 BIC:403.0
Pattern2 BIC:386.0
Pattern3 BIC:348.0
Pattern4 BIC:213.0
Pattern5 BIC:224.0


BICに基づき、Pattern4のモデルを選択する

# クロスバリデーション

統計解析手法を用いてデータを分析したときに、得られたモデルがどの程度の精度をもつかを調べたい場合がある。  
**クロスバリデーション**(**交差検証**)は、各群のデータを$K$分割し、そのうちの1セットをテスト用として外しておき、$K-1$セットのデータで判別関数を求め、テスト用の1セットのデータで誤判別率を推定する、ということをテスト用として残す1セットの選択の$K$通り全ての場合を調べ、全ての場合の誤判別率の平均をとる、という方法である。  
特に、$K=n$($n$は標本の大きさ)とした場合のクロスバリデーションは**Leave-one-out法**と呼ばれる。  
クロスバリデーションは、変数選択やモデル選択の基準としてもよく用いられる。  
統計解析手法全般において、データを分析する際、複雑なモデルほど**学習データ**に対する適合はよくなるが、一方、将来のデータに対する予測精度はかえって落ちることが生じやすくなる。(**過学習**、**過適合**と呼ぶ)  
そこで、将来のデータを模擬したテストデータで精度を調べるために、クロスバリデーションに基づいて、モデル選択を行うことがある。  
学習データとテストデータの分割を変えて何度も解析を行うという手順になるため、計算量は大きくなることに注意が必要である。

In [4]:
# irisデータで実践
import numpy as np
from sklearn.datasets import load_iris
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import KFold
from sklearn.linear_model import LogisticRegression

iris = load_iris()

logreg = LogisticRegression(max_iter=1000)

kfold = KFold(n_splits=5) # K=5分割で実行する
scores = cross_val_score(logreg, iris.data, iris.target, cv=kfold)
print(f'K=5 scores: {scores}')
print(f'Average score: {np.mean(scores)}')

lookfold = KFold(n_splits=len(iris.data)) # K=n分割で実行する
scores = cross_val_score(logreg, iris.data, iris.target, cv=lookfold)
print(f'K=n(Leave-one-out scores): {scores}')
print(f'Average score: {np.mean(scores)}')

K=5 scores: [1.         1.         0.86666667 0.93333333 0.83333333]
Average score: 0.9266666666666665
K=n(Leave-one-out scores): [1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 0. 1.
 1. 1. 1. 1. 1. 0. 1. 1. 1. 1. 1. 0. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 0. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 0.
 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
 1. 1. 1. 1. 1. 1.]
Average score: 0.9666666666666667


# 過学習の問題

たまたま得られたデータに合わせすぎると、かえって母集団全体に対する判別精度は落ちることが十分にありうる。  
また、複雑な判別関数やモデルを作成すると、意味づけを行うことが難しく、解析結果のブラックボックス化を生む。  
このような問題をしばしば**過学習の問題**と呼び、これを避けるために、統計解析では、パラメータ数が大きすぎるモデルや、データ数に近いパラメータ数のモデルを用いることを避け、データの当てはまりの良さとモデルの簡潔さのバランスを取ることが良いとされることが多い。