# 第15章 一般化線形モデルの概略

## はじめに
- ここまで、ベイズ分析の基本概念を学んで来た。
- 本章では、モデルに関するフレームワークについて学ぶ。

## 15.1. 変数のタイプ
### 15.1.1.  予測変数と被予測変数
- 身長から体重を予測したい
    - 被予測変数(従属変数)：体重
    - 予測変数(独立変数)：身長
- 尤度関数は、予測変数の値の関数で、被予測変数の値の確率を表している
- 「予測」は因果を意味していないし、「予測」は変数間に、時間的関係があることを意味している訳ではない
    - 人の「性別」を身長から予測することはできるが、「性別」が「身長」よりも時間的に後に起こった訳ではない。
- ベイジアン分析に置いて、はじめに「解析に関連するデータを特定すること」、「どの変数が予測変数で、どの変数が被予測変数なのか決めること」が大事である

### 15.1.2. スケールの種類：量的、順序、名義、カウント
- 量的スケール
    - 比率尺度:自然に決まる「ゼロ」点を持つ尺度
        - 応答時間、温度、身長、体重など
    - 間隔尺度：ゼロ点を持たないスケール
        - 日付など
- カウントデータ
    - 量的スケールの1つの特殊な場合
    - 非負の整数。連続的でないため、連続な実数値の量的データとは異なる。
- 順序スケール
    - レースの順位、賛成の程度の評価
    - 順序スケールに距離や量的な情報はない
- 名義スケール（カテゴリカルスケール）
    - カテゴリ間の距離もなければ順序もない

- 2つの異なる名義値の場合
    - 2つの項目が違う
- 2つの異なる順序値の場合
    - 2つの項目が違うこと、どちらがより大きいのかはわかる
- 2つの量的な値の場合
    - 2つの項目が違うこと、どちらがより大きいか、どれくらい大きいか、はわかる

- なぜスケールを気にするのか？
    - データに対するモデルを選択するときに、どのようなスケールなのかが重要だから。
        - 2つの名義値なら、ベルヌーイ尤度関数…？
        - 量的なら、正規分布…？

## 15.2. 予測変数の線形結合
- GLMは予測変数の結合効果を、それらの加重和として表現している。

### 15.2.1. 単一の量的予測変数の線形関数
- モデリングの流れの一例
    - 被予測変数1つ(y)と、予測変数1つ(x)を決める
    - x,yは量的変数であると判断する
    - x,yの関係をどのようにモデル化するか、を考える
- もっとも基本的、単純な依存関係は、線形関係。
- 線形関数
    - 比例関係を有している
        - 入力を2倍にしたら、出力は2倍
- 非線形関数
    - 比例関係を有していない
- 現実世界の依存関係の多くは非線形であるが、ほとんどが変数の適度な範囲場で少なくともほぼ線形

- 1つの変数を持つ線形関数の一般式は
    $$ y = \beta_0 + \beta_1 x $$
- このような変換をアフィン変換と呼ぶ。
- $\beta_0 \not= 0$の時、比例関係を有していないが、それでも$y$の増加率は、$x$の全ての値に対して等しい。$x$が$1$増加すれば、$y$は$\beta_1$増加する
- また、$x,y$の一方を移動することで比例が成立するようにすることができる
    $$ y^* = y - \beta_0 = \beta_1 x$$
    $$ y = \beta_1 ( x - \beta_0 / \beta_1) = \beta_1 x^*$$

### 15.2.2. 量的予測変数の加法結合
- 1つ以上の予測変数がある場合に、予測変数の効果を結合するためにはどのような関数を用いるべきか？
    - 線形に結合させたいなら、加法である。
    - ある1つの予測変数が増加したときに、ほかの予測変数がどんな値であれ、非予測変数が同じ増加を予測するようにするには、個々の予測変数の予測が加えられなければならない
- K個の予測変数の線形結合は、下記の形を持つ
    $$ y = \beta_0 + \sum_{k=1}^K \beta_k x_k$$
- 図15.2において、重要なのは、$x_2$方向の傾きは、$x_1$の値の影響を受けないこと
- 2つ以上の予測変数の結合効果は、個々の効果が非線形であったとしても、加法的である可能性がある。
- 個々の効果が線形で、結合効果が加法的であれば、全体の結合効果も線形である

### 15.2.3. 量的予測変数の非加法的交互作用
- 2つの予測変数の結合効果は加法的であるとは限らない。
- ここでは、交互作用の形は乗法である。
- 加法結合のグラフ(図15.3 右上)はフラットだが、乗法結合のグラフ(図15.3 右上以外)は、ねじれたり曲がったりしている
- ここでは乗法の形を見たが、非加法的交互作用は必ずしも乗法的であるとは限らない。

### 15.2.4. 名義的予測変数
#### 15.2.4.1. 単一の名義的予測変数に関する線形モデル
- 予測変数が量的変数ではなく、名義変数の場合を考える。
- 簡単な定式化をするなら、名義的予測変数の各値に、そのベースラインレベルからの$y$の個別の偏向を生成させる、とする。
- 数学的に表現するために、ベクトル化する。
$$\vec{x} = < x_{[1]}, x_{[2]}, \cdots, x_{[j]} >$$
$$\vec{x}_{[j]}=1 , \vec{x}_{[i \not=j]} =0$$
- 予測変数の$j$番目の水準に対する変更を$\beta_{[j]}$と表すと、予測値はベクトルのドット積で表される。
$$ y= \beta_0 + \vec{\beta} \cdot \vec{x}$$
- ベースラインと偏向の組み合わせは無限に考えられるが、一般的には、カテゴリ全体における偏向の合計が0になるようにベースラインを設定する。
$$ \sum_{j=1}^J \beta_{[j]}=0$$

#### 15.2.4.2. 名義的予測変数の加法結合
- 1つの量的な被予測変数に対する、2つ以上の名義的予測変数を持っているとする。
- モデルは
$$ y= \beta_0 + \sum_j \beta_{1[j]}x_{1[j]} + \sum_k \beta_{2[k]}x_{2[k]}$$
- 制約として、
$$ \sum_{j} \beta_{1[j]}=0$$
$$ \sum_{k} \beta_{2[k]}=0$$

#### 15.2.4.3. 名義的予測変数の非加法結合
- 加法が適さない例もある。
    - 例：所属政党と性別という2つの名義的な予測変数から、年収を予測する
- モデルは
$$ y= \beta_0 + \sum_j \beta_{1[j]}x_{1[j]} + \sum_k \beta_{2[k]}x_{2[k]} + \sum_{j,k} \beta_{1 \times 2[j,k]}x_{1 \times 2[j,k]}$$
- 制約として、
$$ \sum_{j} \beta_{1[j]}=0$$
$$ \sum_{k} \beta_{2[k]}=0$$
全ての$k$に対して$\sum_{j} \beta_{1 \times 2[j,k]}=0$ かつ、全ての$j$に対して$\sum_{k} \beta_{1 \times 2[j,k]}=0$
- $\vec{\beta_{1 \times 2}}$の行列表現の、全ての行、列で、係数を合計すると$0$になる
- 「交互作用」は名義スケール、量的スケールに関わらず、被予測変数に対する予測変数の、加法的でない効果である

<img src="./img/table15_1.png">

## 15.3. 結合された予測変数から、ノイズのある被予測データへのリンク
### 15.3.1. 予測変数から被予測中心傾向へ
- 予測変数を結合した後は、それらを被予測変数に対してマッピングする必要がある。
    - この数学的マッピングは(逆）リンク関数と呼ばれ、下記式の$f(x)$で表される
$$ y = f({\rm lin}(x))$$
- ここまではリンク関数は単なる恒等関数であると仮定していた。
- 用語についての整理
    - 元々は、値$y$を線形モデルに対してリンクできるよう変換するものがリンク関数と呼ばれていた。
    - そのため$f(x)$は逆リンク関数と呼ばれる。
        - この書籍では、逆リンク関数もリンク関数と呼んだりする。
    - $f({\rm lin}(x))$の結果である$y$は正確にはデータ値ではなく、データの中心傾向(平均がよく使用されるがその限りでない)を表すパラメータの値
        - $f()$は平均関数と呼ばれ、$\mu = f()$と描かれることもある。
    - 非恒等なリンク関数が適していることもある
        - 指数関数など

#### 15.3.1.1. ロジスティック関数
- よく用いられるリンク関数の1つはロジスティックである

$$ y= {\rm logistic}(x) = 1 / (1 + {\rm exp}(-x))$$

- ロジスティック関数の値 $y$は0から1の間の範囲を取る。
- 単一の量的予測変数に関して、ロジスティックは次のように書くことができる。
$$ y= {\rm logistic}(x; \beta_0, \beta_1) = 1 / (1 + {\rm exp}(-(\beta_0 + \beta_1 x)))$$
- ゲイン$\gamma$と閾値$\theta$を示す形にパラメータ化されることも多い
    - 閾値は、$y=0.5$に対するx上の点
    - ゲインは、ロジスティックが、その点を通ってどれだけ急に上昇するかを示している
$$ y= {\rm logistic}(x; \gamma, \theta) = 1 / (1 + {\rm exp}(-\gamma(x -\theta)))$$

- 2つの予測変数のロジスティックの例(図15.7)
<img src="./img/fig15_8.png">

- x変数の係数はロジスティック回帰の崖の方向を決める
- 閾値は崖の位置を決めている
    - $y=0.5$に対するxの値を決める
- ゲインは崖の傾き度合いを決めている

- ロジット関数
    - ロジスティック関数の逆関数をロジット関数と呼ぶ
    - $0 < p < 1$に関して、${\rm logit}(p) = {\rm log}(p/(1-p))$
    - ${\rm logit(logistic(}x)) = x $となる
- リンクは下記のように表現される。
$$y = {\rm logistic(lin(}x))$$
$${\rm logit}(y) = {\rm lin}(x)$$
- 上記は数学的には同じ。強調する点が異なるのみ。

#### 15.3.1.2. 累積正規分布関数
- もう1つ、よく使われるリンク関数は累積正規分布
    - 数学的な利便性、解釈の容易性に応じて、ロジスティックか累積正規かを用いることになるだろう。
- 累積正規は$\Phi(x;\mu,\sigma)$と記述される
    - $\mu$は累積正規$\Phi(x)$が0.5になる点を決める
        - ロジスティックの閾値と同じ役割
    - $\sigma$は、$x = \mu$における累積正規関数の勾配を決める。
        - $\sigma$が小さくなるほど、急になる
- 累積正規の逆関数はプロビット関数と呼ばれる。
$$y = \Phi({\rm lin(}x))$$
$${\rm probit(}y) = {\rm lin(}x)$$