# 統計モデルの作り方

統計モデルを構築流れを理解していく

* ビールの売上予測モデルを構築する
  * ビールの売上に影響があるのではないかと思われる要素
    * 気温
    * 天気
    * ビールの価格


## 応答変数・説明変数

* **応答変数**: 何らかの要因によって変化する(応答する)変数のことを指す(ビールの売上予測モデルにおけるビールの売上)
* **説明変数**: 興味のある対象の変化を説明する変数のこと(気温・天気・ビールの価格の3つが説明変数)

確率モデルでは、「応答変数 ~ 説明変数」といった書き方がされる必要がある
応答変数が~を挟んで左側、説明変数が右側

## パラメトリックなモデル

* できる限り現象を単純化し、少数のパラメタだけを使うモデルをパラメトリックなモデルと呼ぶ
* パラメトリックなモデルを推定する場合は、少数のパラメタを決めるだけで良いため推定が容易、かつ指揮の形も簡潔であるため解釈も容易


## 線形モデル

応答変数と説明変数の関係に線形の関係のみを認めたモデルのこと

![](../img/linear_and_nonlinear.png)

## 係数・重み

* 統計モデルに用いられるパラメタのことを係数(=重み(機械学習))と呼ぶ

気温のみを用いてビールの売上を予測するモデルの場合は、以下のように表現できる

$$
\mathcal{ビールの売上 〜 N(\beta_0 + \beta_1 * 気温, \sigma^2)}
$$

* `\beta_0`と`\beta_1`を係数という
  * `\beta_0`: **切片**
  * `\beta_1`: **回帰係数**

## モデルの構築

1. モデルの特定: モデルのこうぞうを数式で表現すること
2. パラメタ推定: パラメタ、つまり係数を推定する
3. 作成したモデルの吟味
  * 作成されたモデルの予測精度が悪い場合、そもそも構造が悪いのか、構造は正しいがパラメタの推定が間違っているのか、吟味する必要がある


## 線形モデルの構築方法

* モデル構築における作業のうち、パラメタ推定は、仕組みは理解する必要があるが、プログラムを利用することでほぼ自動的に完結することができる
* 線形モデルを仮定した時のモデルの構造を変える方法は主に2つ
  * モデルに用いる説明変数を変える
  * データの従う確率分布を変える


## 変数選択

* モデルに用いる説明変数を選ぶ作業のこと
* 変数選択をするためには、様々な変数の組み合わせでモデルを構築する
  * 例えば、A,B,Cの説明変数があった場合、以下の変数の組み合わせが考えられる
    * 応答変数 ~ 説明変数なし(=NULLモデル)
    * 応答変数 ~ A
    * 応答変数 ~ B
    * 応答変数 ~ C
    * 応答変数 ~ A + B
    * 応答変数 ~ A + C
    * 応答変数 ~ B + C
    * 応答変数 ~ A + B + C

これらのありうる変数の組み合わせから最も良い変数の組み合わせを持ったモデルを選ぶのが説明変数選択

* **最も良い変数の組み合わせ**を選ぶには
  * 統計的仮設検定を用いる方法
  * 情報量規準

などがある


### 検定による変数選択

例えば、以下のビールの売上モデルを統計的仮設検定により、変数選択をしていく

* 帰無仮説: 説明変数の係数`\beta_1`は0である
* 対立仮設: 説明変数の係数`\beta_1`は0と異なる

帰無仮説が棄却された場合には、気温にかかる係数が0でないと判断されるので、「モデルに気温という説明変数は必要だ」と判断されることになる
帰無仮説が棄却できなかった場合には、「**モデルは単純な方が良い**」という原則に基づいて、検証対象の変数をモデルから取り除く

### 情報量規準による変数選択

* 情報量規準は、推定されたモデルのよさを定量的にした指標
* **赤池の情報量規準**(AIC)などが利用される
  * AICは、小さければ小さいほど良いモデルだと判断される
  * ありうる変数のパターンで網羅的にモデルを構築し、各々のモデルのAICを比較する
  * AICが最も小さくなったモデルを採用


## モデルの評価

評価の観点はいくつか存在する

1. 予測精度の評価
2. モデルを構築する際に仮定した前提条件が満たされているかどうかチェック

ビールの売上を以下のようにモデルかした場合、

$$
\mathcal{ビールの売上 = 20 + 4 * 気温 + \epsilon, \epsilon〜N(0, \sigma^2)}
$$

この時、モデルの前提条件が満たされているならば、売上の予測値と実測値との差`\epsilon`は、平均0の正規分布にしたがっているはず。こういった部分をチェックすることが必要になる

統計モデルを作る前に、**分析の目的を決めた上で、データを集めてモデル化することが大切**