# chapter4 統計モデルの基本
## section 1 統計モデル
- 統計モデルを作成することで**ある問題の理解や予測**に活用することができる。
    - 例: ビールの売上データのモデル化
        - ビールの売上を予測するには、様々な要因を考える必要がある(その日の気温、湿度、景気など)
        - モデルをつくるには**ある程度現象を説明できることができる単純なモデル**を意識する必要がある
- モデルとは、実現象を「ある側面から見た結果」ともみなせる
    - 分析の目的にあわせて、作成するモデルや注目する観点を変えていく
    
- モデルの種類
    - 数理モデル
        - 現象を数式で表したモデルのこと
        - 例: ビールの売上(10K) = 20 + 4 * templature
            - つまり上記の数式モデルであれば気温の変化に比例してビールの売上が向上するモデルであるといえる
    - 確率モデル
        - 数理モデルの中でも確率的な表現を伴うモデルのこと
        - 例: ビールの売上を気温で説明する確率モデル
            - ビールの売上〜$N(20 + 4 * templature, \sigma^2)$
            - 平均が$20 + 4 * templature$, 分散が$\sigma^2$の正規分布に従う
        - また上記の式は以下の式にも書き換えられる
            - ビールの売上 = $20 + 4 * templature + \epsilon, \epsilon〜N(0, \sigma^2)$
            - この場合はモデルに対して「平均0, 分散$\sigma^2$の正規分布に従うノイズが加わる」と表現できる
    - 統計モデル
        - データに適合するように構築された確率モデル
        - 例: 気温が20度の日を30日間調査して、売上平均が1100K, 分散が2とわかった。これだと確率モデルの結果と食い違っている。
            - 確率モデルの構造を考えた上で、データに対して適合するように統計的にパラメータを調整したモデル
            - ただし確率モデルと統計モデルの区別は厳密ではなく、同じ意味で使われることもある。
        - 統計モデルを使うことで、確率分布の母数(パラメータ)の変化のパターンを明らかにすることができる
        - 統計モデルによる予測は「条件付き確率分布」として得られることになり、その代表値を1つ挙げるには、条件付き期待値が用いられる
        
- 統計モデルと古典的な分析手順との比較
    - 古典的な平均値の差の検定などは「統計モデル活用方法の1つ」にすぎない
    - モデルを作るということのメリットは、検定のように1つの事象だけを見ずに、複雑な事象に対しても分析ができるということ
        - ただし、モデルアプローチは「推定されたモデルの中でのみ成り立つ結果」であることには注意しなければいけない
        - それでもモデルアプローチが有効であるという事実は変わらず、現代におけるデータ分析の標準的な枠組みをなしてきた
        - 正しい知識を持って、節度あるモデル利用を

## section2 統計モデルの作り方
- 第1章に続き「ビールの売上予測モデル」を構築する例を用いて解説を進める

- ビールの売上予測モデルについて
    - 売上に影響がありそうな要素
        - 気温・天気(晴れ・雨・曇)
        - ビールの価格
        
- 用語説明
    - 応答変数(目的変数)
        - 上記のモデルでは「ビールの売上」が該当
        - 従属変数とも呼ばれる
    - 説明変数
        - ある事象の変化を説明する変数のこと。「売上に影響がありそうな要素」が該当
        - 独立変数とも呼ばれる
    - パラメトリックなモデル
        - 少数のパラメータだけを用いるモデルのこと。
        - パラメ―タが少ないので、式の形も簡潔なので解釈がしやすい
    - ノンパラメトリックなモデル
        - パラメトリックなモデルとは反対のモデル
        - モデルの結果は良いものになる傾向がありますが、推定や解釈が難しくなることがある
    - 線形モデル
        - 応答変数と説明変数との関係に線形の関係を認めたモデルのこと(=1次式で表現が可能)
            - 1章でしめしたビールの売上予測モデルはいわゆる線形モデルに該当する
        - 一見線形に見えないものでも、変換をすることによって線形になるモデルも線形モデルに該当しますが、詳しくは第6部で説明します
            <img src="./fig/4-2-1.png">
    - 係数
        - 統計モデルに用いられるパラメータのこと(下の式の$\beta$にあたる)
        - ビールの売上〜$N(\beta_0 + \beta_1 * templature, \sigma^2)$
            - このときの$\beta_0$を切片、$\beta_1$を回帰係数と使い分けることもある
    - 重み
        - 統計学の場合は係数と呼びますが、機械学習では同じ意味でも**重み**と呼ぶことが多い
    - 変数選択
        - モデル作成に用いる説明変数を選ぶ作業
        - 変数選択をするためには様々な変数の組み合わせでモデルを構築する
            - 最も良い変数の組み合わせを選択するためには大きく2つあり統計的仮説検定を用いる方法と、情報量基準を用いる方法がある。
    - Nullモデル
        - 説明変数が入っていないモデルのこと

- モデルの構築
    - モデルの構築には2つの作業がある
        - 1つはモデルの構造を数式で表現すること
            - 「気温が変化することでビールの売上が増減する」
        - もう1つはパラメータを推定すること
            - 「気温が1度上がるとビールの売上が○万円増える」
    - 線形モデルの構築
        - パラメータの推定はPythonによる計算で解決させる
        - 線形モデルは表現の幅が狭いものの、ある程度機械的にモデルの構造を特定することができます。
        - 線形モデルを仮定したときの構造を変化させる方法
            - モデルに用いる説明変数を変える
            - データの従う確率分布を変える
    - モデル構築する前に
        - 分析目的を決めた上で、データ収集しモデル化を行うことが重要
        - 分析目的からそれた方向でモデル構築をしないように注意
            
- 変数選択方法について
    - 検定による変数選択
        - ビールの売上〜$N(\beta_0 + \beta_1 * templature, \sigma^2)$
        - 統計的仮説検定を用いいる場合は以下の仮説を立てる
            - 帰無仮説: 説明変数の係数$\beta_1$は0である
            - 対立仮説: 説明変数の係数$\beta_1$は0と異なる
        - 帰無仮説を棄却することで、モデルに帰無仮説で指定した説明変数が必要になるという説明ができるということになる。
            - このときもし棄却できなければ説明変数を取り除く必要があるため、実質Nullモデルになる
            - ただし分散分析という方法があるがこちらは第5部で
    - 情報量基準による変数選択
        - 情報量基準は推定されたモデルの良さを定量化した指標
            - 赤池情報量基準(AIC)やベイズ情報量基準(BIC)がある
                - ちなみに他にはCIC、DIC、EIC、GIC、PIC、TIC、WAICなどたくさんあるみたい
            - ここで示したAICを使うと「モデルが以下に予想を当てていないか」を測ることができ、この値が小さいほど良いモデルであると判断できる
            
- モデルの評価
    - 予測精度の評価
    - モデルを構築する際に仮定した前提条件が満たされているかを確認する
        - このチェックは泥臭いので第5部以降で

## section3 データの表現とモデルの名称

- 用語説明
    - 正規線形モデル
        - 応答変数(目的変数)が正規分布に従うことを仮定した線形モデル
        - 正規分布に従うことを仮定すると、目的変数は$-\inf 〜 +\inf$の範囲をとる連続型の変数になる。
            - 第5部で正規線形モデルに商店を当てて解説
        - 機械学習界隈での意味合いとは異なる(狭義)ため、ここでは広義の回帰を意味する
            - 分野によって用語が異なることもあるため注意 
    - 回帰モデル(回帰分析)
        - 正規線形モデルのうち、説明変数が連続型の変数であるモデル
    - 重回帰モデル(重回帰分析)
        - 説明変数が2つ以上の複数存在するものを重回帰分析と呼ぶ
        - 逆に説明変数が1つしかないものは単回帰分析とも呼ばれる
    - 分散分析モデル
        - 正規線形モデルのうち説明変数がカテゴリ型の変数であるモデル
        - この本では分散分析を常に検定手法の名前であるとする
        - 説明変数が1種類であれば一元配置分散分析、2つ以上であれば二元配置分散分析と呼ぶ
    - 一般化線形モデル
        - 応答変数(目的変数)が従う確率分布として、正規分布以外の分布も使えるようにした線形モデル
        - こちらは第6章で