## モデルとは
---
気象の変化や経済活動など複雑な対象をより**簡単な構造**で表現したもの。

## 数理モデルと統計モデル
---
$y=ax+b$ のように数式で記述されたモデルが数理モデル。数理モデルの中で**確率変数**、特に誤差項と呼ばれる変数を持つものを統計モデルという。誤差項はよく $\epsilon$ で表される。

## データ分析におけるモデリングの目的
---
入力 $x$ と出力 $y$ があり、その関係を示す関数 $f$ によって $y=f( x)$ のように表されるのが数理モデルであり、統計モデルでは $f( x)=ax+b+\epsilon$ のように $f$ の中に誤差項 $\epsilon$ を含む。  
しかし、以下では説明を簡単にするため $f$ から $\epsilon$ を切り出し、

$y\approx \hat{y} =f( x)$

という式を用いる。  
この式は、入力 $x$ に対して (確率変数を含まない) 関数 $f$ を適用し、予測値 $\hat{y}$ が得られるが、 $f$ から取り除いた誤差項 $\epsilon$ によって、元のデータにある $y$ と $\hat{y}$ は近い値であっても同じになることは (ほとんど) ないということを示す。  
この式中のどこを重視するかによってモデリングの方法等が変わってきたり、得られたモデルの適用範囲がかわってきたりする。

### $\approx$ に注目する立場
---
**$\hat{y}$ を可能な限り $y$ に近づける**ことを目的とし、そのためには $f$ がどれだけ複雑になっても気にしない。  
$y$ を**予測することが利益**になる場合はこちらを重視する。 (例えば、不良品検査など)  
機械学習と呼ばれる領域ではこちらに重点を置く。

### $f$ に注目する立場
---
$x$ と $y$ の間の関係を**理解・保証**することを目的とし、そのためには $y$ と $\hat{y}$ が多少乖離しても気にしない。  
$x$ と $y$ の間の**因果関係**を明らかにし、 $x$ を操作することで **$y$ を改善**する場合はこちらを重視する。 (例えば、マーケティング施策を考える場合など)  
統計学と呼ばれる領域ではこちらに重点を置く。

### 実務上の立場
---
上のどちらかに極振りしてよい場面はほとんどなく、分析の目的や制約条件に従ってバランスをとる。

## 注意点
---
上の式は $x$ と $y$ が同時にどのように動くか、つまり**相関関係**しか示していない。  
モデルを作成する場合には、通常 $x$ が原因で $y$ が結果となる、または時系列的に $x$ が先に発生し $y$ が後から発生するようにする。しかし手順に従ってモデルが得られたからといって、それが直ちに $x\Rightarrow y$ や $y\Leftarrow f( x)$ のように $x$ があったから $y$ という結果が生じたという因果関係を証明するわけではない。**因果関係はデータから自動的に導かれるものではなく**、データの生み出された背景等を元に分析者が考えなければならない。  
例えば、小学生を対象に身長と学力を測定したデータがあり、これを分析した結果として身長が高くなるほど学力が上がるという結果が得られたとする。このときに栄養状態を改善して学力を向上させようとしたり、ましてや人種間の優劣を論じたりすることが誤りであるのは自明だが、これは「小学生を対象」にしたデータで、小学生の時期には「年齢 (学年) とともに学力が上昇」していくという背景知識があるから判断できることである。  
実際の分析ではここまで因果関係の有無が明確ではなかったり、要求される背景知識 (ドメイン知識) が複雑であったりするので**因果関係を判断する場合には常に注意が必要**。  
また、分析者が因果関係を考えない予測モデルとして作成したものが、現場で因果関係を証明したモデルとして扱われ損失を生じるようなことがないように、モデルの適用範囲について共有しておくことも重要。