# 機械学習や統計処理, その前に知っておきたい現代統計学のパラダイム
「AI」と名前がついた本を片手に, Pythonが提供している強力なパッケージを使えば, 誰でも「機械学習」ができるようになります.

しかし, 機械学習や統計処理のバックグラウンドとなる統計学の基礎を抑えておかないと, 自分が何をやっているのかがわからないまま, 表示されたモデル改善の指標や数値にただ一喜一憂することになります.

そこで, 導入として現代統計学の枠組みを説明することから始めます. まずは, 現代統計学の**「記述統計」**と**「推測統計」**という二つの側面について説明し, そこから**確率モデル**とはなにか・そして自分たちが作成を目指す**統計モデル**とはなにかを把握することを目指します.

数式がいくつか出てきますが, 必要最低限に留めています. 難解な文章にして煙に撒こうという意図は全くありません. この資料で重要なのは全体像を把握することなので, とりあえず細部は読み飛ばして後々必要になったら戻ってくる, くらいの気軽な気持ちで読んでください.

# 1. 記述統計
**記述統計(*descriptive statistics*)**とは要するに, 手元にあるデータを, 自分達に理解できるような形で要約する技術のことです.

データを要約する様々な指標（平均やバラツキなど）は**統計量**と呼ばれます.

## 1.1 代表的な統計量

### 1.1.1. 一変数統計量

例えとして、教室にいる学生の身長の特徴について知りたいとします.

#### 標本平均
ある学生の身長が155cmだったとき, その身長データを$x_i = 155$と表すこととします. こうして身長を測定して得られた数値は, $x_1, x_2, ... x_n$と表すことができます.
このようにして集められたデータは**標本**(*Sample*)と呼びます.このとき, 標本の総和を標本数で割ると, **標本平均**(*Sample Mean*)がわかります.
$$
\overline{X} = \frac{x_1 + x_2, ...  + x_n}{n}
$$
#### 標本分散
また, データのバラツキを示す指標として, **標本分散**(*Sample Variance*)があります. それぞれのデータの平均からのズレを二乗して, その平均をとったものです. 
$$
Var(X) = \frac{1}{n}\sum_{i}^n (x_i - \overline{X})^2
$$
二乗する理由は, 負のズレも正のズレも平均からの距離として正しくカウントするためです.

#### 標準偏差
標本分散は二乗しているため, もとの単位より極端にズレが強調されてしまいます.

そこで, バラツキをもとの単位で知りたい場合には, 分散の平方根である**標準偏差**(*Standard Deviation*)が用いられます.
$$
sd(X) = \sqrt{Var(X)} = \sqrt{\frac{1}{n}\sum_{i}^n (x_i - \overline{X})^2}
$$

### 1.1.2. 多変数統計量
#### 標本共分散
二つ以上の変数があるとき, それらの間の関係性を知りたいことがあります.

例えば, 身長*X*がどれくらい年齢*Y*に伴って変化しているかを調べたいとします. それは**標本共分散**(*Sample Covariance*)によって調べることができます.それぞれのデータについてXからの平均からのズレ, Yからの平均からのズレを掛け合わせて, それらを総和します.

*x*と*y*が**共に**平均以上 or 以下ならプラス, 一方が平均以下で, 他方が平均以上ならマイナスになります. 要するに全体として, *X*と*Y*が共に変化(*covary*)しているなら共分散はプラス, 逆向きに変化しているならマイナスになります.
$$
Cov(X, Y) = \frac{1}{n}\sum_{i}^n (x_i - \overline{X})(y_i - \overline{Y})
$$

#### 相関係数
共分散をそれぞれの変数の標準偏差で割ったものを, **相関係数**(*Correlation Coefficient*)と呼ばれます.
$$
corr(X, Y) = \frac{sd(X)sd(Y)}{Cov(X, Y)}
$$

「相関関係を見る」という場合には, 基本的にこの指標のことを指します. 

相関係数はつねに $ -1 \le corr(X, Y) \le 1$の範囲におさまるため, 複数の変数間の関係性の強弱を比較する際に便利です. 相関係数がマイナスのとき**負の相関**, プラスのときは**正の相関**といいます.

#### 回帰係数
共分散ないし相関係数がゼロから離れていれば, 一方の変化(例えば, 年齢)に伴って他方(身長)も変化していることがわかります. ですが, **どのくらい変化**するのか, 共分散や相関係数を見るだけではわかりません.

年齢が一つ上がるにつれ, 平均身長はどれだけ上がる or 下がるのか？これに応えるのが**回帰係数**(*Regression Coefficient*)です.
$$
b_{x,y} =\frac{Cov(X, Y)}{Var(Y)}
$$
↑を*X*の*Y*への回帰係数と呼び, Yの単位あたりのXの変化を表します. 例でいうと, **データ上では**年齢*Y*が1増えるごとに, 身長*X*は平均して$b_{x,y}$だけ上がっていることになります.
