# 統計学の基礎
統計学はAIの最もベースの理論であり、データサイエンスにおける共通言語である。  
AIに携わる人間には必須。  

参考：Udemy「米国データサイエンティストが教える統計学超入門講座」

## 〇分布(distribution)
分布とはどの値にどれくらいデータが存在するか(度数,frequency)を表したもの。  
ヒストグラム：　連続的な値の分布を表すのに使う。  
棒グラフ(bar chart)：　1つのカテゴリ変数（性別など）の分布を表すのに使う。  

## 〇記述統計と推測統計
* 記述統計：　データの特徴を記述する（例：平均値、中央値）
* 推測統計：　標本（Sample）から母集団（Population）を推測する 
    * 母集団とはある統計対象の全集合のこと。（例： 成人男性全員の年収）
    * 標本は母集団から取得したいくつかのデータのこと。（例：　成人男性10人の年収）
    
アンケート結果から単に標本の統計量を求めるのは記述統計。結果から母集団を推測するのが推測統計。  
統計学と言ったら推測統計。限られたデータから全体を推測したいというのがモチベーションでありゴール。

## 〇平均(mean,average)
ここでは一般的な算術平均について扱う。  
算術平均はデータの合計をデータの数で割った値である。  
一般に標本平均を$\bar{x}$, 母集団平均をμで表す。  

算術平均の主な特徴は以下。
* 平均と各値の差(偏差(deviation))の合計は0
    * $\sum_{i=1}^{n}(\bar{x}-x_i)=0 \quad$
* 平均値は各値からの差の2乗の合計 (平方和) を最小にする
    * →ある適当な値$X$と平均の算出に使った各値$x_i$との差の2乗の合計が最小になるのは、$X$が平均値の時ということ
    * $\sum_{i=1}^{n}(x_i-X)^2 \quad$ は、$X=\bar{x}$の時最小となる

## 〇中央値(median)
* データを大きさ順に並べた際の真ん中の値
* 平均値より外れ値の影響を受けにくい
* 真ん中の値がない場合は，真ん中の二つの中間を取る（中央値を求める対象のサンプル数が偶数のときなど）
* 平均値の計算より時間がかかることに注意（昇順にソートする時間が必要なため）

## 〇最頻値(mode)
* データの中で最も多く観測される値(最も頻繁)
* 極端に特定の値に集中している場合，最頻値を代表値として使う
* 分布の山をモーダル(modal)と呼ぶ
    * 山が一つ： unimodal
    * 山が二つ： bimodal　→双峰性という
    * 山が二つ以上： multimodal

## 〇散布度
データのばらつき具合を表す指標。

### - 範囲
データの最小値と最大値の差。
範囲内でどのように分布しているかどうかは表すことはできない。  
また、外れ値に弱い。

### - 四分位数(quartile)
クアタイルと読む。quarter(1/4)とquantile（分位数）を合わせたもの。  
* データを並べて四分割した時の25%, 50%, 75%の値  
    * 第１四分位数(25%)を $Q_1$ と呼ぶ
    * 第２四分位数(50%)を $Q_2$ または中央値と呼ぶ
    * 第３四分位数(75%)を $Q_3$ と呼ぶ
    * $Q_3-Q_1$　：四分位範囲(IQR: Interquartile range)
        * 最大値、最小値は外れ値となる場合があるため、四分位範囲の方が有効な場合がある。
    * $\frac{Q_3-Q_1}{2}$　：四分位偏差(QD: quartile deviation)
* 「範囲」よりは外れ値に強い  
*  四分位数以外がばらついていても四分位数は変わらないので、ばらつきを表すには不十分。

### - 平均偏差(MD:mean deviation)
平均(もしくは中央値)からの偏差（各値との差）の絶対値の平均。  
$$ MD=\frac{1}{n}\sum_{i=1}^{n}|x_i-\bar{x}| \quad $$
全てのデータを使うので，範囲や四分位数より散布度としては適している。  
絶対値のため、正負で場合分けが生じ、扱いにくい

### - 分散(variance)
平均からの偏差の2乗の平均。平均偏差を２乗して扱いやすくしたもの。
$$ s^2=\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2 \quad $$
通常、標本の分散は$s^2$,母集団の分散は$σ^2$で表す。  
2乗しているため、偏差のオーダーが2乗になっており、感覚的に平均からの偏差が分かりづらい。

### - 標準偏差(standard deviation)
分散の平方根をとったもの。  
$$ s=\sqrt{\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2 \quad} $$
通常、標本の分散は$s$,母集団の分散は$σ$で表す。  
標準偏差は平均からの距離（符号なし）の平均のイメージである。各値はだいたい平均からs離れている。

### ※ 標準偏差の解釈について
平均から±1標準偏差には約68％、±2では約95％、±3では約99％のデータが含まれる可能性が高い。  
ただし、これは正規分布をとる場合であり、参考程度に。  
これは68-95-99.7則と呼ばれる経験則。  
参考：https://ja.wikipedia.org/wiki/68%E2%80%9395%E2%80%9399.7%E5%89%87

## ○2変数間の記述統計
### - 共分散(covariance)
2変数間の相関関係を表す指標。  
例えば、独立変数$x,y$の共分散は下記のように$x$の偏差と$y$の偏差の積の平均で表わす。  
$$ s_{xy}=\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y}) \quad $$

・共分散が正方向に大きい：  片方の変数が大きくなると、もう一方の変数も大きくなる傾向がある（正の相関）。  
・共分散が0に近い： 2通りに解釈できる。  
   1. お互いの変数は独立に近い（無相関）。片方の変数が変化しても、もう片方の変数は影響をうけない。  
   2. 片方の変数が変化すると、もう片方の変数は上下する。相関はあるといえる。　例）2次関数
    
・共分散が負方向に大きい： 片方の変数が大きくなると、もう一方の変数は小さくなる傾向がある（負の相関）。  

2変数が傾き正の直線上に乗るとき、正の相関関係が最大となる。傾き負の直線上に乗るとき、負の相関関係が最大となる。  
これは上記の式がいつ最大になるのかを考えるとわかる。  
共分散が最大になるのは$\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})$の$(x_i-\bar{x})(y_i-\bar{y})$が${x_i-\bar{x}}^2$のように2乗和になるとき。  
すなわち、$(y_i-\bar{y})$が$(x_i-\bar{x})$の実数倍になるときである。これは$y=ax+b$のときに成り立つため、2変数が直線上にのるとき相関が最大といえる。  

別の変数$z$と$x$の共分散を求め、$x$と$y$の共分散を数値の大小で比較することはできない。  
それぞれの変数が取りうる値は違うので、同じオーダーで共分散を比較することができないため。

### - 共分散が取りうる範囲
上記より、2変数が直線状にある時、正（負）の相関関係は最大・最小となる。  
このとき、式変形することにより最大・最小値は±$s_x s_y$のように標準偏差の積で表わせる。
したがって、共分散が取りうる範囲は、
$$-{s_x s_y} \leqq s_{xy} \leqq s_x s_y$$

### - 共分散行列(covariance matrix)
複数の変数間の分散と共分散を行列にしたもの。分散共分散行列ともいう。  
対角成分は分散、それ以外は共分散の対称行列である。  
変数$x,y$の場合：
$S = \left(
\begin{matrix} 
{s_x}^2 & s_{xy} \\ 
s_{yx} & {s_y}^2 
\end{matrix} 
\right)$

変数$X_1,X_2,...X_n$の場合：
$S = \left(
\begin{matrix} 
s_{11} & s_{12} & ... & s_{1n}\\ 
s_{21} & s_{22} & ... & s_{2n}\\
. & . & ... & .\\
s_{n1} & s_{n2} & ... & s_{nn}
\end{matrix} 
\right)$


### - 相関係数(correlation coefficient)
共分散を標準化したのが相関係数。  
共分散のとりうる値(最小値〜最大値)を計算し，-1〜1の範囲にすることを考える。  
共分散の取りうる値は　$-{s_x s_y} \leqq s_{xy} \leqq s_x s_y$　なので、$s_x s_y$で割ると、
$$-1 \leqq \frac {s_{xy}}{s_x s_y} \leqq 1$$
と表せる。 $\frac {s_{xy}}{s_x s_y}$ を相関係数（正確にはピアソンの積率相関係数）と呼ぶ。相関係数は様々な種類がある。

### - 相関行列(correlation matrix)
複数の変数間の相関係数を行列にしたもの。相関係数は $r$ で表わす。  
対角要素は1になる。これは同じ変数同士を横軸縦軸にプロットすると必ず傾き1の直線になるため。  
$R = \left(
\begin{matrix} 
1 & r_{12} & ... & r_{1n}\\ 
r_{21} & 1 & ... & r_{2n}\\
. & . & ... & .\\
r_{n1} & r_{n2} & ... & 1
\end{matrix} 
\right)$

### - 連関(association)
カテゴリ変数(性別、喫煙者か否かなど)間の相関関係のこと。  
分割表(contingency table、クロス表ともいう)を用いて計算する。  
分割表は例えば、下記のように2つのカテゴリ変数とその度数(カウント)をプロットしたもの。  
![image.png](attachment:c01cc734-2347-47b4-9357-3104c762a4bd.png)  
分割表内の数字を観測度数(observed frequency)という。  

参考：https://datawokagaku.com/chi2_test/

### - 期待度数(expected frequencies)
連関が無いと想定した場合の度数。  
この場合、上記の分割表の度数は下記のように単に小計の比になる。  
データサイエンティストを目指しているか否かとPythonを勉強しているか否かに連関がないのであれば、  
データサイエンティストの項目の小計（目指している：30人、目指していない:70人）の比はPythonを勉強している人40人に対しても  
そのまま適用でき、目指している人12人:目指していない人28人(3:7)になる。勉強していようがいまいが目指す割合には関係ないということである。  
もし連関があればこの割合のままにはならないはずである。  
![image.png](attachment:f940e27e-d285-4c0a-a9da-e793359820af.png)  


### - カイ二乗（${\chi}^2$: chi squared)
2つのカテゴリ変数間の連関の強さを表す。  
観測度数が期待度数からどれくらい離れているかを計算した値である。  
（観測した度数は連関がない場合の度数からどのぐらい違うかを表す）。  
{(観測度数-期待度数)^2 / 期待度数}の総和で表わす。  
$${\chi}^2 = \sum_{i=1}^{a}\sum_{j=1}^{b} \frac {(n_{ij}-e_{ij})^2}{e_{ij}}$$

※a行b列の分割表における$i$行$j$列の観測度数が$n_{ij}$、期待度数が$e_{ij}$とする。  
　下図は2行2列の分割表。  
![image.png](attachment:388907ec-8c2b-4032-8927-9d49510c7dce.png)