# 機械学習の数学 3（統計）

4 章では、機械学習において頻繁に用いられる基礎的な統計について解説します。  
 
統計を用いることにより、データの分布の情報を定量評価することができます。例えばデータの平均を知ることにより、データの理解をより深めることが可能になります。  

また、実務でもよく用いられる統計量を用いた前処理である外れ値除去や正規化について解説します。

## 本章の構成

- 代表的な統計量  
- 正規分布
- 正規化
- 相関係数  

## 代表的な統計量

本節では、いくつかよく用いられる統計量を説明します。統計量とは、観測されたデータの特徴を要約する数値のことを指します。代表的な統計量として平均、分散、標準偏差を紹介します。


### 平均

**平均 (mean)** は、観測された数値を合計し、その数値の個数で割ったもののことを言います。たとえば、300 円、400 円、500 円の平均は、

$$
\frac{300 + 400 + 500}{3} = 400
$$

です。一般に、 $N$ 個のデータ $x_i \ (i=1,\dots,N)$ が観測されたとき、その平均は

$$
\begin{aligned}
\overline{x}
= \frac{x_1 + x_2 + \dots + x_N}{N}
= \frac{1}{N} \sum^{N}_{n=1} x_{n}
\end{aligned}
$$

と定義されます。  
平均を表す記号として、 $\bar{x}$ や $\mu$ がよく用いられます。データの分布において、平均はその重心に相当する値です。


### 分散

次に、**分散 (variance)** を紹介します。分散はよく $\sigma^2$ と表され、

$$
\sigma^2 = \frac{1}{N} \sum_{n=1}^N \left( x_n - \overline{x} \right)^2
$$

と定義されます。各データ点 $x_i \ (i=1,\dots,N)$ の値から、それらの平均 $\bar{x}$ を引き二乗した値（ $(x_i - \bar{x})^2 \ (i=1,\dots,N)$ ）の平均を計算しています。これは、「データが自らの平均より平均的にどのくらいばらついているか」を表します。平均が同じデータでも、全てのデータが平均付近にある場合は分散は小さく、平均よりも極めて大きなデータ点や小さなデータ点が多数ある場合、分散は大きくなります。分散にはもう一種類あります。以下のようなものです。

$$
\begin{aligned}
s^2 = \frac{1}{N - 1} \sum_{n=1}^N \left( x_n - \overline{x} \right)^2
\end{aligned}
$$

始めに登場した $\sigma^2$ の定義では $\frac{1}{N}$ となっていた部分が $\frac{1}{N - 1}$ に変わっています。前者は**標本分散 (sample variance)** といい、後者は**不偏分散 (unbiased variance)** といいます。これらの式の導出は他の文献に譲るとして、ここではその使い分けについて説明します。

![母集団と標本集団](http://drive.google.com/uc?export=view&id=13XIIrIwyXPOpvloqi4l8yKTN-BmrufX_)

例えば、全国の小学生の身長と体重の分散を調べたいとします。このとき、全国の小学生を一人の抜け漏れもなく調べたなら、集まったデータは**母集団 (population)** と呼ばれます。  
一方、各都道府県の小学生を100人ずつ調べた場合、そのデータは**標本集団 (sample population)** と言います。  
すなわち、母集団とは解析を行いたいデータ全ての集合を指し、標本集団とは母集団から抽出された一部のデータの集合を指します。一般に、標本集団のデータ数が少ないとき、標本分散は母集団の分散よりも小さくなることが知られています。不偏分散は、その差を補正することで、母集団の分散をより正確に推定するために用います。不偏分散は抽出するデータの数（$N$）を増やせば、いずれ母集団の分散に一致します。また、$N$ が大きいと標本分散と不偏分散はほぼ一致するので、たくさんのデータ数をとることができる状況では、両者に大きな違いが生じないことも多々あります。  

分散を利用すると、データのばらつきを定量評価することができるようになります。例えば、同じ現象を複数回観測する実験を行った際、結果のばらつきが大きければ、その観測方法には問題がある可能性があります。もしくは、同じだと思っていた現象は、実は観測のたびに異なる現象であった可能性があります。このように、多数の試行の結果がある値に集まっていることが望ましいような状況において、ばらつきの度合いを定量し評価することは重要です。  


### 標準偏差

次に**標準偏差 (standard deviation)** を紹介します。
分散はデータの平均からの差の二乗の平均でした。そのため単位は元の単位を二乗したものになります。例えばデータの単位が ${\rm kg}$ であれば、分散の単位は ${\rm kg}^2$ になります。そこで、分散 $\sigma^2$ の平方根 $\sigma$ を計算することで、データと単位が等しくなり、解釈が容易になります。この $\sigma$ を標準偏差と呼びます。

練習問題で具体的な計算手順の確認を行いましょう。以下の①と②のデータに対して、平均、分散、標準偏差を求めてください。ただし、今回は標本分散を使用することとします。

![練習問題](http://drive.google.com/uc?export=view&id=1EABH2uk6oxrPwopoI9ckcZCIzhdkvS4l)

①の解答は以下の通りです。

$$
\begin{aligned}
\bar{x} &= \frac{1}{5} \left( -2 -1 + 0 + 1 + 2 \right) = 0 \\
\sigma^{2} &= \frac{1}{5} \left\{ \left( -2 -0 \right)^{2} + \left( -1 -0 \right)^{2} + (0 - 0)^{2} + (1 - 0)^{2} + (2 - 0)^{2} \right \} \\
&= \frac{1}{5} \times 10 = 2 \\
\sigma &= \sqrt{2}
\end{aligned}
$$

②の解答は以下の通りです。

$$
\begin{aligned}
\overline{x} &= \frac{1}{5} ( -4 -2 + 0 + 2 + 4 ) = 0 \\
\sigma^2 &= \frac{1}{5}
\left\{ (-4 -0)^2 + (-2 -0)^2 + (0 - 0)^2 + (2 - 0)^2 + (4 - 0)^2 \right\} \\
&= \frac{1}{5} \times 40 = 8 \\
\sigma &= \sqrt{8} = 2 \sqrt{2}
\end{aligned}
$$

これより、②のケースの方が分散が大きく、データのばらつきが大きいことがわかります。

## 正規分布

確率でよく登場する概念として**正規分布 (Normal distribution)** があります。正規分布はガウス分布 (Gaussian distribution) とも呼ばれます。正規分布は平均値の付近に集積するようなデータの分布を表した連続的な値に関する確率の分布です。正規分布は以下のような形をしています。  

![正規分布](http://drive.google.com/uc?export=view&id=1g-8ZbctOxSGidcL-38kCfLb9YwUzHteI)  

正規分布は様々な自然界に起こる現象や、人間の行動などの様々な物理現象に当てはまることがよくある確率分布です。そして、その数式が取り扱いやすいというのも 1 つの特徴と言えます。  

もう 1 つの正規分布の特徴として、データの平均 $\mu$ と標準偏差 $\sigma$ に対して、何 % のデータがその分布に入っているかがわかる点になります。  

### $3\sigma$ 法

モデルの学習に使用するデータに施す前処理の 1 つに、他のデータから極端に大きな（もしくは小さな）値である**外れ値 (Outlier)** を除去することがあります。正規分布を用いて外れ値除去を行う 1 つの方法に $3\sigma$ 法があります。データが正規分布に従うと仮定した場合、サンプル数は下記の図のような割合で分布すると仮定することができます。  

![３σ 法](http://drive.google.com/uc?export=view&id=12DzXwIOUJ7j3pfHw0PBERc9sMJY-SB-s)

$\mu \pm 3\sigma$ の範囲内には、データの全体の 99.7% が分布することが確認できます。$3\sigma$ 法では、この $\mu \pm 3\sigma$ を閾値として外れ値除去を行う手法になります。全体の 0.3% を外れ値として除去することによって、分布の平均から近いデータを抽出でき、学習に使用するデータの選定に使用することができます。一般的に外れ値の定義に正解はありませんが、このように $3\sigma$ 法を用いることにより、外れ値を取り除くための閾値を設けることができます。

### $3\sigma$ 法を用いた外れ値除去

$3\sigma$ 法について実例を用いて解説します。  
以下の図のように時間によって変動するようなデータを扱う場合で考えてみます。例として、横軸が時刻、縦軸が CPU の負荷率 (%) と想定します。（ CPU の負荷率とはコンピュータの演算装置に対する負荷の割合を示します。）  

![3σ 法を用いた外れ値除去 1](http://drive.google.com/uc?export=view&id=1oWnWhb0PaSc57FG0TKULG3mvRufC5VAU)  

このデータに対して、CPU の負荷率が異常な場合（外れ値）を検出したいという場合、その外れ値の頻度に着目すればいいと考えられます。  

![3σ 法を用いた外れ値除去 2](http://drive.google.com/uc?export=view&id=1s6aCecmTzpvWc4z0m-eZz1Fh0HP0yJIt)  

上図のように、負荷率の平均に対して線を引き、それぞれの値において頻度を計算してみると、正規分布が現れます。このような正規分布を仮定することのできるデータに対しては、$3\sigma$ 法を適用することが可能です。適用するためには、このデータの平均 $\mu$ と標準偏差 $\sigma$ を計算し、$\mu \pm 3\sigma$ の閾値より外の値を、外れ値として除去することができます。

## 正規化

**正規化 (Normalization)** は様々な分野で用いられる用語になりますが、本資料ではスケールの異なるデータを何らかの規則によって変形し、利用しやすくすることします。スケールが異なるということは、例えば家に関するデータに「駅からの距離 500m」、「部屋の広さ 50m2」、「犯罪発生率 3%」などの項目があったとします。これらのデータはそれぞれデータの規模（スケール）が異なると言えます。  
このような異なるスケールのデータは一般的に、スケールを統一してから機械学習のアルゴリズムに適用します。  

何故ならば、スケールが異なるデータを学習に用いると一般的に機械学習アルゴリズムは予測精度がうまく向上しない、もしくは学習の効率が悪くなるなどの問題が発生するためです。  

それでは、スケールを統一するための正規化の手法を確認します。  
 

### Min-Max スケーリング

正規化の代表的な ２ つの方法をお伝えします。１ つ目が、最小値 0 、最大値 1 に正規化する方法です。これを **Min-Max スケーリング (min-max normalization)** と呼びます。この方法はデータの最小値 $x_{\min}$ と最大値 $x_{\max}$ を事前に求めておき、すべてのデータに対して、以下の操作を行うことにより、正規化を行います。  

$$ \widetilde{x} = \dfrac{x - x_{\min}}{x_{\max} - x_{\min}} $$

上記の処理はこれは各データの項目ごとに行います。例えば、「部屋の広さ」、「駅からの距離」、「治安」のような項目が 3 つある場合では、3 つの項目それぞれに対し、最小値・最大値を求め、3 項目それぞれに対して、上記の計算を行います。  

Min-Max スケーリングには計算が単純というメリットの反面、下図のように、$x_1$ で外れ値が存在し、$x_{\max}$ が外れ値であるこの一点に大きく引っ張られてしまうというデメリットがあります。そのため、Min-Max スケーリングは外れ値に弱い方法であると言えます。  

![Min-Max スケーリングのデメリット](http://drive.google.com/uc?export=view&id=1yghlcXAcOVbhfp5QpauvuJEaK0k0lDm4)      


### 標準化

もう １ つの正規化の方法として、データの平均を 0, 標準偏差を 1 にする方法があります。分散含め、標準偏差 ではデータのばらつきを定量評価することができます。そのため下記のように標準偏差で割ることで、スケールを統一することができます。

$$ \widetilde{x}  = \dfrac{x - \bar{x}}{\sigma} $$

分散で計算した例題の ① に対して、適用してみると、  

$$ \begin{aligned} x_{1}&=\dfrac {-2-0}{\sqrt {2}}=-\dfrac {2}{\sqrt {2}}\\ x_{2}&=\dfrac {-1-0}{\sqrt {2}}=-\dfrac {1}{\sqrt {2}}\\ x_{3}&=\dfrac {0-0}{\sqrt {2}}=0\\ x_{4}&=\dfrac {1-0}{\sqrt {2}}=\dfrac {1}{\sqrt {2}}\\ x_{5}&=\dfrac {2-0}{\sqrt {2}}=\dfrac {2}{\sqrt {2}} \end{aligned} $$


のように、データが変換されます。この時の平均と標準偏差を求めてみると、  

$$ \begin{aligned} 
\overline {x}&=\dfrac {1}{5}
\left(
-\dfrac {2}{\sqrt {2}}
-\dfrac {1}{\sqrt {2}}
+{0}
+\dfrac {1}{\sqrt {2}}
+\dfrac {2}{\sqrt {2}}
\right)
=0
\\
\sigma ^{2}&=\dfrac {1}{5}
\left( 
\left( 
-\dfrac {2}{\sqrt {2}}-0
\right) ^{2}
+\left( 
-\dfrac {1}{\sqrt {2}}
-0
\right) ^{2}
+\left( 
{0}-{0} 
\right) ^{2}
+\left( 
\dfrac {1}{\sqrt {2}}
-0
\right) ^{2}
+\left( 
\dfrac {2}{\sqrt {2}}-0
\right) ^{2}
\right)
=1
\\ 
\sigma &=\sqrt {\sigma ^{2}}=1 
\end{aligned} $$



のように、平均 0、標準偏差 1 に正規化できていることがわかります。この方法であれば、統計量を使用するため、データ全体の傾向を考慮することができ、外れ値が含まれるような場合にも対応できると言えます。

## 相関係数

最後に**相関係数 (correlation coefficient)** を紹介します。  
相関係数の解説の前に相関関係とは何かを確認しましょう。  

相関関係とは 2 つのデータ間にある関係性をを表します。そして、相関係数はその関係性の度合を数値化したものになります。例えば変数 A の値が増えれば変数 B の値も増える、というような関係性は相関関係があると言えます。  

変数を具体的な例に置き換えてみると、気温が上がれば、ビールの売上数も増える、というような例を挙げることができます。この例と逆に 2 つの変数のうち一方が増加し、それに従い他方が減少する場合も相関関係があるといえます。  

それでは相関係数について確認しましょう。  
2 種類のデータ点がスカラー値で $N$ 個ずつある状況を考えます。それぞれを $x_n, y_n  \ (n=1,\dots,N)$ とした場合、相関係数の中でもよく用いられる[ピアソンの相関係数](https://ja.wikipedia.org/wiki/%E7%9B%B8%E9%96%A2%E4%BF%82%E6%95%B0)は以下のように定義されます。

$$
r = \frac{\sum_{n=1}^{N} (x_{n}-\bar{x})(y_{n}-\bar{y}) }{\sqrt{\left( \displaystyle \sum_{n=1}^N(x_{n}-\bar{x})^2 \right) \left( \displaystyle \sum_{n=1}^N(y_{n}-\bar{y})^2 \right) }}
$$

上式のように相関係数を表す記号は $r$ を用いるのが一般的です。
相関係数 $r$ は常に $-1 \leq r \leq 1$ になり、相関が認められるとき、 $r$ の値が正の場合は**正の相関**があるといい、逆に負の値のときは**負の相関**があるといいます。   

2種類のデータ間の相関が強いほど $r$ の絶対値は大きくなります。
しかし、「$r$ がいくつ以上ならば相関があると思って問題ない」という閾値は問題設定ごとに異なり、例えば $r=0.2$ から相関ありと判断してよいかは一概には言えません。本資料では説明を省略しますが、無相関検定などの手法を利用することで客観的な判断を行うことができます。

## 練習問題 本章のまとめ
本章で学んだ内容を復習しましょう。問題の答えをそれぞれのセルに記載してください。  
（プログラミングを行うのではなく、問題をノート上などで解き、回答を空白のセルに記入してください。）

計算には次の数値を使用してください。  

$x_1 = 100$ 、$x_2 = 200$ 、$x_3 = 300$ 、$x_4 = 400$ 、$x_5 = 500$  

問 1. $x_1$ ~ $x_5$ を用いて、平均を計算してください。

In [4]:
# 問 1. の計算結果

def ave(x):
    ans=0.0
    for x in x[0:5]:
        ans+=x
    return ans/5

x=[100,200,300,400,500]
n=ave(x)
print(n) #Ans. 300

300.0


問 2. $x_1$ ~ $x_5$ を用いて、標準偏差を計算してください。

In [2]:
# 問 2. の計算結果
import math

def ave(x):
    ans=0.0
    for x in x[0:5]:
        ans+=x
    return ans/5

def Std_dev(x,n):
    ans=0.0
    for x in x[0:5]:
        ans+=(x-n)*(x-n)
    return ans/5

x=[100,200,300,400,500]
n=ave(x)
A=Std_dev(x,n)
print(math.sqrt(A)) #Ans. 141.421



141.4213562373095


問 3. $x_1$ ~ $x_5$ を用いて、全ての値に Min-Max スケーリングを適用してください。

In [1]:
# 問 3. の計算結果
xmin=100
xmax=500

x=[100,200,300,400,500]

# x1
print("x1",(x[0]-xmin)/(xmax-xmin)) #0.0

# x2
print("x2",(x[1]-xmin)/(xmax-xmin)) #0.25

# x3
print("x3",(x[2]-xmin)/(xmax-xmin)) #0.5

# x4
print("x4",(x[3]-xmin)/(xmax-xmin)) #0.75

# x5
print("x5",(x[4]-xmin)/(xmax-xmin)) #1.0


x1 0.0
x2 0.25
x3 0.5
x4 0.75
x5 1.0


<img src="http://drive.google.com/uc?export=view&id=1g2xjXbw5qYeqdJqcOf3uASvzBQxhlE8u" width=30%>