# <b>機械学習の基礎</b>
経験からの学習により自動で改善するコンピューターアルゴリズムもしくはその研究領域で、人工知能の一分野であり、データサイエンスの中核技術。  
「訓練データ」もしくは「学習データ」と呼ばれるデータを使って学習し、学習結果を使って何らかのタスクをこなす。  

機械学習のタスクは下記の3つに大別される。  
* 回帰(regression): 連続値を予測する
    応用例：　株価予想、ダイヤの価格予想　→過去データからどれくらいの価格で取引されるか予測する
    <br></br>
* 分類/識別(classification): カテゴリーやクラス，ラベルと呼ばれる”種類”を判別する.  
    応用例：　医用画像診断、迷惑メールフィルタ、顔認証、音声認識
    <br></br>
* クラスタリング(clustering): データをカテゴリーやクラス，ラベルと呼ばれる”種類”に分別(グループ化)していく．  
    応用例：　DNA組成にもとづく生物の分類
    <br></br>
参考：
* https://ja.wikipedia.org/wiki/%E6%A9%9F%E6%A2%B0%E5%AD%A6%E7%BF%92
* 米国データサイエンティストのブログ　https://datawokagaku.com/

## <b>○ 線形回帰</b>

既存データから欲しい値（目的変数）を予測するのが機械学習における回帰である。  
例えば、 ある駅から半径5km以内でランダムに物件情報（家賃、広さ）を10件取得したとする。  
（10件のデータはランダムサンプルであり、背後には無数のデータ(母集団)があることに注意）  
このとき、既存データからサンプルにないデータ（例えば広さ70$m^2$）における家賃を予測するのに回帰を使う。  
![image.png](attachment:04e12a9e-a9eb-4f12-add4-d07b3de802d9.png)  
参考：https://datawokagaku.com/what_is_machine_learning/   

一般に、予測したい値とそれを決定づける変数の間の関係は下記のように書ける。
$$Y = f(X) + \epsilon$$  
$Y$：　真の目的変数(ex.家賃)の値  
$X$：　特徴量(ex.広さ)。もちろん、上記の例では広さ以外にも築年数など複数の特徴量が考えられる。  
$f$：　真の関数。一般に形はわからない。  
$\epsilon$：　誤差項。特徴量では説明できない$Y$の変化を表す。正規分布をとる（後述）。  
※統計学では特徴量のことを説明変数と言ったりする。  

一般に真の関数$f$の形はわからないので、機械学習では$f$を推測して、$Y$の予測値$\hat{Y}$を求める。（超重要）    
この推測した関数$\hat{f}$のことをモデルという。
$$\hat{Y} = \hat{f}(X)$$  
$\hat{Y}$：　予測値  
$\hat{f}$：　真の関数の推測値  
※誤差項は機械学習から予測することはできない。



線形回帰では$\hat{f}$が'線形'であると仮定する。（線形回帰モデルという）  
$$\hat{f}(X)=\theta_0+\theta_1X_1+\theta_2X_2+ ... \theta_nX_n$$
$\theta_j$：$j$番目のパラメータ  
$X_j$：$j$番目の特徴量の値  

上記の最適なパラメータをサンプルから推定することを「学習する」という。  
よく言う「機械学習のモデルを学習させる、トレーニングする」というのは最適なパラメータをコンピュータに算出させることである。  

※上記はn次元空間の直線のようだ。n=1のときは2次元（平面）での直線、n=2のときは3次元空間の直線を表している。  
x,y,zの軸があるとき、y=ax+bz+cみたいな。  

### - 最小二乗法(least squares)
線形回帰においては最小二乗法を用いて、モデルの最適なパラメータを求める。  
最小二乗法は残差（サンプルデータとモデルの予測値との差）の二乗和が最小になるようなパラメタを算出する（直線を引く）方法である。  
残差が最小になるような直線であれば真の値と予測値の乖離が最小限になるだろうという考え方。  

上記の家賃の例では、  
サンプルデータ$Y$の個々の値を$y_i$、この値に対応する線形回帰モデルからの予測値を$\hat{y}_i$とすると、  
このときの残差$e_i$の２乗和は、  
$$\sum_{i=1}^{m}{e_i}^2$$
$$=\sum_{i=1}^{m}{(y_i-\hat{y}_i)}^2$$  
と書ける。$m$はサンプルデータ数とする。（以降も同様）  
また、$\hat{y}_i$は線形回帰モデルに従うと仮定しているので、特徴量が家賃$X_1$のみ($n=1$)と考える場合は、$\hat{y}_i=\theta_0+\theta_1x_i$とかける。よって、  
$$\sum_{i=1}^{m}{e_i}^2 = \sum_{i=1}^{m}{(y_i-(\theta_0+\theta_1x_i))}^2$$  

上式の値を最小にするようなパラメタは最急降下法で解く。

※この例では特徴量が家賃１つのみとしているので、$X_1$の個々の値は$x_{i1}$ではなく$x_i$のように省略して書いている。  
　特徴量が複数ある場合は、$X_1$の個々の値は$x_{i1}$、$X_2$の個々の値は$x_{i2}$のように明確に区別して表記することに注意。  
 
※残差と誤差の混同に注意。どっちもエラーとは呼ぶ。


### - 最急降下法(gradient descent)
関数の最小値を探索するアルゴリズム。  
最急降下法は最適化問題（関数が最小になる変数の値を探索すること）を解く勾配法のアルゴリズムの一つである。  
関数値が小さくなる方へ関数のパラメタを少しずつ動かし、最適なパラメタを探っていく（=学習）。

最小値を探索する対象の関数を損失関数(Loss function)といい、$L$で表わす。※残差は真の値から損失していると考える  
線形回帰の場合の損失関数は下記。  
$$L(\theta_0,\theta_1)=\frac{1}{m}\sum_{i=1}^{m}{e_i}^2 = \frac{1}{m}\sum_{i=1}^{m}{(y_i-(\theta_0+\theta_1x_i))}^2$$

※前の章の残差の式をそのまま損失関数としてもよいが、計算を楽にするためにサンプル数mで両辺を割った残差の二乗の平均を使うことが多い。  
　この残差の二乗の平均をMSE(mean squared error)という。よく回帰アルゴリズムの評価指標として使われる。  

最急降下法では下記の流れで最適なパラメタを探る。具体的な実装は「ML_notebook.ipynb」の方に記す。
1. 損失関数のパラメタをそれぞれ偏微分し、ある点$\theta_0^{(0)},\theta_1^{(0)}$における勾配（2次元で見ると接線の傾き）を求める。  
    この勾配を勾配ベクトルという。  
$$\frac{\partial}{\partial \theta_0} L(\theta_0^{(0)})$$
$$\frac{\partial}{\partial \theta_1} L(\theta_1^{(0)})$$  

2. 勾配方向とは逆の向き（$L$が小さくなる方向）に$\theta_0^{(0)}→\theta_0^{(1)}$、$\theta_1^{(0)}→\theta_1^{(1)}$のように動かす。  
    このとき、移動先の点は下記の式で決める。
    $$\theta_0:=\theta_0-\alpha \frac{\partial}{\partial \theta_0}L(\theta_0,\theta_1)$$  
    $$\theta_1:=\theta_1-\alpha \frac{\partial}{\partial \theta_1}L(\theta_0,\theta_1)$$  
    ※$:=$は代入演算子。プログラミングのイコールと同じ。  
    すなわち、偏微分係数（勾配）が正のときは$\theta$が小さくなる方向へ、 負の時は$\theta$が大きくなる方向へ$\theta$を移動させるということ。  
    $\theta_0,\theta_1$はそれぞれ同時に更新していく（更新後の$\theta_0$を$\theta_1$の式の右辺には使わない）ことに注意。つまり右辺は更新前の点とする。  
    $\alpha$は学習率といい、学習の際の重要なパラメータ(ハイパーパラメータ)である。  
    学習率が高ければ高いほど、より大きく$\theta$が動くのでより早く最適解にたどり着くことが期待できる。（詳細は後述） 
    
3. 1.～2.を繰り返し、ほぼ移動しなくなったときの$\theta$を最適なパラメタとする。


詳細な説明：https://datawokagaku.com/gradient_descent/

### - 最急降下法の注意点
* 最適解(global optima)ではなく局所解(local optima)にたどり着くことがある。  
→初期値の取り方によっては最小値ではなく極小値に引っかかってしまうということ。  
→対処法としては、初期値を複数とって最小となる値のパラメタを最適解とする。  

* 学習率($\alpha$)が大きすぎると、発散して学習が進まない。  
→学習率が大きい、すなわちパラメタの変化量が大きいと、最適解を通り越して更新してしまう。  
→これが繰り返されると、損失関数の値は発散していく。  
→対処法としては、収束に向かうように学習率を小さく調節する。  



### - 正規方程式(normal equation)
最急降下法を使わずに解析的に最適なパラメータθを求める方程式。  
一発で確実に解を求めることが可能。※線形回帰モデルでのみ適用可能

n項目ある特徴量がそれぞれm個のデータを持つとき、特徴量を下記のようにm x (n+1)の行列で表す。  
ここで、０番目（一番左の列）の特徴量は全て1とする（バイアス項）。  
$X = \left(
\begin{matrix} 
x_{10} & x_{11} & ... & x_{1n}\\ 
x_{20} & x_{21} & ... & x_{2n}\\
. & . & ... & .\\
x_{m-10} & x_{m-11} & ... & x_{m-1n} \\
x_{m0} & x_{m1} & ... & x_{mn}
\end{matrix} 
\right)$  

そして線形回帰モデルのそれぞれの項目に対応するパラメタを下記のようにn+1行の列ベクトルで表わす。  
$\theta = \left(
\begin{matrix} 
\theta_{0} \\ 
\theta_{1} \\
. \\
. \\
. \\
\theta_{n-1}  \\
x_{n} \\
\end{matrix} 
\right)$  

目的変数の予測値$\hat{y}$も同様にm行の列ベクトルで表わせる。  
$\hat{y} = \left(　
\begin{matrix} 
\hat{y}_{1} \\ 
\hat{y}_{2} \\
. \\
. \\
. \\
\hat{y}_{m-1}  \\
\hat{y}_{m} \\
\end{matrix} 
\right)$  

すると、線形回帰モデルは下記で表わせる。  
$\hat{y}=X\theta$

これを損失関数の式に代入して整理すると、  
損失関数$L(\theta)$を最小にする（※）パラメタの方程式は下記となる。（導出は講義スライド参照）  
これが正規方程式である。($y$は$\hat{y}$と同形の列ベクトル)  
$$\theta = (X^TX)^{-1}X^Ty$$  
※正確には極値をとるとき

### - 正規方程式の注意点
1. 特徴量の項目数nが多すぎると$(X^TX)^{-1}$の計算に時間がかかる  
→$(X^TX)$は$(n+1)×(n+1)$の正方行列であり、nが大きいと巨大な行列になってしまい、逆行列を計算するのに時間がかかる。  
→対処法としては最急降下法を使って解くこと。最急降下法はnが大きくても正規方程式ほど影響なく解くことができる。  

2. 特徴量同士に強い相関があると$(X^TX)$は$(X^TX)^{-1}$を求めることができない。  
→例えば、特徴量1、特徴量2の2項目の特徴量があり、特徴量2は特徴量1の整数倍の関係になっているような場合を強い相関があるという。  
→このような特徴量同士の強い相関を多重共線性 (multicollinearity, マルチコリニアリティ)という。  
→多重共線性があると逆行列を求める際のdetがゼロになり、無限大になってしまうため、逆行列を求められない。  
→対処法としてはどちらかの特徴量を落とす、または特徴量1，2を組み合わせて新たな特徴量を作ること。  

3. 特徴量の項目数(n+1)（つまりバイアス項含む）がデータ数(m)を上回る場合，回帰のパラメータを特定できない  
→パラメタ$\theta$の数もn+1となるので、解析的に連立方程式を解くことができなくなるため。これは正規方程式によらずすべてのアルゴリズムに言える。    
→対処法としては特徴量を減らす、またはデータを増やすこと。  

※特徴量の項目数がデータ数を上回ることは現実的にあり得る。（DNAデータなど）

## ○ 特徴量スケーリング(feature scaling)
前処理（機械学習のモデルを学習させる前に入力データに処理を施すこと）の一つ。  
尺度が異なる特徴量(広さと築年数など)を揃える。大きく分けて「標準化」と「正規化」がある。

最急降下法のような勾配法を使用したアルゴリズムや距離を使うアルゴリズムでは特徴量スケーリングが必要。  
例えば、最急降下法のパラメータ更新の下式では特徴量のスケールがそれぞれ異なれば、その係数$\theta$（パラメータ）の  
スケールもそれぞれ異なる。したがって、$\theta$が更新される（点を移動する）スピードもそれぞれ異なってしまい、  
最適解へたどり着くスピードがパラメタによって異なってしまう。  
$$\theta:=\theta-\alpha \frac{\partial}{\partial \theta}L(\theta)$$   
その他、データ間の距離を使うようなアルゴリズムでも同様。  

正規方程式のような解析的に解を求めるアルゴリズムや決定木を使うアルゴリズムでは不要。

### - 標準化(standardize)
それぞれの特徴量空間のスケールを合わせる。（復習：統計学の基礎）  
平均0, 標準偏差1に揃える。平均を引いて標準偏差で割る。標準化することで学習を安定させることが可能。  
例えば、広さ($m^2$)、築年数（年）が特徴量の場合はスケールが全く違うので、それぞれ標準化する。  


### - 正規化(normalization)
値の範囲を0〜１にrescaleする処理。$\frac {x-x_{min}}{x_{max} - x_{min}}$をそれぞれの値に適用する。  
標準化と混同しやすいので注意。標準化は値の範囲は0-1にはならない。  
外れ値があると、とりうる値が偏ってしまう。例えば最大値が他の値より異常に大きい場合、他の値は0-1の中で小さい値ばかり取ることになる。  
最小の値$x_{min}$は0に， 最大の値$x_{max}$は1になる。


### - 特徴量スケーリングの注意点
リスケールするのはあくまでも特徴量の項目毎であることに注意。  
広さの平均・標準偏差・最大最小値、築年数の平均・標準偏差・最大最小値をそれぞれ求めて、標準化・正規化の式に入れる。  
特徴量の行列Xの列ごとに標準化していくイメージ。  
$X = \left(
\begin{matrix} 
x_{10} & x_{11} & ... & x_{1n}\\ 
x_{20} & x_{21} & ... & x_{2n}\\
. & . & ... & .\\
x_{m-10} & x_{m-11} & ... & x_{m-1n} \\
x_{m0} & x_{m1} & ... & x_{mn}
\end{matrix} 
\right)$  

また、目的変数のリスケールは不要である。
実務で機械学習のモデルを構築するときは、サンプルデータの全てをパラメタ学習用のデータとして使うことはなく、  
通常は学習データとテストデータ（学習したモデルの精度をテストする用のデータ）に分ける。  
このとき、学習データのリスケールに使った平均・標準偏差・最大最小値をテストデータのリスケールにも使用することに注意。  
つまり、学習データを下付き文字$train$、テストデータ$test$として標準化の式をそれぞれ表すと、  
学習データの標準化の式：  
$$\frac {x_{train}-\bar{x}_{train}}{s_{train}}$$  
テストデータの標準化の式：  
$$\frac {x_{test}-\bar{x}_{train}}{s_{train}}$$  

### - 標準化と正規化どちらを使うべきか？
* 明確な基準やルールは無い．扱うデータや問題によってまちまち
* 生データ，標準化したデータ，正規化したデータで学習したそれぞれのモデルの精度を比較して決めるのが良い
* 標準化はデータが正規分布に従っている場合は特に効果的
* 外れ値の影響を受けたくない場合は標準化を使う。
* 概ね標準化の方が使われやすく好まれる


## ○ 線形回帰の結果解釈
現実的に目的変数の背後にある真の関数の形が完全に線形であることは稀である。  
なので、線形回帰モデルは精度の面では非線形のモデルに劣ることが多い。  
一方、線形回帰モデルを単純な形ゆえに解釈性（式の意味のわかりやすさ）が高いため、精度が低くても解釈性を重視する場合は使われることがある。  


### - 線形回帰の係数
係数（パラメタ）は、特徴量の値が1単位増えた時の目的変数が平均的に増える量といえる。  
特徴量が標準化されている場合、係数の大きさはその特徴量の影響力の大きさを表す。（標準化されていない場合、係数ごとの大小比較はできない）  

例）家賃と広さの線形回帰モデル学習結果  
$rent = 7 + 0.27×space$  
→spaceが1$m^2$増えると、rentは "平均的に" 0.27万円上がる。  

※特徴量を標準化した場合は、標準化後の特徴量の値が1増えたときに目的変数がどう変わるかを表す意味になることに注意。  
※また、標準化した場合、単位はなくなる。

データ採取、分析のコスト等の観点から、特徴量の影響力の大きさを解釈するにあたって係数が0か否かを統計的に判断することは重要である。  
何故なら、統計的に0ではないことをいう(=統計的有意差がある)ことで、その特徴量は目的変数に影響を与えるものであることが言えるからである。  
また、0であれば、予測に関係ない特徴量のデータを無駄に取る必要がなくなり、不要な特徴量を減らすことでモデルを軽量化/簡略化できる。  
この係数が0か否かの判断には統計的仮説検定を用いる。  

### - 線形回帰の係数の統計的仮説検定
例えば、下記のような線形回帰モデルのとき、  
$$\hat{Y} = \theta_0 + \theta_1X_1 ... + \theta_jX_j + ... \theta_nX_n$$  
j番目の係数$\theta_j$が0か否かを検定する場合、帰無仮説、対立仮説は下記のように設定する。  
* 帰無仮説：「$\theta_j$は0である(=0と差がない)。」（復習：棄却することを狙っている。統計的に0でないと言えれば棄却する）  
* 対立仮説：「$\theta_j$は0でない(=0と差がある)。」（復習：成立することを狙っている。帰無仮説が棄却できれば成立する。）  

$\theta_j$の予測値$\hat{\theta_j}$を$\theta_j$の母集団（帰無仮説より、平均は0）から無限回抽出したと考えると、$\hat{\theta_j}$の標本分布の平均も0となる。  
したがって、このときの検定統計量tは下記のようになる。  
$$t = \frac{\hat{\theta_j} - 0}{SE(\hat{\theta_j})}$$

ここで、$SE(\hat{\theta_j})$は$\hat{\theta_j}$の標準誤差（Standard Error）といい、  
ここでは推定量（予測値$\hat{\theta_j}$）の標準偏差を表す。このような書き方も覚えておく。  
※単に「標準誤差」というと，「標本平均の標準偏差」を指すことが多い

データ数$m$、特徴量数$n$のとき、検定統計量tは自由度$m-n-1$のt分布に従う。  
したがって、このt分布における棄却域にtが入るかいなかを確認すればよい。  

※数式の詳細は下記を参考。  
https://datawokagaku.com/lin_reg_coef/