# 第一章 機械学習と深層学習の導入


近年、機械学習や深層学習は毎日のようにネットやテレビ等でも取り上げられており、お茶の間レベルで聞かない日はないほどの盛り上がりを見せています。AIという名称でバズワード化されており、現在最も注目度が高いIT技術のひとつでしょう。本章では、機械学習を実践で使う際に必要となる基本的な知識を紹介します。すでに機械学習に関して十分知識をお持ちの方は、本章は読み飛ばしていただいて大丈夫です。それでは早速始めましょう。

## 1.1 従来のプログラミングと機械学習との違い

機械学習をはじめて触れた方は従来のプログラミングとの違いに戸惑う方がいらっしゃいます。そのためここでは、従来のプログラミングと機械学習の違いを説明します。本章の内容は、Courseraという有名なオンラインの学習サイトで公開されている、deeplearning.aiによる"Introduction to TensorFlow for Artificial Intelligence, Machine Learning, and Deep Learning"という講座を参考に構成されています。

従来のシステムでは以下の図のようにまず何かの課題に対してひたすらルールを自分でプログラミングします。そして、そのプログラムに対してデータを入れると答えが出てくるという、プログラム視点で見るとある意味受動的な構成になっています。

![traditional](figures/chap01_traditional_programming.png)
<center>従来のプログラミングの処理の流れ <font color="red">TODO: replace</font></center>

たとえば人の活動の検知をしたい場合を考えます。

歩いているという状態をプログラミングする場合にどうすればよいでしょうか。以下の例は非常に概念的ではありますが、例えば`if`文を用いて、動くスピードが 4 km/h 以下であったら歩いているという風に定義をする方法があります。この方法で走っている状態を定義する場合には、`else`文を加えて 4 km/h 以上だったら走っているというように定義できます。このようなやり方でどんどん機能拡張をしていくことを考えると、自転車に乗っている場合には、さらに`else`文を加えてスピードが 12 km/h 以上だったら自転車に乗っている状態と定義できます。このようにだんだんとやりたいことを増やしていくと、たとえばゴルフをしている状態なども実装したくなるかもしれませんが、どう言う風にそれを実装していいのか複雑すぎてお手上げになってしまいます。このような、人が簡単なロジックで記述することが難しい複雑なタスクに対しては機械学習が用いられるようになってきています。

![activity](figures/chap01_activity_recognition.png)
<center>人の動作に関する従来のプログラミング例 <font color="red">TODO: replace</font></center>

先ほどの従来のプログラミングの処理の流れを表した図のように機械学習の処理の流れを図にすると以下のようになります。

![machine](figures/chap01_machine_learning.png)
<center>機械学習の処理の流れ <font color="red">TODO: replace</font></center>

従来のプログラミングでは、ルールを決めてデータを入れてあげると答えが出てくるのでしたが、機械学習ではデータと答えのペアを与えてあげると、アルゴリズムがルールを作ってくれます。ここでのアルゴリズムは統計に基づいて確率的に機械学習モデルのパラメーターを調整します。ある程度説明力を持った手法も存在しますが、機械学習がよくブラックボックスだといわれるゆえんはたぶんこのようなところにあります。
たとえば下図のように、歩いている場面を撮った画像に、ラベルとして”歩いています”という属性をタグ付けします。同様に、走っている場面の画像には”走っています”、自転車に乗っている場面の画像には”自転車に乗っています”、ゴルフをしている場面の画像には“ゴルフをしています”というように画像データと答えにあたるラベルのペアをたくさん用意してモデルに与えてあげると、アルゴリズムがどういう風に推論をすればよいかを教えてくれます。
 
![activity_ml](figures/chap01_activity_recognition_ml.png)
<center>機械学習による人の動作のプログラミングイメージ <font color="red">TODO: replace</font></center>



## 1.2 機械学習のさまざまなアプローチ

機械学習では使用されるデータセットによる違いや答えの求め方の違いで大きく４つの学習方法に分類されます。用いる学習方法の違いによりアルゴリズムやモデルが異なるため、ここではそれぞれの学習方法の違いを理解しましょう。

![ml_types](figures/chap01_ml_types.png)

機械学習の学習方法の違いを大別すると上の図のように、教師あり、教師なし、半教師あり、強化学習の４種類があります。

それぞれの学習は大まかに以下のようになっています。

- 教師あり学習：入力と出力の関係を学習するアルゴリズム
- 教師なし学習：データの構造を学習するアルゴリズム
- 半教師あり学習：教師あり学習と教師なし学習を組み合わせたもの
- 強化学習：報酬を最大にするような行動を学習するアルゴリズム

最初に以下のピザとドーナッツの画像の例を用いて、教師あり学習、教師なし学習、半教師あり学習ではどのようなことをやっているかについて説明します。

![pizza_donut](figures/chap01_pizza_donut.png)
<center>機械学習で用いる画像の例</center>

### 教師あり学習とは

まず教師あり学習と教師なし学習では用いられるデータの形式に違いがあります。
教師あり学習では、以下の図のようにピザとドーナッツのそれぞれの画像に答えとなるピザやドーナッツのラベルがペアで用いられます。アルゴリズムに対して正解のラベルを与えることは、先生が生徒に対して正解を教えながら学習を進めていくことに似ているため、教師あり学習と呼ばれています。
それに対して、教師なし学習で用いられるデータには、前のピザとドーナッツの画像のように、それぞれの画像に対して正解にあたるピザかドーナッツかのラベルがついていません。あるのは単なる画像データだけです。

![pizza_donut_labeled](figures/chap01_pizza_donut_labeled.png)
<center>教師あり学習に使う画像の例</center>

教師あり学習が具体的にやっていることは、以下の図のように、ピザとドーナッツの間の決定境界と呼ばれる、できるだけ正しくピザかドーナッツかを見分けられる線を見つけることです。たくさんの画像から最適な境界線を引くルールを学んでいきます。

![pizza_donut_labeled_boundary](figures/chap01_pizza_donut_labeled_boundary.png)
<center>教師あり学習の分類のイメージ</center>

### 教師なし学習とは

教師なし学習には、正解のラベルがついていないため、教師あり学習のように正解から学習することができません。しかし、本来ピザとドーナッツのことを全く知らない人間でも、少なくともなんとなくその形状から「これらは違うものだ」ということは想像できるでしょう。教師なし学習では、こういったことを学んでいきます。この例では、ピザとドーナッツの複数枚の画像からピザの特徴とドーナッツの特徴の違いをとらえていくことで正しく区別できるようにしていきます。図の例のような場合だと、▽のような先がとがっているものがピザで、丸い形で中にももう一つ丸い形が含まれているものがドーナッツというようなルールを、機械学習が画像の特徴として学んでいきます。K平均法などの教師なし学習アルゴリズムではいくつのパターンに分けてあげるかについて、最初に指定する必要があります。つまり今回の例では、画像を２種類に分類するように最初に指定します。今回のケースで4つに分類するように誤った指定をしてしますと正しく分類できないため、教師なし学習では、アルゴリズムを指定する前に、いくつに分けるのかを正しく指定するために、あらかじめ入力すべき画像の特徴を理解しておく必要があります。

![pizza_donut_kmeans](figures/chap01_pizza_donut_kmeans.png) 
教師無し学習の分類のイメージ

### 半教師あり学習とは

半教師あり学習とは、教師あり学習と教師なし学習を組み合わせたものです。

機械学習で学習用のデータを準備する場合、学習させるデータを多量に準備するだけでも手間がかかります。教師あり学習では、それぞれのデータにさらに正解のラベルまで準備する必要があり、教師あり学習のデータを準備するのには非常に労力がかかります。たとえば1万枚のピザとドーナッツの画像があったとします。1万枚の画像に対してピザかドーナッツかの正解のラベルを付けるのは大変手間がかかりますよね。そこで、データの一部であるたとえば1000枚の画像に対して教師ありデータを準備し、それ以外の9000枚のデータは教師なしデータとすることで、正解のラベルを付けるという作業は大幅に減らすことができます。半教師あり学習では、最初にぞれぞれのデータごとに個々の学習を行い、最後にこの２つを組み合わせることで、すべてのデータに対して正しく正解のラベルまで答えられるようにします。これを応用し、半教師あり学習は教師なしデータに対して正解のラベルを付けた教師ありデータにするようなタスクにも利用されています。

![pizza_donut_semisupervised](figures/chap01_pizza_donut_semisupervised.png)
半教師あり学習の分類のイメージ

### 強化学習とは

強化学習は、今まで説明したそれぞれの学習方法と違い、予測した結果に対してそれが正しかったか誤っていたかを教えていくことで、できるだけ正しく予測するようにトライアンドエラーを繰り返していくという学習方法になります。実際には報酬と呼ばれる、うまくいけばポイントがあがり、失敗した場合には罰としてポイントが下がるような仕組みで学習を行っていきます。以前話題になった囲碁の例で説明すると、最終的に勝利した対局における手に関しては例えば＋１ポイントを与え、負けた場合は－１ポイントを与えるといった報酬を設計しておきます。すると、何万回と対局を重ねるうちにどういう局面でどういう手を打てば勝利につながるか学習していくことが可能です。



## 1.3 機械学習アルゴリズムのイメージ

本節では、機械学習アルゴリズムがどのように学習を進めていくのかについて説明したあと、ディープラーニングの基本モデルを使って実際のプログラミングの流れと学習結果について見ていきます。

まず機械学習が具体的にどのようなことをやっているかについて知るために、機械学習のHello Worldにあたる以下の例について説明します。
 
### 機械学習のHello World

![hello_world](figures/chap01_ml_hello_world.png)
<center>機械学習のHello World</center>

上図のxがデータでyが答えとなるデータセットがあり、このxとyの間にどのような関係が成り立つか考えてみます。いかがでしょうか。答えはy = 2x + 1です。人がxとyの関係性を見つけていく場合には例えば、xが1ずつ増えていくとyは2ずつ増えているからy = 2x の関係があると読み取り、つぎにxが0のときyが1なので、+ 1だというような推論をしていきます。このような思考によりxからyへのマッピング、つまり関数を得ることができます。

同様の問題を機械学習で解くというのはやや大袈裟ではありますが、試しに流れを見てみましょう。まず下図の青い点のデータに対して、モデルの初期値として適当に緑色の線のような直線を準備します。ここで直線にしている理由は、図を見てわかる通り青の線は基本的に直線のモデルで正しく予測できるだろうという仮定があり、y_ = ax + b の形をした一次関数でａとbがパラメータで表現できるという前提が含まれるからです。
 
![linear_init](figures/chap01_linear_init.png)
<center>機械学習の初期状態</center>

次に、モデルへのデータ入力で得られた答えと実際に推定したい青のデータ点の間の誤差を計算します。誤差の計算方法にはさまざまなものがありますが、数学的な裏付けがある二乗誤差（MSE: Mean Squared Error）がよく用いられます。下図の赤のそれぞれの矢印線で示される2点の間の長さの２乗の和の平均値を誤差として扱います。実際の青のデータ点に近づけるために、その誤差を小さくするように少しだけパラメータを更新していきます。

![linear_mse](figures/chap01_linear_mse.png)
<center>機械学習でパラメータ更新のためのアプローチ</center>

パラメータを更新したら例えば下図のようになります。
 
![linear_updated](figures/chap01_linear_updated.png)
<center>機械学習のパラメータ更新</center>

それ以降、再度誤差を計算してパラメータを更新するというプロセスを延々と繰り返すことで、y = 2x + 1にどんどん近づいていくということをやっています。このような背景から、”ディープラーニングは最小二乗法のお化けのようなもの”などとの表現されるのだと思います。
今までの説明を、Googleが開発しているTensorFlowのKeras APIというフレームワークを用いてプログラムにしたものが以下に示します。

なお、実行可能なサンプルプログラムは本書のサンプルプログラムの参照ページからダウンロードできます。本サンプルプログラムをJupyter Notebookなどにインポートして実行してみてください。

最初のコードで以下のように使用するモジュールのインポートを実行します。

In [9]:
import numpy as np
from tensorflow import keras

つぎに先ほどの例のax + b にあたる機械学習のモデルを準備します。

In [10]:
model = keras.Sequential([keras.layers.Dense(units=1, input_shape=[1])])

上図の例は全結合ニューラルネットワークと呼ばれる形式で、ユニットが１つで入力の型が１のネットワークを定義します。全結合ニューラルネットワークの構成要素はKerasでは`Dense`レイヤーと名付けられています。初期値としては`a`のパラメータには`0.3208431`、`b`には`0`などという適当な値が入ります。
実際には実行するたびにランダムな値が入るため、読者の方がサンプルコードを実行される際には、異なるパラメータの値となりますので、ご注意ください。

つぎにこのモデルをどういう風に最適化していくかを決め、誤差関数を何にするか定義します。最適化手法はここでは基本的な確率的勾配降下法（SGD: Stochastic Gradient Decent）を用いることにします。誤差関数は前述の通り平均二乗誤差 (Mean Squared Error) を用います。

In [14]:
model.compile(optimizer='sgd', loss='mean_squared_error')

そこで出来上がったモデルに対してデータを入力します。データの形式は図のように配列になっています。

In [11]:
xs = np.array([-1.0, 0.0, 1.0, 2.0, 3.0, 4.0], dtype=float)
ys = np.array([-3.0, -1.0, 1.0, 3.0, 5.0, 7.0], dtype=float)

つぎにfitという関数を呼ぶことで、学習が行われます。誤差（損失、lossとも）が小さくなるように同様の処理が繰り返されていきます。

In [12]:
model.fit(xs, ys, epochs=500)

Train on 6 samples
Epoch 1/500
Epoch 2/500
Epoch 3/500
Epoch 4/500
Epoch 5/500
Epoch 6/500
Epoch 7/500
Epoch 8/500
Epoch 9/500
Epoch 10/500
Epoch 11/500
Epoch 12/500
Epoch 13/500
Epoch 14/500
Epoch 15/500
Epoch 16/500
Epoch 17/500
Epoch 18/500
Epoch 19/500
Epoch 20/500
Epoch 21/500
Epoch 22/500
Epoch 23/500
Epoch 24/500
Epoch 25/500
Epoch 26/500
Epoch 27/500
Epoch 28/500
Epoch 29/500
Epoch 30/500
Epoch 31/500
Epoch 32/500
Epoch 33/500
Epoch 34/500
Epoch 35/500
Epoch 36/500
Epoch 37/500
Epoch 38/500
Epoch 39/500
Epoch 40/500
Epoch 41/500
Epoch 42/500
Epoch 43/500
Epoch 44/500
Epoch 45/500
Epoch 46/500
Epoch 47/500
Epoch 48/500
Epoch 49/500
Epoch 50/500
Epoch 51/500
Epoch 52/500
Epoch 53/500
Epoch 54/500
Epoch 55/500
Epoch 56/500
Epoch 57/500
Epoch 58/500
Epoch 59/500
Epoch 60/500
Epoch 61/500
Epoch 62/500
Epoch 63/500
Epoch 64/500
Epoch 65/500
Epoch 66/500
Epoch 67/500
Epoch 68/500
Epoch 69/500
Epoch 70/500
Epoch 71/500
Epoch 72/500
Epoch 73/500
Epoch 74/500
Epoch 75/500
Epoch 76/500
Ep

Epoch 100/500
Epoch 101/500
Epoch 102/500
Epoch 103/500
Epoch 104/500
Epoch 105/500
Epoch 106/500
Epoch 107/500
Epoch 108/500
Epoch 109/500
Epoch 110/500
Epoch 111/500
Epoch 112/500
Epoch 113/500
Epoch 114/500
Epoch 115/500
Epoch 116/500
Epoch 117/500
Epoch 118/500
Epoch 119/500
Epoch 120/500
Epoch 121/500
Epoch 122/500
Epoch 123/500
Epoch 124/500
Epoch 125/500
Epoch 126/500
Epoch 127/500
Epoch 128/500
Epoch 129/500
Epoch 130/500
Epoch 131/500
Epoch 132/500
Epoch 133/500
Epoch 134/500
Epoch 135/500
Epoch 136/500
Epoch 137/500
Epoch 138/500
Epoch 139/500
Epoch 140/500
Epoch 141/500
Epoch 142/500
Epoch 143/500
Epoch 144/500
Epoch 145/500
Epoch 146/500
Epoch 147/500
Epoch 148/500
Epoch 149/500
Epoch 150/500
Epoch 151/500
Epoch 152/500
Epoch 153/500
Epoch 154/500
Epoch 155/500
Epoch 156/500
Epoch 157/500
Epoch 158/500
Epoch 159/500
Epoch 160/500
Epoch 161/500
Epoch 162/500
Epoch 163/500
Epoch 164/500
Epoch 165/500
Epoch 166/500
Epoch 167/500
Epoch 168/500
Epoch 169/500
Epoch 170/500
Epoch 

Epoch 198/500
Epoch 199/500
Epoch 200/500
Epoch 201/500
Epoch 202/500
Epoch 203/500
Epoch 204/500
Epoch 205/500
Epoch 206/500
Epoch 207/500
Epoch 208/500
Epoch 209/500
Epoch 210/500
Epoch 211/500
Epoch 212/500
Epoch 213/500
Epoch 214/500
Epoch 215/500
Epoch 216/500
Epoch 217/500
Epoch 218/500
Epoch 219/500
Epoch 220/500
Epoch 221/500
Epoch 222/500
Epoch 223/500
Epoch 224/500
Epoch 225/500
Epoch 226/500
Epoch 227/500
Epoch 228/500
Epoch 229/500
Epoch 230/500
Epoch 231/500
Epoch 232/500
Epoch 233/500
Epoch 234/500
Epoch 235/500
Epoch 236/500
Epoch 237/500
Epoch 238/500
Epoch 239/500
Epoch 240/500
Epoch 241/500
Epoch 242/500
Epoch 243/500
Epoch 244/500
Epoch 245/500
Epoch 246/500
Epoch 247/500
Epoch 248/500
Epoch 249/500
Epoch 250/500
Epoch 251/500
Epoch 252/500
Epoch 253/500
Epoch 254/500
Epoch 255/500
Epoch 256/500
Epoch 257/500
Epoch 258/500
Epoch 259/500
Epoch 260/500
Epoch 261/500
Epoch 262/500
Epoch 263/500
Epoch 264/500
Epoch 265/500
Epoch 266/500
Epoch 267/500
Epoch 268/500
Epoch 

Epoch 296/500
Epoch 297/500
Epoch 298/500
Epoch 299/500
Epoch 300/500
Epoch 301/500
Epoch 302/500
Epoch 303/500
Epoch 304/500
Epoch 305/500
Epoch 306/500
Epoch 307/500
Epoch 308/500
Epoch 309/500
Epoch 310/500
Epoch 311/500
Epoch 312/500
Epoch 313/500
Epoch 314/500
Epoch 315/500
Epoch 316/500
Epoch 317/500
Epoch 318/500
Epoch 319/500
Epoch 320/500
Epoch 321/500
Epoch 322/500
Epoch 323/500
Epoch 324/500
Epoch 325/500
Epoch 326/500
Epoch 327/500
Epoch 328/500
Epoch 329/500
Epoch 330/500
Epoch 331/500
Epoch 332/500
Epoch 333/500
Epoch 334/500
Epoch 335/500
Epoch 336/500
Epoch 337/500
Epoch 338/500
Epoch 339/500
Epoch 340/500
Epoch 341/500
Epoch 342/500
Epoch 343/500
Epoch 344/500
Epoch 345/500
Epoch 346/500
Epoch 347/500
Epoch 348/500
Epoch 349/500
Epoch 350/500
Epoch 351/500
Epoch 352/500
Epoch 353/500
Epoch 354/500
Epoch 355/500
Epoch 356/500
Epoch 357/500
Epoch 358/500
Epoch 359/500
Epoch 360/500
Epoch 361/500
Epoch 362/500
Epoch 363/500
Epoch 364/500
Epoch 365/500
Epoch 366/500
Epoch 

Epoch 391/500
Epoch 392/500
Epoch 393/500
Epoch 394/500
Epoch 395/500
Epoch 396/500
Epoch 397/500
Epoch 398/500
Epoch 399/500
Epoch 400/500
Epoch 401/500
Epoch 402/500
Epoch 403/500
Epoch 404/500
Epoch 405/500
Epoch 406/500
Epoch 407/500
Epoch 408/500
Epoch 409/500
Epoch 410/500
Epoch 411/500
Epoch 412/500
Epoch 413/500
Epoch 414/500
Epoch 415/500
Epoch 416/500
Epoch 417/500
Epoch 418/500
Epoch 419/500
Epoch 420/500
Epoch 421/500
Epoch 422/500
Epoch 423/500
Epoch 424/500
Epoch 425/500
Epoch 426/500
Epoch 427/500
Epoch 428/500
Epoch 429/500
Epoch 430/500
Epoch 431/500
Epoch 432/500
Epoch 433/500
Epoch 434/500
Epoch 435/500
Epoch 436/500
Epoch 437/500
Epoch 438/500
Epoch 439/500
Epoch 440/500
Epoch 441/500
Epoch 442/500
Epoch 443/500
Epoch 444/500
Epoch 445/500
Epoch 446/500
Epoch 447/500
Epoch 448/500
Epoch 449/500
Epoch 450/500
Epoch 451/500
Epoch 452/500
Epoch 453/500
Epoch 454/500
Epoch 455/500
Epoch 456/500
Epoch 457/500
Epoch 458/500
Epoch 459/500
Epoch 460/500
Epoch 461/500
Epoch 

Epoch 485/500
Epoch 486/500
Epoch 487/500
Epoch 488/500
Epoch 489/500
Epoch 490/500
Epoch 491/500
Epoch 492/500
Epoch 493/500
Epoch 494/500
Epoch 495/500
Epoch 496/500
Epoch 497/500
Epoch 498/500
Epoch 499/500
Epoch 500/500


<tensorflow.python.keras.callbacks.History at 0x13bb63790>

In [13]:
print(model.predict([10.0]))

[[18.984324]]


上図のように最終的に学習が終わったモデルに対して、`10.0`という値を入力してあげると、正解値の19に近い`18.989324`という値が返ってきていることが理解いただけると思います。
ただしニューラルネットワークは確率的にパラメータを更新していくため、完全に19という正解値に到達することはほぼありませんが、今回の例で、学習が進んでいく様子を理解いただけたと思います。
今回のサンプルプログラムではKerasを用いていますが、Kerasにかぎらず近年の主なディープラーニングの開発フレームワークを使うことで、今回の例のように簡単にモデルを定義することができます。

## 1.4 全結合ニューラルネットワーク

ディープラーニングのモデルにもさまざまなものが存在しますが、まず一番基本的な全結合ニューラルネットワーク（Dense Layer）について説明します。2章以降で紹介するいくつかのアルゴリズムの理解の助けにもなる情報ですのでしっかり理解しましょう。

ニューラルネットワークの解説では先ほどの図の右上のようなニューロン同士が密に結合している図がよく出てくると思いますが、この図のように表現されるニューラルネットワークが全結合ニューラルネットワークと呼ばれるものです。内部で何を行っているかというと、単純に「重み」×「x」＋「バイアス」のような ax + bを多次元的に計算しているだけです。数学的に言うと、線形的に結合して和をとっているだけです。

さきほど最適化のためのアルゴリズムを設定すると説明しましたが、ソースコードにあったsgdがどのようなものかを説明します。この最適化手法は確率的勾配降下法（SGD）と呼ばれるものです。ディープラーニングの世界で最適化のアルゴリズムとしてデファクトスタンダードとなっています。
最適化を行っていくには重みなどのパラメータを更新していきますが、具体的な重みの更新を数式で表したものが図のようにとなります。それは誤差関数（損失関数、loss functionとも)のパラメータでの微分をとってさらに学習率と呼ばれる適当な係数をかけて、その値を新しい重みの値にすることを表しています。

 
最適化アルゴリズムの選択

この数式が具体的にどのようなことをやっているかについて上の図を用いて説明します。図の青の曲線が、重みパラメータwに対する誤差関数だと思ってください。たとえばパラメータが図の一番左端の点にあるとき、その曲線の傾きを計算すると負の値をとります。誤差を最小にするには、パラメータが図の曲線の一番へこんだ場所にいって欲しいわけです。つまり、左端の赤い点から右側に移動してくれればよいのです。この図では、左端の赤い点における傾きは右下がりなので負の値になっているため、重みを右に動かしたい場合は負の傾きの値を引き算してあげると重みの値が大きくなる、つまり赤い点が右側へ移動していきます。
実際に最適化を実行していく場合、確率的勾配降下法はあまりにもシンプルな手法なので、その改良版として、モーメンタム、Nesterovの加速法、RSMProp、Adamなどさまざまなものが考案されています。2019年の3月にも国際会議ICLR2019で採択された最適化の最新のアルゴリズムとしてAdaBoundが出てくるなど、日々研究が進んで進化している分野ですので、新たなものについても情報を収集するようにぜひ心がけてください。ただし基本的にはある程度高速にパラメータが収束することが経験的に知られているAdamを使えばよいと思います。たいていのディープラーニングフレームワークではAdamは簡単に用いることができます。先程のコードの’sgd’の部分を’adam’と書き換えればOKです。

・勾配降下法のイメージ
 
勾配降下法のイメージ

今までの説明内での目的は誤差の最小化でしたが正負の符号を変えるだけで最大化問題になるので、次の説明では最大化問題を解きたいと思って読み進めてください。
勾配降下法とは「目隠しで足元の勾配の感覚のみを頼りに山の頂上を目指すようなもの」と喩えることができます。頂上を目指す場合には、目を閉じてそれぞれ場所の足元の感覚から上り坂だと思われる方に進むということを延々と繰り返すようなものだということです。図の数式に出てくるギリシャ文字のη（イータ）という記号は、学習率と呼ばれるパラメータですが、これは歩幅のイメージです。たとえばこのηの値が0.001のように非常に小さい値の場合には、すり足のようにゆっくり慎重に進んで、大きな値であれば大股で進んでいくという感じです。誤差関数は大抵きれいな二次曲線の形をしているわけではありません。実際の山のように、ある一帯で見た場合には最小値となる、極小値と呼ばれる局所的に一番低い場所がたくさんあるゴツゴツとした形になっているでしょう。そのため目標となる最小値の場所ではない極小値のところで落ち着かないように、学習し始めのうちはそういう場所は気にせず飛び越えてもらいたいのです。それを実現するために、最初は学習率を大きめにして大股で歩いて行って、頂上に近づいてきたら学習率を小さい値にして歩幅を小さくするようにスケジューリングして実行していくということがよく行われています。

・使用するデータセットの紹介
次の章で説明するCNNの話に近づいていくために、Fashion MNISTデータセットというものをここで紹介します。ディープラーニングの基礎的な話を聞く場合、手書き文字の認識の話がよく話題になると思います。Fashion MNISTのデータセットは手書き文字より少し複雑になったもので、7万枚の画像データが含まれています。以下の図のようにTシャツ、コート、バッグ、スニーカー、などファッショングッズに関する10カテゴリのピクトグラムのような小さな画像が準備されています。それぞれの画像の大きさは28×28ピクセルで、よく実験やベンチマークで用いられるデータセットです。
 
Fashion MNISTデータセット

このデータセットを使って、これから全結合ニューラルネットワークによる各カテゴリに分類するモデルを作っていきます。

・全結合ニューラルネットワークの実行例
下のサンプルコードを参照しながら全結合ニューラルネットワークの具体的な実装について説明します。
以下ではサンプルコードの赤枠で示されている部分について説明をします。
サンプルコードの最初の部分では、線形代数などの数値計算ライブラリであるnumpyや機械学習用のtensorflowや可視化用のmatplotlibと呼ばれるモジュールをインポートします。
次にデータセットをロードします。Fashion MNISTデータセットは非常に有名なものでよく使われるため、TensorFlowにも含まれています。ここではTensorFlowのライブラリを使ってデータセットを読み込みます。そうすることで、訓練用の画像と訓練用のラベルのペアが多次元配列に含まれたものが事前に準備され、さらに性能評価用にテスト用の画像とテスト用のラベルのペアも用意されます。こちらのデータセットの画像はカラーではなくグレースケールなので、画像の行列の中身は各ピクセルに対して0（黒）～255（白）の範囲の輝度と呼ばれる明るさを数値化したものが入っています。このままの値を用いてしまうと、数値が大きすぎて訓練がうまくいかなくなる場合があるため、数値を0～1の間の値に変換します。このようにデータを利用しやすい形に整理したり変換したりすることは正規化と呼ばれます。

以下で具体的な画像の中身がどのようになっているか確認します。
train_imagesという訓練用の画像は、6万個の画像があって、高さ28ピクセル、幅28ピクセルの形の配列になっています。ラベルの方は同じく6万個あって0～9の10個の値のどれかが入っていて、たとえば0番目の画像では9つまりアンクルブーツというラベルがついていることを意味しています。

実際に最初の画像を可視化してみると以下のように非常に粗いモザイクがかかったようなブーツであることがわかります。

上記のデータセットに対してモデルを組み立てていきましょう。
まず28×28ピクセルの形の画像を全結合ニューラルネットワークに入力する必要があるため、以下のようにFlattenと呼ばれる操作で1列の784次元のベクトルに変換します。具体的には二次元行列の0番目の行の要素を縦に並べ、続けて1番目の行のデータをまた縦に並べるという作業を28行分繰り返して、全部で1列の784次元のデータにします。今回のモデルも全結合ニューラルネットワークで構成します。図のように、128個のニューロン（ユニット）を中間の層に配置して、その後ろに分類を行うための10個のニューロンを配置するというモデルを作っています。

画像データのニューラルネットワークへの入力イメージ

こちらのコードのようにKerasはわかりやすくそれぞれのモジュールを配列として3つ並べるだけで図のようなニューラルネットワークが完成します。

つぎにこちらのモデルに対して最適化のアルゴリズムとしてはAdamを用いることにします。損失関数としては詳しい説明は割愛しますが、分類の問題の損失関数を評価する際に一般的に用いられる交差エントロピー(cross entropy)というものを用います。下図の赤枠のコードの部分が具体的なプログラムコードです。
![image.png](attachment:image.png)

今までのプログラムで設定したデータセットとモデルを使って実際に学習を実行させるために、前に説明したfitというメソッドを用いてtrain_imagesとtrain_labelsというデータを入力として、訓練を行います。実際にこちらを実行すると以下の出力結果のように、だんだんと正解率(accuracy)が上がっていっているのが確認できます。このようにある程度ループを回すことで、たとえばドレスの画像を入れたら87パーセントの確率でこれはドレスですといったことを推論してくれるようなモデルができあがります。![image.png](attachment:image.png)

つぎに評価がどのようになされるかをイメージしていただくために、混合行列（confusion matrix）について説明します。混合行列とはどれをどれくらい正解してどれくらい間違っているかを確かめるための表です。
以下の図が混合行列をヒートマップ化したものです。図の横軸が正解のラベル、縦はモデルが予測したラベルを示しています。正解ラベルが0で予測も0であれば正しく予測できている、というような行列になっていて、図全体でみてみると、対角線上にある値が正解した数で、それ以外の値が間違った数になっています。対角線以外は、それぞれどの正解ラベルがどのラベルと誤って予測されたのかが示されています。どこらへんに問題があるのかとかどこらへんが間違いやすいのかについて、混合行列のそれぞれのラベルを見ながら探っていくことができます。
![image.png](attachment:image.png)

混合行列の可視化例

・全結合ニューラルネットワークを画像に用いる場合の欠点
全結合ニューラルネットワークを画像に用いる場合の欠点について触れておきます。全結合ニューラルネットワークは、入力ベクトルの全要素のつながりを見ています。画像の場合には基本的に、例えば左上側に位置するピクセルに対して右下側のピクセルにはあまり関係性がなく画像の性質で考えると無視してほしいものになりますが、全結合ニューラルネットワークではそのような無関係なものまで関係性を見つけようと試みます。学習していく中で、あるニューロンと別のニューロンには関係性がないのでつながりの重みがゼロであるといようにもともと明らかであった無意味なパラメータまで頑張って更新していくことになります。このようなやり方は計算コストがかかるのと、そもそもあまりにも相関が複雑になりすぎて学習が進まないということが起こりえます。全結合ニューラルネットワークは住宅の価格予測のようにすでに作成済みの特徴量の組み合わせでこの家の価格はいくらくらいになるのかを予測するときには、明確にそれぞれの特徴量に相関を比較的簡単に見つけられるので有効ですが、画像ではそうはいきません。画像ではむしろ各ピクセル間の大域的な関係性よりも、角が丸っこいだとかシャープだとか局所的な情報の方が特徴を掴むのに重要です。ピクセルの近い部分の関係性を学習し画像の特徴量を抽出するのに適したアルゴリズムとして代表的なものに畳み込みニューラルネットワーク（Convolutional Neural Network: CNN）というものがあります。

では早速次章で畳み込みネットワークについて見ていきましょう。
![image.png](attachment:image.png)