In [None]:
# plt.show()で可視化されない人はこのセルを実行してください。
%matplotlib inline

#  深層学習の実践

- **[1.1 深層学習の概要](#1.1-深層学習の概要)**
    - **[1.1.1 深層学習を体験してみよう](#1.1.1-深層学習を体験してみよう)**
    - **[1.1.2 深層学習とは](#1.1.2-深層学習とは)**
    - **[1.1.3 深層学習を用いた分類の流れ](#1.1.3-深層学習を用いた分類の流れ)**
    - **[1.1.4 ニューロンの計算方法と学習方法](#1.1.4-ニューロンの計算方法と学習方法)**
    - **[1.1.5 深層学習とは(2)](#1.1.5-深層学習とは(2))**
    - **[1.1.6 深層学習を用いた分類の流れ](#1.1.6-深層学習を用いた分類の流れ)**
<br><br>
- **[1.2 手書き数字の分類](#1.2-手書き数字の分類)**
    - **[1.2.1 分類までの流れ](#1.2.1-分類までの流れ)**
    - **[1.2.2 ディープニューラルネットワーク](#1.2.2-ディープニューラルネットワーク)**
    - **[1.2.3 Keras+Tensorflow](#1.2.3-Keras+Tensorflow)**
    - **[1.2.4 Kerasの導入](#1.2.4-Kerasの導入)**
    - **[1.2.5 データの概要](#1.2.5-データの概要)**
    - **[1.2.6 データの用意](#1.2.6-データの用意)**
    - **[1.2.7 モデルの生成](#1.2.7-モデルの生成)**
    - **[1.2.8 モデルの学習](#1.2.8-モデルの学習)**
    - **[1.2.9 モデルの評価](#1.2.9-モデルの評価)**
    - **[1.2.10 モデルによる分類](#1.2.10-モデルによる分類)**
<br><br>
- **[1.3 まとめ問題](#1.3-まとめ問題)**

***

## 1.1 深層学習の概要

### 1.1.1 深層学習を体験してみよう

この講座ではディープラーニングのなかでも最も基本的な **全結合層のみで作られる多層ニューラルネットワーク** を扱い、 **手書き数字画像データから数字を判別するコードを学びます。**

**全結合層**については、<a href='https://aidemy.net/courses/5090/exercises/HJb8c38sIxz' target='_blank'>1.2.2 ディープニューラルネットワーク</a>で詳しく解説します。<br>

本講座ではGoogle社製のディープラーニング用ライブラリで、最も人気のあるディープラーニングライブラリのひとつである **Tensorflow** と、 **Tensorflow** を扱いやすくするためのライブラリ **Keras** を使用します。<br>
まずは、本講座のゴールを体験してみましょう。

#### 問題

次のコードを **RUN(実行)** し、エポック数が上がるにつれて**トレーニングデータに対する正解率** `acc` と**テストデータに対する正解率**`val_acc`も上がっている様子を確認してみましょう。

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from keras.datasets import mnist
from keras.layers import Activation, Dense, Dropout
from keras.models import Sequential, load_model
from keras import optimizers
from keras.utils.np_utils import to_categorical

(X_train, y_train), (X_test, y_test) = mnist.load_data()

X_train = X_train.reshape(X_train.shape[0], 784)[:6000]
X_test = X_test.reshape(X_test.shape[0], 784)[:1000]
y_train = to_categorical(y_train)[:6000]
y_test = to_categorical(y_test)[:1000]

model = Sequential()
model.add(Dense(256, input_dim=784))
model.add(Activation("sigmoid"))
model.add(Dense(128))
model.add(Activation("sigmoid"))
model.add(Dropout(rate=0.5))
model.add(Dense(10))
model.add(Activation("softmax"))

sgd = optimizers.SGD(lr=0.1)
model.compile(optimizer=sgd, loss="categorical_crossentropy", metrics=["accuracy"])

# epochs数は5を指定
history = model.fit(X_train, y_train, batch_size=500, epochs=5, verbose=1, validation_data=(X_test, y_test))

#acc, val_accのプロット
plt.plot(history.history["acc"], label="acc", ls="-", marker="o")
plt.plot(history.history["val_acc"], label="val_acc", ls="-", marker="x")
plt.ylabel("accuracy")
plt.xlabel("epoch")
plt.legend(loc="best")
plt.show()

#### ヒント

- エポック数は、１つの学習データを何回繰り返し学習させるかを表します。

#### 解答例

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from keras.datasets import mnist
from keras.layers import Activation, Dense, Dropout
from keras.models import Sequential, load_model
from keras import optimizers
from keras.utils.np_utils import to_categorical

(X_train, y_train), (X_test, y_test) = mnist.load_data()

X_train = X_train.reshape(X_train.shape[0], 784)[:6000]
X_test = X_test.reshape(X_test.shape[0], 784)[:1000]
y_train = to_categorical(y_train)[:6000]
y_test = to_categorical(y_test)[:1000]

model = Sequential()
model.add(Dense(256, input_dim=784))
model.add(Activation("sigmoid"))
model.add(Dense(128))
model.add(Activation("sigmoid"))
model.add(Dropout(rate=0.5))
model.add(Dense(10))
model.add(Activation("softmax"))

sgd = optimizers.SGD(lr=0.1)
model.compile(optimizer=sgd, loss="categorical_crossentropy", metrics=["accuracy"])

# epochs数は5を指定
history = model.fit(X_train, y_train, batch_size=500, epochs=5, verbose=1, validation_data=(X_test, y_test))

#acc, val_accのプロット
plt.plot(history.history["acc"], label="acc", ls="-", marker="o")
plt.plot(history.history["val_acc"], label="val_acc", ls="-", marker="x")
plt.ylabel("accuracy")
plt.xlabel("epoch")
plt.legend(loc="best")
plt.show()

***

### 1.1.2 ディープラーニングとは？

- ディープラーニングの概要
- ニューロンの概要
- ディープラーニングの分野
（DNN/CNN/RNN)<br>


【バーチャルYouTuber版動画】<br>
この動画は、バーチャルYouTuber版の動画も配信されています。<br>
https://www.youtube.com/watch?v=M7exy0SSWfk

#### 問題

- 次の動画をみてください。

https://aidemystorageprd.blob.core.windows.net/movies/5090-wHeeKlidI.m3u8

Premium Planを受講している方は以下のリンクから受講してください。<br>
https://aidemy.net/courses/5090/exercises/wHeeKlidI

***

### 1.1.3 深層学習とは(1)

<b style='color: #AA0000'>深層学習</b>はディープラーニングとも呼ばれ、**機械学習の一種であり、さらに一歩進んだ技術** です。
データの分類や回帰を行うために、生物の**神経ネットワーク**を参考に **ディープニューラルネットワーク** というモデルを使います。

<img src='https://aidemyexcontentspic.blob.core.windows.net/contents-pic/5090_dnn/dnn_chap1_10.png'>

**<center>図1.1.3-1 神経ニューラルネットワーク</center>**

ただし、深層学習の目的は脳の神経ネットワークの再現ではなく、画像や音声などの **認識精度を高める** ことを目標として研究が行われています。画像認識、映像解析を利用した自動運転技術や、音声解析で実現するスマートスピーカー「Google Home」や「Siri」など、実は私たちの日常生活の多くの場面でこの技術が使われているのです。

深層学習が注目を集めている理由のひとつに、従来、人が行っていた作業を自動化することで手間が少なくなり、精度も上がるということが挙げられます。<br>

<img src='https://aidemyexcontentspic.blob.core.windows.net/contents-pic/5090_dnn/car.png' width=700>

**<center>図1.1.3-2 車を検出する場合</center>**

例えば、画像の中から「車」を検出するプログラムを作成する場合、機械学習ではいろいろな種類の車のタイヤやフロントガラスの特徴などの細かい情報をあらかじめ用意して、それを学習させたモデルを作る必要がありました。しかし、深層学習はそのようなモデルなしに、車のパーツの特徴を **自動** で見つけられるのです。

#### 問題

- 深層学習、ニューラルネットワークについて正しい記述を選択してください。

- ディープニューラルネットワークは動物の脳を完全に再現したモデルである。
- ニューラルネットワークでは、人間がプログラムに注目すべき特徴を指定する必要がある。
- ニューラルネットワークが注目されている理由は、人間のように知能を持つからである。
- 深層学習は、機械学習の一手法である。

#### ヒント

- 深層学習と機械学習の関係性をよく考えましょう。

#### 解答

- 深層学習は、機械学習の一手法である。

***

### 1.1.4 ニューロンの計算方法と学習方法

動画を見て、下記について学習しましょう。
<br>
- ニューロンの内部の処理
- 活性化関数の処理の例


【バーチャルYouTuber版動画】<br>
この動画は、バーチャルYouTuber版の動画も配信されています。<br>
https://www.youtube.com/watch?v=4ntNFqc4kRE

#### 問題

- 次の動画をみてください。

https://aidemystorageprd.blob.core.windows.net/movies/5090-Cz4GZjnmsf.m3u8

Premium Planを受講している方は以下のリンクから受講してください。<br>
https://aidemy.net/courses/5090/exercises/Cz4GZjnmsf

***

### 1.1.5 深層学習とは(2)

下図はニューラルネットワークを構成するニューロンを表したもので、$x_1, x_2$が入力値で、$w_1, w_2$は **重みパラメータ** です。このモデルでは$x_1w_1 + x_2w_2$の値が 閾値$\theta$よりも高ければニューロンが発火して1を出力し、それ以外の場合には0を出力します。

<img src='https://aidemyexcontentspic.blob.core.windows.net/contents-pic/5090_dnn/dnn_chap1_30.png'>

**<center>図1.1.5-1 ニューロン</center>**

入力が閾値を超えると、ニューロンは次のニューロンへの情報伝達を行います。これを、ニューロンの発火と呼びます。ニューラルネットワークではベクトルや行列などの入力値を受け取り、発火の連鎖を経て最終的にスカラーやベクトルなどの値を出力するのです。これを画像認識で例えると、動物の画像のピクセルデータを入力することで、どのカテゴリ（ネコ、イヌ、トリなど）に属する確率が高いかという情報が出力されるイメージになります。

そして、下図のようにニューロンの層を積み重ね、より複雑な問題を扱えるようにしたのが <b style='color: #AA0000'>ディープニューラルネットワーク</b>です。特に4層以上の構造を指すことが多く、その構造の深さから「ディープ」という名前を付けられました。<br>

<img src='https://aidemyexcontentspic.blob.core.windows.net/contents-pic/5090_dnn/dnn_chap1_20.gif'>

**<center>図1.1.5-2 ニューラルネットワーク</center>**

実は **ニューラルネットワーク** という数学モデルは、1950年代から既に存在していました。
そして近年、ディープニューラルネットワークを活用できる計算環境が整い、学習手法の研究も進んだため、かなり多くの注目を集めています。

なお、深層学習では **各ニューロンの重みパラメータを機械的に調整する** ことで分類モデルや回帰モデルを作ります。

> 出典：<a href='http://www.opennn.net/' target='_blank'>http://www.opennn.net/</a>

#### 問題

- 次のうち、ニューラルネットワーク、深層学習についての正しい説明を選んでください。 

- ディープラーニングが急激に盛んになったのは、高性能な計算機の登場が理由の一つに挙げられる。
- ディープニューラルネットワークはニューロンを積み重ねて作られている。
- ディープラーニングでは、重みパラメータが学習される。
- 上記のすべて

#### ヒント

- ディープラーニングが注目されているのは、計算環境が整い、ニューロンを積み重ねても重みパラメータがうまく学習できるようになったためです。

#### 解答

- 上記のすべて

***

### 1.1.6 深層学習を用いた分類の流れ

深層学習を用いた分類の流れを見ていきましょう。

- **ネットワークモデルを作る**

いくつかのニューロンを束ねた層を図のように重ねていくことで、階層の深いネットワークモデルを構築します。

<img src='https://aidemyexcontentspic.blob.core.windows.net/contents-pic/5090_dnn/dnn_chap1_40.gif'>

**<center>図1.1.6-1 ディープニューラルネットワーク</center>**

最初のうちは、入力に対してニューロンがランダムに反応し、意味をもたない値を出力します。

- **モデルに訓練用のデータを与え、学習を行う**

モデルは入力値Xを受け取り、出力値yを出力します。  

<img src='https://aidemyexstorage.blob.core.windows.net/aidemycontents/1539649698690986.png'>

**<center>図1.1.6-2 モデルにトレーニングデータを渡す</center>**

このとき、yと正解データ(教師ラベル)Tの差分である$ΔE$が小さくなるように、誤差逆伝播法という方法で自動的にニューロンの重みを調整します。そして、 **画像などの生データXと正解データTを与えることで繰り返し重みを調整し、次第に求める出力値が得られるようになります。**
うまく学習が進むと、適切な予測値を返すモデルができあがります。

- **分類データをモデルに渡す**

<img src='https://aidemyexcontentspic.blob.core.windows.net/contents-pic/5090_dnn/dnn_chap1_70.png'>

**<center>図1.1.6-3 学習データを渡す</center>**

図のような流れで、深層学習によるデータの分類ができます。
つまり深層学習では、手順の詳細を理解しなくても、 **分類** や **回帰** のモデルを作ることができるのです。

> 出典: <a href='http://opencv.jp/' target='_blank'>http://opencv.jp/</a>

#### 問題

- 以下のうち、ニューラルネットワークモデルを用いた分類についての正しい説明を選んでください。

- ニューラルネットワークモデルは分類モデルしか作ることができない。
- ニューラルネットワークモデルは構築されてすぐ、入力に対して期待する反応を示す。
- ニューラルネットワークモデルの各重みを自動的に更新する手法はない。
- ニューラルネットワークモデルを使って様々な分類、回帰モデルを構築することができる。

#### ヒント

ニューラルネットワークモデルでは大量のデータの入力によって繰り返し重みが調整され、次第に求めたい出力が得られるようになります。

#### 解答

- ニューラルネットワークモデルを使って様々な分類、回帰モデルを構築することができる。

***

## 1.2 手書き数字の分類

### 1.2.1 分類までの流れ

<b style='color: #AA0000'>Keras</b>というライブラリを使用して、下記のようなニューラルネットワークモデルを実装してみましょう。まず、深層学習では定番ともいえる **手書き数字の分類** を下記の手順で行います。

<img src='https://aidemyexcontentspic.blob.core.windows.net/contents-pic/5090_dnn/dnn_chap1_80.png'>

**<center>図1.2.1-1 分類までの流れ</center>**

1. データを準備する
2. ニューラルネットワークモデルを構築
3. モデルにデータを与え、学習させる
4. モデルの分類精度を評価 

最後に手書き数字の画像を与え、予測された値を確認します。

#### 問題

- 以下のうち、今回行う分類において必要ない作業を選んでください。

- データを用意する
- データを分類する上で注目すべき部分を抽出する方法を考え、実装する
- ネットワークモデルにデータを与え、学習を行う
- 上記のすべて

#### ヒント

ニューラルネットワークモデルを用います。前のセッションの内容を踏まえましょう。

#### 解答

- データを分類する上で注目すべき部分を抽出する方法を考え、実装する

***

### 1.2.2 ディープニューラルネットワーク

ある程度深さのあるニューラルネットワークを、 <b style='color: #AA0000'>ディープニューラルネットワーク</b>と呼び、入力する層を **入力層** 、 出力する層を **出力層** 、入力層と出力層の間を **隠れ層** といいます。

今回は、全てのニューロンが前の層のニューロンと結合した **全結合層** が2つあるシンプルな構造のニューラルネットワークを作成します。 <br>

<img src='https://aidemyexcontentspic.blob.core.windows.net/contents-pic/5090_dnn/dnn_chap1_90.png'>

**<center>図1.2.2-1 one-hot ベクトル</center>**

入力された手書き画像データが「7」だった場合、クラスラベルが7に対応するラベルが1, それ以外は0となります。

このようなデータのことを <b style='color: #AA0000'>one-hot ベクトル</b>、縦に並ぶベクトルの一つひとつの要素を **ノード** 、その次元数を **ノード数** と呼びます。

今回のモデルで入力するのは、28x28のモノクロ画像を一次元配列に平坦化した784次元で出力は10次元のベクトルです。手書き数字を0~9の連続値よりは、10個のクラスに分類する方が一般的なので、図のように、出力ユニットの数を1でなく10にしています。

#### 問題

- 次のうち、説明文中のモデルの説明として間違ったものを選んでください。

- 入力層のノード数は784
- 出力層のノード数は1
- 隠れ層の数は1

#### ヒント

- 手書き数字を0~9の連続値に分類するのではなく、0~9の10個のクラスに分類すると考えるのが自然です。

#### 解答

- 出力層のノード数は1

***

### 1.2.3 Keras+Tensorflow

今回は下記の内容を動画で学習します。
<br>
- Tensorflowとは？
- Kerasとは？
- Kerasのメリットとデメリット


【バーチャルYouTuber版動画】<br>
この動画は、バーチャルYouTuber版の動画も配信されています。<br>
https://www.youtube.com/watch?v=0ObCbapKWIs

#### 問題

- 次の動画をみてください。

https://aidemystorageprd.blob.core.windows.net/movies/5090-YntEXJboEU.m3u8

Premium Planを受講している方は以下のリンクから受講してください。<br>
https://aidemy.net/courses/5090/exercises/YntEXJboEU

***

### 1.2.4 Kerasの導入

データマイニングの情報サイトKDNuggetsが行った調査<a href='https://www.kdnuggets.com/2018/09/deep-learning-framework-power-scores-2018.html?fbclid=IwAR3HfzSGw7qUN25i0Iv5ol-VJILURfeuMbtnaUT3t31PvNrAup824OX32lw#.W9ZJgzzSsR0.facebook' target='_blank'>Deep Learning Framework Power Scores 2018</a>では、**Keras**がTensorFlowに次いで2番目によく使われているという結果がでました。

TensorFlowはGoogle社が提供する機械学習用のオープンソースソフトウェアライブラリで、Kerasはより**直感的で簡潔にコードを書くこと**を可能にしてくれるTensorFlowのラッパーライブラリです。
この場合のラッパーはシステムを内包して、より使いやすくしたものという意味になります。

#### 問題

- Kerasの説明として正しいものを1つ選んでください。

- KerasはTensorflowを扱いやすくしてくれる。
- Tensorflowのコア部分はC++で実装されているので、Kerasはpythonで使うことはできない。
- Kerasは高水準なライブラリであるため、月々の使用料が発生する。
- Kerasはオープンソースライブラリなので、著作権を気にせずに誰でも自由に使って良い。

#### ヒント

- オープンソースライブラリでも、著作権は発生します。

#### 解答

- KerasはTensorflowを扱いやすくしてくれる。

***

### 1.2.5 データの概要

動画を見て、下記について学習しましょう。
<br>
- 画像データの扱い
- 画像データの数値への変換


【バーチャルYouTuber版動画】<br>
この動画は、バーチャルYouTuber版の動画も配信されています。<br>
https://www.youtube.com/watch?v=VY3m1gfABcc

#### 問題

- 次の動画をみてください。

https://aidemystorageprd.blob.core.windows.net/movies/5090-xAn5J4vMUg.m3u8

Premium Planを受講している方は以下のリンクから受講してください。<br>
https://aidemy.net/courses/5090/exercises/xAn5J4vMUg

***

### 1.2.6 データの用意

手書き数字の学習には、<a href='http://yann.lecun.com/exdb/mnist/' target='_blank'>Yann LeCun's website</a>で公開されている **MNIST(エムニスト)** というデータセットを使用します。MNISTは、Kerasで下記のコードを実行することでもダウンロードできます。

```python
from keras.datasets import mnist
(X_train, y_train), (X_test, y_test) = mnist.load_data()
```

コードのXは **画像データ** 、yは **教師ラベルデータ** で、trainは学習用データ、testはモデルの性能を評価する際に使用するデータです。  
ただし、trainデータとtestデータには、データとしての本質的な違いはありません。

また、ダウンロード済みの状態でMNISTを実行すると、データの読み込みを行うことができます。

#### 問題

- X_train、y_train、X_test、y_test はすべてnumpy.ndarray型です。
- X_train、y_train、X_test、y_test について、 **それぞれの大きさを出力する** ように変更してください。

In [None]:
from keras.datasets import mnist

(X_train, y_train), (X_test, y_test) = mnist.load_data()


# 次の一行を変更してください
print(X_train, y_train, X_test, y_test) 


#### ヒント

numpy.ndarray型は以下で大きさが取得できます。
```python
import numpy as np
A = np.array([[1,2], [3,4], [5,6]])
A.shape 
# 出力結果
(3, 2)
```

#### 解答例

In [None]:
from keras.datasets import mnist

(X_train, y_train), (X_test, y_test) = mnist.load_data()


# 次の一行を変更してください
print(X_train.shape, y_train.shape, X_test.shape, y_test.shape)       


***

### 1.2.7 モデルの生成

**Keras** では、まずモデルを管理するインスタンスを作り、`add`メソッドで一層ずつ定義していきます。

<img src='https://aidemyexcontentspic.blob.core.windows.net/contents-pic/5090_dnn/dnn_chap1_100.gif'>

**<center>図1.2.7-1 ニューラルネットワーク</center>**

インスタンスを作ります。

```python
from keras.models import Sequential
from keras.layers import Dense, Activation

model = Sequential()
```

今回は128のユニットの全結合層を定義します。下記のように`add`メソッドを使ってモデルを一層ずつ定義していきます。  

```python
model.add(Dense(128))
```
全結合層の出力には、 **活性化関数** と呼ばれる関数を適用します。   

```python
model.add(Activation("sigmoid"))
```
これは、動物の神経の発火に相当する仕組みで、シグモイド関数 `sigmoid` やReLU関数 `relu` などを設定します。そして最後にコンパイルメソッド `compile()` で学習処理を設定して、モデルの生成が終了するのです。  

```python
model.compile(optimizer=sgd, loss="categorical_crossentropy", metrics=["accuracy"])
```

これらの関数やパラメータなどについては、<a href='https://aidemy.net/courses/5090/exercises/Syd8938sUlf' target='_blank'>Chapter2</a>で詳しく説明いたします。

#### 問題

-まずはネットワークモデルの構築イメージを掴みましょう。以下のコードでは、隠れ層1つのネットワークモデルを生成しています。空欄を埋めて、隠れ層を2つ持つ、下図のようなモデルを生成しましょう。活性化関数にはReLU関数 `relu` を使用します。

<img src="https://aidemyexcontentspic.blob.core.windows.net/contents-pic/5090_dnn/dnn_chap1_110.png" width=30%>

**<center>図1.2.7-2 モデル</center>**

In [None]:
from keras.datasets import mnist
from keras.models import Sequential
from keras.layers import Dense, Activation
from keras.utils.vis_utils import plot_model
from keras.utils.np_utils import to_categorical
import matplotlib.pyplot as plt

(X_train, y_train), (X_test, y_test) = mnist.load_data()

# (◯, 28, 28)のデータを(◯, 784)に次元削減します。(簡単のためデータ数を減らします)
shapes = X_train.shape[1] * X_train.shape[2]
X_train = X_train.reshape(X_train.shape[0], shapes)[:6000]
X_test = X_test.reshape(X_test.shape[0], shapes)[:1000]
y_train = to_categorical(y_train)[:6000]
y_test = to_categorical(y_test)[:1000]

model = Sequential()
# 入力ユニット数は784, 1つ目の全結合層の出力ユニット数は256
model.add(Dense(256, input_dim=784))
model.add(Activation("sigmoid"))

# 2つ目の全結合層の出力ユニット数は128。活性化関数はrelu。
#　---------------------------
#　ここに書いて下さい

#　ここまで書いて下さい
#　---------------------------

# 3つ目の全結合層（出力層）の出力ユニット数は10
model.add(Dense(10))
model.add(Activation("softmax"))

model.compile(optimizer="sgd", loss="categorical_crossentropy", metrics=["accuracy"])

# モデル構造の出力
plot_model(model, "model125.png", show_layer_names=False)
# モデル構造の可視化
image = plt.imread("model125.png")
plt.figure(dpi=150)
plt.imshow(image)
plt.show()

#### ヒント

- 以下の文でモデルの構造をpng画像に出力しています。  
```python
plot_model(model, "model125.png", show_layer_names=False)
```
出力画像が上の図と一致するように、モデルを定義してください。

#### 解答例

In [None]:
from keras.datasets import mnist
from keras.models import Sequential
from keras.layers import Dense, Activation
from keras.utils.vis_utils import plot_model
from keras.utils.np_utils import to_categorical
import matplotlib.pyplot as plt

(X_train, y_train), (X_test, y_test) = mnist.load_data()

# (◯, 28, 28)のデータを(◯, 784)に次元削減します。(簡単のためデータ数を減らします)
shapes = X_train.shape[1] * X_train.shape[2]
X_train = X_train.reshape(X_train.shape[0], shapes)[:6000]
X_test = X_test.reshape(X_test.shape[0], shapes)[:1000]
y_train = to_categorical(y_train)[:6000]
y_test = to_categorical(y_test)[:1000]

model = Sequential()
# 入力ユニット数は784, 1つ目の全結合層の出力ユニット数は256
model.add(Dense(256, input_dim=784))
model.add(Activation("sigmoid"))

# 2つ目の全結合層の出力ユニット数は128。活性化関数はrelu。
#　---------------------------
#　ここに書いて下さい
model.add(Dense(128))
model.add(Activation("relu"))
#　ここまで書いて下さい
#　---------------------------

# 3つ目の全結合層（出力層）の出力ユニット数は10
model.add(Dense(10))
model.add(Activation("softmax"))

model.compile(optimizer="sgd", loss="categorical_crossentropy", metrics=["accuracy"])

# モデル構造の出力
plot_model(model, "model125.png", show_layer_names=False)
# モデル構造の可視化
image = plt.imread("model125.png")
plt.figure(dpi=150)
plt.imshow(image)
plt.show()

***

### 1.2.8 モデルの学習

`fit`メソッドを使用し、 **モデル** にトレーニングデータを渡すことで学習を行います。

```python
model.fit(X_train, y_train, verbose=1, epochs=3)
```
`fit`メソッドでは、学習用データを順にモデルに入力し、 **出力と教師データの差が小さくなるように各ニューロンの重みを更新し、モデルの予測精度を向上していきます。**
戻り値としては、学習の記録を保持するHistoryオブジェクトを返します。

引数のX_trainは学習用データ、y_trainは教師データです。`verbose` に `１` を指定した場合は学習の進捗度合いを出力し、 ` 0` の場合は出力しません。`epochs`は、同じデータセットで行う学習の回数を指定します。

詳細については、<a href='https://aidemy.net/courses/5090/exercises/Sy4v9n8oUxz' target='_blank'>2.9.1 反復学習</a>で学びます。

#### 問題

- fitメソッドを使って学習した結果を変数historyに代入しましょう。また徐々に正解率 `acc：` が上がっていることを確認してください。

In [None]:
from keras.datasets import mnist
from keras.layers import Activation, Dense
from keras.models import Sequential
from keras import optimizers
from keras.utils.np_utils import to_categorical
import matplotlib.pyplot as plt

(X_train, y_train), (X_test, y_test) = mnist.load_data()

X_train = X_train.reshape(X_train.shape[0], 784)[:6000]
X_test = X_test.reshape(X_test.shape[0], 784)[:1000]
y_train = to_categorical(y_train)[:6000]
y_test = to_categorical(y_test)[:1000]

model = Sequential()
model.add(Dense(256, input_dim=784))
model.add(Activation("sigmoid"))
model.add(Dense(128))
model.add(Activation("sigmoid"))
model.add(Dense(10))
model.add(Activation("softmax"))

model.compile(optimizer="sgd", loss="categorical_crossentropy", metrics=["accuracy"])
#---------------------------
history = 
#---------------------------
#acc, val_accのプロット
plt.plot(history.history["acc"], label="acc", ls="-", marker="o")
plt.ylabel("accuracy")
plt.xlabel("epoch")
plt.legend(loc="best")
plt.show()

#### ヒント

- `model.fit(...)` の出力 `acc:` の後に正解率が表示されています。

#### 解答例

In [None]:
from keras.datasets import mnist
from keras.layers import Activation, Dense
from keras.models import Sequential
from keras import optimizers
from keras.utils.np_utils import to_categorical
import matplotlib.pyplot as plt

(X_train, y_train), (X_test, y_test) = mnist.load_data()

X_train = X_train.reshape(X_train.shape[0], 784)[:6000]
X_test = X_test.reshape(X_test.shape[0], 784)[:1000]
y_train = to_categorical(y_train)[:6000]
y_test = to_categorical(y_test)[:1000]

model = Sequential()
model.add(Dense(256, input_dim=784))
model.add(Activation("sigmoid"))
model.add(Dense(128))
model.add(Activation("sigmoid"))
model.add(Dense(10))
model.add(Activation("softmax"))

model.compile(optimizer="sgd", loss="categorical_crossentropy", metrics=["accuracy"])
#---------------------------
history = model.fit(X_train, y_train, verbose=True, epochs=3)
#---------------------------
#acc, val_accのプロット
plt.plot(history.history["acc"], label="acc", ls="-", marker="o")
plt.ylabel("accuracy")
plt.xlabel("epoch")
plt.legend(loc="best")
plt.show()

***

### 1.2.9 モデルの評価

学習によるチューニングが完了し、モデルの精度が上がったとしても、その性能がトレーニングデータでしか発揮できない可能性があります。したがって、学習済みのデータではモデルの性能の正しい評価はできません。<br>

そこで、 **学習に使用していないテストデータを使用してモデルの評価** を行います。このときの精度を、 <b style='color: #AA0000'>汎化精度</b>(新規データに対する精度)といいます。<br>

汎化精度の計算には **`evaluateメソッド`** を使用します。
```python
score = model.evaluate(X_test, y_test, verbose=1)
```
`X_test` は評価用 (テスト) の入力データ、 `y_test` は教師データです。`evaluateメソッド`で取得した損失関数の値と正解率は、 `score` に格納されます。<br>

なお、テストデータは汎化精度の計算のためのもので、学習には使用しません。

#### 問題

- 空欄を埋めて実際に汎化精度を計算してださい。トレーニングデータを用いた時の正解率とテストデータを用いた時の正解率が異なることを確認してください。

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from keras.datasets import mnist
from keras.layers import Activation, Dense
from keras.models import Sequential, load_model
from keras import optimizers
from keras.utils.np_utils import to_categorical

(X_train, y_train), (X_test, y_test) = mnist.load_data()

X_train = X_train.reshape(X_train.shape[0], 784)[:6000]
X_test = X_test.reshape(X_test.shape[0], 784)[:1000]
y_train = to_categorical(y_train)[:6000]
y_test = to_categorical(y_test)[:1000]

model = Sequential()
model.add(Dense(256, input_dim=784))
model.add(Activation("sigmoid"))
model.add(Dense(128))
model.add(Activation("sigmoid"))
model.add(Dense(10))
model.add(Activation("softmax"))

model.compile(optimizer="sgd", loss="categorical_crossentropy", metrics=["accuracy"])

model.fit(X_train, y_train, verbose=True)

# ---------------------------
# ここを書いて下さい
# ---------------------------
print("evaluate loss: {0[0]}\nevaluate acc: {0[1]}".format(score))

#### ヒント

- `model.evaluate()`を用いて汎化精度の評価が行えます。

#### 解答例

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from keras.datasets import mnist
from keras.layers import Activation, Dense
from keras.models import Sequential, load_model
from keras import optimizers
from keras.utils.np_utils import to_categorical

(X_train, y_train), (X_test, y_test) = mnist.load_data()

X_train = X_train.reshape(X_train.shape[0], 784)[:6000]
X_test = X_test.reshape(X_test.shape[0], 784)[:1000]
y_train = to_categorical(y_train)[:6000]
y_test = to_categorical(y_test)[:1000]

model = Sequential()
model.add(Dense(256, input_dim=784))
model.add(Activation("sigmoid"))
model.add(Dense(128))
model.add(Activation("sigmoid"))
model.add(Dense(10))
model.add(Activation("softmax"))

model.compile(optimizer="sgd", loss="categorical_crossentropy", metrics=["accuracy"])

model.fit(X_train, y_train)

# ---------------------------
# ここを書いて下さい
score = model.evaluate(X_test, y_test, verbose=True)
# ---------------------------
print("evaluate loss: {0[0]}\nevaluate acc: {0[1]}".format(score))

### 1.2.10 モデルによる分類

**`predictメソッド`** を使って、入力データの予測値を取得します。<br>
```python
predict(self, x, batch_size=None, verbose=0, steps=None)
```
**引数**<br>
- x: 入力データ。Numpy配列の形式。
- batch_size: 整数。デフォルトは32。
- verbose: 進行状況メッセージ出力モード。0または1。
- steps: 評価ラウンド終了を宣言するまでの総ステップ数（サンプルのバッチ）。None（デフォルト値）の場合は無視されます。

**戻り値**<br>
- 予測値を格納したNumpy 配列<br>

例えば `X_test` の最初の画像の数字を予測する場合、下記のようになります。<br>

```python
import numpy as np
# 学習済みのモデルを用意する。
model = ...

# 予測する
pred = np.argmax(model.predict([X_test[0]]))
print("予測値 :" + str(pred))
```

なお、`predict` は複数枚の画像を想定しているため、一枚のみの予測は次元に注意する必要があります。MNISTでは `predictメソッド` の出力は10次元なので、配列の最大値のインデックスを返す `argmax関数` を使用して一番大きい値を返すニューロンの場所を取得します。<br>

```python
import numpy as np
x = np.array([[0, 1, 2], [-1, 1000, 1]])
print(np.argmax(x)) # 4を返します。
print(np.argmax(x, axis=0)) # [0, 1, 0]を返します。
print(np.argmax(x, axis=1)) # [2, 1]を返します。
```
`argmax関数`はオプション引数 `axis` で軸を指定し、第一引数で与えられた配列に対して最大値のインデックスを調べます。また、`axis`を指定しない場合は配列を一次元に `reshape` したときの最大値のインデックスを返します。

#### 問題

- 学習を行った上で、X_test[0:10]の予測値を出力をしてください。

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from keras.datasets import mnist
from keras.layers import Activation, Dense
from keras.models import Sequential, load_model
from keras.utils.np_utils import to_categorical

(X_train, y_train), (X_test, y_test) = mnist.load_data()

X_train = X_train.reshape(X_train.shape[0], 784)[:6000]
X_test = X_test.reshape(X_test.shape[0], 784)[:1000]
y_train = to_categorical(y_train)[:6000]
y_test = to_categorical(y_test)[:1000]

model = Sequential()
model.add(Dense(256, input_dim=784))
model.add(Activation("sigmoid"))
model.add(Dense(128))
model.add(Activation("sigmoid"))
model.add(Dense(10))
model.add(Activation("softmax"))

model.compile(optimizer="sgd", loss="categorical_crossentropy", metrics=["accuracy"])

model.fit(X_train, y_train, verbose=True)

score = model.evaluate(X_test, y_test, verbose=False)
print("evaluate loss: {0[0]}\nevaluate acc: {0[1]}".format(score))

# テストデータの最初の10枚を表示します
for i in range(10):
    plt.subplot(1, 10, i+1)
    plt.imshow(X_test[i].reshape((28,28)), "gray")
plt.show()

# X_testの最初の10枚の予測されたラベルを表示しましょう
#---------------------------
#        ここを書いて下さい
#---------------------------

#### ヒント

`model.predict()`を用いて予測を行うことができます。
`argmax()`で行列の軸を指定するのを忘れないようにしましょう。
`axis=1`を引数に指定することで行ごとの最大値のインデックスを取得できます。

#### 解答例

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from keras.datasets import mnist
from keras.layers import Activation, Dense
from keras.models import Sequential, load_model
from keras.utils.np_utils import to_categorical

(X_train, y_train), (X_test, y_test) = mnist.load_data()

X_train = X_train.reshape(X_train.shape[0], 784)[:6000]
X_test = X_test.reshape(X_test.shape[0], 784)[:1000]
y_train = to_categorical(y_train)[:6000]
y_test = to_categorical(y_test)[:1000]

model = Sequential()
model.add(Dense(256, input_dim=784))
model.add(Activation("sigmoid"))
model.add(Dense(128))
model.add(Activation("sigmoid"))
model.add(Dense(10))
model.add(Activation("softmax"))

model.compile(optimizer="sgd", loss="categorical_crossentropy", metrics=["accuracy"])

model.fit(X_train, y_train, verbose=True)

score = model.evaluate(X_test, y_test, verbose=False)
print("evaluate loss: {0[0]}\nevaluate acc: {0[1]}".format(score))

# テストデータの最初の10枚を表示します
for i in range(10):
    plt.subplot(1, 10, i+1)
    plt.imshow(X_test[i].reshape((28,28)), "gray")
plt.show()

# X_testの最初の10枚の予測されたラベルを表示しましょう
#---------------------------
pred = np.argmax(model.predict(X_test[0:10]), axis=1)
print(pred)
#---------------------------

***

## 1.3 まとめ問題(提出不要)

これまで学んだ深層学習手法の復習をします。

#### 問題

- 以下は、MNISTの分類のコードです。
コードを見てモデルの生成、学習、モデルによる分類、がどの行（複数行選択可）で行われているかを考えましょう。

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from keras.datasets import mnist
from keras.layers import Activation, Dense
from keras.models import Sequential, load_model
from keras.utils.np_utils import to_categorical

# データセットの読み込み
(X_train, y_train), (X_test, y_test) = mnist.load_data()

X_train = X_train.reshape(X_train.shape[0], 784)[:10000]
X_test = X_test.reshape(X_test.shape[0], 784)[:1000]
y_train = to_categorical(y_train)[:10000]
y_test = to_categorical(y_test)[:1000]

model = Sequential()
model.add(Dense(256, input_dim=784))
model.add(Activation("sigmoid"))
model.add(Dense(128))
model.add(Activation("sigmoid"))
model.add(Dense(10))
model.add(Activation("softmax"))

model.compile(optimizer="sgd", loss="categorical_crossentropy", metrics=["accuracy"])

model.fit(X_train, y_train, verbose=True)

score = model.evaluate(X_test, y_test, verbose=False)
print("evaluate loss: {0[0]}\nevaluate acc: {0[1]}".format(score))

for i in range(10):
    plt.subplot(1, 10, i+1)
    plt.imshow(X_test[i].reshape((28,28)), "gray")
plt.show()

pred = np.argmax(model.predict(X_test[0:10]), axis=1)
print(pred)

#### ヒント

- modelに着目してみてください。

#### 解答例

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from keras.datasets import mnist
from keras.layers import Activation, Dense
from keras.models import Sequential, load_model
from keras.utils.np_utils import to_categorical

# データセットの読み込み
(X_train, y_train), (X_test, y_test) = mnist.load_data()

X_train = X_train.reshape(X_train.shape[0], 784)[:10000]
X_test = X_test.reshape(X_test.shape[0], 784)[:1000]
y_train = to_categorical(y_train)[:10000]
y_test = to_categorical(y_test)[:1000]

#1.  モデルの生成
model = Sequential()
model.add(Dense(256, input_dim=784))
model.add(Activation("sigmoid"))
model.add(Dense(128))
model.add(Activation("sigmoid"))
model.add(Dense(10))
model.add(Activation("softmax"))

model.compile(optimizer="sgd", loss="categorical_crossentropy", metrics=["accuracy"])

#2. 学習
model.fit(X_train, y_train, verbose=True)

score = model.evaluate(X_test, y_test, verbose=False)
print("evaluate loss: {0[0]}\nevaluate acc: {0[1]}".format(score))

for i in range(10):
    plt.subplot(1, 10, i+1)
    plt.imshow(X_test[i].reshape((28,28)), "gray")
plt.show()

# 3.　モデルによる分類
pred = np.argmax(model.predict(X_test[0:10]), axis=1)
print(pred)

ここで改めて、深層学習の大まかな流れを確認しておきましょう。次のchapterでは、深層学習についてより細かく見ていきます！

***