# Sprint ディープラーニングフレームワーク2

## 【問題3】Iris（2値分類）をKerasで学習
TensorFlowによるIrisデータセットに対する2値分類をKerasに書き換えてください。

In [5]:
import tensorflow as tf
from tensorflow import keras

from keras.models import Sequential
from keras.layers import Dense, Activation
from keras.optimizers import SGD

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

from keras.datasets import mnist
from keras.utils import np_utils
from keras import backend as K
from sklearn.preprocessing import OneHotEncoder

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns

In [6]:
print(tf.__version__)

1.13.1


In [7]:
class GetMiniBatch:
    """
    ミニバッチを取得するイテレータ

    Parameters
    ----------
    X : 次の形のndarray, shape (n_samples, n_features)
      訓練データ
    y : 次の形のndarray, shape (n_samples, 1)
      正解値
    batch_size : int
      バッチサイズ
    seed : int
      NumPyの乱数のシード
    """
    def __init__(self, X, y, batch_size = 10, seed=0):
        self.batch_size = batch_size
        np.random.seed(seed)
        shuffle_index = np.random.permutation(np.arange(X.shape[0]))
        self.X = X[shuffle_index]
        self.y = y[shuffle_index]
        self._stop = np.ceil(X.shape[0]/self.batch_size).astype(np.int)
    def __len__(self):
        return self._stop
    def __getitem__(self,item):
        p0 = item*self.batch_size
        p1 = item*self.batch_size + self.batch_size
        return self.X[p0:p1], self.y[p0:p1]        
    def __iter__(self):
        self._counter = 0
        return self
    def __next__(self):
        if self._counter >= self._stop:
            raise StopIteration()
        p0 = self._counter*self.batch_size
        p1 = self._counter*self.batch_size + self.batch_size
        self._counter += 1
        return self.X[p0:p1], self.y[p0:p1]

In [8]:
"""
Kerasを使いIrisデータセットを2値分類する
"""
# データセットの読み込み
dataset_path ="../Iris.csv"
df = pd.read_csv(dataset_path)
# データフレームから条件抽出
df = df[(df["Species"] == "Iris-versicolor")|(df["Species"] == "Iris-virginica")]
y = df["Species"]
X = df.loc[:, ["SepalLengthCm", "SepalWidthCm", "PetalLengthCm", "PetalWidthCm"]]
y = np.array(y)
X = np.array(X)
# ラベルを数値に変換
y[y=='Iris-versicolor'] = 0
y[y=='Iris-virginica'] = 1
y = y.astype(np.int)[:, np.newaxis]
# trainとtestに分割
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)
# さらにtrainとvalに分割
X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.2, random_state=0)

In [9]:
# ハイパーパラメータの設定
learning_rate = 0.01
batch_size = 10
num_epochs = 10
# n_hidden1 = 50
# n_hidden2 = 100
n_input = X_train.shape[1]
n_samples = X_train.shape[0]
n_classes = 1

In [10]:
model = Sequential()
model.add(Dense(input_dim=n_input, units=n_classes)) # 入力が4種の特徴、2つに分離
model.add(Activation('softmax'))
model.compile(loss='binary_crossentropy', optimizer=SGD(lr=learning_rate))
model.fit(X_train, y_train, epochs=num_epochs, batch_size=batch_size) # エポック10, ミニバッチ 10

Instructions for updating:
Colocations handled automatically by placer.
Instructions for updating:
Use tf.cast instead.
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<keras.callbacks.callbacks.History at 0x7f88edab2048>

### 実行できることまで確認

### 2周目として追加学習
- 中間層やaccuracy, valデータを追加

In [11]:
K.clear_session()

model = Sequential()
model.add(Dense(32, activation='relu', input_dim=n_input))  # 中間層
model.add(Dense(input_dim=n_input, units=n_classes)) # 0or1の2つに分離
model.add(Activation('sigmoid'))
model.compile(loss='binary_crossentropy', optimizer=SGD(lr=learning_rate), metrics=['accuracy'])
model.fit(X_train, y_train, validation_data=(X_val, y_val), epochs=num_epochs, batch_size=batch_size) # エポック10, ミニバッチ 10

Train on 64 samples, validate on 16 samples
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<keras.callbacks.callbacks.History at 0x7f88ee0ab6a0>

## 【問題4】Iris（多値分類）をKerasで学習
TensorFlowによるIrisデータセットに対する3値分類をKerasに書き換えてください。

In [12]:
"""
Kerasを使いIrisデータセットを3値分類する
☆重要：他クラス分類はワンホットエンコーディングが必要、n_classesはワンホットした分だけ必要。

"""
from keras.utils import np_utils

# データセットの読み込み
dataset_path ="../Iris.csv"
df = pd.read_csv(dataset_path)
# データフレームから条件抽出
#########変更############
y = df["Species"]
X = df.loc[:, ["SepalLengthCm", "SepalWidthCm", "PetalLengthCm", "PetalWidthCm"]]
y = np.array(y)
X = np.array(X)
# ラベルを数値に変換
#########変更############
y[y=='Iris-setosa'] = 0
y[y=='Iris-versicolor'] = 1
y[y=='Iris-virginica'] = 2
y = y.astype(np.int)[:, np.newaxis]

# kerasメソッドによるOne-hotエンコーディング
y = np_utils.to_categorical(y) # 数値を、位置に変換 [0,1,2] ==> [ [1,0,0],[0,1,0],[0,0,1] ]

# trainとtestに分割
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)
# さらにtrainとvalに分割
X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.2, random_state=0)

In [14]:
# ハイパーパラメータの設定
learning_rate = 0.01
batch_size = 10
num_epochs = 10
n_hidden1 = 32
n_hidden2 = 16
n_input = X_train.shape[1]
n_samples = X_train.shape[0]
n_classes = 3

model2 = Sequential()
model2.add(Dense(input_dim=n_input, units=n_classes))
model2.add(Activation('softmax'))
model2.compile(loss='categorical_crossentropy', optimizer=SGD(lr=learning_rate))
model2.fit(X_train, y_train, epochs=num_epochs, batch_size=batch_size) # エポック10, ミニバッチ 10
pred_model2 = model2.predict_classes(X_test, batch_size=10)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


### 実行できることまで確認

### 2周目として追加学習
- 中間層やaccuracy, valデータを追加

In [15]:
# ハイパーパラメータの設定
learning_rate = 0.01
batch_size = 10
num_epochs = 10
n_hidden1 = 32
n_hidden2 = 16
n_input = X_train.shape[1]
n_samples = X_train.shape[0]
n_classes = 3

K.clear_session()

model2 = Sequential()
model2.add(Dense(n_hidden1, activation='relu', input_dim=n_input))  # 中間層1
model2.add(Dense(n_hidden2, activation='relu'))  # 中間層2
model2.add(Dense(input_dim=n_hidden2, units=n_classes)) # 3値分類
model2.add(Activation('softmax'))
model2.compile(loss='categorical_crossentropy', optimizer=SGD(lr=learning_rate), metrics=['accuracy'])
model2.fit(X_train, y_train, validation_data=(X_val, y_val), epochs=num_epochs, batch_size=batch_size) # エポック10, ミニバッチ 10

Train on 96 samples, validate on 24 samples
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<keras.callbacks.callbacks.History at 0x7f88ed7a8048>

## 【問題5】House PricesをKerasで学習
TensorFlowによるHouse Pricesデータセットに対する回帰をKerasに書き換えてください。

In [16]:
"""
Kerasを使いHouse Priceの回帰問題
"""
# データセットの読み込み
dataset_path ="../train.csv"
df = pd.read_csv(dataset_path)
# データフレームから条件抽出
# データフレームから条件抽出
#########変更############
y = df["SalePrice"]
X = df.loc[:, ["GrLivArea", "YearBuilt"]]
y = np.array(y)
X = np.array(X)
y = y.astype(np.int)[:, np.newaxis]

#正規化
ss = StandardScaler()
ss.fit(X)
X_scaler = ss.transform(X)

# yを対数変換
y_log = np.log(y)

# trainとtestに分割
X_train, X_test, y_train, y_test = train_test_split(X_scaler, y_log, test_size=0.2, random_state=0)
# さらにtrainとvalに分割
X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.2, random_state=0)



In [17]:
# ハイパーパラメータの設定
learning_rate = 0.01
batch_size = 50
num_epochs = 10
n_hidden1 = 50
n_hidden2 = 100
n_input = X_train.shape[1]
n_samples = X_train.shape[0]
n_classes = 1

K.clear_session()

model3 = Sequential()
model3.add(Dense(input_dim=n_input, units=n_classes)) # 入力が4種の特徴、2つに分離
model3.add(Activation('relu'))
model3.compile(loss='mse', optimizer='rmsprop')
model3.fit(X_train, y_train, epochs=num_epochs, batch_size=batch_size) # エポック10, ミニバッチ 50

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<keras.callbacks.callbacks.History at 0x7f88efb29c50>

### 実行できることまで確認

### 2周目として追加学習
- 中間層とvalデータを追加

In [18]:
# ハイパーパラメータの設定
learning_rate = 0.01
batch_size = 50
num_epochs = 10
n_hidden1 = 16
n_hidden2 = 8
n_input = X_train.shape[1]
n_samples = X_train.shape[0]
n_classes = 1

K.clear_session()

model3 = Sequential()
model3.add(Dense(n_hidden1, activation='relu', input_dim=n_input))  # 中間層1
model3.add(Dense(n_hidden2, activation='relu'))  # 中間層2
model3.add(Dense(input_dim=n_hidden2, units=n_classes)) # 3値分類
model3.add(Activation('relu'))
model3.compile(loss='mse', optimizer="rmsprop")
model3.fit(X_train, y_train, validation_data=(X_val, y_val), epochs=num_epochs, batch_size=batch_size) # エポック10, ミニバッチ 50

Train on 934 samples, validate on 234 samples
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<keras.callbacks.callbacks.History at 0x7f88f0904cc0>

## 【問題6】MNISTをKerasで学習
TensorFlowによるMNISTデータセットによる画像の多値分類をKerasに書き換えてください。

In [19]:
# データセットの読み込みから前処理まで
from keras.datasets import mnist
(X_train, y_train), (X_test, y_test) = mnist.load_data()

X_train = X_train.reshape(-1, 784)
X_test = X_test.reshape(-1, 784)

X_train = X_train.astype(np.float)
X_test = X_test.astype(np.float)
X_train /= 255
X_test /= 255

# kerasメソッドによるOne-hotエンコーディング
y_train_one_hot = np_utils.to_categorical(y_train) # 数値を、位置に変換 [0,1,2] ==> [ [1,0,0],[0,1,0],[0,0,1] ]
y_test_one_hot = np_utils.to_categorical(y_test) # 数値を、位置に変換 [0,1,2] ==> [ [1,0,0],[0,1,0],[0,0,1] ]

# さらにtrainとvalに分割
X_train, X_val, y_train_one_hot, y_val_one_hot = train_test_split(X_train, y_train_one_hot, test_size=0.2, random_state=0)
    

In [20]:
# ハイパーパラメータの設定
learning_rate = 0.01
batch_size = 100
num_epochs = 20
n_hidden1 = 400
n_hidden2 = 200
n_input = X_train.shape[1]
n_samples = X_train.shape[0]
n_classes = 10   # One-Hotエンコーディングした分

K.clear_session()

model4 = Sequential()
model4.add(Dense(input_dim=n_input, units=n_classes)) # 入力が4種の特徴、2つに分離
model4.add(Activation('softmax'))
model4.compile(loss='categorical_crossentropy', optimizer='rmsprop')
model4.fit(X_train, y_train_one_hot, epochs=num_epochs, batch_size=batch_size) # エポック20, ミニバッチ 100

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


<keras.callbacks.callbacks.History at 0x7f88d0d18668>

### 実行できることまで確認

### 2周目として追加学習
- 中間層とacc, valデータを追加

In [21]:
# ハイパーパラメータの設定
learning_rate = 0.01
batch_size = 100
num_epochs = 20
n_hidden1 = 400
n_hidden2 = 200
n_input = X_train.shape[1]
n_samples = X_train.shape[0]
n_classes = 10   # One-Hotエンコーディングした分

K.clear_session()

model4 = Sequential()
model4.add(Dense(n_hidden1, activation='relu', input_dim=n_input))  # 中間層1
model4.add(Dense(n_hidden2, activation='relu'))  # 中間層2
model4.add(Dense(input_dim=n_hidden2, units=n_classes)) # 3値分類
model4.add(Activation('softmax'))
model4.compile(loss='categorical_crossentropy', optimizer="rmsprop", metrics=['accuracy'])
model4.fit(X_train, y_train_one_hot, validation_data=(X_val, y_val_one_hot), epochs=num_epochs, batch_size=batch_size) # エポック20, ミニバッチ 100

Train on 48000 samples, validate on 12000 samples
Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


<keras.callbacks.callbacks.History at 0x7f88a762c438>

## 【問題7】（アドバンス課題）PyTorchへの書き換え
4種類の問題をPyTorchに書き換えてください。

## 【問題8】（アドバンス課題）フレームワークの比較
それぞれのフレームワークにはどのような違いがあるかをまとめてください。


《視点例》


- 計算速度
- コードの行数・可読性
- 用意されている機能

### 簡単に調査した内容
- keras
  - 所感) 現段階では個人的にkerasの方が使いやすい印象を持っている。Pytorchの調査量不足もあるが。
  - メリット) 書きやすい。compileやfitなどのメソッドにおいて引数指定で簡単に情報が取得できる点が良い。
  
- pytorch
  - 所感) fitメソッドがないのがsklearnやkerasと比べ劣る。クラスを作らないと走らないのは難しい印象。
  - メリット) numpyに似たメソッドがあるのは良い。実務的に想像するに、どのフレームワークを使っていても、デバック（テスト）環境を作りたい時があるはずで、pytorchはその点が楽。numpyをインストールしていない環境等でもpytorchで一気通貫で実行できそう。
  - デメリット) fitまでのlayer・activation・optimizerなどの構築が大変。