In [1]:
import numpy as np

# 前処理にはsklearnライブラリを使っていきます
from sklearn import preprocessing

# データを読み込みます
raw_csv_data = np.loadtxt('Audiobooks-data.csv',delimiter=',')

# 最初のIDの列と、ターゲットである最後の列を取り除いた上で変数に代入します
unscaled_inputs_all = raw_csv_data[:,1:-1]

# 最後の列のデータをターゲットとして変数に代入していきます
targets_all = raw_csv_data[:,-1]

In [2]:
targets_all.shape

(14084,)

In [3]:
# ターゲットの数を数えます
num_one_targets = int(np.sum(targets_all))

# 数を数えるための変数を定義します
zero_targets_counter = 0

# バランスを取る上で不要なデータを入れるためのリストを定義します
indices_to_remove = []

# ターゲットの数を数え、その数を超える0のデータがあった場合はリストにその値をいれていきます
for i in range(targets_all.shape[0]):
    if targets_all[i] == 0:
        zero_targets_counter += 1
        if zero_targets_counter > num_one_targets:
            indices_to_remove.append(i)

# 入力とターゲットを入れるための変数を定義します
# また、バランスが取れていないデータを削除していきます
unscaled_inputs_equal_priors = np.delete(unscaled_inputs_all, indices_to_remove, axis=0)
targets_equal_priors = np.delete(targets_all, indices_to_remove, axis=0)

In [4]:
num_one_targets

2237

In [5]:
scaled_inputs = preprocessing.scale(unscaled_inputs_equal_priors)


In [6]:
# データをバッチに分けていくことから、何らかの規則性が生まれないようにデータをシャッフルしていきます
shuffled_indices = np.arange(scaled_inputs.shape[0])
np.random.shuffle(shuffled_indices)

# シャッフルしたデータを変数に入れていきます
shuffled_inputs = scaled_inputs[shuffled_indices]
shuffled_targets = targets_equal_priors[shuffled_indices]




In [7]:
# データの数を数えます
samples_count = shuffled_inputs.shape[0]

# 80-10-10に分けることを前提として、訓練用と検証用のデータの数を定義していきます
# Naturally, the numbers are integers.
train_samples_count = int(0.8 * samples_count)
validation_samples_count = int(0.1 * samples_count)

# テスト用のデータの数を定義します
test_samples_count = samples_count - train_samples_count - validation_samples_count

# 訓練用データを作成します
train_inputs = shuffled_inputs[:train_samples_count]
train_targets = shuffled_targets[:train_samples_count]

# 検証用データを作成します
validation_inputs = shuffled_inputs[train_samples_count:train_samples_count+validation_samples_count]
validation_targets = shuffled_targets[train_samples_count:train_samples_count+validation_samples_count]

# テスト用データを作成します
test_inputs = shuffled_inputs[train_samples_count+validation_samples_count:]
test_targets = shuffled_targets[train_samples_count+validation_samples_count:]


# 作成したデータの中の１と０の割合を確認します
print(np.sum(train_targets), train_samples_count, np.sum(train_targets) / train_samples_count)
print(np.sum(validation_targets), validation_samples_count, np.sum(validation_targets) / validation_samples_count)
print(np.sum(test_targets), test_samples_count, np.sum(test_targets) / test_samples_count)

1802.0 3579 0.5034925956971221
208.0 447 0.465324384787472
227.0 448 0.5066964285714286


In [8]:
# Ssavezメソッドを使ってデータを保存していきます
np.savez('Audiobooks_data_train', inputs=train_inputs, targets=train_targets)
np.savez('Audiobooks_data_validation', inputs=validation_inputs, targets=validation_targets)
np.savez('Audiobooks_data_test', inputs=test_inputs, targets=test_targets)

In [9]:
# 新たに一からコードを書いていきますので、再度ライブラリをインポートします
import numpy as np
import tensorflow as tf

In [10]:
# まずは訓練データを一時的に読み込みます
npz = np.load('Audiobooks_data_train.npz')

# 訓練用のデータを入力とターゲットに分けて変数に代入していきます
train_inputs = npz['inputs'].astype(np.float)
train_targets = npz['targets'].astype(np.int)

# 検証用データを一時的に読み込みます
npz = np.load('Audiobooks_data_validation.npz')
# 訓練用のデータを入力とターゲットに分けて変数に代入していきます
validation_inputs, validation_targets = npz['inputs'].astype(np.float), npz['targets'].astype(np.int)

# テストデータを一時的に読み込みます
npz = np.load('Audiobooks_data_test.npz')
# テスト用のデータを入力とターゲットに分けて変数に代入していきます
test_inputs, test_targets = npz['inputs'].astype(np.float), npz['targets'].astype(np.int)

Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  train_inputs = npz['inputs'].astype(np.float)
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  train_targets = npz['targets'].astype(np.int)
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  validation_inputs, validation_targets = npz['inputs'].astype(np.float), npz['targets'].astype(np.int)
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  validation_inputs, validation_targets = npz['inputs'].astype(np.float), npz['targets'].astype(np.int)
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  test_inputs, test_targets = npz['inputs'].astype(np.float), npz['targets'].astype(np

In [36]:
# 入力の数と出力の数を定義します
input_size = 10
output_size = 2
# 隠れ層のユニットの数を定義します
hidden_layer_size = 30
    
# モデルを作成していきます
model = tf.keras.Sequential([
    tf.keras.layers.Dense(hidden_layer_size, activation='relu'), # 1番目の隠れ層
    tf.keras.layers.Dense(hidden_layer_size, activation='relu'), # 2番目の隠れ層
    tf.keras.layers.Dense(hidden_layer_size, activation='relu'), # 3番目の隠れ層
     tf.keras.layers.Dense(hidden_layer_size, activation='relu'), # 4番目の隠れ層
   
    tf.keras.layers.Dense(output_size, activation='softmax') # 出力層
])


# 損失関数と最適化アルゴリズムを定義していきます
model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

### 訓練

# バッチサイズの設定
batch_size = 100

# 繰り返し回数の設定
max_epochs = 100

early_stopping = tf.keras.callbacks.EarlyStopping(patience=2)
# モデルにデータを入れていきます
model.fit(train_inputs, # 訓練データの入力
          train_targets, # 訓練データのターゲット
          batch_size=batch_size, # バッチサイズ
          epochs=max_epochs, # 繰り返し回数
            callbacks=[early_stopping], # アーリーストッピング
          validation_data=(validation_inputs, validation_targets), # 検証データの指定
          verbose = 2 # 結果の見た目を変更
          )  

Epoch 1/100
36/36 - 0s - loss: 0.6558 - accuracy: 0.6301 - val_loss: 0.6271 - val_accuracy: 0.6510
Epoch 2/100
36/36 - 0s - loss: 0.5236 - accuracy: 0.7513 - val_loss: 0.5024 - val_accuracy: 0.7360
Epoch 3/100
36/36 - 0s - loss: 0.4254 - accuracy: 0.7751 - val_loss: 0.4372 - val_accuracy: 0.7450
Epoch 4/100
36/36 - 0s - loss: 0.3884 - accuracy: 0.7918 - val_loss: 0.4194 - val_accuracy: 0.7696
Epoch 5/100
36/36 - 0s - loss: 0.3689 - accuracy: 0.7921 - val_loss: 0.3913 - val_accuracy: 0.7808
Epoch 6/100
36/36 - 0s - loss: 0.3568 - accuracy: 0.8083 - val_loss: 0.3894 - val_accuracy: 0.7606
Epoch 7/100
36/36 - 0s - loss: 0.3518 - accuracy: 0.8058 - val_loss: 0.3858 - val_accuracy: 0.7763
Epoch 8/100
36/36 - 0s - loss: 0.3452 - accuracy: 0.8167 - val_loss: 0.3738 - val_accuracy: 0.7875
Epoch 9/100
36/36 - 0s - loss: 0.3396 - accuracy: 0.8217 - val_loss: 0.3685 - val_accuracy: 0.7852
Epoch 10/100
36/36 - 0s - loss: 0.3386 - accuracy: 0.8198 - val_loss: 0.3682 - val_accuracy: 0.7964
Epoch 11/

<tensorflow.python.keras.callbacks.History at 0x1c088f3fb20>

In [32]:
test_loss,test_accuracy=model.evaluate(test_inputs,test_targets)



In [33]:
print('\nTest loss: {0:.2f}. Test accuracy: {1:.2f}%'.format(test_loss, test_accuracy*100.))


Test loss: 0.32. Test accuracy: 82.37%
