# CNNによる銀河の画像の分類


Googleドライブをマウントする

In [None]:
from google.colab import drive
drive.mount('/content/drive')

必要なライブラリを読み込む

In [None]:
%matplotlib inline
!pip install japanize-matplotlib


from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Conv2D, MaxPooling2D, Dropout, Flatten, Dense
from tensorflow.keras.utils import to_categorical
import numpy as np
import matplotlib.pyplot as plt
import japanize_matplotlib


## csvファイルの読み込み

画像ファイルのリストが記録されているcsvファイルを読み込む

In [None]:
import pandas as pd

# 画像ファイルを保存したgoogleドライブのフォルダを指定
# 自分の環境に合わせて書き換えること
dir_path = '/content/drive/MyDrive/galaxy_data/'


# 訓練用データのcsvファイルをデータフレームとして読み込む
df_train = pd.read_csv(dir_path + 'galaxy_train.csv')

# テスト用データのcsvファイルをデータフレームとして読み込む
df_test = pd.read_csv(dir_path + 'galaxy_test.csv')


訓練用データのcsvファイルの内容を表示する

In [None]:
df_train

テスト用データのcsvファイルの内容を表示する

In [None]:
df_test

## 画像データの読み込み


In [None]:
from keras.preprocessing.image import load_img, img_to_array
import matplotlib.pyplot as plt


# 訓練用画像の枚数
num_images_train = len(df_train)

# テスト用画像の枚数
num_images_test = len(df_test)


#-------------------------------------------
# 訓練用画像の読み込み
#-------------------------------------------

# データフレームをリストに変換
file_list = df_train.values.tolist()

# 訓練用データの全てのの画像を保存するための多次元配列を作成
x_train = np.zeros((num_images_train, 128, 128, 3))

# 訓練用データの全ての正解ラベルを保存するための配列を作成
y_train = np.zeros((num_images_train), dtype=int)


for i in range(num_images_train) :

  # 画像データのファイル名
  fname = dir_path + file_list[i][0]

  # 画像ファイルの読み込み
  img = load_img(fname)

  # 画像データを配列に変換
  img = img_to_array(img)

  # 画素値が0から1の範囲に収まるように正規化する
  img = img / 255.0

  # 訓練用データ全体を保存するための配列に代入
  x_train[i] = img
  y_train[i] = int(file_list[i][1])


#-------------------------------------------
# テスト用画像の読み込み
#-------------------------------------------

# データフレームをリストに変換
file_list = df_test.values.tolist()

# テスト用データの全てのの画像を保存するための多次元配列を作成
x_test = np.zeros((num_images_test, 128, 128, 3))

# テスト用データの全ての正解ラベルを保存するための配列を作成
y_test = np.zeros((num_images_test), dtype=int)


for i in range(num_images_test) :

  # 画像データのファイル名
  fname = dir_path + file_list[i][0]

  # 画像ファイルの読み込み
  img = load_img(fname)

  # 画像データを配列に変換
  img = img_to_array(img)

  # 画素値が0から1の範囲に収まるように正規化する
  img = img / 255.0

  # テスト用データ全体を保存するための配列に代入
  x_test[i] = img
  y_test[i] = int(file_list[i][1])



画像の枚数と画素数を表示する

In [None]:
print("訓練用画像の枚数、画素数、チャンネル数")
print(x_train.shape)

print()

print("テスト用画像の枚数、画素数、チャンネル数")
print(x_test.shape)


## 訓練用画像の表示

In [None]:
fig = plt.figure(figsize= (20,10))


for i in range(0,15):

  ax = fig.add_subplot(3, 5, i+1)

  ax.set_title("正解ラベル" + str(y_train[i]))

  ax.imshow(x_train[i])

fig.tight_layout()

plt.show()

## モデルの作成

In [None]:
from tensorflow.keras.models import Sequential

# sequentialモデルの作成
model = Sequential()

## モデルへニューロンの層を追加

In [None]:
# 追加する層をインポートしておく
from tensorflow.keras.layers import Dense, Dropout, Flatten, Conv2D, MaxPooling2D

#--------------------------------------------------------
#  一組目の畳み込み層と最大値プーリング層の組み合わせ
#--------------------------------------------------------

# 講義資料を参考にし、抜けている部分を自分で書き足しなさい

# 畳み込み層の追加(フィルター数32)
model.add(                     )

# 畳み込み層の追加(フィルター数64)
model.add(                     )

# 最大値プーリング層の追加
model.add(                     )


#--------------------------------------------------------
#  二組目の畳み込み層と最大値プーリング層の組み合わせ
#--------------------------------------------------------

# 講義資料を参考にし、抜けている部分を自分で書き足しなさい

# 畳み込み層の追加(フィルター数32)
model.add(                      )

# 畳み込み層の追加(フィルター数64)
model.add(                     )

# 最大値プーリング層の追加
model.add(                     )



#--------------------------------------------------------
#  畳み込み層と最大値プーリング層以外の層を追加
#--------------------------------------------------------

# ドロップアウト層の追加
model.add(Dropout(0.25))

# Flatten層の追加
# 特徴量マップを1次元配列に変換する
model.add(Flatten())

# Dense層の追加
model.add(Dense(units=128, activation='relu'))

# ドロップアウト層の追加
model.add(Dropout(0.25))

# 出力層の追加
# 講義資料を参考にし、抜けている部分を自分で書き足しなさい
model.add(                 )

モデルの概要を表示する

In [None]:
model.summary()

## モデルのコンパイル

In [None]:
# モデルのコンパイル
# 評価指標として正解率を用いる
# 講義資料を参考にし、抜けている部分を自分で書き足しなさい

model.compile(                    )

## 学習の実行

In [None]:
epochs = 10

# 講義資料を参考にし、抜けている部分を自分で書き足しなさい
results = model.fit(              )


## 学習履歴の可視化

In [None]:

# 学習のエポック数のリストを生成
epo = range(1, epochs+1)


#------------------------------
# 損失関数のグラフを表示
#------------------------------

fig = plt.figure()
ax = fig.add_subplot(111)

ax.set_xlabel("エポック")
ax.set_ylabel("loss")


ax.set_xlim(0,epochs + 1)
ax.set_ylim(0,1.5)



# 訓練用データでの損失関数のグラフ
ax.plot(epo, results.history["loss"], label="訓練用データ")

# テスト用データでの損失関数のグラフ
ax.plot(epo, results.history["val_loss"], label="テスト用データ")

ax.legend()

plt.show()


#------------------------------
# 正解率のグラフを表示
#------------------------------


fig = plt.figure()
ax = fig.add_subplot(111)

ax.set_xlabel("エポック")
ax.set_ylabel("accuracy")

ax.set_xlim(0,epochs + 1)
ax.set_ylim(0,1)


# 訓練用データでの正解率のグラフ
ax.plot(epo, results.history["accuracy"], label="訓練用データ")

# テスト用データでの正解率のグラフ
ax.plot(epo, results.history["val_accuracy"], label="テスト用データ")

ax.legend()

plt.show()




## 学習済みモデルを用いた予測

In [None]:
# テストデータに対する予測
# 講義資料を参考にし、抜けている部分を自分で書き足しなさい
y_pred =


# 予測値の最初のいくつかを表示
print("予測結果の一部を表示")
print(y_pred[0:4])

print()

# 四捨五入してラベルを0か1に変換
predicted_label = np.round(y_pred)


print("予測したラベルの一部を表示")
print(predicted_label[0:4])

In [None]:
fig = plt.figure(figsize= (20,10))

class_names = ["渦巻銀河", "楕円銀河"]

for i in range(0,15):

  ax = fig.add_subplot(3, 5, i+1)

  ax.set_title("モデルの予測  " + class_names[int(predicted_label[i][0])] + "\n" \
               + "実際の分類  " + class_names[y_test[i]])

  ax.imshow(x_test[i])

fig.tight_layout()

plt.show()

## 混同行列の表示

In [None]:
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay


# 混同行列の計算
cm = confusion_matrix(y_test, predicted_label)

# 混同行列のヒートマップを作成
disp = ConfusionMatrixDisplay(confusion_matrix=cm)


disp.plot()

plt.show()