In [1]:
import tensorflow as tf
from tensorflow import keras
import os, glob
import numpy as np
from PIL import Image

from sklearn.model_selection import train_test_split
from sklearn.model_selection import StratifiedKFold

Data sets used for this project:
- smallest dataset: 300 images (100 images/class) (/r_s_p/)
- mid-sized dataset: 7092 images (about 2500 images/class) (/hjs/test) 
- largest dataset: 300 images ( ??? images/class) (/r_c_p_3000)

#### PREPROCESSING

In [2]:
def resize_images(img_path):
    images=glob.glob(img_path + "/*.jpg")  
    
    # 파일마다 모두 28x28 사이즈로 바꾸어 저장합니다.
    target_size=(28,28)
    count=0
    for img in images:
        old_img=Image.open(img)
        
        if np.shape(old_img)[:-1] != target_size:
#             print('np.shape(old_img)[:1] ', np.shape(old_img)[:1], 'target_size ', target_size)
            new_img=old_img.resize(target_size,Image.ANTIALIAS)
            new_img.save(img, "JPEG")
            count +=1
    print(len(images), " images checked.")
    print(count, " images resized.")    

In [3]:
def load_data(img_path, number_of_data):  # 가위바위보 이미지 개수 총합에 주의하세요.  
    # 가위 : 0, 바위 : 1, 보 : 2
    img_size=28
    color=3
    #이미지 데이터와 라벨(가위 : 0, 바위 : 1, 보 : 2) 데이터를 담을 행렬(matrix) 영역을 생성합니다.
    imgs=np.zeros(number_of_data*img_size*img_size*color,dtype=np.int32).reshape(number_of_data,img_size,img_size,color)
    labels=np.zeros(number_of_data,dtype=np.int32)

    idx=0
    for file in glob.iglob(img_path+'/scissor/*.jpg'):
        img = np.array(Image.open(file),dtype=np.int32)
        imgs[idx,:,:,:]=img    # 데이터 영역에 이미지 행렬을 복사
        labels[idx]=0   # 가위 : 0
        idx=idx+1

    for file in glob.iglob(img_path+'/rock/*.jpg'):
        img = np.array(Image.open(file),dtype=np.int32)
        imgs[idx,:,:,:]=img    # 데이터 영역에 이미지 행렬을 복사
        labels[idx]=1   # 바위 : 1
        idx=idx+1  
    
    for file in glob.iglob(img_path+'/paper/*.jpg'):
        img = np.array(Image.open(file),dtype=np.int32)
        imgs[idx,:,:,:]=img    # 데이터 영역에 이미지 행렬을 복사
        labels[idx]=2   # 보 : 2
        idx=idx+1
        
    return imgs, labels, idx

In [4]:
## RESIZE TRAINING DATA
classes= ['rock', 'scissor', 'paper'] ## 3 classes for this project
# 각 클래스 별로 이미지가 저장된 디렉토리 아래의 모든 jpg 파일을 읽어들이고, resize 가 필요한 파일에 대하여 resize 진행
for class_name in classes:
    image_dir_path = os.getenv("HOME") + "/aiffel/rock_scissor_paper/rock_scissor_paper/" + class_name
    resize_images(image_dir_path)

    print(class_name, " resizing DONE!")

3100  images checked.
0  images resized.
rock  resizing DONE!
3100  images checked.
0  images resized.
scissor  resizing DONE!
3100  images checked.
0  images resized.
paper  resizing DONE!


#### Load SEPARATE test dataset (Extra data from LMS)

In [5]:
classes= ['rock', 'scissor', 'paper']
for class_name in classes:
    image_dir_path = os.getenv("HOME") + "/aiffel/rock_scissor_paper/hjs/test/" + class_name
    resize_images(image_dir_path)

    print(class_name, " resizing DONE!")

image_dir_path = os.getenv("HOME") + "/aiffel/rock_scissor_paper/hjs/test"
(test_data, test_label, idx)=load_data(image_dir_path, 600)
test_data_norm = test_data/255.0   # 입력은 0~1 사이의 값으로 정규화
print("테스트 데이터(x_test)의 이미지 개수는", idx,"입니다.")

200  images checked.
0  images resized.
rock  resizing DONE!
200  images checked.
0  images resized.
scissor  resizing DONE!
200  images checked.
0  images resized.
paper  resizing DONE!
테스트 데이터(x_test)의 이미지 개수는 600 입니다.


#### BUILD MODELS

###### Set hyper-parameters

In [6]:
n_channel_1=128
n_channel_2=246
n_channel_3=512
n_dense=32
n_train_epoch=10

In [7]:
# build model with two convolution layers

model2=keras.models.Sequential()
model2.add(keras.layers.Conv2D(n_channel_1, (3,3), activation='relu', input_shape=(28,28,3)))
model2.add(keras.layers.MaxPool2D(2,2))
model2.add(keras.layers.Conv2D(n_channel_2, (3,3), activation='relu'))
model2.add(keras.layers.MaxPooling2D((2,2)))
model2.add(keras.layers.Flatten())
model2.add(keras.layers.Dense(n_dense, activation='relu'))
model2.add(keras.layers.Dense(3, activation='softmax'))

model2.summary()

Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
conv2d (Conv2D)              (None, 26, 26, 128)       3584      
_________________________________________________________________
max_pooling2d (MaxPooling2D) (None, 13, 13, 128)       0         
_________________________________________________________________
conv2d_1 (Conv2D)            (None, 11, 11, 246)       283638    
_________________________________________________________________
max_pooling2d_1 (MaxPooling2 (None, 5, 5, 246)         0         
_________________________________________________________________
flatten (Flatten)            (None, 6150)              0         
_________________________________________________________________
dense (Dense)                (None, 32)                196832    
_________________________________________________________________
dense_1 (Dense)              (None, 3)                 9

In [8]:
# build model with three convolution layers

model3=keras.models.Sequential()
model3.add(keras.layers.Conv2D(n_channel_1, (3,3), activation='relu', input_shape=(28,28,3)))
model3.add(keras.layers.MaxPool2D(2,2))
model3.add(keras.layers.Conv2D(n_channel_2, (3,3), activation='relu'))
model3.add(keras.layers.MaxPooling2D((2,2)))
model3.add(keras.layers.Conv2D(n_channel_3, (3,3), activation='relu'))
model3.add(keras.layers.MaxPooling2D((2,2)))
model3.add(keras.layers.Flatten())
model3.add(keras.layers.Dense(n_dense, activation='relu'))
model3.add(keras.layers.Dense(3, activation='softmax'))

model3.summary()

Model: "sequential_1"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
conv2d_2 (Conv2D)            (None, 26, 26, 128)       3584      
_________________________________________________________________
max_pooling2d_2 (MaxPooling2 (None, 13, 13, 128)       0         
_________________________________________________________________
conv2d_3 (Conv2D)            (None, 11, 11, 246)       283638    
_________________________________________________________________
max_pooling2d_3 (MaxPooling2 (None, 5, 5, 246)         0         
_________________________________________________________________
conv2d_4 (Conv2D)            (None, 3, 3, 512)         1134080   
_________________________________________________________________
max_pooling2d_4 (MaxPooling2 (None, 1, 1, 512)         0         
_________________________________________________________________
flatten_1 (Flatten)          (None, 512)              

In [9]:
# build model with four convolution layers

model4=keras.models.Sequential()
model4.add(keras.layers.Conv2D(n_channel_1, (3,3), activation='relu', input_shape=(28,28,3)))
model4.add(keras.layers.Conv2D(n_channel_2, (3,3), activation='relu'))
model4.add(keras.layers.MaxPool2D(2,2))
model4.add(keras.layers.Conv2D(n_channel_3, (3,3), activation='relu'))
model4.add(keras.layers.Conv2D(n_channel_3, (3,3), activation='relu'))
model4.add(keras.layers.MaxPooling2D((2,2)))
model4.add(keras.layers.Flatten())
model4.add(keras.layers.Dense(n_dense, activation='relu'))
model4.add(keras.layers.Dense(3, activation='softmax'))

model4.summary()

Model: "sequential_2"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
conv2d_5 (Conv2D)            (None, 26, 26, 128)       3584      
_________________________________________________________________
conv2d_6 (Conv2D)            (None, 24, 24, 246)       283638    
_________________________________________________________________
max_pooling2d_5 (MaxPooling2 (None, 12, 12, 246)       0         
_________________________________________________________________
conv2d_7 (Conv2D)            (None, 10, 10, 512)       1134080   
_________________________________________________________________
conv2d_8 (Conv2D)            (None, 8, 8, 512)         2359808   
_________________________________________________________________
max_pooling2d_6 (MaxPooling2 (None, 4, 4, 512)         0         
_________________________________________________________________
flatten_2 (Flatten)          (None, 8192)             

## using 300 imgs (my own imgs)


In [10]:
# 300 imgs Load data and generate x_train & y_train dataset
image_dir_path = os.getenv("HOME") + "/aiffel/rock_scissor_paper/hjs"
(data, label, idx)=load_data(image_dir_path, 300)

# 입력은 0~1 사이의 값으로 정규화
data_norm = data/255.0

X_train, X_test, y_train, y_test = train_test_split(data_norm, label, test_size=0.2, random_state= 0)

print("총 데이터 이미지 개수는", idx,"입니다.")
print("학습 데이터(x_train)의 이미지 개수는", len(X_train),"입니다.")

총 데이터 이미지 개수는 300 입니다.
학습 데이터(x_train)의 이미지 개수는 240 입니다.


### Training

In [11]:
######### 300 training imgs & model2
model2.compile(optimizer='adam',
                 loss= 'sparse_categorical_crossentropy',
                 metrics=['accuracy'])
model2.fit(X_train, y_train, epochs= n_train_epoch)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<tensorflow.python.keras.callbacks.History at 0x7f8afc871f90>

In [12]:
######### 300 training imgs & model3
model3.compile(optimizer='adam',
                 loss= 'sparse_categorical_crossentropy',
                 metrics=['accuracy'])
model3.fit(X_train, y_train, epochs= n_train_epoch)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<tensorflow.python.keras.callbacks.History at 0x7f8afc385090>

In [13]:
######### 300 training imgs & model4
model4.compile(optimizer='adam',
                 loss= 'sparse_categorical_crossentropy',
                 metrics=['accuracy'])
model4.fit(data, label, epochs= n_train_epoch)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<tensorflow.python.keras.callbacks.History at 0x7f8b79d95410>

### Test

In [14]:
# split data & model2
test_loss, test_accuracy= model2.evaluate(X_test, y_test)



In [15]:
# split data & model3
test_loss, test_accuracy= model3.evaluate(X_test, y_test)



In [16]:
# split data & model4
test_loss, test_accuracy= model4.evaluate(X_test, y_test)



In [17]:
# Load test dataset (Extra data from LMS)
image_dir_path = os.getenv("HOME") + "/aiffel/rock_scissor_paper/hjs/test"
(test_data, test_label, idx)=load_data(image_dir_path, 600)
test_data_norm = test_data/255.0   # 입력은 0~1 사이의 값으로 정규화
print("테스트 데이터(x_test)의 이미지 개수는", idx,"입니다.")

테스트 데이터(x_test)의 이미지 개수는 600 입니다.


In [18]:
# separate data & model2
test_loss, test_accuracy= model2.evaluate(test_data, test_label)



In [19]:
# separate data & model3
test_loss, test_accuracy= model3.evaluate(test_data, test_label)



In [20]:
# separate data & model4
test_loss, test_accuracy= model4.evaluate(test_data, test_label)



# using 7092 imgs

In [21]:
# 7092 imgs load data and generate x_train & y_train dataset
image_dir_path = os.getenv("HOME") + "/aiffel/rock_scissor_paper"
(x_tr, y_tr, idx)=load_data(image_dir_path, 7092)

x_tr_norm = x_tr/255.0   # 입력은 0~1 사이의 값으로 정규화


X_train, X_test, y_train, y_test = train_test_split(x_tr_norm, y_tr, test_size=0.2, random_state= 0)

print("총 데이터 이미지 개수는", idx,"입니다.")
print("학습 데이터(x_train)의 이미지 개수는", len(X_train),"입니다.")

총 데이터 이미지 개수는 7092 입니다.
학습 데이터(x_train)의 이미지 개수는 5673 입니다.


In [22]:
# Load test dataset
image_dir_path = os.getenv("HOME") + "/aiffel/rock_scissor_paper/hjs/test"
(test_data, test_label, idx)=load_data(image_dir_path, 600)
test_data_norm = test_data/255.0   # 입력은 0~1 사이의 값으로 정규화
print("테스트 데이터(x_trest)의 이미지 개수는", idx,"입니다.")

테스트 데이터(x_trest)의 이미지 개수는 600 입니다.


### Training

In [23]:
######### 7092 training imgs & model2
model2.compile(optimizer='adam',
                 loss= 'sparse_categorical_crossentropy',
                 metrics=['accuracy'])
model2.fit(X_train, y_train, epochs= n_train_epoch)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<tensorflow.python.keras.callbacks.History at 0x7f8b79000dd0>

In [24]:
######### 7092 training imgs & model3
model3.compile(optimizer='adam',
                 loss= 'sparse_categorical_crossentropy',
                 metrics=['accuracy'])
model3.fit(X_train, y_train, epochs= n_train_epoch)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<tensorflow.python.keras.callbacks.History at 0x7f8b78eec610>

In [25]:
######### 7092 training imgs & model4
model4.compile(optimizer='adam',
                 loss= 'sparse_categorical_crossentropy',
                 metrics=['accuracy'])
model4.fit(X_train, y_train, epochs= n_train_epoch)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<tensorflow.python.keras.callbacks.History at 0x7f8b78e11550>

## Test

In [26]:
# split data & model2
test_loss, test_accuracy= model2.evaluate(X_test, y_test)
print("test_loss: {} ".format(test_loss))
print("test_accuracy: {}".format(test_accuracy))

test_loss: 0.12056318670511246 
test_accuracy: 0.9591261744499207


In [27]:
# split data & model3
test_loss, test_accuracy= model3.evaluate(X_test, y_test)



In [28]:
# split data & model4
test_loss, test_accuracy= model4.evaluate(X_test, y_test)



In [29]:
# separate data & model2
test_loss, test_accuracy= model2.evaluate(test_data, test_label)



In [30]:
# separate data & model3
test_loss, test_accuracy= model3.evaluate(test_data, test_label)



In [31]:
# separate data & model4
test_loss, test_accuracy= model4.evaluate(test_data, test_label)



### 16392   DATA

In [32]:
## 16392  imgs load data and generate x_train & y_train dataset
image_dir_path = os.getenv("HOME") + "/aiffel/rock_scissor_paper"
(x_tr, y_tr, idx)=load_data(image_dir_path, 7092)

image_dir_path = os.getenv("HOME") + "/aiffel/rock_scissor_paper/rock_scissor_paper/" + class_name
(x_tr_1, y_tr_1, idx)=load_data(image_dir_path, 9300)

x_tr_data= np.vstack((x_tr, x_tr_1)) ## total 13113 images
y_tr_data= np.append(y_tr, y_tr_1)

x_tr_data_norm = x_tr_data/255.0   # 입력은 0~1 사이의 값으로 정규화

X_train, X_test, y_train, y_test = train_test_split(x_tr_data_norm, y_tr_data, test_size=0.2, random_state= 0)

print("총 데이터 이미지 개수는", len(y_tr_data) ,"입니다.")
print("학습 데이터(x_train)의 이미지 개수는", len(X_train),"입니다.")
print("test 데이터(x_test)의 이미지 개수는", len(X_test),"입니다.")

총 데이터 이미지 개수는 16392 입니다.
학습 데이터(x_train)의 이미지 개수는 13113 입니다.
test 데이터(x_test)의 이미지 개수는 3279 입니다.


In [33]:
# Load test dataset
image_dir_path = os.getenv("HOME") + "/aiffel/rock_scissor_paper/hjs/test"
(test_data, test_label, idx)=load_data(image_dir_path, 600)
test_data_norm = test_data/255.0   # 입력은 0~1 사이의 값으로 정규화
print("테스트 데이터(x_trest)의 이미지 개수는", idx,"입니다.")

테스트 데이터(x_trest)의 이미지 개수는 600 입니다.


### Training

In [34]:
######### 16392 training imgs & model2
model2.compile(optimizer='adam',
                 loss= 'sparse_categorical_crossentropy',
                 metrics=['accuracy'])
model2.fit(X_train, y_train, epochs= n_train_epoch)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<tensorflow.python.keras.callbacks.History at 0x7f8b78b2f3d0>

In [35]:
######### 16392 training imgs & model3
model3.compile(optimizer='adam',
                 loss= 'sparse_categorical_crossentropy',
                 metrics=['accuracy'])
model3.fit(X_train, y_train, epochs= n_train_epoch)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<tensorflow.python.keras.callbacks.History at 0x7f8b1c1e1e90>

In [36]:
######### 16392 training imgs & model4
model4.compile(optimizer='adam',
                 loss= 'sparse_categorical_crossentropy',
                 metrics=['accuracy'])
model4.fit(X_train, y_train, epochs= n_train_epoch)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<tensorflow.python.keras.callbacks.History at 0x7f8b1c0dc590>

## Test

In [37]:
# split data & model2
test_loss, test_accuracy= model2.evaluate(X_test, y_test)



In [38]:
# split data & model3
test_loss, test_accuracy= model3.evaluate(X_test, y_test)



In [39]:
# split data & model4
test_loss, test_accuracy= model4.evaluate(X_test, y_test)



In [40]:
# separate data & model2
test_loss, test_accuracy= model2.evaluate(test_data, test_label)



In [41]:
# separate data & model3
test_loss, test_accuracy= model3.evaluate(test_data, test_label)



In [42]:
# separate data & model4
test_loss, test_accuracy= model4.evaluate(test_data, test_label)



## 7092 raw data (not normalized)

In [43]:
### 정규화 하지 않은 데이터 생성
X_train, X_test, y_train, y_test = train_test_split(x_tr, y_tr, test_size=0.2, random_state= 0)

print("학습 데이터(x_train)의 이미지 개수는", len(X_train),"입니다.")

# SEPARATE test dataset 도 정규화 하지 않은 데이터 생성
image_dir_path = os.getenv("HOME") + "/aiffel/rock_scissor_paper/hjs/test"
(test_data, test_label, idx)=load_data(image_dir_path, 600)
print("테스트 데이터(x_trest)의 이미지 개수는", idx,"입니다.")

학습 데이터(x_train)의 이미지 개수는 5673 입니다.
테스트 데이터(x_trest)의 이미지 개수는 600 입니다.


In [44]:
model2.compile(optimizer='adam',
                 loss= 'sparse_categorical_crossentropy',
                 metrics=['accuracy'])
model2.fit(x_tr, y_tr, epochs= 10)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<tensorflow.python.keras.callbacks.History at 0x7f8b1bf792d0>

In [45]:
######### 7092 training imgs - not normalized
model3.compile(optimizer='adam',
                 loss= 'sparse_categorical_crossentropy',
                 metrics=['accuracy'])
model3.fit(x_tr, y_tr, epochs= 10)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<tensorflow.python.keras.callbacks.History at 0x7f8affc38350>

In [46]:
######### 7092 training imgs - not normalized
model4.compile(optimizer='adam',
                 loss= 'sparse_categorical_crossentropy',
                 metrics=['accuracy'])
model4.fit(x_tr, y_tr, epochs= 10)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<tensorflow.python.keras.callbacks.History at 0x7f8affb5f3d0>

In [47]:
# split data & model2
test_loss, test_accuracy= model2.evaluate(X_test, y_test)



In [48]:
# split data & model3
test_loss, test_accuracy= model3.evaluate(X_test, y_test)



In [49]:
# split data & model4
test_loss, test_accuracy= model4.evaluate(X_test, y_test)



In [50]:
# separate data & model2
test_loss, test_accuracy= model2.evaluate(test_data, test_label)



In [51]:
# separate data & model3
test_loss, test_accuracy= model3.evaluate(test_data, test_label)



In [52]:
# separate data & model4
test_loss, test_accuracy= model4.evaluate(test_data, test_label)



### 회고

#### Dataset
- 가위, 바위, 보 3가지의 클래스를 분류하는 모델에 대하여, 3가지 종류의 데이터를 사용하여 각각 학습하였다. 
- Training Dataset: 
    각 데이터셋은 이미지 갯수에 차이가 있으며, 중복된 데이터가 있을 가능성이 있다.
    - smallest dataset: 300 images: 내가 찍은 각 100장, 총 300장의 이미지를 사용하였다.
    - mid-sized dataset: 7092 images: 각 학생들이 올려 공유한 데이터 중 일부를 통합하여 사용하였다.
    - largest dataset: 16392 images: 모든 사람들이 올리고 공유한 모든 데이터를 통합하여 사용하였다.
- Test Dataset:
    전체 데이터를 training & test dataset 으로 나누어 test data을 확보하였으나, 여기서 확보한 test dataset 은 사실 이미지를 얻는 과정에서 웹캠이 빠른 속도로 찍으면서 중복되거나 아주 비슷한 이미지가 여러개 있을 가능성이 있으므로 training data 와 중복된 데이터가 포함될 가능성이 높다.
    학습 된 모델의 실제 성능을 검증하기 위해서는 모델이 보지 못한 데이터로 테스트 하는것이 원칙이므로, 이 데이터셋 으로는 제대로 된 성능을 검증하기 어려울 수 있다고 판단하여 training data 에 사용하지 않은 새로운 데이터셋을 테스트 데이터셋으로 사용하였다.(이 때에는 LMS sample 에서 얻은 각 클래스별로 200장, 총 600장의 데이터셋을 사용하였다.)
    - 아래 결과 테이블 에서는 split 하여 얻은 test data와 LMS sample 에서 얻은 test data 두가지로 나누어 시험한 것을 볼 수 있다.
    
    
#### Preprocessing
- 모든 이미지를 28x28x3 으로 resize 하여 사용하였다.
- 모든 이미지를 255 로 나누어 normalize 하여 사용하였다.


#### Hyperparameter
- 컨볼루션 레이어의 갯수를 2, 3, 4 로 키워 학습시켜보았으며, 각 컨볼루션 레이어의 hyperparameter 를 128, 64, 32, 16 으로 세팅, dense layer 는 32, 마지막 dense layer 는 클래스의 갯수에 맞추어 3으로 맞춰주었다.
- 각 모델별 epoch 수는 3, 5, 7, 10 으로 학습시켜 비교하였다.

(validation - accuracy 가 안나와 cross-validation 을 해보고자 StratifiedKFold 를 사용하였으며, split 갯수는 3, 4, 5 로 테스트 하였다.


#### Evaluation
- 300개의 이미지만 사용하였을 때에는 split 데이터 사용시 최고성능 88.33%, 새로운 데이터 사용시 최고성능 41.5%로 성능이 매우 낮음을 볼 수 있다. 
- 7092개의 이미지를 사용하여 학습시켰을 때에는 split 데이터로 test 시 최고성능 98%, 새로운 데이터로 test 시 최고성능 55.8% 로, 300개로 학습시켰을 때 보다 각 모델 별 혹은 test data별로 10~20% 정도의 성능 향상이 있었다.
- 16392개의 이미지를 사용하여 학습 시켰을 때에는 7092 개의 데이터를 사용하였을 보다 조금 높아지며, 3 레이어를 사용하였 을 때 65.83% 로 성능 향상이 있었다. 
- 큰 데이터셋으로 학습한 모델들이 새로운 데이터셋으로 테스트 했을 때, accuracy가 높아졌지만, 이와 동시에 loss 값이 함께 올라갔다. 

##### Result
실험 결과를 통해
1. split data 로 test 했을 때에는 90% 이상이 나오지만 separate 데이터를 사용하였을 때에는 40~50% 인 것으로 보아 우리가 사용한 데이터에는 비슷한 데이터가 많아 train_test_split 을 사용하여 나눈 test data 는 train data 와 중복성이 있을 것으로 예상할 수 있다.
2. 데이터를 많이 사용하였을 때 데이터가 적을 때 보다 모델 성능이 향상됨을 볼 수 있다.
3. 모델의 성능을 안정적으로 높이기 위해서는 loss 값을 줄이기 위한 다른 방향을 찾아봐야 하겠다.


|     No. of Data   |  No. of Conv Layers|  split | separate |                                  Remarks                                  |
|:-----------------:|:------------------:|:------:|:--------:|:--------------------------------------------------------------------------|
|        300        |          2d        | 0.8    | 0.415    | > 새로운 데이터에 대해서 성능이 매우 낮음                 |
|                   |          3d        | 0.65   | 0.4117   |                                                                           |
|                   |          4d        | 0.4667 | 0.3917   |                                                                           |
|        7092       |          2d        | 0.9591 | 0.4883   | > 300개 이미지로만 했을때와 비교하면  기존 데이터를 나눈 경우에도 95% 이상으로 성능이|
|                   |          3d        | 0.9789 | 0.4933   |   매우 높고 새로운 데이터로 했을 때에도 10% 정도의 성능 향상이 있음.         |
|                   |          4d        | 0.9887 | 0.5583   |                   |
|       16392       |          2d        | 0.997  | 0.47     | > 7092 데이터로 했을때와 마찬가지로 split 한 데이터로 테스트 했을 때  99% 이상의 성능이 |
|                   |          3d        | 0.9939 | 0.6583   |           나왔고 새로운 데이터로 테스트 했을 때에는 7092개로 했을 때 보다 조금씩 더 올랐다.|
|                   |          4d        | 0.997  | 0.5717   | |

|   Hyper Parameters Used  |
|:------------------------:|
|     n_channel_1 = 128    |
|     n_channel_2 = 246    |
|     n_channel_3 = 512    |
|       n_dense = 32       |
|    n_train_epoch = 10    |
| train & test split : 20% |
|     Random state = 0     |