# PROJECT 1. 가위바위보 분류기 만들기
## 1) 데이터 수집
머신러닝을 하기 위해서는 기계에 학습시켜야 할 데이터가 필요합니다.  
#### (1) teachable machine 사이트에서 가위, 바위, 보 이미지 데이터 만들기
: 노트북 전면 카메라를 활용하여 가위, 바위, 보 이미지 각 100장을 만들었습니다. 
#### (2) 폴더를 생성하여 가위, 바위, 보 이미지 저장
: originalData 폴더 아래에 scissor, rock, paper 폴더를 만들어서 이미지를 저장하였습니다.  
<br/>
## 2) 데이터 전처리
수집한 데이터를 머신러닝 알고리즘에 알맞은 데이터로 바꿔야 합니다.  
<br/>
현재 가위, 바위, 보 이미지의 크기는 224x244 입니다. 머신러닝 알고리즘에 알맞은 데이터로 바꾸기 위해 이미지를 resize 해야합니다.  
224x244 크기의 이미지를 28x28 크기의 이미지로 resize 합니다.

#### (1) 가위 이미지 resize 하기

In [71]:
from PIL import Image
import os, glob

# 가위 이미지가 저장된 디렉토리 아래의 모든 jpg 파일 읽기
image_dir_path = os.getenv("HOME") + "/aiffel/exploration/rock_scissor_paper/originalData/scissor"
print("이미지 디렉토리 경로: ", image_dir_path)

images = glob.glob(image_dir_path + "/*.jpg")  
print("이미지 개수 :", len(images))

# 파일마다 모두 28x28 사이즈로 바꾸어 저장하기
image_dir_path = os.getenv("HOME") + "/aiffel/exploration/rock_scissor_paper/trainData/scissor"
target_size = (28,28)
number = 0
for img in images:
    old_img = Image.open(img)
    new_img = old_img.resize(target_size,Image.ANTIALIAS)
    new_img.save(image_dir_path + "/{}.jpg".format(number))
    number = number + 1

print("가위 이미지 resize 완료!")

이미지 디렉토리 경로:  /home/aiffel/aiffel/exploration/rock_scissor_paper/originalData/scissor
이미지 개수 : 100
가위 이미지 resize 완료!


#### (2) 바위 이미지 resize 하기

In [72]:
# 바위 이미지가 저장된 디렉토리 아래의 모든 jpg 파일 읽기
image_dir_path = os.getenv("HOME") + "/aiffel/exploration/rock_scissor_paper/originalData/rock"
print("이미지 디렉토리 경로: ", image_dir_path)

images = glob.glob(image_dir_path + "/*.jpg")  
print("이미지 개수 :", len(images))

# 파일마다 모두 28x28 사이즈로 바꾸어 저장하기
image_dir_path = os.getenv("HOME") + "/aiffel/exploration/rock_scissor_paper/trainData/rock"
target_size = (28,28)
number = 0
for img in images:
    old_img = Image.open(img)
    new_img = old_img.resize(target_size,Image.ANTIALIAS)
    new_img.save(image_dir_path + "/{}.jpg".format(number))
    number = number + 1

print("바위 이미지 resize 완료!")

이미지 디렉토리 경로:  /home/aiffel/aiffel/exploration/rock_scissor_paper/originalData/rock
이미지 개수 : 100
바위 이미지 resize 완료!


#### (3) 보 이미지 resize 하기

In [73]:
# 보 이미지가 저장된 디렉토리 아래의 모든 jpg 파일 읽기
image_dir_path = os.getenv("HOME") + "/aiffel/exploration/rock_scissor_paper/originalData/paper"
print("이미지 디렉토리 경로: ", image_dir_path)

images = glob.glob(image_dir_path + "/*.jpg")  
print("이미지 개수 :", len(images))

# 파일마다 모두 28x28 사이즈로 바꾸어 저장하기
image_dir_path = os.getenv("HOME") + "/aiffel/exploration/rock_scissor_paper/trainData/paper"
target_size = (28,28)
number = 0
for img in images:
    old_img = Image.open(img)
    new_img = old_img.resize(target_size,Image.ANTIALIAS)
    new_img.save(image_dir_path + "/{}.jpg".format(number))
    number = number + 1

print("보 이미지 resize 완료!")

이미지 디렉토리 경로:  /home/aiffel/aiffel/exploration/rock_scissor_paper/originalData/paper
이미지 개수 : 100
보 이미지 resize 완료!


#### (4) 가위, 바위, 보 데이터를 읽을 수 있는 함수 만들기
가위, 바위, 보 데이터를 읽을 수 있는 함수 load_data 를 만들고, 실행하겠습니다.

In [74]:
def load_data(img_path):
    number_of_data = 300   # 폴더 안에 있는 가위바위보 이미지 개수 총합
    img_size = 28   # 이미지 크기
    color = 3   # 흑백 이미지 = 0, 칼라 이미지 = 3
    
    # 이미지 데이터와 라벨(가위 : 0, 바위 : 1, 보 : 2) 데이터를 담을 행렬(matrix) 영역을 생성합니다.
    imgs = np.zeros(number_of_data*img_size*img_size*color,dtype=np.int32).reshape(number_of_data,img_size,img_size,color)
    labels = np.zeros(number_of_data,dtype=np.int32)
    
    # 확장자 불러오기
    temp = glob.glob(img_path + "/scissor/*.jpeg")
    if len(temp) == 0:
        temp = glob.glob(img_path+"/scissor/*.jpg")   
        if len(temp) == 0:
            extension = "png"
        else:
            extension = "jpg"
    else:
        extension = "jpeg"

    idx = 0
    for file in glob.iglob(img_path+'/scissor/*.{}'.format(extension)):
        img = np.array(Image.open(file),dtype=np.int32)
        imgs[idx,:,:,:] = img    # 데이터 영역에 이미지 행렬을 복사
        labels[idx] = 0   # 가위 : 0
        idx = idx + 1

    for file in glob.iglob(img_path+'/rock/*.{}'.format(extension)):
        img = np.array(Image.open(file),dtype=np.int32)
        imgs[idx,:,:,:] = img    # 데이터 영역에 이미지 행렬을 복사
        labels[idx] = 1   # 바위 : 1
        idx = idx + 1       
    
    for file in glob.iglob(img_path+'/paper/*.{}'.format(extension)):
        img = np.array(Image.open(file),dtype=np.int32)
        imgs[idx,:,:,:] = img    # 데이터 영역에 이미지 행렬을 복사
        labels[idx] = 2   # 보 : 2
        idx = idx + 1

    print("이미지 개수는",idx,"입니다.")
    return imgs, labels

image_dir_path = os.getenv("HOME") + "/aiffel/exploration/rock_scissor_paper/trainData"
(x_train, y_train) = load_data(image_dir_path)
x_train_norm = x_train/255.0   # 입력은 0~1 사이의 값으로 정규화

print("x_train shape: {}".format(x_train.shape))
print("y_train shape: {}".format(y_train.shape))


이미지 개수는 300 입니다.
x_train shape: (300, 28, 28, 3)
y_train shape: (300,)


## 3) 모델링
데이터 준비가 끝났으니, 이제 가위바위보를 인식하는 딥러닝 네트워크를 설계합니다.

In [75]:
import tensorflow as tf
from tensorflow import keras
import numpy as np

model=keras.models.Sequential()
model.add(keras.layers.Conv2D(16, (3,3), activation='relu', input_shape=(28,28,3)))
model.add(keras.layers.MaxPool2D(2,2))
model.add(keras.layers.Conv2D(32, (3,3), activation='relu'))
model.add(keras.layers.MaxPooling2D((2,2)))
model.add(keras.layers.Flatten())
model.add(keras.layers.Dense(100, activation='relu'))
model.add(keras.layers.Dense(3, activation='softmax'))

print('Model에 추가된 Layer 개수: ', len(model.layers))

model.summary()

Model에 추가된 Layer 개수:  7
Model: "sequential_7"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
conv2d_14 (Conv2D)           (None, 26, 26, 16)        448       
_________________________________________________________________
max_pooling2d_14 (MaxPooling (None, 13, 13, 16)        0         
_________________________________________________________________
conv2d_15 (Conv2D)           (None, 11, 11, 32)        4640      
_________________________________________________________________
max_pooling2d_15 (MaxPooling (None, 5, 5, 32)          0         
_________________________________________________________________
flatten_7 (Flatten)          (None, 800)               0         
_________________________________________________________________
dense_14 (Dense)             (None, 100)               80100     
_________________________________________________________________
dense_15 (Dense)             (

## 4) 모델 학습
모델을 설계하였으니, 이제 학습을 시켜보겠습니다.

In [76]:
import matplotlib.pyplot as plt

x_train_reshaped=x_train_norm.reshape( -1, 28, 28, 3)  # 데이터갯수에 -1을 쓰면 reshape시 자동계산됩니다.

model.compile(optimizer='adam',
             loss='sparse_categorical_crossentropy',
             metrics=['accuracy'])

results = model.fit(x_train_reshaped, y_train, epochs=20)


Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


## 5) 모델 평가
학습시킨 모델이 얼마나 잘 만들었는지 확인하기 위해 평가해보도록 하겠습니다.  
팀원에게 가위바위보 사진 300장(새로운 이미지)을 받고, 그 사진을 test 데이터로 사용하여, 정확성을 측정하겠습니다.

In [77]:
# x_test, y_test를 만들기
image_dir_path = os.getenv("HOME") + "/aiffel/exploration/rock_scissor_paper/testData"
(x_test, y_test) = load_data(image_dir_path)
x_test_norm = x_test/255.0   # 입력은 0~1 사이의 값으로 정규화

x_test_reshaped = x_test_norm.reshape( -1, 28, 28, 3)  # 데이터갯수에 -1을 쓰면 reshape시 자동계산됩니다.

# 모델 시험
test_loss, test_accuracy = model.evaluate(x_test_reshaped, y_test, verbose=2)
print("test_loss: {} ".format(test_loss))
print("test_accuracy: {}".format(test_accuracy))

이미지 개수는 300 입니다.
10/10 - 0s - loss: 2.8366 - accuracy: 0.2367
test_loss: 2.8365931510925293 
test_accuracy: 0.23666666448116302


300개의 test 데이터로 모델을 평가한 결과, 정확성은 약 **24%** 가 나왔습니다. 아주 좋지 않은 결과입니다.  

## [ 피드백 ]
train accuracy는 **90%** 인데, test accuracy는 **24%** 입니다. 너무 과도하게 오버 피팅이 되었습니다.  
만들고자 하는 가위바위보 분류기의 test accuracy는 60% 이상이기 때문에 개선할 방법을 찾아야 합니다.  
아마 train 데이터가 너무 적기 때문에 발생한 것 같습니다. **train 데이터를 더 늘려서 모델을 다시 만들어 보도록 하겠습니다.**

## 1) 데이터 늘리기
21명의 이미지 데이터(6300장)를 수집하였습니다.  
나의 이미지 데이터를 포함하여, 총 데이터 개수를 300장에서 6600장으로 대폭 늘렸습니다.  
data_6600 폴더를 만들어서 이미지를 저장하였습니다.
load_data 함수를 사용하여 수집한 가위, 바위, 보 사진을 읽어보도록 하겠습니다.

In [78]:
# 폴더 내에 있는 모든 이미지 불러오기
image_dir_path = os.getenv("HOME") + "/aiffel/exploration/rock_scissor_paper/data_6600"
dir_list = os.listdir(image_dir_path)

first = True
for dir in dir_list:
    if first == True:
        (x_data, y_data) = load_data(image_dir_path + "/{}".format(dir))
        first = False
    else:
        (x_data_temp, y_data_temp) = load_data(image_dir_path + "/{}".format(dir))
        x_data = np.vstack((x_data, x_data_temp))     
        y_data = np.hstack((y_data, y_data_temp))

print("x_data shape: {}".format(x_data.shape))
print("y_data shape: {}".format(y_data.shape))

이미지 개수는 300 입니다.
이미지 개수는 300 입니다.
이미지 개수는 300 입니다.
이미지 개수는 300 입니다.
이미지 개수는 300 입니다.
이미지 개수는 300 입니다.
이미지 개수는 100 입니다.
이미지 개수는 300 입니다.
이미지 개수는 300 입니다.
이미지 개수는 200 입니다.
이미지 개수는 300 입니다.
이미지 개수는 300 입니다.
이미지 개수는 300 입니다.
이미지 개수는 300 입니다.
이미지 개수는 300 입니다.
이미지 개수는 300 입니다.
이미지 개수는 300 입니다.
이미지 개수는 300 입니다.
이미지 개수는 300 입니다.
이미지 개수는 300 입니다.
이미지 개수는 300 입니다.
이미지 개수는 300 입니다.
x_data shape: (6600, 28, 28, 3)
y_data shape: (6600,)


## 2) 데이터 나누기
6600장의 사진을 9:1 비율로 train 데이터와 test 데이터로 나눕니다.  
train 데이터 : 5940개  
test 데이터 : 660개

In [79]:
from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(x_data, y_data, test_size = 0.1, shuffle = True, random_state = 42)
x_train_norm = x_train / 255.0
x_test_norm = x_test / 255.0

print(x_train.shape)
print(y_train.shape)
print(x_test.shape)
print(y_test.shape)

(5940, 28, 28, 3)
(5940,)
(660, 28, 28, 3)
(660,)


## 3) 모델 학습
기존에 설계된 모델과 5940개의 train 데이터를 가지고 학습시켜보겠습니다.

In [80]:
x_train_reshaped=x_train_norm.reshape( -1, 28, 28, 3)  # 데이터갯수에 -1을 쓰면 reshape시 자동계산됩니다.

model.compile(optimizer='adam',
             loss='sparse_categorical_crossentropy',
             metrics=['accuracy'])

results = model.fit(x_train_reshaped, y_train, epochs=20)

'''
# epoch에 따른 훈련 데이터 정확성 그래프
plt.plot(results.history['accuracy'])
#plt.plot(results.history['val_acc'])
plt.title('model accuracy')
plt.ylabel('accuracy')
plt.xlabel('epoch')
plt.legend(['train'], loc='upper left')
plt.show()
'''

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


"\n# epoch에 따른 훈련 데이터 정확성 그래프\nplt.plot(results.history['accuracy'])\n#plt.plot(results.history['val_acc'])\nplt.title('model accuracy')\nplt.ylabel('accuracy')\nplt.xlabel('epoch')\nplt.legend(['train'], loc='upper left')\nplt.show()\n"

## 4) 모델 평가
새롭게 학습시킨 모델이 얼마나 잘 만들었는지 확인하기 위해 평가해보도록 하겠습니다.  
660개의 test 데이터를 사용하여, 모델의 정확성을 측정하겠습니다.

In [81]:
x_test_reshaped=x_test_norm.reshape( -1, 28, 28, 3)  # 데이터갯수에 -1을 쓰면 reshape시 자동계산됩니다.

# 모델 시험
test_loss, test_accuracy = model.evaluate(x_test_reshaped, y_test, verbose=2)
print("test_loss: {} ".format(test_loss))
print("test_accuracy: {}".format(test_accuracy))

21/21 - 0s - loss: 0.0796 - accuracy: 0.9818
test_loss: 0.07961215078830719 
test_accuracy: 0.9818181991577148


## [ 결과 및 느낀점]
660개의 test 데이터로 모델을 평가한 결과, 정확성은 **98%** 가 나왔습니다. 아주 좋은 결과입니다.  
train 데이터를 300개에서 5940개로 늘리기만 했을뿐인데, 정확도가 이전보다 훨씬 좋아졌습니다.  
저는 이 프로젝트를 하면서 모델을 설계할 때, **train 데이터의 개수가 엄청나게 중요하다**는 것을 깨닫게 되었습니다.  
아무리 딥러닝 알고리즘을 잘 설계했다고 하더라도, train 데이터가 적으면 좋은 모델을 만들 수 없다는 것을 알게 되었습니다.  
앞으로 딥러닝 모델을 만들 때, 꼭 충분한 데이터를 수집할 것입니다.