<a href="https://colab.research.google.com/github/tnqkr98/2019_cau_oss_hackathon/blob/master/hackathon_teamTemp.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **0. 해커톤 진행 주의사항**

**1)  개발 관련 주의사항**
*   [1. 초기 환경 설정]은 절대 수정하지 말 것
 *  단, 사용할 데이터셋에 따라 is_mnist만 수정
*   모든 구현은 [2. 데이터 전처리]와 [3. 모델 생성]에서만 진행
 *  데이터 전처리 후 트레이닝, 데이터 셋은 x_train_after, x_test_after 변수명을 유지해주세요.
 *  데이터셋이 달라져도 같은 모델 구조를 유지하여야함.
*   [4. 모델 저장]과 [5. 모델 로드 및 평가]에서 team_name 변수 변경 (예.`team_name = 'team01'`)
 *  트레이닝 중간에 checkpoint를 활용하여 모델을 저장한 경우에도 파일 이름 양식 통일 필수
 *  team_name을 제외한 다른 부분은 수정하지 말 것
*   Colab 사용중 실수로 데이터 손실이 발생할 수도 있으니 중간 결과값을 github에 업로드 
 *    "런타임->모든 런타임 재설정"은 절대 누르지 말 것 (저장한 모델 데이터가 모두 삭제됨)
*   효율적인 구현 및 테스팅을 위해 GPU 가속 기능 활성화
 *    "런타임 -> 런타임 유형변경 -> 하드웨어 가속기 -> GPU 설정"
*   주석을 최대한 자세히 작성
*   Keras API 관련하여 [Keras Documentation](https://keras.io/) 참조

**2) 제출 관련 주의사항**
*  제출물
 *  소스코드 (hackathon_teamXX.ipynb)
 *  모델 구조 파일 (model_structure_teamXX.json)
 *  모델 weight 파일 (model_weight_teamXX.h5)
 *  컴파일된 모델 파일 (model_entire_teamXX.h5)
* 제출 기한: **오후 6시**
* 제출 방법: [GitHub README](https://github.com/cauosshackathonta/2019_cau_oss_hackathon/) 참조

 
**3) 평가 관련 주의사항**
*  모델 성능 = 테스트 데이터 셋 분류 정확도
 *  model.evaluate(x_test, y_test)
*  제출된 모델들의 테스트 데이터 셋 분류 정확도를 기준으로 수상작 결정
*  수상 후보들에 대해서는 소스코드를 기반으로 모델 재검증 
 
**4) 수상 실격 사유**
*  유사한 소스코드 or 알고리즘이 적발될 경우
*  소스코드와 제출된 모델이 상이한 경우
*  두 개의 데이터셋에 대해 다른 모델 구조를 사용한 경우
*  개발 관련 주의사항을 지키지 않은 경우
 *  예: [초기 환경 설정]을 수정한 경우
*  데이터 셋을 변조한 경우
 *  예. 테스트 데이터 셋을 트레이닝 데이터 셋에 포함하여 모델 생성 
*  주석이 소스코드와 맞지 않거나 미비할 경우






# **1. 초기 환경 설정**



In [13]:
from __future__ import absolute_import, division, print_function, unicode_literals, unicode_literals

# tensorflow와 tf.keras 및 관련 라이브러리 임포트
import cv2
import tensorflow as tf
from tensorflow import keras
from keras.utils import np_utils
from keras.callbacks import ModelCheckpoint, ReduceLROnPlateau
from tensorflow.keras.callbacks import ModelCheckpoint, ReduceLROnPlateau
from keras.preprocessing.image import ImageDataGenerator
import numpy as np
from PIL import Image
from keras import regularizers

is_mnist = True;

# 데이터셋 로드
# x_train, y_train: 트레이닝 데이터 및 레이블
# x_test, y_test: 테스트 데이터 및 레이블
if is_mnist:
  data_type = 'mnist'
  (x_train, y_train), (x_test, y_test) = keras.datasets.fashion_mnist.load_data() # fashion MNIST 데이터셋인 경우,
else:
  data_type = 'cifar10'
  (x_train, y_train), (x_test, y_test) = keras.datasets.cifar10.load_data() # cifar10 데이터셋인 경우,


# 분류를 위해 클래스 벡터를 바이너리 매트릭스로 변환
y_train = np_utils.to_categorical(y_train)
y_test = np_utils.to_categorical(y_test)

# 총 클래스 개수
num_classes = y_test.shape[1]

# 인풋 데이터 타입
input_shape = x_test.shape[1:]


Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/train-labels-idx1-ubyte.gz
Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/train-images-idx3-ubyte.gz
Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/t10k-labels-idx1-ubyte.gz
Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/t10k-images-idx3-ubyte.gz


# **2. 데이터 전처리**


In [14]:
# 데이터 전처리 (예: normalization)

# Mnist 데이터 증폭.


x_train3 = []  
y_train3 = []  


for i, x in enumerate(x_train):   # 학습데이터 늘리기2 . MedianBlur
    # print(x)
    x_train3.append(x)
    y_train3.append(y_train[i])


    blur = cv2.medianBlur(x, 3)
    x_train3.append(blur)
    y_train3.append(y_train[i])

    blur2 = cv2.GaussianBlur(x, (3,3),0)
    x_train3.append(blur2)
    y_train3.append(y_train[i])


    fm = cv2.flip(x,1)
    x_train3.append(fm)
    y_train3.append(y_train[i])

    im = Image.fromarray(np.uint8(x))
    for ang in range(-6,6,3):
        tm = im.rotate(ang)
        #print(type(tm))
        #cv2.imwrite("rot1.png",np.asarray(tm))
        #break
        x_train3.append(np.asarray(tm))
        y_train3.append(y_train[i])



x_train3 = np.asarray(x_train3)
y_train3 = np.asarray(y_train3)


print(x_train3.shape)
print(y_train3.shape)


##x_train_after = x_train3 
##x_test_after = x_test 






(480000, 28, 28)
(480000, 10)


In [0]:
# 데이터 전처리 (예: normalization)
x_train_after = x_train3 
x_test_after = x_test 

if is_mnist:
  x_train_after = np.reshape(x_train_after,(-1,28,28,1))
  x_test_after = np.reshape(x_test_after, (-1,28,28,1))

# normalize by mean and std
mean = np.mean(x_train_after, axis=(0, 1, 2, 3))
std = np.std(x_train_after, axis=(0, 1, 2, 3))
x_train_after = (x_train_after - mean) / (std + 1e-7)
x_test_after = (x_test_after - mean) / (std + 1e-7)

# **3. 모델 생성**



In [0]:
# 순차 모델 생성 (가장 기본구조)
model = keras.Sequential()
weight_decay = 1e-4
# ------
# Conv1
model.add(keras.layers.Conv2D(filters=32, kernel_size=(3,3), strides=1, padding="same",
                        activation="relu", kernel_regularizer=regularizers.l2(weight_decay), input_shape=(np.shape(x_train_after[0]))))
model.add(keras.layers.BatchNormalization())


model.add(keras.layers.Conv2D(filters=32, kernel_size=(3,3), strides=1, padding="same",
                        activation="relu", kernel_regularizer=regularizers.l2(weight_decay)))
model.add(keras.layers.BatchNormalization())
model.add(keras.layers.MaxPool2D(2,2))
model.add(keras.layers.Dropout(0.4))

# ------
# Conv2

model.add(keras.layers.Conv2D(filters=64, kernel_size=(3,3), strides=1, padding="same",
                        activation="relu", kernel_regularizer=regularizers.l2(weight_decay)))
model.add(keras.layers.BatchNormalization())


model.add(keras.layers.Conv2D(filters=64, kernel_size=(3,3), strides=1, padding="same",
                        activation="relu", kernel_regularizer=regularizers.l2(weight_decay)))
model.add(keras.layers.BatchNormalization())
model.add(keras.layers.MaxPool2D(2,2))
model.add(keras.layers.Dropout(0.5))

# ------
# Conv3
model.add(keras.layers.BatchNormalization())
model.add(keras.layers.Conv2D(filters=128, kernel_size=(3,3), strides=1, padding="same",
                        activation="relu", kernel_regularizer=regularizers.l2(weight_decay)))

model.add(keras.layers.BatchNormalization())
model.add(keras.layers.Conv2D(filters=128, kernel_size=(3,3), strides=1, padding="same",
                        activation="relu", kernel_regularizer=regularizers.l2(weight_decay)))
model.add(keras.layers.MaxPool2D(2,2))
model.add(keras.layers.Dropout(0.5))

model.add(keras.layers.Flatten())

# Output layer: fully-connected layer 
# (# of inputs = 64, # of outputs = 10, actication fuction = softmax)
model.add(keras.layers.Dense(num_classes, activation=tf.nn.softmax))




# 모델 컴파일
# optimizer: 모델을 업데이트 하는 방식
# loss: 모델의 정확도를 판단하는 방식
# metrics: 트레이닝 및 테스팅 성능 모니터링을 위한 평가지표
optm = keras.optimizers.Adam(1e-3, decay=1e-8)
model.compile(loss='categorical_crossentropy', optimizer=optm, metrics=['accuracy'])

# #augmentation
# #data augmentation
# save_path = '/content/'
# team_name = 'teamXX'
# checkpoint = ModelCheckpoint(save_path + 'model_weight_' + data_type + '_' + team_name + '.h5', monitor="val_acc", save_best_only=True, mode="max", period=1)

# reduce_lr = ReduceLROnPlateau(monitor="val_loss", factor=0.5, patience=1, min_lr=1e-4)
# datagen = ImageDataGenerator(
#     rotation_range=10,
#     width_shift_range=0.1,
#     height_shift_range=0.1,
#     horizontal_flip=True,
#     )
# datagen.fit(x_train_after)
# model.fit_generator(datagen.flow(x_train_after, y_train, batch_size=256),epochs=100,verbose=1,validation_data=(x_test_after,y_test), shuffle=True,callbacks=[reduce_lr,checkpoint])

# 모델 트레이닝
# batch_size: 전체 데이터셋 중 몇개씩 학습시킬 것인지
# epoch: 학습에 전체 데이터셋이 총 몇번 이용될 것인지
# shuffle: 학습전에 트레이닝 데이터셋을 랜덤하게 섞을 것인지
# validation_data: 중간 성능 검증에 사용할 data set
save_path = '/content/'
team_name = 'teamTemp'
checkpoint = ModelCheckpoint(save_path + 'model_weight_' + data_type + '_' + team_name + '.h5', monitor="val_acc", save_best_only=True, mode="max", period=1,verbose=1)

reduce_lr = ReduceLROnPlateau(monitor="val_loss", factor=0.5, patience=1, min_lr=1e-4)
model.summary()
model.fit(x_train_after, y_train3, batch_size = 1024, verbose=1, epochs = 100, shuffle=True, validation_data=[x_test_after, y_test],callbacks=[reduce_lr,checkpoint])

W0824 08:49:41.470127 139848474634112 callbacks.py:875] `period` argument is deprecated. Please use `save_freq` to specify the frequency in number of samples seen.


Model: "sequential_3"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
conv2d_18 (Conv2D)           (None, 28, 28, 32)        320       
_________________________________________________________________
batch_normalization_18 (Batc (None, 28, 28, 32)        128       
_________________________________________________________________
conv2d_19 (Conv2D)           (None, 28, 28, 32)        9248      
_________________________________________________________________
batch_normalization_19 (Batc (None, 28, 28, 32)        128       
_________________________________________________________________
max_pooling2d_9 (MaxPooling2 (None, 14, 14, 32)        0         
_________________________________________________________________
dropout_9 (Dropout)          (None, 14, 14, 32)        0         
_________________________________________________________________
conv2d_20 (Conv2D)           (None, 14, 14, 64)       

# **4. 모델 저장**

In [0]:
save_path = '/content/'
team_name = 'teamTemp'


# 모델의 구조만을 저장합니다.
model_json = model.to_json()
with open(save_path + 'model_structure_' + data_type + '_' + team_name + '.json', 'w') as json_file : 
    json_file.write(model_json)

# 트레이닝된 전체 모델을 저장합니다.
model.save(save_path +  'model_entire_' + data_type + '_' + team_name + '.h5')

# **5. 모델 로드 및 평가**

In [12]:
save_path = '/content/'
team_name = 'teamTemp'

model = keras.models.load_model(save_path + 'model_entire_' + data_type + '_' + team_name + '.h5')
model.evaluate(x_test_after, y_test)

W0824 08:48:43.314858 139848474634112 deprecation.py:506] From /usr/local/lib/python3.6/dist-packages/tensorflow/python/ops/init_ops.py:97: calling GlorotUniform.__init__ (from tensorflow.python.ops.init_ops) with dtype is deprecated and will be removed in a future version.
Instructions for updating:
Call initializer instance with the dtype argument instead of passing it to the constructor
W0824 08:48:43.316372 139848474634112 deprecation.py:506] From /usr/local/lib/python3.6/dist-packages/tensorflow/python/ops/init_ops.py:97: calling Zeros.__init__ (from tensorflow.python.ops.init_ops) with dtype is deprecated and will be removed in a future version.
Instructions for updating:
Call initializer instance with the dtype argument instead of passing it to the constructor
W0824 08:48:43.338045 139848474634112 deprecation.py:506] From /usr/local/lib/python3.6/dist-packages/tensorflow/python/ops/init_ops.py:97: calling Ones.__init__ (from tensorflow.python.ops.init_ops) with dtype is deprecat



[0.43549083728790283, 0.8818]