## Overview 
### (1) Topic: 
- 웹크롤링을 통해서 수집한 랜드마크 이미지를 사용해 CNN 분류 모델을 
  학습시키고 성능을 개선 시키는 방안들을 탐구 

### (2) Dataset:
- 랜드마크 카테고리 : 17개 
- 크롤링 이미지 수 : 6800장 
- 불필요 이미지 제거 후 : 4,426장 

- 01 :"Eiffel Tower"
- 02 :"Cristo Redentor"
- 03 :"Triumphal Arch"
- 04 :"Wànlĭ Chángchéng"
- 05 :"Taj Mahal"
- 06 :"Sungnyemun Gate"
- 07 :"Moai"
- 08 :"Seokguram buddha"
- 09 :"Golden Gate"
- 10 :"Statue of Liberty"
- 11 :"Torre di Pisa"
- 12 :"Colosseum"
- 13 :"Santiago Bernabéu"
- 14 :"Sphinx"
- 15 :"Burj Khalifa"
- 16 :"London Eye"
- 17 :"London Tower Bridge" 

### (3) Model Performance Improvement: 
- Keras Sequential Model 
- Hyper Parameter Set 
- Layer options (Convolution2D, Activation, MaxPooling, Dropout, etc.) 
- Other options (image augmentation, VGG-16, Evaluation criteria : top3 acc) 


## I. Dataset build 
- 데이터 경로 확인 및 지정 
- 이미지 카테고리 리스트 생성 
- Train & Test 데이터로 스플릿 
- Numpy 형태로 이미지 데이터 저장

## II. Model build
- 데이터 로딩 함수 생성 
- 모델 구성 함수 생성(Convolution2D, Activation, MaxPooling, Dropout, etc.) 
- 모델 학습 함수 생성(batch_size, epochs)  
- 모델 평가 함수 생성(loss & accuracy) 

## III. Model run
- 테스트 이미지 목록 
- 테스트 이미지를 활용한 예측 모델 실행 
- 결과 출력 




In [46]:
from sklearn import model_selection
from sklearn.model_selection import train_test_split
from PIL import Image

import os, glob
import numpy as np

## I. Dataset build 

In [49]:
# 데이터 경로 확인 및 지정 
print(os.getcwd())

E:\Python_2019_Eric


In [50]:
root_dir = './landmark/'

In [52]:
# 이미지 카테고리 리스트 생성 
categories = [
"Eiffel Tower"
,"Cristo Redentor"
,"Triumphal Arch"
,"Wànlĭ Chángchéng"
,"Taj Mahal"
,"Sungnyemun Gate"
,"Moai"
,"Seokguram buddha"
,"Golden Gate"
,"Statue of Liberty"
,"Torre di Pisa"
,"Colosseum"
,"Santiago Bernabéu"
,"Sphinx"
,"Burj Khalifa"
,"London Eye"
,"London Tower Bridge" 
] 

In [53]:
# 이미지 정보 
nb_classes = len(categories)
image_width = 64
image_height = 64

In [13]:
# 데이터 변수
X = []   # 이미지 데이터
Y = []   # 레이블 데이터

In [14]:
# 이미지 데이터 로드 및 배열형태로 전환 
for idx, category in enumerate(categories):   # enumerate : 인덱스, 값 반환
    image_dir = root_dir + category
    files = glob.glob(image_dir + '/' + '*.jpg')   # glob : 지정한 경로에 있는 파일 리스트를 가져옴
    print(image_dir + '/' + '*.jpg')
    print('해당 폴더 파일 갯수 : ',len(files))   # 이미지를 제대로 불러왔는지 확인
    
    for i, f in enumerate(files):   # 이미지 로딩
        img = Image.open(f)         # 01 이미지 파일 불러오기
        img = img.convert('RGB')    # 02 RGB로 변환
        img = img.resize((image_width, image_height))  # 03 이미지 크기를 resize
        data = np.asarray(img)      # 04 해당 이미지를 숫자 배열 데이터로 변경
        X.append(data)              # 05 변경한 데이터를 X의 리스트에 추가
        Y.append(idx)               # 06 해당 idx(이미지가 속한 범주)에 추가(Y값)

X = np.array(X)
Y = np.array(Y)


./landmark/Eiffel Tower/*.jpg
해당 폴더 파일 갯수 :  296
./landmark/Cristo Redentor/*.jpg
해당 폴더 파일 갯수 :  314
./landmark/Triumphal Arch/*.jpg
해당 폴더 파일 갯수 :  70
./landmark/Wànlĭ Chángchéng/*.jpg
해당 폴더 파일 갯수 :  182
./landmark/Taj Mahal/*.jpg
해당 폴더 파일 갯수 :  131
./landmark/Sungnyemun Gate/*.jpg
해당 폴더 파일 갯수 :  227
./landmark/Moai/*.jpg
해당 폴더 파일 갯수 :  281
./landmark/Seokguram buddha/*.jpg
해당 폴더 파일 갯수 :  184
./landmark/Golden Gate/*.jpg
해당 폴더 파일 갯수 :  288
./landmark/Statue of Liberty/*.jpg
해당 폴더 파일 갯수 :  279
./landmark/Torre di Pisa/*.jpg
해당 폴더 파일 갯수 :  260
./landmark/Colosseum/*.jpg
해당 폴더 파일 갯수 :  331
./landmark/Santiago Bernabéu/*.jpg
해당 폴더 파일 갯수 :  362
./landmark/Sphinx/*.jpg
해당 폴더 파일 갯수 :  301
./landmark/Burj Khalifa/*.jpg
해당 폴더 파일 갯수 :  309
./landmark/London Eye/*.jpg
해당 폴더 파일 갯수 :  330
./landmark/London Tower Bridge/*.jpg
해당 폴더 파일 갯수 :  281


In [15]:
print(X.shape)
print(Y.shape)

(4426, 64, 64, 3)
(4426,)


In [16]:
# Train & Test 데이터로 스플릿 (default: 0.75 : 0.25)
X_train, X_test, Y_train, Y_test = train_test_split(X, Y)
xy = (X_train, X_test, Y_train, Y_test)

In [17]:
# Numpy 형태로 이미지 데이터 저장
np.save(root_dir + 'landmark.npy', xy)

In [18]:
import sys, os
from keras.models import Sequential
from keras.layers import Convolution2D
from keras.layers import MaxPooling2D
from keras.layers import Activation, Dropout, Flatten, Dense
from keras.utils import np_utils
import numpy as np

Using TensorFlow backend.


## II. Model build

In [19]:
# 데이터 로딩 함수 생성
def load_dataset():
    x_train, x_test, y_train, y_test = np.load('./landmark/landmark.npy',
                                               allow_pickle=True)
    print(x_train.shape, y_train.shape)
    
    x_train = x_train.astype('float') / 256
    x_test = x_test.astype('float') / 256
    
    y_train = np_utils.to_categorical(y_train, nb_classes)   # one-hot-encoding
    y_test = np_utils.to_categorical(y_test, nb_classes)
    
    return x_train, x_test, y_train, y_test

load_dataset()

(3319, 64, 64, 3) (3319,)


(array([[[[0.1640625 , 0.31640625, 0.5703125 ],
          [0.1640625 , 0.31640625, 0.5703125 ],
          [0.1640625 , 0.31640625, 0.5703125 ],
          ...,
          [0.1640625 , 0.31640625, 0.578125  ],
          [0.1640625 , 0.31640625, 0.578125  ],
          [0.1640625 , 0.3125    , 0.56640625]],
 
         [[0.171875  , 0.32421875, 0.578125  ],
          [0.171875  , 0.32421875, 0.578125  ],
          [0.171875  , 0.32421875, 0.578125  ],
          ...,
          [0.171875  , 0.32421875, 0.5859375 ],
          [0.171875  , 0.32421875, 0.5859375 ],
          [0.171875  , 0.3203125 , 0.57421875]],
 
         [[0.17578125, 0.328125  , 0.58203125],
          [0.17578125, 0.328125  , 0.58203125],
          [0.17578125, 0.328125  , 0.58203125],
          ...,
          [0.17578125, 0.328125  , 0.58984375],
          [0.17578125, 0.328125  , 0.58984375],
          [0.17578125, 0.32421875, 0.578125  ]],
 
         ...,
 
         [[0.32421875, 0.4375    , 0.265625  ],
          [0.3125 

In [21]:
# 모델 구성 함수 생성(Convolution2D, Activation, MaxPooling, Dropout, etc.) 

def build_model(in_shape):
    model = Sequential()
    
    model.add(Convolution2D(32,3,3, border_mode='Same', input_shape=in_shape))
    model.add(Activation('relu'))
    model.add(MaxPooling2D(pool_size=(2,2)))
    model.add(Dropout(0.25))
    
    model.add(Convolution2D(64,3,3, border_mode='Same'))
    model.add(Activation('relu'))
    model.add(MaxPooling2D(pool_size=(2,2)))
    model.add(Dropout(0.25))
    
    model.add(Flatten())
    model.add(Dense(512))
    model.add(Activation('relu'))
    model.add(Dropout(0.5))
    model.add(Dense(nb_classes))
    model.add(Activation('softmax'))
    
    model.compile(loss='categorical_crossentropy',
                  optimizer='rmsprop',
                  metrics=['accuracy'])
    
    return model

In [22]:
# 모델 학습 함수 생성(batch_size, epochs) 

def model_train(x, y):
    print(x.shape[1:])
    model = build_model(x.shape[1:])
    model.fit(x, y, batch_size=32, epochs=30)
    
    return model


In [23]:
# 모델 평가 함수 생성(loss & accuracy)

def model_eval(model, x, y):
    score = model.evaluate(x, y)
    print('loss = ', score[0])
    print('accuracy = ', score[1])

In [24]:
# 모델 생성, 학습, 평가

# 데이터 불러오기 
x_train, x_test, y_train, y_test = load_dataset()

# 모델 학습
model = model_train(x_train, y_train)

# 학습이 완료된 모델을 저장
model.save('./landmark/landmark_model.h5')

(3319, 64, 64, 3) (3319,)
(64, 64, 3)
Instructions for updating:
If using Keras pass *_constraint arguments to layers.



  
  # This is added back by InteractiveShellApp.init_path()



Epoch 1/30
Epoch 2/30
Epoch 3/30
Epoch 4/30
Epoch 5/30
Epoch 6/30
Epoch 7/30
Epoch 8/30
Epoch 9/30
Epoch 10/30
Epoch 11/30
Epoch 12/30
Epoch 13/30
Epoch 14/30
Epoch 15/30
Epoch 16/30
Epoch 17/30
Epoch 18/30
Epoch 19/30
Epoch 20/30
Epoch 21/30
Epoch 22/30
Epoch 23/30
Epoch 24/30
Epoch 25/30
Epoch 26/30
Epoch 27/30
Epoch 28/30
Epoch 29/30
Epoch 30/30


## III. Model run

In [30]:
# 테스트 이미지 목록
image_files = ["E:\\Eric_Github\\Image_project\\landmark_test\\burj_test\\burj-khalifa-4922311__340.jpg",
               "E:\\Eric_Github\\Image_project\\landmark_test\\colo_test\\colosseum-601763__340.jpg",
               "E:\\Eric_Github\\Image_project\\landmark_test\\Eiffel_test\\eiffel-tower-2063907__340.jpg",
               "E:\\Eric_Github\\Image_project\\landmark_test\\moai_test\\chile-1740813__340.jpg",
               "E:\\Eric_Github\\Image_project\\landmark_test\\Pisa_test\\tower-of-pisa-4426291__340.jpg",
               "E:\\Eric_Github\\Image_project\\landmark_test\\Santiago Bernabéu\\Santiago Bernabéu04.jpg",
               "E:\\Eric_Github\\Image_project\\landmark_test\\Wànlĭ Chángchéng\\the-great-wall-606451_1920.jpg",
               ]


In [38]:
from keras.models import load_model

In [39]:
# 예측할 새로운 이미지 불러오기

X = []
files = []

for fname in image_files:
    img = Image.open(fname)   # 파일 불러오기
    img = img.convert('RGB')
    img = img.resize((image_size, image_size))
    in_data = np.asarray(img)
    in_data = in_data.astype('float')/256
    X.append(in_data)
    files.append(fname)
    
X = np.array(X)
print(X.shape)

(7, 64, 64, 3)


In [40]:
# 테스트 이미지를 활용한 예측 모델 실행

model = load_model('./landmark/landmark_model.h5')

pre = model.predict(X)

# 결과 출력
for i, p in enumerate(pre):
    y = p.argmax()
    print('입력 : ', files[i])
    print('예측 : ', y)

입력 :  E:\Eric_Github\Image_project\landmark_test\burj_test\burj-khalifa-4922311__340.jpg
예측 :  14
입력 :  E:\Eric_Github\Image_project\landmark_test\colo_test\colosseum-601763__340.jpg
예측 :  11
입력 :  E:\Eric_Github\Image_project\landmark_test\Eiffel_test\eiffel-tower-2063907__340.jpg
예측 :  0
입력 :  E:\Eric_Github\Image_project\landmark_test\moai_test\chile-1740813__340.jpg
예측 :  12
입력 :  E:\Eric_Github\Image_project\landmark_test\Pisa_test\tower-of-pisa-4426291__340.jpg
예측 :  10
입력 :  E:\Eric_Github\Image_project\landmark_test\Santiago Bernabéu\Santiago Bernabéu04.jpg
예측 :  12
입력 :  E:\Eric_Github\Image_project\landmark_test\Wànlĭ Chángchéng\the-great-wall-606451_1920.jpg
예측 :  0


In [45]:
# 결과 출력 
model_eval(model, x_test, y_test)

loss =  2.1945936796141834
accuracy =  0.6711834073066711
