<a href="https://colab.research.google.com/github/limseo12/Project-Section4/blob/main/Untitled18_ipynb%EC%9D%98_%EC%82%AC%EB%B3%B8.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
import os
import pathlib
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from tqdm import tqdm
from sklearn.model_selection import train_test_split
import tensorflow as tf
import keras
from tensorflow.keras.preprocessing import image
from tensorflow.keras.preprocessing.image import ImageDataGenerator, img_to_array, array_to_img, load_img
from tensorflow.keras.utils import to_categorical
from tensorflow.keras.layers import Conv2D, MaxPool2D, Dense, Flatten, Dropout, Input
from tensorflow.keras.models import Sequential


%matplotlib inline

In [None]:
#위의 코드를 처음 부분에 넣어주면 GPU 아래의 모든 부분에 대해 GPU로 실행하도록 한다.
#이 때 os.environ["CUDA_VISIBLE_DEVICES"]에 사용하고자 하는 GPU의 넘버를 적어주면 된다
gpus = tf.config.experimental.list_physical_devices('GPU')
if gpus:
    try:
        tf.config.experimental.set_memory_growth(gpus[0], True)
    except RuntimeError as e:
        print(e)

1. 데이터 분석

In [None]:
##구글 드라이브 압축파일을 풀어주는 코드 작성 
## %cd 압축을 풀 경로 !unzip -qq "압축파일 Path"
## %cd /content/drive/MyDrive/section4_Project
## !unzip -qq "/content/drive/MyDrive/German-Traffic-sign.zip"

In [None]:
##압축이 잘 풀렸는지 확인하는 함수 glob. import해줘야한다
from glob import *
filepaths = list(glob('/content/drive/MyDrive/section4_Project/*.png'))
len(filepaths)

In [None]:
## 이미지 데이터 정보 확인
DATA_PATH = '/content/drive/MyDrive/section4_Project'
file_list = os.listdir(DATA_PATH)
file_list

Meta 파일은 레이블당 하나의 샘플 이미지를 보여주는 파일이다

In [None]:
df_Meta = pd.read_csv('/content/drive/MyDrive/section4_Project/Meta.csv')
df_Meta

In [None]:
Meta_images = []
Meta_labels = []

plt.figure(figsize=(16, 16))
for i in range(len(df_Meta)):
  img = load_img(df_Meta['Path'][i])
  plt.subplot(7, 7, i+1)
  plt.imshow(img)
  Meta_images.append(img)
  Meta_labels.append(df_Meta['ClassId'])

Train

In [None]:
df_Train = pd.read_csv('/content/drive/MyDrive/section4_Project/Train.csv')
df_Train

In [None]:
dist = pd.cut(df_Train['Width'], np.arange(0,200,10)).value_counts(sort=False)
plt.bar(dist.index.astype(str), dist.values)
plt.xticks(rotation=90)
plt.show()

dist

이미지 사이즈

In [None]:
image_height = 32
image_width = 32
image_channel = 3 #컬러 이미지가 있어서 3채널

# Test

In [None]:
df_Test = pd.read_csv('/content/drive/MyDrive/section4_Project/Test.csv')
df_Test

# 전처리

In [None]:
df_Train

In [None]:
df_Train['ClassId'] = df_Train['ClassId'].astype(str)
df_Test['ClassId'] = df_Test['ClassId'].astype(str)

# Test size
# 0.2 : test accuracy 96.5%
# 0.4 : test accuracy 91.5%

In [None]:
df_Train, df_Valid = train_test_split(df_Train, test_size=0.2)
df_Train

In [None]:
df_Valid

data augmentation
기본 : test accuracy 87.8%, 33ms/step
+ brightness_range : test accuracy 88.8%, 33ms/step
+ zoom_range 0.2 / rotation_range 20 : test accuracy 96.5%
+ zoom_range=0.2 (전체) / shear_range=0.2 : test accuracy 92.5%

In [None]:
datagen_kwargs = dict(rescale=1./255)
dataflow_kwargs = dict(target_size=(image_height, image_width), 
                       batch_size=16,
                       directory=DATA_PATH, 
                       x_col='Path', 
                       y_col='ClassId' ,
                       class_mode='sparse',
                       interpolation='bilinear',
                       brightness_range=[0.9,1.3]
                      )

##이미지를 사용할 때마다 임의로 변형을 가함으로써 마치 훨씬 더 많은 이미지를 보고 공부하는 것과 같은 학습 효과를 낸다.
##이를 통해 과적합(overfitting), 즉 모델이 학습 데이터에만 맞춰지는 것을 방지하고, 새로운 이미지도 잘 분류할 수 있게 됨.
##이런 전처리 과정을 돕기 위해 케라스는 ImageDataGenerator 클래스를 제공
# Train
train_datagen = ImageDataGenerator(
    rotation_range = 20,
    zoom_range = 0.2,
    **datagen_kwargs
)

train_generator = train_datagen.flow_from_dataframe(
        df_Train, 
        **dataflow_kwargs
)

# Validation
valid_datagen = ImageDataGenerator(**datagen_kwargs)
valid_generator = valid_datagen.flow_from_dataframe(
    df_Valid, 
    shuffle=False, 
    **dataflow_kwargs
)

# Test
test_datagen = ImageDataGenerator(**datagen_kwargs)
test_generator = test_datagen.flow_from_dataframe(
    df_Test, 
    shuffle=False, 
    **dataflow_kwargs
)

3. 딥러닝 모델
3-1. CNN 모델 설정
마지막에서 두 번째 Dense units=512 : test accuracy 88.8%, 33ms/step
마지막에서 두 번째 Dense units=128 : test accuracy 88.8%, 22ms/step

Conv + Pooling 세 층 : test accuracy 88.8%
Conv + Pooling 두 층 : test accuracy 88.8%
Conv + Pooling 한 층 : test accuracy 86.15%

In [None]:
model = Sequential([
    Input((image_height, image_width, image_channel)),
    Conv2D(filters=128, kernel_size=3, padding='same', activation='relu'),
    MaxPool2D(pool_size=(2, 2)),
    
    Conv2D(filters=256, kernel_size=3, padding='same', activation='relu'),
    MaxPool2D(pool_size=(2, 2)),

    Flatten(),
    Dense(64, activation='relu'),
    Dropout(rate=0.25),
    Dense(43, activation='softmax')
])

model.summary()

3-2. 학습 수행
optimizer
SGD : test accuracy 88.8%
Momentum 0.9 : test accuracy 95.6%
Adam : test accuracy 5.9%

In [None]:
model.compile(
    loss=tf.keras.losses.sparse_categorical_crossentropy,
    optimizer=tf.keras.optimizers.SGD(learning_rate=0.01, momentum=0.9),
    metrics=['accuracy']
)

In [None]:
EPOCHS = 1
# 처음 만든 모델이라면 EPOCHS를 1~5개로 하여 잘 돌아가는지 
# 성능을 확인해보고 값을 증가 시켜 봅시다.
# EPOCHS에 따른 성능을 보기 위하여 history 사용
history = model.fit(
      train_generator,
      validation_data = valid_generator, # validation 데이터 사용
      epochs= EPOCHS    ##5~20 까지 변경해보기
  )

In [None]:
##Keras에서는 모델 학습을 위해 fit() 함수를 사용합니다.
##이 때, 리턴값으로 학습 이력(History) 정보를 리턴합니다.
##여기에는 다음과 같은 항목들이 포함되어 있습니다.
##아래 항목들은 매 epoch 마다의 값들이 저장되어 있습니다.
##loss : 훈련 손실값
##acc : 훈련 정확도
##val_loss : 검증 손실값
##val_acc : 검증 정확도

accuracy = history.history['accuracy']
val_accuracy = history.history['val_accuracy']

loss=history.history['loss']
val_loss=history.history['val_loss']

epochs_range = range(EPOCHS)

plt.figure(figsize=(16, 8))
plt.subplot(1, 2, 1)
plt.plot(epochs_range, accuracy, label='Training Accuracy')
plt.plot(epochs_range, val_accuracy, label='Validation Accuracy')
plt.legend(loc='lower right')
plt.title('Training and Validation Accuracy')

plt.subplot(1, 2, 2)
plt.plot(epochs_range, loss, label='Training Loss')
plt.plot(epochs_range, val_loss, label='Validation Loss')
plt.legend(loc='upper right')
plt.title('Training and Validation Loss')
plt.show()

train data보다 valid data의 정확도가 떨어지는 이유 ?
train data의 경우 data augmentation를 적용하기 때문에 데이터에 무작위 변환을 하면 분류하기가 더 어려워 질 수 있다.

3-3. 모델 성능 평가 및 예측

In [None]:
test_loss, test_accuracy = model.evaluate(test_generator)

print('test set accuracy: ', test_accuracy)

In [None]:
plt.figure(figsize = (13, 13))
x_test, y_test = test_generator.next()
pred_test = model.predict_on_batch(x_test)
pred_class = np.argmax(pred_test, axis=-1)

start_index = 0
for i in range(25):
    plt.subplot(5, 5, i + 1)
    plt.grid(False)
    plt.xticks([])
    plt.yticks([])
    prediction = pred_class[start_index + i]
    actual = int(y_test[start_index + i])
    col = 'g'
    if prediction != actual:
        col = 'r'
    plt.xlabel('Actual={} || Pred={}'.format(actual, prediction), color = col)
    plt.imshow(array_to_img(x_test[start_index + i]))
plt.show()

In [None]:
test_prediction = model.predict(test_generator)
predicted_class = np.argmax(test_prediction, axis=-1)

In [None]:
import seaborn as sns
from sklearn.metrics import confusion_matrix, classification_report
cm = confusion_matrix(test_generator.labels, predicted_class)
plt.figure(figsize = (20, 20))
sns.heatmap(cm, annot = True)
plt.show()
print(classification_report(test_generator.labels, predicted_class))

4. VGGNet

In [None]:
def conv(filters, kernel_size = 3, activation= tf.nn.relu, padding= 'same'):
    return keras.layers.Conv2D(filters = filters, kernel_size = kernel_size, activation= activation, padding= padding)

In [None]:
model = keras.Sequential()

img_size = 32

# 첫 번째 Conv Block
# 입력 Shape는 ImageNet 데이터 세트의 크기와 같은 RGB 영상 (224 x 224 x 3)입니다
model.add(Input((img_size, img_size, 3)))
model.add(conv(64))
model.add(conv(64))
model.add(keras.layers.MaxPooling2D(pool_size = 2, strides = 2))

# 두 번째 Conv Block
model.add(conv(128))
model.add(conv(128))
model.add(keras.layers.MaxPooling2D(pool_size = 2, strides = 2))

# 세 번째 Conv Block
model.add(conv(256))
model.add(conv(256))
model.add(conv(256))
model.add(keras.layers.MaxPooling2D(pool_size = 2, strides = 2))

# 네 번째 Conv Block
model.add(conv(512))
model.add(conv(512))
model.add(conv(512))
model.add(keras.layers.MaxPooling2D(pool_size = 2, strides = 2))

# 다섯 번째 Conv Block
model.add(conv(512))
model.add(conv(512))
model.add(conv(512))
model.add(keras.layers.MaxPooling2D(pool_size = 2, strides = 2))

# Fully Connected Layer
model.add(keras.layers.Flatten())
# model.add(keras.layers.Dense(4096, activation= tf.nn.relu))
model.add(keras.layers.Dense(512, activation= tf.nn.relu))
model.add(keras.layers.Dense(58, activation= tf.nn.softmax))
  
model.summary()

5. ResNet
정확도 :

In [None]:
def conv(filters, kernel_size = 3, activation= tf.nn.relu, padding= 'same'):
    return keras.layers.Conv2D(filters = filters, kernel_size = kernel_size, activation= activation, padding= padding)


with tf.device('/device:GPU:0'):

  img_size = 512

  # Sequential 모델 선언
  model = keras.Sequential()
    
  '''
  지시사항 1번
  3 x 3 convolution만을 사용하여 VGG16 Net을 완성하세요.
  '''
  # 첫 번째 Conv Block
  # 입력 Shape는 ImageNet 데이터 세트의 크기와 같은 RGB 영상 (224 x 224 x 3)입니다
  model.add(Input((img_size, img_size, 3)))
  model.add(conv(64))
  model.add(conv(64))
  model.add(keras.layers.MaxPooling2D(pool_size = 2, strides = 2))
  
  # 두 번째 Conv Block
  model.add(conv(128))
  model.add(conv(128))
  model.add(keras.layers.MaxPooling2D(pool_size = 2, strides = 2))
  
  # 세 번째 Conv Block
  model.add(conv(256))
  model.add(conv(256))
  model.add(conv(256))
  model.add(keras.layers.MaxPooling2D(pool_size = 2, strides = 2))
  
  # 네 번째 Conv Block
  model.add(conv(512))
  model.add(conv(512))
  model.add(conv(512))
  model.add(keras.layers.MaxPooling2D(pool_size = 2, strides = 2))
  
  # 다섯 번째 Conv Block
  model.add(conv(512))
  model.add(conv(512))
  model.add(conv(512))
  model.add(keras.layers.MaxPooling2D(pool_size = 2, strides = 2))
  
  # Fully Connected Layer
  model.add(keras.layers.Flatten())
  model.add(keras.layers.Dense(4096, activation= tf.nn.relu))
  model.add(keras.layers.Dense(512, activation= tf.nn.relu))
  model.add(keras.layers.Dense(58, activation= tf.nn.softmax))

  train_images, test_images, train_labels, test_labels = get_images_and_preprocessing(512)

  print(train_images.shape)
  print(type(train_images))
  
  
  # 지시사항 2에서 설정한 모델을 불러옵니다.
  model = VGG16(512)
  
  # 모델의 구조를 확인합니다.
  model.summary()
  
  # 컴파일러를 설정합니다.
  optimizer = tf.keras.optimizers.Adam(0.001)
  model.compile(optimizer=optimizer,loss='categorical_crossentropy',metrics=['accuracy'])
  
  # fit 함수를 사용하여 모델을 학습합니다.
  # 학습 수행 시 정보는 history에 저장합니다.
  history = model.fit(train_images,train_labels, epochs=20, batch_size=128, validation_data=(test_images, test_labels), verbose = 2)
  
  # evaluate 함수를 사용하여 테스트 데이터의 결과값을 저장합니다.
  loss, test_acc = model.evaluate(test_images,test_labels, verbose=2)
  
  print('\nTest Loss : {:.4f} | Test Accuracy : {}'.format(loss, test_acc))
  print('예측한 Test Data 클래스 : ',model.predict_classes(test_images))
  
  Visualize([('VGGNet', history)], 'loss')
    
  Plotter(test_images, model)