# CIFAR_10 데이타셋을 이용한 CNN 

## CIFAR-10 데이터 셋 
- https://www.cs.toronto.edu/~kriz/cifar.html
- 총 10개의 클래스    참고) 총 100개의 클래스  CIFAT-100 데이타셋
- 총 50,000개의 학습 데이타, 10,000개의 테스트 데이터
- 이미지 - 32X32X3 
- MNIST 데이터 셋에 비해 데이터 복잡도가 훨씬 높아 높은 성능을 기대하기는 어렵다.

<img src="./img/cifar-10.jpg" align=left width=400 height=300>

In [None]:
# 경고 무시
from warnings import filterwarnings
filterwarnings("ignore")

## Part 1. CIFAR-10 데이타셋을 이용한 CNN

### 1. 데이타 다운로드 및 시각화

### 1) CIFAR-10 데이터 다운로드 받기

### 2) CIFAR-10 데이터 그려보기

In [None]:
import matplotlib.pyplot as plt
import numpy as np
np.random.seed(777)

class_names = ['airplane', 'automobile', 'bird', 'cat',
              'deer', 'dog', 'frog', 'horse',
              'ship', 'truck']

sample_size = 9
random_idx = np.random.randint(60000, size=sample_size) 

plt.figure(figsize = (5, 5))
for i, idx in enumerate(random_idx):
    plt.subplot(3, 3, i+1)
    plt.xticks([])
    plt.yticks([])
    plt.imshow(x_train[i], cmap = 'gray')
    plt.xlabel(class_names[int(y_train[i])])
plt.show()

### 2. 데이타 셋 전처리 - 피처 표준화
- 데이타 셋의 평균과 표준편차를 채널별로 구해 표준화 진행

In [None]:
# 평균과 표준편차는 채널별로 구해줍니다.


### 3. 검증 데이타 나누기

In [None]:
from sklearn.model_selection import train_test_split


### 4. CNN 모델 구성하기

#### 모델 구성 확인

In [None]:
# pip install pydot-ng
# pip install graphviz
# Graphviz 패키지 설치, 윈도우에서 환경변수에 경로 추가

# import os
# os.environ["PATH"] += os.pathsep + 'C:/Program Files (x86)/Graphviz2.38/bin'



### 5. 컴파일 설정
- 레이블 형태를 원-핫 인코딩을 이용하여 범주형 형태로 변환했을 때 사용하는 손실 함수
    - ->  'categorical_crossentropy' 사용
- 레이블 형태를 원-핫 인코딩 하지 않고 레이블 형태(0~9) 그대로 사용할 때 사용하는 손실함수 
    - -> 'sparse_categorical_crossentropy'

### 6. 모델 학습하기

### 7. 모델 평가하기

### 8. 학습 과정 그려보기

In [None]:
import matplotlib.pyplot as plt

his_dict = history.history
loss = his_dict['loss']
val_loss = his_dict['val_loss'] 

epochs = range(1, len(loss) + 1)
fig = plt.figure(figsize = (10, 5))

# 훈련 및 검증 손실 그리기
ax1 = fig.add_subplot(1, 2, 1)
ax1.plot(epochs, loss, color = 'blue', label = 'train_loss')
ax1.plot(epochs, val_loss, color = 'orange', label = 'val_loss')
ax1.set_title('train and val loss')
ax1.set_xlabel('epochs')
ax1.set_ylabel('loss')
ax1.legend()

acc = his_dict['acc']
val_acc = his_dict['val_acc']

# 훈련 및 검증 정확도 그리기
ax2 = fig.add_subplot(1, 2, 2)
ax2.plot(epochs, acc, color = 'blue', label = 'train_acc')
ax2.plot(epochs, val_acc, color = 'orange', label = 'val_acc')
ax2.set_title('train and val acc')
ax2.set_xlabel('epochs')
ax2.set_ylabel('acc')
ax2.legend()

plt.show()

- 그래프 설명)
- 과대적합의 문제 발생

---
## Part 2. 과대 적합 피하기
- 과대적합을 피하기 위한 가장 좋은 방법은 데이터를 충분히 모아놓고 모델을 구현하는 것

### 과대 적합 피하는 방법
#### (1) 드롭 아웃(drop out) 
- 과대 적합을 피하기 위해 사용되는 대표적인 방법 중 하나
- 학습이 진행되는 동안 신경망의 일부 유닛을 제외(드롭) 한다.
- 신경망 모델은 드룹 아웃으로 제외한 유닛 대신 제외하지 않은 유닛을 집중적으로 학습
- 과대 적합 문제를 방지함과 동시에 더 나은 성능을 기대할 수 있다. -> 선택과 집중
- 드롭 아웃 비율(dropout rate)는 일반적으로 0.2 ~ 0.5를 사용
- 드롭아웃은 학습 속도를 느리게 하는 단점이 존재
- 테스트 시에는 드룹아웃이 작동하지 않으며, 모든 유닛이 활성화되어 출력하게 된다.

#### (2) 규제화 함수(regulaizer) 사용하기
- 규제화 함수(regulaizer : 임의로 모델의 복잡도를 제한시키는 것을 의미
- L1 노름(라쏘, LASSO), L2 노름(릿지, Ridge), L1 노름과 L2 노름을 혼합한 엘라스틱넷(ElasticNet)
- tensorflow, keras, regularizers, l1(l=0.01) - 가중치의 절대값 합
- tensorflow, keras, regularizers, l2(l=0.01) - 가중치의 제곱합
- tensorflow, keras, regularizers, l1_l2(i1-0.01, l2=0.01) - (혼합) 절대값의 합 + 제곱합
- 각 규제화 함수는 기능에 맞게 가중치의 합을 구하여 손실함수에 더하게 된다.
- (예) l2 규제화 함수 = 가중치의 제곱합 + 손실 

#### (3) 배치 정규화(Batch Normalization)
- 근본적으로 과대적합을 피하기 위한 방법은 아님
- 배치 정규화와 드롭아웃과 배교하여 설명
- 내부 공선성을 해결하기 위해 고안
- 신경망의 출력값은 다양한 입력 데이타에 따라 쉽게 변할 수 있는데, 
- 매우 큰 범위의 출력값은 신경망을 불안정하게 하여 성능저하를 일으킬 수 있다.
- 배치 정규화는 출력값이 가질 수 있는 범위,즉 출력값 분포의 범위를 줄여주어 불확실성을 어느 정도 감소시키는 방법
- 배치 정규화의 장점
    - 1) 기존 신경망은 높은 학습률을 사용하는 경우, 그래디언트 손실/폭발의 문제점이 존재
        - 배치 정규화를 사용하면, 이러한 문제를 방지할 수 있어 높은 학습률을 사용하여 빠른 속도로 학습을 진행할 있게 한다.
    - 2) 배치 정규화는 자체적인 규제 효과가 있기 때문에, 과대적합 문제를 피할 수 있게 한다.
        - 과대적합에 도움이 될 뿐 보장하지는 않는다. 
        - "배치정규화를 사용하면 별도의 규제화 함수나 드롭아웃을 사용하지 않아도 된다"라는 의견이 다수    
- 배치 정규화를 사용할 경우, 일반적으로 아래와 같은 순서를 이용하여 모델을 구성
    - Dense층 또는 Conv2D층 -> BatchNormalization() -> Activation()

### 1. 드롭 아웃

### 1) 데이타 불러오기/데이타 표준화/검증데이타 만들기

In [None]:
from tensorflow.keras.datasets import cifar10
import numpy as np

(x_train, y_train), (x_test, y_test) = cifar10.load_data()

# 평균과 표준편차는 채널별로 구해줍니다.
x_mean = np.mean(x_train, axis = (0, 1, 2))
x_std = np.std(x_train, axis = (0, 1, 2))

x_train = (x_train - x_mean) / x_std
x_test = (x_test - x_mean) / x_std

from sklearn.model_selection import train_test_split

x_train, x_val, y_train, y_val = train_test_split(x_train, y_train, 
                                                  test_size = 0.3, random_state = 777)

print('data ready~')

### 2) 드롭아웃을 이용한 모델 구성 및 학습

In [None]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Conv2D, MaxPool2D, Dense, Flatten, Dropout
from tensorflow.keras.optimizers import Adam

model = Sequential()
model.add(Conv2D(filters = 32, kernel_size = 3, padding = 'same', activation = 'relu', input_shape = (32, 32, 3)))
model.add(Conv2D(filters = 32, kernel_size = 3, padding = 'same', activation = 'relu'))
model.add(MaxPool2D(pool_size = (2, 2), strides = 2, padding = 'same'))
model.add(Dropout(0.2)) # 드롭아웃을 추가합니다.

model.add(Conv2D(filters = 64, kernel_size = 3, padding = 'same', activation = 'relu'))
model.add(Conv2D(filters = 64, kernel_size = 3, padding = 'same', activation = 'relu'))
model.add(MaxPool2D(pool_size = (2, 2), strides = 2, padding = 'same'))
model.add(Dropout(0.2)) # 드롭아웃을 추가합니다.

model.add(Conv2D(filters = 128, kernel_size = 3, padding = 'same', activation = 'relu'))
model.add(Conv2D(filters = 128, kernel_size = 3, padding = 'same', activation = 'relu'))
model.add(MaxPool2D(pool_size = (2, 2), strides = 2, padding = 'same'))
model.add(Dropout(0.2)) # 드롭아웃을 추가합니다.

model.add(Flatten())
model.add(Dense(256, activation = 'relu'))
model.add(Dense(10, activation = 'softmax'))

model.compile(optimizer = Adam(1e-4),
             loss = 'sparse_categorical_crossentropy',
             metrics = ['acc'])

history = model.fit(x_train, y_train,
                    epochs = 30,
                    batch_size = 32,
                    validation_data = (x_val, y_val))

### 3) 학습 과정 그리기

In [None]:
import matplotlib.pyplot as plt

his_dict = history.history
loss = his_dict['loss']
val_loss = his_dict['val_loss'] 

epochs = range(1, len(loss) + 1)
fig = plt.figure(figsize = (10, 5))

# 훈련 및 검증 손실 그리기
ax1 = fig.add_subplot(1, 2, 1)
ax1.plot(epochs, loss, color = 'blue', label = 'train_loss')
ax1.plot(epochs, val_loss, color = 'orange', label = 'val_loss')
ax1.set_title('train and val loss')
ax1.set_xlabel('epochs')
ax1.set_ylabel('loss')
ax1.legend()

acc = his_dict['acc']
val_acc = his_dict['val_acc']

# 훈련 및 검증 정확도 그리기
ax2 = fig.add_subplot(1, 2, 2)
ax2.plot(epochs, acc, color = 'blue', label = 'train_acc')
ax2.plot(epochs, val_acc, color = 'orange', label = 'val_acc')
ax2.set_title('train and val acc')
ax2.set_xlabel('epochs')
ax2.set_ylabel('acc')
ax2.legend()

plt.show()

- 그래프 설명)
- 두 그래프의 선이 벌어지지 않고 있다.
- 과대적합을 해결할 방법을 사용하지 않은 모델과 규제화 함수를 사용한 모델과 비교했을 때 
- 과대적합을 방지하기에 드롭아웃 방법은 매우 강력해 보임
- 드롭아웃은 학습 속도를 느리게 하는 단점이 존재

### 2. 규제화 함수 사용
- l2 규제화 함수 사용

### 1) 데이타 불러오기/데이타 표준화/검증데이타 만들기

In [None]:
from tensorflow.keras.datasets import cifar10
import numpy as np

(x_train, y_train), (x_test, y_test) = cifar10.load_data()

# 평균과 표준편차는 채널별로 구해줍니다.
x_mean = np.mean(x_train, axis = (0, 1, 2))
x_std = np.std(x_train, axis = (0, 1, 2))

x_train = (x_train - x_mean) / x_std
x_test = (x_test - x_mean) / x_std

from sklearn.model_selection import train_test_split

x_train, x_val, y_train, y_val = train_test_split(x_train, y_train, 
                                                  test_size = 0.3, random_state = 777)

print('data ready~')

### 2) 모델 구성 및 학습

In [None]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Conv2D, MaxPool2D, Dense, Flatten
from tensorflow.keras.optimizers import Adam
from tensorflow.keras.regularizers import l2

model = Sequential()

# 입력 데이터는 (32, 32, 3)의 형태를 가집니다.
model.add(Conv2D(filters = 32, kernel_size = 3, padding = 'same', activation = 'relu', input_shape = (32, 32, 3)))
model.add(Conv2D(filters = 32, kernel_size = 3, padding = 'same', activation = 'relu', kernel_regularizer = l2(0.001)))
model.add(MaxPool2D(pool_size = (2, 2), strides = 2, padding = 'same'))

model.add(Conv2D(filters = 64, kernel_size = 3, padding = 'same', activation = 'relu'))
model.add(Conv2D(filters = 64, kernel_size = 3, padding = 'same', activation = 'relu', kernel_regularizer = l2(0.001)))
model.add(MaxPool2D(pool_size = (2, 2), strides = 2, padding = 'same'))

model.add(Conv2D(filters = 128, kernel_size = 3, padding = 'same', activation = 'relu'))
model.add(Conv2D(filters = 128, kernel_size = 3, padding = 'same', activation = 'relu', kernel_regularizer = l2(0.001)))
model.add(MaxPool2D(pool_size = (2, 2), strides = 2, padding = 'same'))

model.add(Flatten())
model.add(Dense(256, activation = 'relu', kernel_regularizer = l2(0.001)))
model.add(Dense(10, activation = 'softmax'))

model.compile(optimizer = Adam(1e-4),
             loss = 'sparse_categorical_crossentropy',
             metrics = ['acc'])

history = model.fit(x_train, y_train,
                    epochs = 30,
                    batch_size = 32,
                    validation_data = (x_val, y_val))

### 3) 학습 과정 그리기

In [None]:
import matplotlib.pyplot as plt

his_dict = history.history
loss = his_dict['loss']
val_loss = his_dict['val_loss'] 

epochs = range(1, len(loss) + 1)
fig = plt.figure(figsize = (10, 5))

# 훈련 및 검증 손실 그리기
ax1 = fig.add_subplot(1, 2, 1)
ax1.plot(epochs, loss, color = 'blue', label = 'train_loss')
ax1.plot(epochs, val_loss, color = 'orange', label = 'val_loss')
ax1.set_title('train and val loss')
ax1.set_xlabel('epochs')
ax1.set_ylabel('loss')
ax1.legend()

acc = his_dict['acc']
val_acc = his_dict['val_acc']

# 훈련 및 검증 정확도 그리기
ax2 = fig.add_subplot(1, 2, 2)
ax2.plot(epochs, acc, color = 'blue', label = 'train_acc')
ax2.plot(epochs, val_acc, color = 'orange', label = 'val_acc')
ax2.set_title('train and val acc')
ax2.set_xlabel('epochs')
ax2.set_ylabel('acc')
ax2.legend()

plt.show()

- 그래프 설명)
- 규제화 함수를 사용하지 않은 모델에 비해 비교적 그래프가 안정적으로 그려지는 것을 확인할 수 있다.

### 3. 배치 정규화
- 배치 정규화를 사용할 경우, 일반적으로 아래와 같은 순서를 이용하여 모델을 구성
    - Dense층 또는 Conv2D층 -> BatchNormalization() -> Activation()

### 1) 데이타 불러오기/데이타 표준화/검증데이타 만들기

In [None]:
from tensorflow.keras.datasets import cifar10
import numpy as np

(x_train, y_train), (x_test, y_test) = cifar10.load_data()

# 평균과 표준편차는 채널별로 구해줍니다.
x_mean = np.mean(x_train, axis = (0, 1, 2))
x_std = np.std(x_train, axis = (0, 1, 2))

x_train = (x_train - x_mean) / x_std
x_test = (x_test - x_mean) / x_std

from sklearn.model_selection import train_test_split

x_train, x_val, y_train, y_val = train_test_split(x_train, y_train, 
                                                  test_size = 0.3, random_state = 777)

print('data ready~')

### 2) 배치 정규화 이용한 모델 구성 및 학습

In [None]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Conv2D, MaxPool2D, Dense, Flatten, Activation, BatchNormalization
from tensorflow.keras.optimizers import Adam

model = Sequential()
model.add(Conv2D(filters = 32, kernel_size = 3, padding = 'same', input_shape = (32, 32, 3)))
model.add(BatchNormalization())
model.add(Activation('relu'))

model.add(Conv2D(filters = 32, kernel_size = 3, padding = 'same'))
model.add(BatchNormalization())
model.add(Activation('relu'))
model.add(MaxPool2D(pool_size = (2, 2), strides = 2, padding = 'same'))

model.add(Conv2D(filters = 64, kernel_size = 3, padding = 'same'))
model.add(BatchNormalization())
model.add(Activation('relu'))

model.add(Conv2D(filters = 64, kernel_size = 3, padding = 'same'))
model.add(BatchNormalization())
model.add(Activation('relu'))
model.add(MaxPool2D(pool_size = (2, 2), strides = 2, padding = 'same'))

model.add(Conv2D(filters = 128, kernel_size = 3, padding = 'same'))
model.add(BatchNormalization())
model.add(Activation('relu'))

model.add(Conv2D(filters = 128, kernel_size = 3, padding = 'same'))
model.add(BatchNormalization())
model.add(Activation('relu'))
model.add(MaxPool2D(pool_size = (2, 2), strides = 2, padding = 'same'))

model.add(Flatten())
model.add(Dense(256))
model.add(BatchNormalization())
model.add(Activation('relu'))
model.add(Dense(10, activation = 'softmax'))

model.compile(optimizer = Adam(1e-4),
             loss = 'sparse_categorical_crossentropy',
             metrics = ['acc'])

history = model.fit(x_train, y_train,
                    epochs = 30,
                    batch_size = 32,
                    validation_data = (x_val, y_val))

### 3) 학습 과정 그리기

In [None]:
import matplotlib.pyplot as plt

his_dict = history.history
loss = his_dict['loss']
val_loss = his_dict['val_loss'] 

epochs = range(1, len(loss) + 1)
fig = plt.figure(figsize = (10, 5))

# 훈련 및 검증 손실 그리기
ax1 = fig.add_subplot(1, 2, 1)
ax1.plot(epochs, loss, color = 'blue', label = 'train_loss')
ax1.plot(epochs, val_loss, color = 'orange', label = 'val_loss')
ax1.set_title('train and val loss')
ax1.set_xlabel('epochs')
ax1.set_ylabel('loss')
ax1.legend()

acc = his_dict['acc']
val_acc = his_dict['val_acc']

# 훈련 및 검증 정확도 그리기
ax2 = fig.add_subplot(1, 2, 2)
ax2.plot(epochs, acc, color = 'blue', label = 'train_acc')
ax2.plot(epochs, val_acc, color = 'orange', label = 'val_acc')
ax2.set_title('train and val acc')
ax2.set_xlabel('epochs')
ax2.set_ylabel('acc')
ax2.legend()

plt.show()

- 그래프 설명)
- 10 에폭 이후로 과대 적합이 발생하고 있지만, 가장 높은 성능을 달성했다는 점에서 이를 보완 
- 배치 정규화는 다수의 모델에서 사용되고 있기 때문에 자주 접하고 활용