<a href="https://colab.research.google.com/github/windyday0622/windyday/blob/main/m9_VISION%20%EC%9D%91%EC%9A%A9/%20vision_01_CNN.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## 합성곱 신경망 소개

합성곱 신경망(Convolutional Neural Networks, CNN)은 이미지나 비디오 등의 공간적 구조를 가진 데이터를 처리하는 데 유용한 딥러닝 모델

- 입력 레이어: 원시 이미지 데이터를 받아들이는 첫 번째 레이어. 이미지는 보통 높이, 너비, 그리고 색상 채널(예: RGB)의 3차원 텐서로 표현.

- 합성곱 레이어(Convolutional Layer): 이 레이어는 이미지의 지역적 특성을 학습. 이 레이어에서는 "필터" 또는 "커널"이라는 작은 윈도우가 이미지를 스캔하며 이동. 각 필터는 고유한 특징(예: 가장자리, 텍스처 등)을 인식.

- 필터/커널: 합성곱 층에서 사용되는 작은 행렬로, 랜덤한 값으로 초기화된 후에 데이터를 통해 학습. 필터는 이미지의 여러 부분을 스캔하며 특정 특징을 인식. 각 필터는 이미지의 다른 특성을 감지하는 역할을 한다. 예를 들어, 어떤 필터는 가로선을, 다른 필터는 세로선을, 또 다른 필터는 모서리나 특정 패턴을 감지할 수 있습니다. 여러 개의 필터를 사용함으로써, 다양한 특성을 추출하고 이미지를 더 잘 이해할 수 있다.

- 스트라이드: 필터가 이미지 위를 이동하는 간격. 스트라이드 값에 따라 출력 피쳐 맵의 크기가 결정되며 큰 스트라이드는 작은 출력 차원을 생성하고, 작은 스트라이드는 큰 출력 차원을 생성.

- 패딩: 입력 이미지의 주위에 픽셀을 추가하는 방법으로, 합성곱이 적용된 후의 출력 크기를 조절할 수 있다. 패딩이 없으면 합성곱 연산을 거치면서 출력 이미지의 크기가 작아진다. 패딩을 사용하면 이를 방지하고 원본 이미지의 공간적 크기를 보존할 수 있다.

- 활성화 함수: 일반적으로 ReLU(Rectified Linear Unit) 같은 비선형 활성화 함수가 사용되어 복잡한 패턴을 학습할 수 있도록 한다.

- 풀링 레이어(Pooling Layer): 이 레이어는 출력을 다운샘플링하여 모델의 복잡도를 줄이고, 과적합을 방지하며, 일부 공간적 인식력을 보존. 가장 많이 사용되는 풀링 방법은 최대 풀링(Max Pooling)이다.

- 완전 연결 레이어(Fully Connected Layer): 이 레이어는 모든 입력 뉴런이 모든 출력 뉴런과 연결되어 있다. 이는 일반적으로 신경망의 마지막 단계에서 사용되며, 합성곱 및 풀링 레이어를 통해 학습된 고차원 특징을 이용하여 최종적으로 분류나 회귀 등의 작업을 수행.

- 이러한 각 요소들이 어떻게 함께 작동하는지 간단하게 설명하면, 합성곱 레이어의 필터는 입력 이미지를 스캔하면서 지역적인 특징을 감지하고, 이 정보를 활성화 맵(특징 맵)의 형태로 출력. 이때, 스트라이드와 패딩은 필터가 이미지를 어떻게 스캔할지를 결정하며, 활성화 함수는 비선형성을 추가하여 복잡한 패턴을 학습하게 해준다. 그 다음, 풀링 레이어는 이 특징 맵을 다운샘플링하여 모델의 복잡도를 줄이고, 공간적 인식력을 보존하며, 과적합을 방지한다. 마지막으로, 완전 연결 레이어는 이런 모든 특징들을 종합하여 최종적으로 이미지의 클래스를 예측하거나, 객체의 위치를 회귀하는 등의 작업을 수행한다.
이런 식으로, CNN은 각 레이어에서 이미지의 다양한 특징을 학습하고, 이 정보를 바탕으로 복잡한 패턴을 인식하고, 효과적인 예측을 수행하게 됩니다.

- 2D 합성곱 (Conv2D): 이는 가장 흔히 사용되는 합성곱 유형으로, 이미지 같은 2차원 데이터에 적용. Conv2D는 입력 데이터의 지역적 특징을 인식하고 이를 학습하는 데 사용.

- 1D 합성곱 (Conv1D): 이 유형의 합성곱은 시퀀스 데이터(예: 시계열 데이터, 텍스트 데이터)를 처리하는 데 주로 사용. 이는 입력 시퀀스의 연속적인 부분을 고려하므로, 특히 시간적인 순서 정보가 중요한 문제에 유용.

https://kyeonminsu.tistory.com/30

### 합성곱 신경망(Convolutional Neural Networks, CNNs)에서 필터(또는 커널)를 여러 개 사용하는 이유

- 특성 추출: 각 필터는 이미지의 다른 특성을 감지하는 역할을 합니다. 예를 들어, 어떤 필터는 가로선을, 다른 필터는 세로선을, 또 다른 필터는 모서리나 특정 패턴을 감지할 수 있습니다. 여러 개의 필터를 사용함으로써, 다양한 특성을 추출하고 이미지를 더 잘 이해할 수 있습니다.

- 복잡한 패턴 학습: 초기 층의 필터가 간단한 특성을 추출하는 데 사용된다면, 네트워크의 깊은 층으로 갈수록 이러한 특성들이 결합되어 더 복잡한 패턴을 학습할 수 있습니다. 예를 들어, 얼굴 인식을 위한 CNN에서는 초기 층이 간단한 가장자리를 감지하는 반면, 더 깊은 층에서는 눈, 코, 입과 같은 특징을 학습하고, 최종적으로는 얼굴 전체의 복잡한 패턴을 인식할 수 있습니다.

- 증가된 모델의 용량: 여러 개의 필터를 사용함으로써, 모델은 더 많은 정보를 처리하고 저장할 수 있게 됩니다. 이는 모델이 더 복잡한 함수를 학습하고, 더 다양한 데이터에 대해 일반화할 수 있게 만듭니다.

- 다양한 해상도의 정보 포착: 다양한 크기의 필터를 사용하면, 다른 해상도에서의 특성을 포착할 수 있습니다. 작은 필터는 미세한 패턴을, 큰 필터는 이미지의 광범위한 구조를 감지할 수 있습니다. 이는 이미지의 다양한 측면을 이해하는 데 도움이 됩니다.

In [None]:
classes = ['티셔츠', '바지', '스웨터', '드레스', '코트',
           '샌달', '셔츠', '스니커즈', '가방', '앵클 부츠']

## 모델 개선
- 과대적합 방지 - 학습 파라미터 수 축소
- 모델 성능 높이기 - 레이어 추가
- 모델 성능 높이기 - 이미지 증식

- SpatialDropout2D: 2D 공간에서 특정 뉴런을 무작위로 드롭아웃합니다.
- ReduceLROnPlateau: 학습 성능이 개선되지 않을 경우 학습률을 동적으로 감소시킵니다.
- ImageDataGenerator: 이미지 데이터를 실시간으로 증강(augmentation)시키는 클래스입니다. 데이터 양을 늘리고 과적합을 방지하기 위해 이미지 회전, 확대, 축소 등의 변환을 수행할 수 있습니다.

class_names = ['T-Shirt','Trouser','Pullover','Dress','Coat','Sandal','Shirt','Sneaker','Bag','Ankle Boot']