# ⭐ 딥러닝 및 이미지 모델
## "1차시: 이미지 딥러닝 모델"
> CONTENT
1. CNN 살펴보기
  1. CNN vs FCN
  2. 모델구조
2. CNN 기반 모델 변천사
  1. AlexNet
  2. VGGNet
  3. ResNet
  4. MobileNet
<br>
<br>
> 학습 목표
- 이미지  기반 학습 모델의 구조와 작동 방식을 이해합니다.
- 대표적 CNN 기반 이미지 모델의 변천사를 배웁니다.
- 이미지 분류 문제에서 실습을 통해 주요 이미지 모델을 적용해봅니다.


## 0. 학습 시작(오버뷰)
> CNN 모델의 기본 구조는 무엇이며, 왜 이미지 과업에서 중요한가?
- CNN 모델의 기원 및 모델 주요 모듈 소개
> CNN의 단위 연산과 디자인 철학은 어떻게 발전했을까?
- 계층 깊이, 스케일, 학습 방법, 경량화
> CNN 기반 주요 모델은 어떻게 변화해왔고, 왜 중요한가?
- 깊이와 효율성을 동시에 높이는 방향으로 개선
<br>
<br>
> 산업 현장 사례
- 금형 표면 스크래치 검출
- 식품/의약품의 이물질 검출
- PCB 불량 자동 판정
  <br> 부품과 기판 사이의 접합이 불완전한 냉땜, 표면에 남은 플럭스 잔여물, 납땜부 미세 크랙 등 불량 검출

> 내 일상 속에서 찾아볼 수 있는 사례
- 성동구, 픽토그램 활용 '안심우회전시설' 첫 설치
- 인공지능(AI) 카메라를 이용하여 차량, 보행자 등을 실시간으로 감지
- 상황에 맞게 움직이는 픽토그램을 모니터로 표출하는 방식으로 교통사고를 효율적으로 예방

![image.png](./img/cnn1.png)


## 1. CNN 살펴보기
### 1-1. CNN vs FCN

> 완전 연결층(Fully-Connected Layer)
- 입력을 받아서 출력으로 변환하는 신경망의 기본 모듈
- FCN 변환 예씨
  - 입력: 이미지가 32x32x3인 고차행렬이라고 가정(이미지의 높이, 너비가 각각 32픽셀, RGB 값 3개를 의미하여 RGB 값은 0~255 사이) 이미지의 모든 화소를 나열하여 1차원 벡터로 만들어 입력 데이터로 받는다.
  - 출력: 10x1의 1차원 벡터
  - 모델 상수: 모델이 학습해야 하는 파라미터(parameter)
    <br> 상기 입출력 시, 모델상수 W는 10x3072로 입력의 모든 값이 출력에 미치는 영향을 나타냄.
![image.png](./img/cnn2.png)

<br>

> 합성곱 레이어 (Convolution Layer)
- 입력 이미지를 필터와 연산하여 특징 맵(feature map)을 뽑아내는 모듈
- 1차원 구조로 변환하는 FCN과 달리 3차원 구조를 그대로 보존하면서 연산
- Convolution(컨볼루션): 필터를 이미지 상에서 이동시키면서 내적을 반복 수행, 내적으로 구한 모든 값을 출력 제공

![image.png](./img/cnn3.png)
![image.png](./img/cnn4.png)
![image.png](./img/cnn5.png)
![image.png](./img/cnn6.png)

- 예: 박스필터

![image.png](./img/cnn7.png)
![image.png](./img/cnn8.png)
![image.png](./img/cnn9.png)
![image.png](./img/cnn10.png)
![image.png](./img/cnn11.png)
<br>
- 입력 이미지를 필터와 연산하여 특징 맵(feature map)을 뽑아내는 모듈

![image.png](./img/cnn12.png)
![image.png](./img/cnn13.png)
<br>
- 출력 해상도 = 입력 해상도 - 필터 해상도 + 1
  <br> ex. 8 = 10 - 3 + 1

![image.png](./img/cnn14.png)
![image.png](./img/cnn15.png)
![image.png](./img/cnn16.png)
![image.png](./img/cnn17.png)
![image.png](./img/cnn18.png)

### 1-2. 모델 구조
##### <b>CNN 모델 구조 - 중첩</b>
> 합성곱 레이어
- 모델 상수(파라미터)를 증가시키면?

![image.png](./img/cnn19.png)
![image.png](./img/cnn20.png)
![image.png](./img/cnn21.png)


<br>
<br>

> 필터 시각화
- 학습된 필터 시각화를 통해 각 모델(구조)가 학습한 정보를 이해 가능

![image.png](./img/cnn22.png)

<br>

##### <b>CNN 모델 구조 - 수용영역(Receptive Field)</b>

> 중첩과 수용영역
- CNN 레이어는 이미지 작은 부분인 '지역 정보'를 추출하는 데에 유리하게 설계
- 이미지 활용하는 다양한 작업에서 이미지 전체(예: 맥락) 의미 파악이 필요
  <br>따라서 '지역 정보 + 이미지 전체의 맥락'을 이해/활용하기 위한 설계가 필요함.
- 수용영역이란?
  - CNN이 이미지를 처리하면서 한 번에 볼 수 있는 영역의 크기
  - 네트워크의 시야
  - 일반적으로 네트워크가 깊어질수록 수용영역도 넓어짐 → 폭 넓은 맥락 이해 가능

- 고해상도 이미지 처리 시, 많은 레이어를 통과해야 함.
  <br> 연산, 비용, 학습 가능성 고려할 때 비실용적
- 실제 해법: 입력 사이즈를 줄여 모델에 입력함.

![image.png](./img/cnn23.png)

##### <b>CNN 모델 구조 - 풀링</b>
> 풀링: 효율적 연산 및 위치 변화의 강건성 확보
  - CNN 레이어의 출력을 줄여 연산 효율성을 확보: 입력 크기가 줄면 CNN의 연산량이 크게 줄어듦.
  - 예시: 2x2 풀링으로 입력의 해상도가 각각 $\frac{1}{2}$로 줄었을 경우

![image.png](./img/cnn24.png)

  - 위치 변화 강건성: 입력 내 객체 위치가 다소 변해도 동일한 출력을 제공
  - 사실상 저해상도 정보에 근거하여 작업 수행하므로 몇 화소 이동은 무시됨.

  ![image.png](./img/cnn25.png)
  