## 컴퓨터 비전

##### 종류
- Classification
- Classification + Localization
- Object Detection
- Instance Segmentation

## 합성곱신경망(CNN)

##### 종류
- AlexNet(2012)
- VGGNet(2014)
- ResNet(2015)
- DenseNet(2016)
- NasNet(2018)
- EfficientNet(2020)

### VGGNet
- 합성곱층의 파라미터 수를 줄이고 훈련시간을 개선하려고 탄생
- 즉 네트워크를 깊게 만드는 것이 성능에 어떤 영향을 미치는지 확인하고자 나온 것이 VGG
- VGG 연구 팀은 깊이의 영향만 최대한 확인하고 합성곱층에서 사용하는 필터/커널의 크기를 가장 작은 3 * 3으로 고정
- 네트워크 계층의 총 개수에 따라 여러 유형의 VGGNet이 있음
- 여기서 주목할 점은 모든 하성곱 커널의 크기는 3 * 3, 최대 풀링 커널의 크기는 2 * 2, 스트라이드는 2
- 결과적으로 64개의 224 * 244 특성 맥(224 * 224 * 64)들이 생성
- 또한 마지막 16번째 계층을 제외하고는 모두 ReLU 활성화 함수가 적용
![image.png](attachment:image.png)

### ResNet
- 깊어진 신경망을 효과적으로 학습하기 위한 방법으로 레지듀얼(residual) 개념을 고안한 것

![image-2.png](attachment:image-2.png)

- 아직까지는 ResNet을 이해하기는 어렵다
- 블록 : 계층의 묶음, 합성곱츠을 하나의 블록으로 묶은 것
- 색상별로 블록을 구분했는데, 이렇게 묶인 계층들을 하나의 레지듀얼 블록이라 하며, 이러한 레지듀얼 블록을 여러 개 쌓은 것은 ResNet이라 함

![image-3.png](attachment:image-3.png)

- 정리하면, ResNet은 기본적으로 VGG19 구조를 뼈대로 하며, 거기에 합성곱층들을 추가해서 깊게 만든 후 숏컷들을 추가함

### GoogLeNet
- 주어진 하드웨어 자원을 최대한 효율적으로 이용면서 학습 능력을 극대화할 수 있는 깊고 넓은 신경망
- 깊고 넓은 신경망을 위해 GoogLeNet은 인셉션(inception)모듈을 추가
- 인셉션 모둘에서는 특징을 효율적으로 추출하기 위해 합성곱 연산을 각각 수행
- 3 * 3 치대 풀링은 입력과 출력의 높이와 너비가 같아야 하므로 풀링 연산에서는 드물게 패딩을 추가해야 함
- 결과적으로 GoogLeNet에 적용된 해결 방법은 희소 연결(sparse connectivity)
- CNN은 합성곱, 풀링, 완전연결층들이 서로 밀집하게 연결되어 있음
- 빽빽하게 연결된 신경망 대신 관련상이 높은 노드끼리만 연결하는 방법을 희소 연결이라 하며, 이것으로 연산량이 적어지며 과적합도 해결가능
![image-4.png](attachment:image-4.png) 
*인셉션 모델의 4가지 연산*
![image-8.png](attachment:image-8.png)
- 딥러닝을 이용하여 대회에 참여하거나 서비스를 제공하려면 대용량 데이터를 학습해야 함
- 심층 신경망의 아키텍처에서 계층이 넓고(뉴런이 많고) 깊으면(계층이 많으면) 인식률을 좋아지지만 과적합이나 기울기 소멸 문제를 비롯한 학습 시간 지연과 연산 속도 등의 문제가 있음
- 특히 합성곱 신경망에서 이러한 문제들이 나타나는데 GoogLeNet에서 해결 가능하다고 보면 됨

### YOLO(You Only Look Once)
- 1회를 강조한 이름
- 영역 탐지와 분류를 동시에 실행
- 빠르지만 정확도는 다소 떨어짐
- 영역의 박스와 해당 박스의 분류를 동시에 복수개 출력하는 네트워크
- 모두 98개(7 * 7 * 2)가 제안되고, 중복되지 않고 확신도가 높은 것만 추림
- GoogLeNet을 기반으로 CNN을 사용
- 입력은 일반 이미지를 입력으로 받음
- 출력은 98개 상자에 대한 정보(위치, 폭과 높이)와 클래스와 확신도를 출력으로 함
![image-6.png](attachment:image-6.png)
- 각 셀별로 2개의 박스를 탐지(셀에 중심을 두는 박스)
- 각 박스별로 분리
![image-7.png](attachment:image-7.png)

## 비전 트랜스포머(ViT)
- 이미지 분야에서 attention 기법을 사용할 경우 대부분 CNN과 함께 사용되거나 전체 CNN 구조를 유지하면서 CNN 특정 구성요소를 대체하는데 사용
- CNN에 의존하지 않고 이미지 패치의 시퀀스를 입력값으로 사용하는 trnaformer을 적용
- 장점
    - transformer구조를 거의 그대로 사용하기 때문에 확장성의 좋음
    - large 스케일 학습에서 매우 우수한 성능을 보임
    - transfer learning시 CNN보다 훈련에 더 적은 계산 리소스를 사용
- 단점
    - inductive bias의 부족으로 인해 CNN보다 데이터가 많이 요구
    
![image.png](attachment:image.png)