# 2장 : 사전 훈련된 신경망

## 2.1 이미지를 인식하는 사전 훈련된 신경망

$\textbf{이미지넷}^{\text{ImageNet}}$ 데이터셋

- 이미지넷은 스탠포드 대학에서 관리하는 1,400만 개의 이미지 세트
- 모든 이미지는 대규모 영어 어휘 데이터셋인 $\text{워드넷}^{\text{WordNet}}$데이터셋으로서 계층 관계를 지니는 명사로 레이블되어있음

$\textbf{이미지넷 이미지 인식 대회}^{\text{ILSVRC, ImageNet Large Scale Visual Recognition Challenge}}$

- 2010년에 시작한 학술 경연 대회
    - 이미지에 포함된 사물의 유형이 무엇인지 구분하는 이미지 분류
    - 이미지 내의 사물 위치를 식별하는 사물 측위
    - 이미지에서 사물을 파악하고 레이블링하는 사물 인식
    - 이미지의 상황을 분류하는 장면 분류
    - 이미지에서 소, 말, 치즈, 모자 등 의미 분류에 해당하는 영역을 떼어내는 장면 파싱
- ILSVRC의 훈련셋은 120만 개의 이미지로, 각 이미지에 해당하는 $\text{클래스}^{\text{class}}$가 '강아지'같은 1,000개의 명사로 레이블링되어 있다.

$\textbf{사전훈련 모델의 추론 방식}$

1. 입력 이미지 전처리(크기 변경, 중앙 배치, 정규화등 : crop, resize, normalize etcs) $\rightarrow$ `torch.Tensor`의 인스턴스로 변환
2. 변환된 텐서는 3차원으로 구성 (RGB채널, 높이, 너비). 실제 딥러닝 모델 훈련시에는 배치 차원이 추가되어 (배치, RGB채널, 높이, 너비)의 4차원으로 구성됨
3. 이러한 텐서가 사전훈련 신경망에 통과되면서 (순전파 : forward propagation) 각 클래스에 대한 점수 계산
4. 계산된 점수중 가장 높은 점수에 해당되는 클래스가 예측되는 레이블값

### 2.1.1 이미지 인식을 위한 사전 훈련된 신경망 가져오기

$\textbf{NOTE}$

> mini-synth 에 설치된 패키지 (혹은 tensorflow 패키지)가 pytorch와 충돌하는 문제는 `os.environ['KMP_DUPLICATE_LIB_OK']='True'` 으로 해결
> 위 과정에서 `ImportError: DLL load failed while importing _imaging: 운영 체제가 %1을(를) 실행할 수 없습니다.` 와 같은 문제는 `pip install --upgrade Pillow` 으로 해결


In [1]:
import os
os.environ['KMP_DUPLICATE_LIB_OK']='True'
from torchvision import models

dir(models)

['AlexNet',
 'AlexNet_Weights',
 'ConvNeXt',
 'ConvNeXt_Base_Weights',
 'ConvNeXt_Large_Weights',
 'ConvNeXt_Small_Weights',
 'ConvNeXt_Tiny_Weights',
 'DenseNet',
 'DenseNet121_Weights',
 'DenseNet161_Weights',
 'DenseNet169_Weights',
 'DenseNet201_Weights',
 'EfficientNet',
 'EfficientNet_B0_Weights',
 'EfficientNet_B1_Weights',
 'EfficientNet_B2_Weights',
 'EfficientNet_B3_Weights',
 'EfficientNet_B4_Weights',
 'EfficientNet_B5_Weights',
 'EfficientNet_B6_Weights',
 'EfficientNet_B7_Weights',
 'EfficientNet_V2_L_Weights',
 'EfficientNet_V2_M_Weights',
 'EfficientNet_V2_S_Weights',
 'GoogLeNet',
 'GoogLeNetOutputs',
 'GoogLeNet_Weights',
 'Inception3',
 'InceptionOutputs',
 'Inception_V3_Weights',
 'MNASNet',
 'MNASNet0_5_Weights',
 'MNASNet0_75_Weights',
 'MNASNet1_0_Weights',
 'MNASNet1_3_Weights',
 'MaxVit',
 'MaxVit_T_Weights',
 'MobileNetV2',
 'MobileNetV3',
 'MobileNet_V2_Weights',
 'MobileNet_V3_Large_Weights',
 'MobileNet_V3_Small_Weights',
 'RegNet',
 'RegNet_X_16GF_Weights'

### 2.1.2 AlexNet

In [2]:
alexnet = models.AlexNet()

In [3]:
alexnet

AlexNet(
  (features): Sequential(
    (0): Conv2d(3, 64, kernel_size=(11, 11), stride=(4, 4), padding=(2, 2))
    (1): ReLU(inplace=True)
    (2): MaxPool2d(kernel_size=3, stride=2, padding=0, dilation=1, ceil_mode=False)
    (3): Conv2d(64, 192, kernel_size=(5, 5), stride=(1, 1), padding=(2, 2))
    (4): ReLU(inplace=True)
    (5): MaxPool2d(kernel_size=3, stride=2, padding=0, dilation=1, ceil_mode=False)
    (6): Conv2d(192, 384, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (7): ReLU(inplace=True)
    (8): Conv2d(384, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (9): ReLU(inplace=True)
    (10): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (11): ReLU(inplace=True)
    (12): MaxPool2d(kernel_size=3, stride=2, padding=0, dilation=1, ceil_mode=False)
  )
  (avgpool): AdaptiveAvgPool2d(output_size=(6, 6))
  (classifier): Sequential(
    (0): Dropout(p=0.5, inplace=False)
    (1): Linear(in_features=9216, out_features=4096, bias=True)
 

### 2.1.3 ResNet

In [4]:
resnet = models.resnet101(weights=models.ResNet101_Weights.DEFAULT)

Downloading: "https://download.pytorch.org/models/resnet101-cd907fc2.pth" to C:\Users\PC/.cache\torch\hub\checkpoints\resnet101-cd907fc2.pth


100%|██████████| 171M/171M [00:16<00:00, 10.9MB/s] 


### 2.1.4 준비, 시...작전에 잠깐만

In [5]:
resnet

ResNet(
  (conv1): Conv2d(3, 64, kernel_size=(7, 7), stride=(2, 2), padding=(3, 3), bias=False)
  (bn1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
  (relu): ReLU(inplace=True)
  (maxpool): MaxPool2d(kernel_size=3, stride=2, padding=1, dilation=1, ceil_mode=False)
  (layer1): Sequential(
    (0): Bottleneck(
      (conv1): Conv2d(64, 64, kernel_size=(1, 1), stride=(1, 1), bias=False)
      (bn1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (conv2): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
      (bn2): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (conv3): Conv2d(64, 256, kernel_size=(1, 1), stride=(1, 1), bias=False)
      (bn3): BatchNorm2d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (relu): ReLU(inplace=True)
      (downsample): Sequential(
        (0): Conv2d(64, 256, kernel_size=(1, 1), stride=(1, 

`torchvision` 모듈에서는 이미지에 대한 기본적인 전처리 함수로 빠르게 파이프라인을 만들 수 있도록 `transforms`를 제공한다

In [6]:
from torchvision import transforms
preprocess = transforms.Compose([
    transforms.Resize(256),
    transforms.CenterCrop(224),
    transforms.ToTensor(),
    transforms.Normalize(
        mean = [0.485, 0.456, 0.406],
        std = [0.229, 0.224, 0.225]
    )
])