## Pyramid Scene Parsing Network, (PSPNet) Hengshuang Zhao et al., 2017.

### Related Works : DeepLab v3
**Spatial Pyramid Pooling**
- **DeepLab v1** : atrous convolution(dilated) & conditional random field(CRF)
- **DeepLab v2** : ASPP(atrous spatial pyramid pooling) module for various size objects segmentation
<img src = "attachment:image.png" width = "200dp"></img>
- **DeepLab v3** : ResNet structure for encoder, BatchNorm applied, ASPP module improvement
- DeepLab v2에서의 ASPP module은 일반적인 DNN을 활용한 Semantic Segmentation에서는 pooling이나 stride를 이용할 때 spatial info를 상실하는 현상이 발생하는 것을 막기 위해 도입됨.
- Atrous Convolution은 pooling 연산 없이 넓은 receptive field를 커버하는 장점이 있음. (기존 CNN에서는 receptive field를 크게 하려고 kernel size를 늘리면 output feature map의 해상도가 감소했기 때문)
- ASPP module은 Pyraid Pooling을 통해 multi-scale context를 잘 추출했으나, atrous rate가 증가할수록 valid weight의 개수가 감소하는 문제 발생.
- ASPP module에서 valid weight 개수 감소의 의미는, 예를 들어 atrous rate가 극단적으로 8인 3X3 Conv.layer라면 8칸마다 하나씩 sampling한다는 뜻이므로(꽤나 멀리 떨어진 위치) 실제로 해당 위치에서의 contextual info를 담고 있는 weight는 1개뿐
- 그래서 last feature map에 GAP 적용하여 위의 degenerate 문제 해결한 것이 DeepLab v3

### Problem Statement
**Scene parsing task vs. semantic segmentation**
- Semantic segmentation은 이미 object detection이 된 대상에 대해서 pixel-wise label을 붙이는 것
- Scene parsing task는 말 그대로 주어진 'scene'을 보고 모든 subgroup들로 parsing하여 어떤 class에 속하는지까지 밝혀야 함

**Observations with FCN**
<img src = "attachment:image-2.png" width = "500dp"></img>
- FCN is quite helpful for semantic segmentation, but FCN fails to learn scene context(global context, global scene category clue).
    - 01. Mismatched Relationship
        - Context relationship을 고려하지 않은 Segmentation
        - 첫째 그림에서 강 위에 떠 있는 것은 배이지, 차가 될 수 없다는 inference가 필요함
    - 02. Confusion Categories
        - Skyscraper vs. building(ambiguous...), 헷갈릴 수 있는 pixel classification
    - 03. Inconspicuous Classes
        - 작은 size 혹은 주변 환경과의 유사성으로 인해 눈에 잘 띄지 않는 물체의 pixel classification
        - 셋째 그림에서 베개는 주변 이불과 유사하여 구분되지 않을 수 있음
- Spatial pyramid pooling can help this problem.

### Contributions
**01. Pyramid Scene Parsing Network(PSPNet)**
- Pyramid Pooling을 통한 global context clue capturing

**02. Deeply supervised loss for optimization of deep ResNet**
- Dilated ResNet을 pretrain model로 사용, 이때 ResNet의 learning process에서 auxiliary loss를 활용

### Architecture
- DeepLab v3에서는 Big receptive field의 문제로 valid weight의 수가 적다는 것을 지적하고, 그 해결책으로 Global average pooling을 제시함.
- Global average pooling은 사실 semantic segmentation에서는 simple하게 fuse하는 것은 spatial relationship loss를 유발하는 문제가 있음
- 그래서 Feature pyramid pooling을 제안함
    - CNN을 거친 output feature map에서 여러 stride로 pooling한 다음 Convolution layer 거친 결과를 다시 upsampling해서(bilinear interpolation) 원래 feature map concatenate.
    - 병렬적으로 multi-scale context를 학습하는 PSP architecture
    - pooling stride 크면 global context 관찰 가능 $\to$ out-of-context prediction 예방
    
<img src="attachment:image-3.png" width = "700dp"></img>

```python
class PSPModule(nn.Module):
    """Ref: Pyramid Scene Parsing Network,CVPR2017, http://arxiv.org/abs/1612.01105 """

    def __init__(self, inChannel, midReduction=4, outChannel=512, sizes=(1, 2, 3, 6)):
        super(PSPModule, self).__init__()
        self.midChannel= int(inChannel/midReduction)  #1x1Conv channel num, defalut=512
        self.stages = []
        # 각 sub-region을 ModuleList로 모음
        self.stages = nn.ModuleList([self._make_stage(inChannel, self.midChannel, size) for size in sizes])  #pooling->conv1x1
        # concatenation한 feature들에 convolution 적용
        self.bottleneck = nn.Conv2d( (inChannel+ self.midChannel*4), outChannel, kernel_size=3)  #channel: 4096->512 1x1
        self.bn = nn.BatchNorm2d(outChannel)
        self.prelu = nn.PReLU()

    # 각 sub-regsion의 Average Pooling과 Convolution 연산을 하는 함수
    def _make_stage(self, inChannel, midChannel,  size):
        # Average Pooling으로 (size, size) 크기의 sub-region을 생성합니다.
        # 참조 : https://gaussian37.github.io/dl-pytorch-snippets/#nnavgpool2d-vs-nnadaptiveavgpool2d-1
        pooling = nn.AdaptiveAvgPool2d(output_size=(size, size))
        # sub-region을 1x1 convolution으로 채널 수를 midChannel 만큼 증감 시킵니다.
        Conv = nn.Conv2d(inChannel, midChannel, kernel_size=1, bias=False)
        return nn.Sequential(pooling, Conv)

    def forward(self, feats):
        # 입력으로 들어온 feature의 height, width 사이즈를 구합니다.
        h, w = feats.size(2), feats.size(3)
        # 각 sub-region을 input feature 크기로 interpolation을 합니다.
        # stage(feats)는 input feature를 각 sub-region 형태로 구한 feature를 뜻합니다.
        mulBranches = [F.upsample(input=stage(feats), size=(h, w), mode='bilinear') for stage in self.stages] + [feats]
        # interpolation 한 각 sub-region을 concatenation 하여 하나의 feature로 만듭니다.
        out = self.bottleneck( torch.cat( (mulBranches[0], mulBranches[1], mulBranches[2], mulBranches[3],feats) ,1))
        # batch-normalation 적용
        out = self.bn(out)
        # prelu 적용
        out = self.prelu(out)
        return out
```
### Experiment Results
### Implementation Details