# SRGAN 활용하기

## 학습 목표

- Super Resolution과 그 과정 수행에 필요한 기본 개념을 이해합니다.
- Super Resolution에 사용되는 대표적인 2개의 구조(SRCNN, SRGAN)에 대해 이해하고 활용합니다.

## 루브릭

|평가문항	|상세기준|
|:---|:---|
|1. SRGAN을 이용해 고해상도의 이미지를 생성하였다.|SRGAN을 통해 생성된 이미지를 제출하였다.|
|2. 다양한 해상도의 이미지에 대해 시각화를 통해 원본, SRGAN생성본, interpolation생성본을 비교분석하였다.|이미지의 특성과 super resolution 방법을 관련지어 생성 결과를 체계적으로 분석하였다.|
|3. 저해상도 gif 동영상을 고해상도 동영상으로 성공적으로 변환하였다.|저해상도 원본 gif와 생성된 고해상도 gif의 해상도 차이가 시각적으로 확인 가능하다.|

## 목차
- 개념정리
- 프로젝트 1
    - 프로젝트 1-1
    - 프로젝트 1-2
- 프로젝트 2

## 개념정리

### Super Resolution

- 픽셀(pixel) 은 디스플레이를 구성하고 있는 가장 작은 단위를 말합니다.
- RGB 각각을 Sub-Pixel이라고 하고, RGB 3개를 모아 놓은 것은 One-Pixel이라고 합니다.
- 해상도는 가로 및 세로의 픽셀 수로 표기하며, 픽셀의 개수가 많을수록 고해상도가 되어 선명해집니다.
-  Super Resolution(초해상화)란 저해상도 영상을 고해상도 영상으로 변환하는 작업 또는 그러한 과정을 말합니다.

### Super Resolution을 어렵게 만드는 요인들
- 1. ill-posed (inverse) problem
    - 하나의 저해상도 이미지에 대해 여러 개의 고해상도 이미지가 나올 수 있다는 것
- 2. Super Resolution 문제의 복잡도
     - 2x2 크기의 이미지를 이용해 3x3, 4x4, 5x5 크기의 이미지로 Super Resolution 하게되면 3x3 크기의 이미지 만드는 경우 새롭게 생성해야 하는 정보는 최소 5개 픽셀이며, 4x4의 경우 12개, 5x5의 경우 21개의 정보를 생성해야 합니다.
     - 원래 가진 제한된 정보만을 이용해 많은 정보를 만들어내는 과정은 매우 복잡하며 그만큼 잘못된 정보를 만들어 낼 가능성 또한 높습니다.
- 3. 결과를 평가하는 데 있어 정량적 평가 척도와 사람의 평가가 잘 일치하지 않는점

### Interpolation

- interpolation(보간법)이란 알려진 두 점 사이의 특정 지점에 대한 값을 추정하는 방법
- Linear interpolation을 2차원으로 확장한 것이 bilinear interpolation입니다. Linear interpolation의 경우 2개의 값을 이용해 새로운 픽셀을 예측하며, bilinear interpolation은 4개의 값을 이용합니다.

### SRCNN
- SRCNN은 2014년 발표된 "Image Super-Resolution Using Deep Convolutional Networks" 논문에서 사용되었습니다.

아래 그림이 SRCNN 구조입니다. 간략하게 살펴봅시다.

![Sketch of the SRCNN architecture.](https://images.deepai.org/converted-papers/1808.03344/SRCNN.png)

가장 먼저 저해상도 이미지(그림의 LR)를 bicubic interpolation 하여 원하는 크기로 이미지를 늘립니다. SRCNN은 이 이미지(그림의 ILR)를 입력으로 사용합니다. 이후 3개의 convolutional layer를 거쳐 고해상도 이미지를 생성해 냅니다. 생성된 고해상도 이미지와 실제 고해상도 이미지 사이의 차이를 역전파 하여 신경망의 가중치를 학습합니다. 

1. Patch extraction and representation : 저해상도 이미지에서 patch를 추출한다.
2. Non-linear mapping : Patch를 다른 차원의 patch로 비선형 매핑한다.
3. Reconstruction : Patch로부터 고해상도 이미지를 생성한다.

loss function은 MSE를 사용하였습니다.
MSE loss function은 보통의 딥러닝 모델들에 많이 쓰이는 function으로 평균제곱오차값이며 전체적인 학습에 효과는 좋지만, 이 후 high frequency의 특징들을 잘 못 잡아내기 때문에 다른 loss function을 사용한 SR 딥러닝 모델들이 등장하게 됩니다.

### GAN

- 확률분포를 알면 그 데이터의 예측 기댓값, 데이터의 분산을 즉각 알아낼 수 있어 데이터의 통계적 특성을 바로 분석할 수 있으며, 주어진 확률분포를 따르도록 데이터를 임의 생성하면 그 데이터는 확률분포를 구할 때 사용한 원 데이터와 유사한 값을 가집니다.
- GAN과 같은 비지도학습이 가능한 머신러닝 알고리즘으로 데이터에 대한 확률분포를 모델링 할 수 있게 되면, 원 데이터와 확률분포를 정확히 공유하는 무한히 많은 새로운 데이터를 새로 생성할 수 있음을 의미합니다.
- GAN의 학습이 완료되었을 때, Generator의 경우 원 데이터의 확률분포를 따르는 새로운 데이터를 만들며, Discriminator의 경우 분류에 의미가 없는 0.5의 확률값을 출력하게됩니다.
(출처:[GAN - 스스로 학습하는 인공지능](https://www.samsungsds.com/kr/insights/Generative-adversarial-network-AI.html))

### SRGAN = Super Resoultion + GAN

SRGAN은 2016년 발표된 "Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network" 논문에서 제안되었으며, 아래 그림과 같이 이전에 학습한 SRCNN 보다 조금 복잡한 구조를 갖습니다.

![srgan_architecture](https://d3s0tskafalll9.cloudfront.net/media/images/e-22-14.srgan.max-800x600.png)
[출처: https://arxiv.org/pdf/1609.04802.pdf]

Generator가 저해상도 이미지를 입력 받아 (가짜)고해상도 이미지를 생성해 내면, Discriminator는 생성된 (가짜)고해상도 이미지와 실제(진짜) 고해상도 이미지 중 진짜를 판별합니다.

SRGAN에서 사용하는 loss function은 아래와 같이 조금 특별합니다.
![srgan_lossfunction](https://d3s0tskafalll9.cloudfront.net/media/images/e-22-15.srgan_loss.max-800x600.png)

위 식을 보면 크게 content loss와 adversarial loss로 구성되어 있고, 이 중 adversarial loss는 우리가 일반적으로 알고 있는 GAN의 loss이며, 조금 특별한 부분은 아래 그림으로 나타낸 content loss 부분입니다.

content loss는 Generator를 이용해 얻어낸 (가짜) 고해상도 이미지를 실제 (진짜) 고해상도 이미지와 직접 비교하는 것이 아니라, 각 이미지를 이미지넷으로 사전 학습된(pre-trained) VGG 모델에 입력하여 나오는 feature map에서의 차이를 계산합니다.

즉, 이전에 학습했던 SRCNN은 생성해낸 고해상도 이미지를 원래 고해상도 이미지와 직접 비교하여 loss를 계산했지만, SRGAN에서는 생성된 고해상도 이미지와 실제 고해상도 이미지를 VGG에 입력하여 모델 중간에서 추출해낸 특징을 비교해서 loss를 계산합니다.

SRGAN은 VGG를 이용한 content loss 및 GAN을 사용함으로써 발생하는 adversarial loss를 합하여 최종적으로 perceptual loss라고 정의하며 이를 학습에 이용합니다.

## 프로젝트 1 : 직접 고른 이미지로 SRGAN 실험하기

### 프로젝트 1-1

#### 1. 데이터 준비 

(적당히) 높은 해상도를 가진 이미지를 검색해서 한 장 고른 후 저장하고 불러옵니다.

#### 2. 불러온 이미지에 bicubic interpolation을 적용해 가로 및 세로 픽셀 수를 1/4로 줄입니다. cv2.resize()를 사용해 봅시다.

#### 3. 줄인 저해상도 이미지를 입력으로 SRGAN을 이용해 고해상도 이미지를 생성합니다. 이전에 사용한 apply_srgan 함수를 사용하면 쉽습니다.

#### 4. 2.의 이미지에 bicubic interpolation을 적용해 가로 및 세로 픽셀 수를 다시 4배로 늘립니다. 마찬가지로 cv2.resize()를 사용해 봅시다.

#### 5. 3개 이미지(4.의 Bicubic의 결과, 3.의 SRGAN의 결과, 1.의 원래 고해상도 이미지)를 나란히 시각화합니다. 각 이미지의 제목에 어떤 방법에 대한 결과인지 표시해 주세요. 이전 시각화에 사용했던 코드를 참고하면 어렵지 않습니다.

#### 6. 선택한 이미지를 DIV2K 데이터셋에서 학습된 모델로 Super Resolution했을 때 어떠한 결과가 나왔으며, 왜 이러한 결과가 출력되었는지 설명해 봅시다. (정답은 없습니다)

### 프로젝트 1-2

#### 1. (적당히) 낮은 해상도를 가진 이미지를 검색해서 한 장 고른 후 저장하고 불러옵니다.

#### 2. 불러온 이미지를 입력으로 SRGAN을 이용해 고해상도 이미지를 생성합니다. 이전에 사용한 apply_srgan 함수를 사용하면 쉽습니다.

#### 3. 1.에서 불러온 이미지에 bicubic interpolation을 적용해 가로 및 세로 픽셀 수를 다시 4배로 늘립니다. cv2.resize()를 사용해 봅시다.

#### 4. 2개 이미지(3.의 Bicubic의 결과, 2.의 SRGAN의 결과)를 나란히 시각화합니다. 각 이미지의 제목에 어떤 방법에 대한 결과인지 표시해 주세요. 이전 시각화에 사용했던 코드를 참고하면 어렵지 않습니다.

#### 5. 선택한 이미지를 DIV2K 데이터셋에서 학습된 모델로 Super Resolution했을 때 어떠한 결과가 나왔으며, 왜 이러한 결과가 출력되었는지 설명해 봅시다. (정답은 없습니다)

## 프로젝트 2 : SRGAN을 이용해 고해상도 gif 생성하기

이미 학습된 SRGAN을 이용해 저해상도 영상을 고해상도 영상으로 바꿔보는 프로젝트를 수행해 봅시다.

#### 1. gif 파일 불러오기

GIF files https://drive.google.com/drive/folders/1OLsa4btdwNUiVJcOJgZe_C6-lwEoNr4e

다운받은 gif 파일을 아래와 같은 과정을 통해 각 프레임(이미지)을 불러올 수 있습니다. frames이란 리스트 안에 각각의 프레임이 들어 있습니다.

In [None]:
import cv2

# 다운받은 파일의 경로를 설정해 주세요.
gif = cv2.VideoCapture("저해상도.gif")

isTrue = True
frames = []
while isTrue:
    isTrue, frame = gif.read()
    if isTrue:
        frame = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB)
        frames.append(frame)

print("frame 수 :", len(frames))
print("frame 크기 :", (frames[0].shape))

#### 2. 프레임별 Super Resolution 진행하기

Bicubic interpolation과 SRGAN을 이용해 각각의 가로, 세로 픽셀 수를 4배로 늘려봅시다. Super Resolution이 완료된 각각의 결과를 frames_sr이라는 리스트에 넣어주세요.

#### 3. 프레임을 합쳐 gif 만들기
위에서 frame_sr을 만들었다면 아래 코드와 같이 gif 파일을 생성할 수 있습니다. Bicubic 및 SRGAN의 결과를 각각 저장하여 2개 파일을 만들어 주세요.

In [None]:
import imageio

imageio.mimsave("고해상도.gif", frames_sr)

#### 4. Jupyter notebook에 gif 표시하기
아래와 같이 다운받은 저해상도 gif 파일과 고해상도 gif 파일을 각각 jupyter 내에 출력하여 최종 제출해 주시면 됩니다. jupyter 내에 출력이 어려운 경우, GitHub에 저해상도, 고해상도 gif파일을 업로드 후 링크를 첨부해주시기바랍니다. Super Resolution이 잘 적용되었는지 시각적으로 확인하기 위해 아래의 width 옵션을 적당히 크게 해주세요. 저해상도 및 고해상도 시각화의 width 값은 같도록 설정해주세요.

In [None]:
from IPython.display import Image as show_gif

show_gif("저해상도.gif", width=800) # width 는 적당히 큰 값으로 설정해주세요

In [None]:
show_gif("고해상도.gif", width=800) # 위에서 설정한 width와 같은 값으로 설정해주세요