# DLSS1 paper Review

https://digitalcommons.morris.umn.edu/cgi/viewcontent.cgi?article=1127&context=horizons


![image.png](attachment:ad38123c-9362-47f0-8cc8-6f461d914eb3.png)

저해상도로 렌더링한 프레임(이미지)을 고해상도처럼 보이도록 업스케일링(upscaling)하고, 동시에 화면 내 물체의 경계선(aliasing 현상)을 제거(anti-aliasing)하여 깔끔한 화질을 제공하는 것.

전통적인 TAA(Temporal Anti-Aliasing)나 체크보드 렌더링 같은 기법보다 높은 화질을 유지하면서도 GPU 부하를 줄이는 게 주된 목표.

신경망을 이용해 업스케일된 고해상도 이미지를 예측하는 구조.

게임 엔진이 저해상도 프레임을 그린 뒤, 해당 프레임의 모션 벡터(전/후 프레임 픽셀 매핑 정보) 등의 보조 정보를 GPU에 전달한다.
NVIDIA Tensor Core 등을 활용해 DLSS 모델이 빠르게 업스케일링 + 노이즈 억제 등을 수행한다.

초기 DLSS는 게임별, 장면별 특화 모델(Per-Game Training)을 적용하였음에도 불구하고 잔상(ghosting)이나 블러 문제 등이 발견되었다.
특히 사물이 빠르게 움직이는 장면에서 TAA 기반보다 훨씬 뛰어난 결과를 기대했으나, 간혹 과도한 디테일 손실이 나타나기도 했다.

# DLSS(Deep Learning Super Sampling)

게임에서 생성된 저해상도 이미지를 고해상도로 ‘업스케일링’하면서, 가능한 한 많은 디테일을 복원(또는 추정)하는 것

Convolutional Auto-encoder Neural Network(CAE) 사용

1. 입력 이미지 자체에 없는 정보(픽셀 디테일)를 신경망이 “추가”해서 만들기 때문에, 정확하지 않은 디테일이 “hallucination” 형태로 생길 수 있음
2. 모션벡터를 사용하였지만 이 모션 벡터 자체는 이미지의 디테일을 늘려주지 못하므로, 여전히 제한적
3. 게임마다 별도로 학습필요
4. 빠르게 움직이는 장면(액션이 많은 FPS, 레이싱 등)에서 잔상(ghosting)이나 뭉개짐(blur) 현상이 발생




<blue>[해야하는일이지만 현재 생략한 것] </blue>


(1) 모션 벡터 활용,

(2) Per-Game Training 프로세스,

(3) NVIDIA 텐서 코어 최적화,

(4) 템포럴 필터(Temporal Super Resolution)

In [None]:
import torch
import torch.nn as nn
import torch.optim as optim
import torchvision
import torchvision.transforms as T

# -------------------------------
# 1. 하이퍼파라미터 설정
# -------------------------------
batch_size = 64
learning_rate = 1e-3
num_epochs = 5  # 예시이므로 작게 설정

# -------------------------------
# 2. 데이터셋 준비 (MNIST 사용)
#    고해상도(원본: 28x28) -> 저해상도(14x14)로 다운샘플링 후,
#    다시 28x28로 복원시키도록 학습
# -------------------------------
transform_hr = T.Compose([
    T.ToTensor()
])
transform_lr = T.Compose([
    T.Resize((14, 14)),  # 다운샘플
    T.Resize((28, 28)),  # 다시 (공간만) 28x28으로 확장 (픽셀 정보는 저해상도 수준)
    T.ToTensor()
])

train_dataset = torchvision.datasets.MNIST(
    root='./data', train=True, download=True, transform=transform_hr
)
train_dataset_lr = torchvision.datasets.MNIST(
    root='./data', train=True, download=True, transform=transform_lr
)

# MNIST 데이터를 (HR, LR) 쌍으로 묶기
# (주의: 실제로는 LR, HR을 별도 폴더/방식으로 다루는 편이 좋습니다)
train_loader = torch.utils.data.DataLoader(
    list(zip(train_dataset_lr, train_dataset)),
    batch_size=batch_size,
    shuffle=True
)

test_dataset = torchvision.datasets.MNIST(
    root='./data', train=False, download=True, transform=transform_hr
)
test_dataset_lr = torchvision.datasets.MNIST(
    root='./data', train=False, download=True, transform=transform_lr
)
test_loader = torch.utils.data.DataLoader(
    list(zip(test_dataset_lr, test_dataset)),
    batch_size=batch_size,
    shuffle=False
)

# -------------------------------
# 3. 모델 정의: 오토인코더 (DLSS 1.0의 기초 개념)
#    - Conv 블록으로 Encoder
#    - ConvTranspose 블록으로 Decoder
# -------------------------------
class SimpleDLSS1Autoencoder(nn.Module):
    def __init__(self):
        super(SimpleDLSS1Autoencoder, self).__init__()
        
        # 인코더 (저해상도 -> latent)
        self.encoder = nn.Sequential(
            # 입력: (1, 28, 28)
            nn.Conv2d(1, 32, kernel_size=3, stride=2, padding=1),  # (32, 14, 14)
            nn.ReLU(True),
            nn.Conv2d(32, 64, kernel_size=3, stride=2, padding=1), # (64, 7, 7)
            nn.ReLU(True),
        )
        
        # 디코더 (latent -> 고해상도)
        self.decoder = nn.Sequential(
            nn.ConvTranspose2d(64, 32, kernel_size=3, stride=2, padding=1, 
                               output_padding=1),  # (32, 14, 14)
            nn.ReLU(True),
            nn.ConvTranspose2d(32, 1, kernel_size=3, stride=2, padding=1,
                               output_padding=1),  # (1, 28, 28)
            nn.Sigmoid()
        )
        
    def forward(self, x):
        # x: (배치, 채널=1, 28, 28) - 이미 LR로 downsample된 상태
        latent = self.encoder(x)
        out = self.decoder(latent)
        return out

model = SimpleDLSS1Autoencoder()

# -------------------------------
# 4. 손실 함수 및 최적화 설정
# -------------------------------
criterion = nn.MSELoss()  # 혹은 L1Loss
optimizer = optim.Adam(model.parameters(), lr=learning_rate)

# -------------------------------
# 5. 학습 루프
# -------------------------------
for epoch in range(num_epochs):
    model.train()
    running_loss = 0.0
    
    for i, ((lr_imgs, _), (hr_imgs, _)) in enumerate(train_loader):
        # lr_imgs: 저해상도(혹은 다운샘플 후 확장) 이미지
        # hr_imgs: 원본 고해상도 이미지
        optimizer.zero_grad()
        
        outputs = model(lr_imgs)  # 업스케일 결과
        loss = criterion(outputs, hr_imgs)  # MSE 로스
        loss.backward()
        optimizer.step()
        
        running_loss += loss.item()
    
    epoch_loss = running_loss / len(train_loader)
    print(f"Epoch [{epoch+1}/{num_epochs}], Loss: {epoch_loss:.4f}")

print("Training finished.")

# -------------------------------
# 6. 추론(Inference) 예시
# -------------------------------
import matplotlib.pyplot as plt

model.eval()
with torch.no_grad():
    (lr_imgs, _), (hr_imgs, _) = next(iter(test_loader))  # 첫 배치만 시각화
    outputs = model(lr_imgs)
    
    # 시각화
    fig, axs = plt.subplots(3, 5, figsize=(10, 6))
    for idx in range(5):
        axs[0, idx].imshow(lr_imgs[idx].squeeze().numpy(), cmap='gray')
        axs[0, idx].set_title("LR Input")
        axs[0, idx].axis('off')
        
        axs[1, idx].imshow(outputs[idx].squeeze().numpy(), cmap='gray')
        axs[1, idx].set_title("Upscaled")
        axs[1, idx].axis('off')
        
        axs[2, idx].imshow(hr_imgs[idx].squeeze().numpy(), cmap='gray')
        axs[2, idx].set_title("HR Ground Truth")
        axs[2, idx].axis('off')
    
    plt.tight_layout()
    plt.show()


### 데이터 전처리

MNIST 이미지를 (28×28)에서 (14×14)로 줄인 뒤, 다시 (28×28) 사이즈로 늘려서 “저해상도처럼” 만든 데이터를 LR로 삼습니다.
원본 (28×28) 이미지를 HR(정답)으로 둡니다.
실제 DLSS 1.0은 컬러(3채널) + 훨씬 큰 해상도 데이터를 사용하며, 엔진에서 뽑아낸 모션 벡터 등 메타데이터도 함께 입력 받아야합니다..


![image.png](attachment:225948dd-1b73-4621-9b9d-6b7725c7d910.png)

This brings us to a phenomenon known as `aliasing` . 
Aliasing is an undesirable visual artifact that occurs when an


image is displayed or sampled at a resolution lower than
what is required to accurately represent the original image,

resulting in distortion and/or pixelation. In Figure 2, The

pixels form a stair-like pattern along the edges of the line,

creating a jagged appearance. This effect reduces the perceived quality and realism of the graphics.
