In [1]:
import torch
import torch.nn as nn
import torch.optim as optim
from torchvision import datasets, transforms
from torchvision.models import resnet18 # 기본 resnet18 로드
from torch.ao.quantization import QuantStub, DeQuantStub, fuse_modules
from torch.ao.quantization import get_default_qconfig
from torch.ao.quantization.quantize import quantize_static # <--- 이 부분 수정
import os
import time
import copy # deepcopy를 위해 임포트

# 1. 하이퍼파라미터 및 설정
BATCH_SIZE = 64
NUM_EPOCHS = 5
CALIBRATION_BATCHES = 100
LEARNING_RATE = 0.001
DEVICE = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# 3. 데이터 로더 준비 (MNIST)
transform = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize((0.1307,), (0.3081,))
])

train_dataset = datasets.MNIST('./data', train=True, download=True, transform=transform)
test_dataset = datasets.MNIST('./data', train=False, download=True, transform=transform)

train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=BATCH_SIZE, shuffle=True)
test_loader = torch.utils.data.DataLoader(test_dataset, batch_size=BATCH_SIZE, shuffle=False)
calibration_loader = torch.utils.data.DataLoader(train_dataset, batch_size=BATCH_SIZE, shuffle=True)


# 4. 모델 학습 함수
def train_model(model, train_loader, criterion, optimizer, num_epochs):
    model.train()
    print(f"\n모델 학습 시작 ({num_epochs} 에폭)...")
    for epoch in range(num_epochs):
        running_loss = 0.0
        for i, (inputs, labels) in enumerate(train_loader):
            inputs, labels = inputs.to(DEVICE), labels.to(DEVICE)
            optimizer.zero_grad()
            outputs = model(inputs)
            loss = criterion(outputs, labels)
            loss.backward()
            optimizer.step()
            running_loss += loss.item()
            if i % 100 == 99:
                print(f"Epoch [{epoch+1}/{num_epochs}], Batch [{i+1}/{len(train_loader)}], Loss: {running_loss/100:.4f}")
                running_loss = 0.0
    print("모델 학습 완료.")

# 5. 모델 평가 함수
def evaluate_model(model, test_loader, target_device=None):
    model.eval()
    correct = 0
    total = 0

    if target_device is None:
        model_device = next(model.parameters()).device
    else:
        model_device = target_device

    model.to(model_device)

    with torch.no_grad():
        for inputs, labels in test_loader:
            inputs, labels = inputs.to(model_device), labels.to(model_device)
            outputs = model(inputs)
            _, predicted = torch.max(outputs.data, 1)
            total += labels.size(0)
            correct += (predicted == labels).sum().item()
    accuracy = 100 * correct / total
    print(f'Accuracy: {accuracy:.2f}%')
    return accuracy

# --- 메인 실행 로직 ---

# 6. 모델 생성 및 초기 학습 (torchvision의 resnet18 사용)
model_fp32 = resnet18(weights=None)

model_fp32.conv1 = nn.Conv2d(1, 64, kernel_size=7, stride=2, padding=3, bias=False)
model_fp32.fc = nn.Linear(model_fp32.fc.in_features, 10)

criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model_fp32.parameters(), lr=LEARNING_RATE)

model_fp32 = model_fp32.to(DEVICE)
train_model(model_fp32, train_loader, criterion, optimizer, NUM_EPOCHS)

print("\n--- FP32 모델 평가 ---")
fp32_accuracy = evaluate_model(model_fp32, test_loader, target_device=DEVICE)
torch.save(model_fp32.state_dict(), "resnet18_mnist_fp32.pth")
fp32_size = os.path.getsize("resnet18_mnist_fp32.pth") / (1024 * 1024)
print(f"FP32 모델 크기: {fp32_size:.2f} MB")

# --- Static Quantization (Eager Mode 기반) ---

# 7. Eager Mode Static Quantization 준비
model_fp32.to("cpu") # 모델을 CPU로 옮깁니다.
model_fp32.eval()    # 평가 모드 설정

# 7-1. Eager Mode 퓨징
# torchvision resnet의 퓨징 로직을 따릅니다.
# Conv - BatchNorm - ReLU 패턴을 퓨징하여 QuantizedConvReLU와 같이 만듭니다.
# model_fp32 자체가 resnet18 인스턴스이므로, resnet에 내장된 fuse_model 메서드를 사용합니다.
# 이 메서드는 인플레이스로 모듈을 퓨징합니다.
fused_model_eager = copy.deepcopy(model_fp32)
fused_model_eager.eval() # 퓨징 전 eval 모드 설정

# resnet18 모델의 특정 패턴을 퓨징합니다.
# resnet18의 fuse_model() 메서드는 내부적으로 Conv+BN, Conv+BN+ReLU 패턴을 찾아서 퓨징합니다.
fused_model_eager.fuse_model()
print("Eager Mode 모델 퓨징 완료.")

# QuantStub과 DeQuantStub 삽입 (모델의 입력과 출력을 양자화/역양자화)
# Eager Mode에서는 이렇게 직접 삽입해야 합니다.
model_with_quant_stubs = nn.Sequential(
    QuantStub(),
    fused_model_eager, # 퓨징된 모델을 Sequential 안에 넣습니다.
    DeQuantStub()
)

# 7-2. QConfig 설정 (Eager Mode에서는 get_default_qconfig 사용)
# QConfig는 모듈에 직접 할당됩니다.
model_with_quant_stubs.qconfig = get_default_qconfig("fbgemm")
# print(f"Eager Mode QConfig: {model_with_quant_stubs.qconfig}") # QConfig 확인

# 7-3. 모델 준비 (Eager Mode)
# prepare 함수는 옵저버를 삽입합니다.
# calibrate() 함수를 호출할 때 inplace=False로 새로운 모델을 반환하도록 합니다.
# (prepare는 이제 prepare_fx와는 다르게 직접적인 함수 호출이 아닌, 내부적으로 처리될 수 있습니다.)
# quantize_static은 prepare와 convert를 한 번에 처리합니다.
# 따라서 prepare 단계는 quantize_static 함수가 내부적으로 처리합니다.
# 여기서 prepared_model_eager는 단순히 quantize_static을 위한 중간 변수명입니다.
# Eager mode에서는 이 부분에 `prepare` 함수를 직접 호출하는 방식도 사용 가능합니다.
# 현재 방식은 quantize_static이 내부적으로 prepare를 처리합니다.

# quantize_static의 첫 번째 인자로 qconfig와 모델을 전달하여 바로 양자화 진행
# calibrate=True로 설정하여 캘리브레이션도 함께 수행
print("\n--- Static Quantization Calibration 시작 (Eager Mode) ---")
# calibrate_model = quantize_static(model_with_quant_stubs, qconfig=get_default_qconfig("fbgemm"), inplace=False)
# 위의 코드는 prepare와 convert를 한 번에 처리하므로, calibration을 따로 빼내기 어렵습니다.

# Eager Mode의 올바른 Prepare -> Calibrate -> Convert 흐름
# 1. 모델에 QConfig 할당 (위에서 이미 했음)
# 2. prepare_qat (양자화 학습용) 또는 prepare (일반적인 양자화용)
#    여기서는 정적 양자화이므로 prepare를 사용합니다.
torch.ao.quantization.prepare(model_with_quant_stubs, inplace=True) # model_with_quant_stubs를 inplace로 변경

# Calibration (보정)
with torch.inference_mode():
    for batch_idx, (inputs, labels) in enumerate(calibration_loader):
        if batch_idx >= CALIBRATION_BATCHES:
            break
        inputs = inputs.to("cpu")
        model_with_quant_stubs(inputs) # prepare된 모델에 데이터 통과
        if batch_idx % 20 == 0:
            print(f"  Calibration batch: {batch_idx}/{CALIBRATION_BATCHES}")
print("Calibration 완료.")

# 9. 양자화 적용 및 변환 (Eager Mode)
# calibrate가 완료된 모델을 quantize_static으로 변환
quantized_model_static_eager = quantize_static(model_with_quant_stubs, inplace=False)
quantized_model_static_eager.eval()
print("Eager Mode convert 완료.")


# 10. 양자화된 모델 가중치 타입 확인 (Eager Mode)
print("\n--- Eager Mode Quantized Model Weights Dtype 확인 ---")
for name, module in quantized_model_static_eager.named_modules():
    # 양자화된 Conv2d와 Linear 모듈의 가중치는 QTensor 타입입니다.
    # QTensor의 dtype을 확인해야 합니다.
    if hasattr(module, 'weight') and module.weight is not None:
        if isinstance(module.weight, torch.Tensor):
            print(f"모듈: {name}, 가중치 Dtype: {module.weight.dtype}")
        elif isinstance(module.weight, torch.quantized.QTensor): # 양자화된 텐서
            print(f"모듈: {name}, 가중치 Dtype: {module.weight.dtype}, QTensor.qscheme: {module.weight.qscheme}")

# 11. 양자화된 모델 평가 (Eager Mode)
print("\n--- Quantized Static (Eager Mode) 모델 평가 ---")
quantized_accuracy_eager = evaluate_model(quantized_model_static_eager, test_loader, target_device=torch.device("cpu"))

# 양자화된 모델 저장 (전체 모델 객체 저장)
torch.save(quantized_model_static_eager, "resnet18_mnist_quantized_static_eager.pth")
quantized_size_eager = os.path.getsize("resnet18_mnist_quantized_static_eager.pth") / (1024 * 1024)
print(f"Quantized Static (Eager Mode) 모델 크기: {quantized_size_eager:.2f} MB")

print("\n--- 최종 결과 비교 ---")
print(f"FP32 모델 정확도: {fp32_accuracy:.2f}% (크기: {fp32_size:.2f} MB)")
print(f"Static Quantized (Eager Mode) 모델 정확도: {quantized_accuracy_eager:.2f}% (크기: {quantized_size_eager:.2f} MB)")

AttributeError: type object 'torch._C._distributed_c10d.ProcessGroup' has no attribute 'Options'

In [1]:
import torch
import torch.nn as nn
import torch.optim as optim
from torchvision import datasets, transforms
from torchvision.models import resnet18 # 기본 resnet18 로드
from torch.ao.quantization import QuantStub, DeQuantStub, fuse_modules
from torch.ao.quantization import get_default_qconfig
from torch.ao.quantization.quantize import quantize_static # <--- 이 부분 수정
import os
import time
import copy # deepcopy를 위해 임포트

# 1. 하이퍼파라미터 및 설정
BATCH_SIZE = 64
NUM_EPOCHS = 5
CALIBRATION_BATCHES = 100
LEARNING_RATE = 0.001
DEVICE = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# 3. 데이터 로더 준비 (MNIST)
transform = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize((0.1307,), (0.3081,))
])

train_dataset = datasets.MNIST('./data', train=True, download=True, transform=transform)
test_dataset = datasets.MNIST('./data', train=False, download=True, transform=transform)

train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=BATCH_SIZE, shuffle=True)
test_loader = torch.utils.data.DataLoader(test_dataset, batch_size=BATCH_SIZE, shuffle=False)
calibration_loader = torch.utils.data.DataLoader(train_dataset, batch_size=BATCH_SIZE, shuffle=True)


# 4. 모델 학습 함수
def train_model(model, train_loader, criterion, optimizer, num_epochs):
    model.train()
    print(f"\n모델 학습 시작 ({num_epochs} 에폭)...")
    for epoch in range(num_epochs):
        running_loss = 0.0
        for i, (inputs, labels) in enumerate(train_loader):
            inputs, labels = inputs.to(DEVICE), labels.to(DEVICE)
            optimizer.zero_grad()
            outputs = model(inputs)
            loss = criterion(outputs, labels)
            loss.backward()
            optimizer.step()
            running_loss += loss.item()
            if i % 100 == 99:
                print(f"Epoch [{epoch+1}/{num_epochs}], Batch [{i+1}/{len(train_loader)}], Loss: {running_loss/100:.4f}")
                running_loss = 0.0
    print("모델 학습 완료.")

# 5. 모델 평가 함수
def evaluate_model(model, test_loader, target_device=None):
    model.eval()
    correct = 0
    total = 0

    if target_device is None:
        model_device = next(model.parameters()).device
    else:
        model_device = target_device

    model.to(model_device)

    with torch.no_grad():
        for inputs, labels in test_loader:
            inputs, labels = inputs.to(model_device), labels.to(model_device)
            outputs = model(inputs)
            _, predicted = torch.max(outputs.data, 1)
            total += labels.size(0)
            correct += (predicted == labels).sum().item()
    accuracy = 100 * correct / total
    print(f'Accuracy: {accuracy:.2f}%')
    return accuracy

# --- 메인 실행 로직 ---

# 6. 모델 생성 및 초기 학습 (torchvision의 resnet18 사용)
model_fp32 = resnet18(weights=None)

model_fp32.conv1 = nn.Conv2d(1, 64, kernel_size=7, stride=2, padding=3, bias=False)
model_fp32.fc = nn.Linear(model_fp32.fc.in_features, 10)

criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model_fp32.parameters(), lr=LEARNING_RATE)

model_fp32 = model_fp32.to(DEVICE)
train_model(model_fp32, train_loader, criterion, optimizer, NUM_EPOCHS)

print("\n--- FP32 모델 평가 ---")
fp32_accuracy = evaluate_model(model_fp32, test_loader, target_device=DEVICE)
torch.save(model_fp32.state_dict(), "resnet18_mnist_fp32.pth")
fp32_size = os.path.getsize("resnet18_mnist_fp32.pth") / (1024 * 1024)
print(f"FP32 모델 크기: {fp32_size:.2f} MB")

# --- Static Quantization (Eager Mode 기반) ---

# 7. Eager Mode Static Quantization 준비
model_fp32.to("cpu") # 모델을 CPU로 옮깁니다.
model_fp32.eval()    # 평가 모드 설정

# 7-1. Eager Mode 퓨징
# torchvision resnet의 퓨징 로직을 따릅니다.
# Conv - BatchNorm - ReLU 패턴을 퓨징하여 QuantizedConvReLU와 같이 만듭니다.
# model_fp32 자체가 resnet18 인스턴스이므로, resnet에 내장된 fuse_model 메서드를 사용합니다.
# 이 메서드는 인플레이스로 모듈을 퓨징합니다.
fused_model_eager = copy.deepcopy(model_fp32)
fused_model_eager.eval() # 퓨징 전 eval 모드 설정

# resnet18 모델의 특정 패턴을 퓨징합니다.
# resnet18의 fuse_model() 메서드는 내부적으로 Conv+BN, Conv+BN+ReLU 패턴을 찾아서 퓨징합니다.
fused_model_eager.fuse_model()
print("Eager Mode 모델 퓨징 완료.")

# QuantStub과 DeQuantStub 삽입 (모델의 입력과 출력을 양자화/역양자화)
# Eager Mode에서는 이렇게 직접 삽입해야 합니다.
model_with_quant_stubs = nn.Sequential(
    QuantStub(),
    fused_model_eager, # 퓨징된 모델을 Sequential 안에 넣습니다.
    DeQuantStub()
)

# 7-2. QConfig 설정 (Eager Mode에서는 get_default_qconfig 사용)
# QConfig는 모듈에 직접 할당됩니다.
model_with_quant_stubs.qconfig = get_default_qconfig("fbgemm")
# print(f"Eager Mode QConfig: {model_with_quant_stubs.qconfig}") # QConfig 확인

# 7-3. 모델 준비 (Eager Mode)
# prepare 함수는 옵저버를 삽입합니다.
# calibrate() 함수를 호출할 때 inplace=False로 새로운 모델을 반환하도록 합니다.
# (prepare는 이제 prepare_fx와는 다르게 직접적인 함수 호출이 아닌, 내부적으로 처리될 수 있습니다.)
# quantize_static은 prepare와 convert를 한 번에 처리합니다.
# 따라서 prepare 단계는 quantize_static 함수가 내부적으로 처리합니다.
# 여기서 prepared_model_eager는 단순히 quantize_static을 위한 중간 변수명입니다.
# Eager mode에서는 이 부분에 `prepare` 함수를 직접 호출하는 방식도 사용 가능합니다.
# 현재 방식은 quantize_static이 내부적으로 prepare를 처리합니다.

# quantize_static의 첫 번째 인자로 qconfig와 모델을 전달하여 바로 양자화 진행
# calibrate=True로 설정하여 캘리브레이션도 함께 수행
print("\n--- Static Quantization Calibration 시작 (Eager Mode) ---")
# calibrate_model = quantize_static(model_with_quant_stubs, qconfig=get_default_qconfig("fbgemm"), inplace=False)
# 위의 코드는 prepare와 convert를 한 번에 처리하므로, calibration을 따로 빼내기 어렵습니다.

# Eager Mode의 올바른 Prepare -> Calibrate -> Convert 흐름
# 1. 모델에 QConfig 할당 (위에서 이미 했음)
# 2. prepare_qat (양자화 학습용) 또는 prepare (일반적인 양자화용)
#    여기서는 정적 양자화이므로 prepare를 사용합니다.
torch.ao.quantization.prepare(model_with_quant_stubs, inplace=True) # model_with_quant_stubs를 inplace로 변경

# Calibration (보정)
with torch.inference_mode():
    for batch_idx, (inputs, labels) in enumerate(calibration_loader):
        if batch_idx >= CALIBRATION_BATCHES:
            break
        inputs = inputs.to("cpu")
        model_with_quant_stubs(inputs) # prepare된 모델에 데이터 통과
        if batch_idx % 20 == 0:
            print(f"  Calibration batch: {batch_idx}/{CALIBRATION_BATCHES}")
print("Calibration 완료.")

# 9. 양자화 적용 및 변환 (Eager Mode)
# calibrate가 완료된 모델을 quantize_static으로 변환
quantized_model_static_eager = quantize_static(model_with_quant_stubs, inplace=False)
quantized_model_static_eager.eval()
print("Eager Mode convert 완료.")


# 10. 양자화된 모델 가중치 타입 확인 (Eager Mode)
print("\n--- Eager Mode Quantized Model Weights Dtype 확인 ---")
for name, module in quantized_model_static_eager.named_modules():
    # 양자화된 Conv2d와 Linear 모듈의 가중치는 QTensor 타입입니다.
    # QTensor의 dtype을 확인해야 합니다.
    if hasattr(module, 'weight') and module.weight is not None:
        if isinstance(module.weight, torch.Tensor):
            print(f"모듈: {name}, 가중치 Dtype: {module.weight.dtype}")
        elif isinstance(module.weight, torch.quantized.QTensor): # 양자화된 텐서
            print(f"모듈: {name}, 가중치 Dtype: {module.weight.dtype}, QTensor.qscheme: {module.weight.qscheme}")

# 11. 양자화된 모델 평가 (Eager Mode)
print("\n--- Quantized Static (Eager Mode) 모델 평가 ---")
quantized_accuracy_eager = evaluate_model(quantized_model_static_eager, test_loader, target_device=torch.device("cpu"))

# 양자화된 모델 저장 (전체 모델 객체 저장)
torch.save(quantized_model_static_eager, "resnet18_mnist_quantized_static_eager.pth")
quantized_size_eager = os.path.getsize("resnet18_mnist_quantized_static_eager.pth") / (1024 * 1024)
print(f"Quantized Static (Eager Mode) 모델 크기: {quantized_size_eager:.2f} MB")

print("\n--- 최종 결과 비교 ---")
print(f"FP32 모델 정확도: {fp32_accuracy:.2f}% (크기: {fp32_size:.2f} MB)")
print(f"Static Quantized (Eager Mode) 모델 정확도: {quantized_accuracy_eager:.2f}% (크기: {quantized_size_eager:.2f} MB)")

ImportError: cannot import name 'quantize_static' from 'torch.ao.quantization.quantize' (C:\Users\JH\anaconda\envs\torch_quant_env\lib\site-packages\torch\ao\quantization\quantize.py)

In [3]:
import torch
import torch.nn as nn
import torch.optim as optim
from torchvision import datasets, transforms
from torchvision.models import resnet18 # 기본 resnet18 로드
from torch.ao.quantization import QuantStub, DeQuantStub, fuse_modules
from torch.ao.quantization import get_default_qconfig
from torch.ao.quantization.quantize_lib import quantize_static # <--- THIS LINE IS THE LATEST FIX
import os
import time
import copy # deepcopy를 위해 임포트

# 1. 하이퍼파라미터 및 설정
BATCH_SIZE = 64
NUM_EPOCHS = 5
CALIBRATION_BATCHES = 100
LEARNING_RATE = 0.001
DEVICE = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# 3. 데이터 로더 준비 (MNIST)
transform = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize((0.1307,), (0.3081,))
])

train_dataset = datasets.MNIST('./data', train=True, download=True, transform=transform)
test_dataset = datasets.MNIST('./data', train=False, download=True, transform=transform)

train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=BATCH_SIZE, shuffle=True)
test_loader = torch.utils.data.DataLoader(test_dataset, batch_size=BATCH_SIZE, shuffle=False)
calibration_loader = torch.utils.data.DataLoader(train_dataset, batch_size=BATCH_SIZE, shuffle=True)


# 4. 모델 학습 함수
def train_model(model, train_loader, criterion, optimizer, num_epochs):
    model.train()
    print(f"\n모델 학습 시작 ({num_epochs} 에폭)...")
    for epoch in range(num_epochs):
        running_loss = 0.0
        for i, (inputs, labels) in enumerate(train_loader):
            inputs, labels = inputs.to(DEVICE), labels.to(DEVICE)
            optimizer.zero_grad()
            outputs = model(inputs)
            loss = criterion(outputs, labels)
            loss.backward()
            optimizer.step()
            running_loss += loss.item()
            if i % 100 == 99:
                print(f"Epoch [{epoch+1}/{num_epochs}], Batch [{i+1}/{len(train_loader)}], Loss: {running_loss/100:.4f}")
                running_loss = 0.0
    print("모델 학습 완료.")

# 5. 모델 평가 함수
def evaluate_model(model, test_loader, target_device=None):
    model.eval()
    correct = 0
    total = 0

    if target_device is None:
        model_device = next(model.parameters()).device
    else:
        model_device = target_device

    model.to(model_device)

    with torch.no_grad():
        for inputs, labels in test_loader:
            inputs, labels = inputs.to(model_device), labels.to(model_device)
            outputs = model(inputs)
            _, predicted = torch.max(outputs.data, 1)
            total += labels.size(0)
            correct += (predicted == labels).sum().item()
    accuracy = 100 * correct / total
    print(f'Accuracy: {accuracy:.2f}%')
    return accuracy

# --- 메인 실행 로직 ---

# 6. 모델 생성 및 초기 학습 (torchvision의 resnet18 사용)
model_fp32 = resnet18(weights=None)

model_fp32.conv1 = nn.Conv2d(1, 64, kernel_size=7, stride=2, padding=3, bias=False)
model_fp32.fc = nn.Linear(model_fp32.fc.in_features, 10)

criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model_fp32.parameters(), lr=LEARNING_RATE)

model_fp32 = model_fp32.to(DEVICE)
train_model(model_fp32, train_loader, criterion, optimizer, NUM_EPOCHS)

print("\n--- FP32 모델 평가 ---")
fp32_accuracy = evaluate_model(model_fp32, test_loader, target_device=DEVICE)
torch.save(model_fp32.state_dict(), "resnet18_mnist_fp32.pth")
fp32_size = os.path.getsize("resnet18_mnist_fp32.pth") / (1024 * 1024)
print(f"FP32 모델 크기: {fp32_size:.2f} MB")

# --- Static Quantization (Eager Mode 기반) ---

# 7. Eager Mode Static Quantization 준비
model_fp32.to("cpu") # 모델을 CPU로 옮깁니다.
model_fp32.eval()    # 평가 모드 설정

# 7-1. Eager Mode 퓨징
fused_model_eager = copy.deepcopy(model_fp32)
fused_model_eager.eval()

# resnet18 모델의 특정 패턴을 퓨징합니다.
fused_model_eager.fuse_model()
print("Eager Mode 모델 퓨징 완료.")

# QuantStub과 DeQuantStub 삽입 (모델의 입력과 출력을 양자화/역양자화)
model_with_quant_stubs = nn.Sequential(
    QuantStub(),
    fused_model_eager, # 퓨징된 모델을 Sequential 안에 넣습니다.
    DeQuantStub()
)

# 7-2. QConfig 설정 (Eager Mode에서는 get_default_qconfig 사용)
model_with_quant_stubs.qconfig = get_default_qconfig("fbgemm")

# Eager Mode의 올바른 Prepare -> Calibrate -> Convert 흐름
# 1. prepare 함수 호출 (옵저버 삽입)
torch.ao.quantization.prepare(model_with_quant_stubs, inplace=True) # model_with_quant_stubs를 inplace로 변경
print("Eager Mode prepare 완료.")

# Calibration (보정)
print("\n--- Static Quantization Calibration 시작 (Eager Mode) ---")
with torch.inference_mode():
    for batch_idx, (inputs, labels) in enumerate(calibration_loader):
        if batch_idx >= CALIBRATION_BATCHES:
            break
        inputs = inputs.to("cpu")
        model_with_quant_stubs(inputs) # prepare된 모델에 데이터 통과
        if batch_idx % 20 == 0:
            print(f"  Calibration batch: {batch_idx}/{CALIBRATION_BATCHES}")
print("Calibration 완료.")

# 9. 양자화 적용 및 변환 (Eager Mode)
quantized_model_static_eager = quantize_static(model_with_quant_stubs, inplace=False)
quantized_model_static_eager.eval()
print("Eager Mode convert 완료.")


# 10. 양자화된 모델 가중치 타입 확인 (Eager Mode)
print("\n--- Eager Mode Quantized Model Weights Dtype 확인 ---")
for name, module in quantized_model_static_eager.named_modules():
    if hasattr(module, 'weight') and module.weight is not None:
        if isinstance(module.weight, torch.Tensor):
            print(f"모듈: {name}, 가중치 Dtype: {module.weight.dtype}")
        elif isinstance(module.weight, torch.quantized.QTensor): # 양자화된 텐서
            print(f"모듈: {name}, 가중치 Dtype: {module.weight.dtype}, QTensor.qscheme: {module.weight.qscheme}")

# 11. 양자화된 모델 평가 (Eager Mode)
print("\n--- Quantized Static (Eager Mode) 모델 평가 ---")
quantized_accuracy_eager = evaluate_model(quantized_model_static_eager, test_loader, target_device=torch.device("cpu"))

# 양자화된 모델 저장 (전체 모델 객체 저장)
torch.save(quantized_model_static_eager, "resnet18_mnist_quantized_static_eager.pth")
quantized_size_eager = os.path.getsize("resnet18_mnist_quantized_static_eager.pth") / (1024 * 1024)
print(f"Quantized Static (Eager Mode) 모델 크기: {quantized_size_eager:.2f} MB")

print("\n--- 최종 결과 비교 ---")
print(f"FP32 모델 정확도: {fp32_accuracy:.2f}% (크기: {fp32_size:.2f} MB)")
print(f"Static Quantized (Eager Mode) 모델 정확도: {quantized_accuracy_eager:.2f}% (크기: {quantized_size_eager:.2f} MB)")

ModuleNotFoundError: No module named 'torch.ao.quantization.quantize_lib'

In [5]:
import torch
import torch.nn as nn
import torch.optim as optim
from torchvision import datasets, transforms
from torchvision.models import resnet18 # 기본 resnet18 로드

# Eager Mode Quantization을 위한 정확한 임포트
# torch.ao.quantization 대신 torch.quantization 사용
from torch.quantization import QuantStub, DeQuantStub, fuse_modules, get_default_qconfig, prepare, quantize_static
import os
import time
import copy # deepcopy를 위해 임포트

# 1. 하이퍼파라미터 및 설정
BATCH_SIZE = 64
NUM_EPOCHS = 5
CALIBRATION_BATCHES = 100
LEARNING_RATE = 0.001
DEVICE = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# 3. 데이터 로더 준비 (MNIST)
transform = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize((0.1307,), (0.3081,))
])

train_dataset = datasets.MNIST('./data', train=True, download=True, transform=transform)
test_dataset = datasets.MNIST('./data', train=False, download=True, transform=transform)

train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=BATCH_SIZE, shuffle=True)
test_loader = torch.utils.data.DataLoader(test_dataset, batch_size=BATCH_SIZE, shuffle=False)
calibration_loader = torch.utils.data.DataLoader(train_dataset, batch_size=BATCH_SIZE, shuffle=True)


# 4. 모델 학습 함수
def train_model(model, train_loader, criterion, optimizer, num_epochs):
    model.train()
    print(f"\n모델 학습 시작 ({num_epochs} 에폭)...")
    for epoch in range(num_epochs):
        running_loss = 0.0
        for i, (inputs, labels) in enumerate(train_loader):
            inputs, labels = inputs.to(DEVICE), labels.to(DEVICE)
            optimizer.zero_grad()
            outputs = model(inputs)
            loss = criterion(outputs, labels)
            loss.backward()
            optimizer.step()
            running_loss += loss.item()
            if i % 100 == 99:
                print(f"Epoch [{epoch+1}/{num_epochs}], Batch [{i+1}/{len(train_loader)}], Loss: {running_loss/100:.4f}")
                running_loss = 0.0
    print("모델 학습 완료.")

# 5. 모델 평가 함수
def evaluate_model(model, test_loader, target_device=None):
    model.eval()
    correct = 0
    total = 0

    if target_device is None:
        model_device = next(model.parameters()).device
    else:
        model_device = target_device

    model.to(model_device)

    with torch.no_grad():
        for inputs, labels in test_loader:
            inputs, labels = inputs.to(model_device), labels.to(model_device)
            outputs = model(inputs)
            _, predicted = torch.max(outputs.data, 1)
            total += labels.size(0)
            correct += (predicted == labels).sum().item()
    accuracy = 100 * correct / total
    print(f'Accuracy: {accuracy:.2f}%')
    return accuracy

# --- 메인 실행 로직 ---

# 6. 모델 생성 및 초기 학습 (torchvision의 resnet18 사용)
model_fp32 = resnet18(weights=None)

model_fp32.conv1 = nn.Conv2d(1, 64, kernel_size=7, stride=2, padding=3, bias=False)
model_fp32.fc = nn.Linear(model_fp32.fc.in_features, 10)

criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model_fp32.parameters(), lr=LEARNING_RATE)

model_fp32 = model_fp32.to(DEVICE)
train_model(model_fp32, train_loader, criterion, optimizer, NUM_EPOCHS)

print("\n--- FP32 모델 평가 ---")
fp32_accuracy = evaluate_model(model_fp32, test_loader, target_device=DEVICE)
torch.save(model_fp32.state_dict(), "resnet18_mnist_fp32.pth")
fp32_size = os.path.getsize("resnet18_mnist_fp32.pth") / (1024 * 1024)
print(f"FP32 모델 크기: {fp32_size:.2f} MB")

# --- Static Quantization (Eager Mode 기반) ---

# 7. Eager Mode Static Quantization 준비
model_fp32.to("cpu") # 모델을 CPU로 옮깁니다.
model_fp32.eval()    # 평가 모드 설정

# 7-1. Eager Mode 퓨징
fused_model_eager = copy.deepcopy(model_fp32)
fused_model_eager.eval()

# resnet18 모델의 특정 패턴을 퓨징합니다.
# torchvision.models.resnet에는 fuse_model() 메서드가 내장되어 있어 편리합니다.
fused_model_eager.fuse_model()
print("Eager Mode 모델 퓨징 완료.")

# QuantStub과 DeQuantStub 삽입 (모델의 입력과 출력을 양자화/역양자화)
model_with_quant_stubs = nn.Sequential(
    QuantStub(), # 입력 양자화를 위한 Stub
    fused_model_eager, # 퓨징된 모델
    DeQuantStub() # 출력 역양자화를 위한 Stub
)

# 7-2. QConfig 설정 (Eager Mode에서는 get_default_qconfig 사용)
model_with_quant_stubs.qconfig = get_default_qconfig("fbgemm")

# 7-3. 모델 준비 (Eager Mode)
# prepare 함수 호출 (옵저버 삽입)
prepare(model_with_quant_stubs, inplace=True) # model_with_quant_stubs를 inplace로 변경
print("Eager Mode prepare 완료.")

# Calibration (보정)
print("\n--- Static Quantization Calibration 시작 (Eager Mode) ---")
with torch.inference_mode():
    for batch_idx, (inputs, labels) in enumerate(calibration_loader):
        if batch_idx >= CALIBRATION_BATCHES:
            break
        inputs = inputs.to("cpu")
        model_with_quant_stubs(inputs) # prepare된 모델에 데이터 통과
        if batch_idx % 20 == 0:
            print(f"  Calibration batch: {batch_idx}/{CALIBRATION_BATCHES}")
print("Calibration 완료.")

# 9. 양자화 적용 및 변환 (Eager Mode)
quantized_model_static_eager = quantize_static(model_with_quant_stubs, inplace=False)
quantized_model_static_eager.eval()
print("Eager Mode convert 완료.")


# 10. 양자화된 모델 가중치 타입 확인 (Eager Mode)
print("\n--- Eager Mode Quantized Model Weights Dtype 확인 ---")
for name, module in quantized_model_static_eager.named_modules():
    if hasattr(module, 'weight') and module.weight is not None:
        # 양자화된 텐서(QTensor)인지 확인
        if isinstance(module.weight, torch.Tensor):
            print(f"모듈: {name}, 가중치 Dtype: {module.weight.dtype} (일반 텐서)")
        elif isinstance(module.weight, torch.quantized.QTensor):
            print(f"모듈: {name}, 가중치 Dtype: {module.weight.dtype}, QTensor.qscheme: {module.weight.qscheme} (양자화된 텐서)")

# 11. 양자화된 모델 평가 (Eager Mode)
print("\n--- Quantized Static (Eager Mode) 모델 평가 ---")
quantized_accuracy_eager = evaluate_model(quantized_model_static_eager, test_loader, target_device=torch.device("cpu"))

# 양자화된 모델 저장 (전체 모델 객체 저장)
torch.save(quantized_model_static_eager, "resnet18_mnist_quantized_static_eager.pth")
quantized_size_eager = os.path.getsize("resnet18_mnist_quantized_static_eager.pth") / (1024 * 1024)
print(f"Quantized Static (Eager Mode) 모델 크기: {quantized_size_eager:.2f} MB")

print("\n--- 최종 결과 비교 ---")
print(f"FP32 모델 정확도: {fp32_accuracy:.2f}% (크기: {fp32_size:.2f} MB)")
print(f"Static Quantized (Eager Mode) 모델 정확도: {quantized_accuracy_eager:.2f}% (크기: {quantized_size_eager:.2f} MB)")

ImportError: cannot import name 'quantize_static' from 'torch.quantization' (C:\Users\JH\anaconda\envs\torch_quant_env\lib\site-packages\torch\quantization\__init__.py)