In [1]:
import torch

# 画像のサイズを定義
image_size = 224
channels = 3  # 画像のチャンネル数 (RGB)

# ダミーの画像データを生成
batch_size = 64  # バッチサイズ
input_data = torch.randn(batch_size, channels, image_size, image_size)

In [2]:
import torch
from bitnetb158.models import bit_deit_base_patch16_224
import time


# モデルの読み込みとCUDAへの移行
model = bit_deit_base_patch16_224(num_classes=1000)
model.cuda(1)  # モデルをGPUに移行
model.eval()  # 推論モードに切り替え

# ダミーデータをGPUに移行
input_data = input_data.cuda(1)

# 推論時間を記録するリスト
inference_times = []

# 複数回の推論を実行して推論時間を計測
num_trials = 10  # 試行回数
for _ in range(num_trials):
    # タイマーの開始
    start_time = time.time()

    # 推論の実行
    with torch.no_grad():
        output = model(input_data)

    # CUDAの同期
    torch.cuda.synchronize()

    # タイマーの終了
    end_time = time.time()

    # 推論時間の計算（秒単位）および記録
    inference_time = end_time - start_time
    inference_times.append(inference_time)

# 平均推論時間の計算
average_inference_time = sum(inference_times) / num_trials
print("Average Inference Time: {:.4f} seconds".format(average_inference_time))

  from .autonotebook import tqdm as notebook_tqdm


Average Inference Time: 0.3312 seconds


In [2]:
import torch
from bitnetb158.models import bit_deit_base_patch16_224
import time
from bitnetb158 import convert_weights_to_packed
from bitnetb158.nn import BitLinearb158

# モデルの読み込みとCUDAへの移行
model = bit_deit_base_patch16_224(num_classes=1000)
convert_weights_to_packed(model, BitLinearb158)
torch.save(model.state_dict(), "packed_weights.pth")
model.cuda(1)  # モデルをGPUに移行
model.eval()  # 推論モードに切り替え

# ダミーデータをGPUに移行
input_data = input_data.cuda(1)

# 推論時間を記録するリスト
inference_times = []

# 複数回の推論を実行して推論時間を計測
num_trials = 10  # 試行回数
for _ in range(num_trials):
    # タイマーの開始
    start_time = time.time()

    # 推論の実行
    with torch.no_grad():
        output = model(input_data)

    # CUDAの同期
    torch.cuda.synchronize()

    # タイマーの終了
    end_time = time.time()

    # 推論時間の計算（秒単位）および記録
    inference_time = end_time - start_time
    inference_times.append(inference_time)

# 平均推論時間の計算
average_inference_time = sum(inference_times) / num_trials
print("Average Inference Time: {:.4f} seconds".format(average_inference_time))

  from .autonotebook import tqdm as notebook_tqdm


Average Inference Time: 0.2362 seconds


In [3]:
1.22 / 2.14

0.5700934579439252