# diffusers Unet2DModelの使い方

In [9]:

import torch
from diffusers import UNet2DModel


# デバイスの設定
device = 'cuda' if torch.cuda.is_available() else 'cpu'
print(f"Using device: {device}")

# UNet2DModel の初期化
# サンプルの設定: 入力は1チャネル、出力も1チャネル、32x32画像を対象
model = UNet2DModel(
    sample_size=32,  # 入力画像のサイズ
    in_channels=1,   # 入力チャネル数
    out_channels=1,  # 出力チャネル数
    layers_per_block=2,
    block_out_channels=(32, 64, 128),
    down_block_types=("DownBlock2D", "DownBlock2D", "AttnDownBlock2D"),
    up_block_types=("AttnUpBlock2D", "UpBlock2D", "UpBlock2D"),
).to(device)

# ダミーの入力テンソルを生成 (バッチサイズ 1、チャネル数 1、32x32画像の例)
input_tensor = torch.randn(1, 1, 32, 32, device=device)

# ダミーのタイムステップテンソル
t = torch.tensor([10], device=device)  # 時間ステップを指定

# モデルにテンソルを入力して結果を取得
# .sampleで結果を取り出すので注意
output = model(input_tensor, t).sample

# モデルの出力の shape を確認
print(f"Output: {output}")  # 出力に sample 属性が必要


Using device: cuda
Output: tensor([[[[ 0.3268, -0.1131,  0.2322,  ..., -0.1736,  0.3239,  0.0082],
          [-0.0378,  0.4508,  0.1193,  ..., -0.0061, -0.0528, -0.0094],
          [ 0.2032, -0.2329, -0.0493,  ...,  0.3918,  0.4000,  0.0898],
          ...,
          [-0.0598, -0.0303,  0.0379,  ..., -0.2949, -0.0208,  0.3868],
          [ 0.2345,  0.1026, -0.2034,  ...,  0.3077,  0.2725, -0.1479],
          [ 0.0478,  0.2690, -0.0245,  ...,  0.1369,  0.0321,  0.0119]]]],
       device='cuda:0', grad_fn=<ConvolutionBackward0>)
