In [19]:
import triton
import triton.language as tl
import torch

In [20]:
def _out_hw(H, W, KH, KW, SH, SW, PH, PW, DH, DW):
    H_OUT = (H + 2*PH - DH*(KH-1) - 1)//SH + 1
    W_OUT = (W + 2*PW - DW*(KW-1) - 1)//SW + 1
    return H_OUT, W_OUT

In [21]:
import triton
import triton.language as tl

@triton.jit
def _im2col_kernel_2d(
    x_ptr, cols_ptr,
    N, C, H, W,
    KH, KW, SH, SW, PH, PW, DH, DW,
    H_OUT, W_OUT, K_TOTAL,
    sxn, sxc, sxh, sxw,
    scn, sck, scl,
    BLOCK_X: tl.constexpr,
):
    pid = tl.program_id(0)
    L = H_OUT * W_OUT

    # [n, l] из одномерной сетки
    n = pid // L
    l = pid %  L

    # oh/ow окна и его базовые координаты во входе
    oh = l // W_OUT
    ow = l %  W_OUT
    ih0 = oh * SH - PH
    iw0 = ow * SW - PW

    # Общие константы по этому pid
    base_xn = n * sxn
    base_cols_nl = n * scn + l * scl

    # Основной цикл по K с шагом BLOCK_X
    k0 = 0
    while k0 < K_TOTAL:
        k = k0 + tl.arange(0, BLOCK_X)                      # [BLOCK_X]
        k_mask = k < K_TOTAL

        # Разложение k -> (c, kh, kw)
        r  = k %  (KH * KW)
        c  = k // (KH * KW)
        kh = r // KW
        kw = r %  KW

        # Абсолютные координаты пикселя окна во входе
        ih = ih0 + kh * DH
        iw = iw0 + kw * DW

        # Маска "внутри" входного тензора
        inb = (ih >= 0) & (ih < H) & (iw >= 0) & (iw < W) & k_mask

        # Адреса: x[n, c, ih, iw]
        x_off = base_xn + c * sxc + ih * sxh + iw * sxw

        # Маскированная загрузка (без tl.where — он лишний)
        vals = tl.load(x_ptr + x_off, mask=inb, other=0)

        # Адреса для cols[n, k, l]
        cols_off = base_cols_nl + k * sck

        # Запись с маской
        tl.store(cols_ptr + cols_off, vals, mask=k_mask)

        k0 += BLOCK_X


In [22]:
def im2col_triton(x, kernel_size, stride=1, padding=0, dilation=1, block_k=256):
    assert x.is_cuda
    if isinstance(kernel_size, int): kernel_size = (kernel_size, kernel_size)
    if isinstance(stride, int): stride = (stride, stride)
    if isinstance(padding, int): padding = (padding, padding)
    if isinstance(dilation, int): dilation = (dilation, dilation)

    N, C, H, W = x.shape
    KH, KW = kernel_size
    SH, SW = stride
    PH, PW = padding
    DH, DW = dilation
    # Выходные  H / W  размеры тензора
    H_OUT, W_OUT = _out_hw(H, W, KH, KW, SH, SW, PH, PW, DH, DW)
    # длина выхожного массива
    L = H_OUT * W_OUT
    #  длинны кернела 
    K_TOTAL = C * KH * KW
    # пустышка выходного тензора
    cols = torch.empty((N, K_TOTAL, L), device=x.device, dtype=torch.float32)
    # страйд по входному массиву
    sxn, sxc, sxh, sxw = x.stride()
    # страйд по выходному массиву
    scn, sck, scl = cols.stride()
    # одномерныя сетка
    grid = (N * L,)
    _im2col_kernel_2d[grid](
        x, cols,
        N, C, H, W,
        KH, KW, SH, SW, PH, PW, DH, DW,
        H_OUT, W_OUT, K_TOTAL,
        sxn, sxc, sxh, sxw,
        scn, sck, scl,
        BLOCK_X=block_k,
        num_warps=4, num_stages=2,
    )
    return cols, (H_OUT, W_OUT)

In [23]:
import torch
import torch.nn.functional as F


# батч / каналы/ ширина аarray / высота аarray
N, C, H, W = 1, 3, 2000, 2000
# H / W свёртки
KH, KW = 3, 3
# страйд свертки
SH, SW = 1, 1
#  паддинг свертки
PH, PW = 1, 1
# дилатация свертки
DH, DW = 1, 1
#  размер блока НПУ
block_k = 256

# входной тензор N, C, H, W
x = torch.arange(N*C*H*W, dtype=torch.float32, device='cuda').reshape(N, C, H, W)

# базовый unfold
cols_ref = F.unfold(
    x, kernel_size=(KH, KW),
    dilation=(DH, DW),
    padding=(PH, PW),
    stride=(SH, SW)
)

# im2col_triton
cols_tr, (H_out, W_out) = im2col_triton(
    x,
    kernel_size=(KH, KW),
    stride=(SH, SW),
    padding=(PH, PW),
    dilation=(DH, DW),
    block_k=block_k
)

# # проверим совпадение
# print("cols_ref shape:", cols_ref.shape)
# print("cols_tr   shape:", cols_tr.shape)

# max_abs = (cols_tr - cols_ref).abs().max().item()
# print("Макс. разница:", max_abs)
# print("H_out, W_out =", H_out, W_out)

# # убедимся визуально
# print("\nПервый столбец эталон:")
# print(cols_ref[0, :, 0])
# print("\nПервый столбец Triton:")
# print(cols_tr[0, :, 0])

RuntimeError: Triton Error [CUDA]: unspecified launch failure

In [24]:
print("Форма cols_ref:", cols_ref.shape)
print("Один патч 3x3 ", cols_ref[0, :, 0])
print("Первый элемент всех патчей: ",cols_ref[0, 0, :])

Форма cols_ref: torch.Size([1, 27, 4000000])
Один патч 3x3  

AcceleratorError: CUDA error: unspecified launch failure
CUDA kernel errors might be asynchronously reported at some other API call, so the stacktrace below might be incorrect.
For debugging consider passing CUDA_LAUNCH_BLOCKING=1
Compile with `TORCH_USE_CUDA_DSA` to enable device-side assertions.


In [15]:
%%time
# входной тензор N, C, H, W
x = torch.arange(N*C*H*W, dtype=torch.float32, device='cuda').reshape(N, C, H, W)
for _ in range(1000):
    cols_tr, (H_out, W_out) = im2col_triton(
    x,
    kernel_size=(KH, KW),
    stride=(SH, SW),
    padding=(PH, PW),
    dilation=(DH, DW),
    block_k=block_k
)

CPU times: user 2.93 s, sys: 7.91 s, total: 10.8 s
Wall time: 10.8 s


In [16]:
%%time
# входной тензор N, C, H, W
x = torch.arange(N*C*H*W, dtype=torch.float32, device='cuda').reshape(N, C, H, W)
for _ in range(1000):
    # базовый unfold
    cols_ref = F.unfold(
        x, kernel_size=(KH, KW),
        dilation=(DH, DW),
        padding=(PH, PW),
        stride=(SH, SW)
    )

CPU times: user 4.18 s, sys: 11 s, total: 15.2 s
Wall time: 15.2 s
