In [1]:
import pycuda.autoinit
import pycuda.driver as drv
from pycuda.compiler import SourceModule
import numpy

# CUDAデバイスの取得

https://documen.tician.de/pycuda/util.html

In [2]:
dev = pycuda.driver.Context.get_device()

In [3]:
print("compute capability: {}.{}".format(*dev.compute_capability()))

compute capability: 7.5


In [4]:
print("global memory size: {} GB".format(dev.total_memory()/1024/1024/1024))

global memory size: 3.813720703125 GB


In [5]:
print("pci bus id: {}".format(dev.pci_bus_id()))

pci bus id: 0000:01:00.0


In [6]:
print("gpu count: {} devices".format(dev.count()))

gpu count: 1 devices


- 使用GPU: https://www.kuroutoshikou.com/product/graphics_bord/nvidia/gf-gtx1650d6-e4gb_df2/
- NVIDIAのドキュメント: https://docs.nvidia.com/cuda/cuda-runtime-api/structcudaDeviceProp.html

1. ASYNC_ENGINE_COUNT: 3
    * Host->Device, Device->Host, NVLink
    * https://stackoverflow.com/questions/60167094/clarification-of-asynchronous-engine-count-in-turing-architecture
1. CAN_MAP_HOST_MEMORY: 1
    * cudaHostAlloc/cudaHostGetDevicePointer でPage-lockedホストメモリを使用できる
1. CLOCK_RATE: 1605000
    * コアクロック(kHz)
1. COMPUTE_CAPABILITY_MAJOR: 7
    * CCメジャーバージョン
1. COMPUTE_CAPABILITY_MINOR: 5
    * CCマイナーバージョン
1. COMPUTE_MODE: pycuda._driver.compute_mode.DEFAULT
    * 使用プロセス/スレッドの設定
    * コンピュートモード一覧: https://docs.nvidia.com/cuda/cuda-runtime-api/group__CUDART__TYPES.html#group__CUDART__TYPES_1g7eb25f5413a962faad0956d92bae10d0
1. CONCURRENT_KERNELS: 1
    * 並列実行できるカーネル数
1. ECC_ENABLED: 0
    * ECC(Error Correcting Code)の有無
1. GLOBAL_L1_CACHE_SUPPORTED: 1
    * グローバルメモリのデータをL1キャッシュ
1. GLOBAL_MEMORY_BUS_WIDTH: 128
    * グローバルメモリのバス幅(bit)
1. GPU_OVERLAP: 1
    * カーネル実行とメモリコピーを並列実行できる
    * deprecated. ASYNC_ENGINE_COUNTを使用する 
1. INTEGRATED: 0
    * Tegraなどのようにデバイスが統合されている
1. KERNEL_EXEC_TIMEOUT: 1
    * カーネルタイムアウト時間を設定している
1. L2_CACHE_SIZE: 1048576
    * L2キャッシュサイズ (byte)
1. LOCAL_L1_CACHE_SUPPORTED: 1
    * L1キャッシュにローカルメモリをサポートしている
1. MANAGED_MEMORY: 1
    * managed memoryをシステムに設定できる
1. MAXIMUM_SURFACE1D_LAYERED_LAYERS: 2048
    * Layered 1DSurfaceメモリの最大次元数
1. MAXIMUM_SURFACE1D_LAYERED_WIDTH: 32768
    * Layered 1DSurfaceメモリの最大サイズ
1. MAXIMUM_SURFACE1D_WIDTH: 32768
    * 1DSurfaceメモリの最大サイズ
1. MAXIMUM_SURFACE2D_HEIGHT: 65536
    * 2DSurfaceメモリの最大高さ
1. MAXIMUM_SURFACE2D_WIDTH: 131072
    * 2DSurfaceメモリの最大幅
1. MAXIMUM_SURFACE2D_LAYERED_LAYERS: 2048
    * Layered 2DSurfaceメモリの最大次元数
1. MAXIMUM_SURFACE2D_LAYERED_HEIGHT: 32768
    * Layered 2DSurfaceメモリの最大高さ
1. MAXIMUM_SURFACE2D_LAYERED_WIDTH: 32768
    * Layered 2DSurfaceメモリの最大幅
1. MAXIMUM_SURFACE3D_HEIGHT: 16384
    * 3DSurfaceメモリの最大高さ
1. MAXIMUM_SURFACE3D_WIDTH: 16384
    * 3DSurfaceメモリの最大幅
1. MAXIMUM_SURFACE3D_DEPTH: 16384
    * 3DSurfaceメモリの最大深度
1. MAXIMUM_SURFACECUBEMAP_LAYERED_LAYERS: 2046
    * Layered CubeMapメモリの最大次元数
1. MAXIMUM_SURFACECUBEMAP_LAYERED_WIDTH: 32768
    * Layered CubeMapメモリの最大幅
1. MAXIMUM_SURFACECUBEMAP_WIDTH: 32768
    * CubeMapメモリの最大幅
1. MAXIMUM_TEXTURE1D_LAYERED_LAYERS: 2048
    * Layered 1DTextureメモリの最大次元数
1. MAXIMUM_TEXTURE1D_LAYERED_WIDTH: 32768
    * Layered 1DTextureメモリの最大サイズ
1. MAXIMUM_TEXTURE1D_WIDTH: 131072
    * 1DTextureメモリの最大サイズ
1. MAXIMUM_TEXTURE1D_LINEAR_WIDTH: 268435456
    * 1DLinearTextureメモリの最大サイズ
1. MAXIMUM_TEXTURE1D_MIPMAPPED_WIDTH: 32768
    * 1DMipMapTextureメモリの最大サイズ
1. MAXIMUM_TEXTURE2D_ARRAY_NUMSLICES: 2048,
1. MAXIMUM_TEXTURE2D_ARRAY_HEIGHT: 32768,
1. MAXIMUM_TEXTURE2D_ARRAY_WIDTH: 32768,
1. MAXIMUM_TEXTURE2D_GATHER_HEIGHT: 32768,
1. MAXIMUM_TEXTURE2D_GATHER_WIDTH: 32768,
1. MAXIMUM_TEXTURE2D_LINEAR_HEIGHT: 65000,
1. MAXIMUM_TEXTURE2D_LINEAR_PITCH: 2097120,
1. MAXIMUM_TEXTURE2D_LINEAR_WIDTH: 131072,
1. MAXIMUM_TEXTURE2D_MIPMAPPED_HEIGHT: 32768,
1. MAXIMUM_TEXTURE2D_MIPMAPPED_WIDTH: 32768,
1. MAXIMUM_TEXTURE2D_HEIGHT: 65536,
1. MAXIMUM_TEXTURE2D_WIDTH: 131072,
1. MAXIMUM_TEXTURE3D_DEPTH: 16384,
1. MAXIMUM_TEXTURE3D_DEPTH_ALTERNATE: 32768,
1. MAXIMUM_TEXTURE3D_HEIGHT: 16384,
1. MAXIMUM_TEXTURE3D_HEIGHT_ALTERNATE: 8192,
1. MAXIMUM_TEXTURE3D_WIDTH: 16384,
1. MAXIMUM_TEXTURE3D_WIDTH_ALTERNATE: 8192,
1. MAXIMUM_TEXTURECUBEMAP_LAYERED_LAYERS: 2046,
1. MAXIMUM_TEXTURECUBEMAP_LAYERED_WIDTH: 32768,
1. MAXIMUM_TEXTURECUBEMAP_WIDTH: 32768,
1. MAX_BLOCK_DIM_X: 1024
    * 最大ブロックサイズ(X)
1. MAX_BLOCK_DIM_Y: 1024
    * 最大ブロックサイズ(Y)
1. MAX_BLOCK_DIM_Z: 64
    * 最大ブロックサイズ(Z)
1. MAX_GRID_DIM_X: 2147483647
    * 最大グリッドサイズ(X)
1. MAX_GRID_DIM_Y: 65535
    * 最大グリッドサイズ(Y)
1. MAX_GRID_DIM_Z: 65535
    * 最大グリッドサイズ(Z)
1. MAX_PITCH: 2147483647
    * cudaMallocPitchで指定できる最大pitchサイズ
1. MAX_REGISTERS_PER_BLOCK: 65536
    * ブロックごとの最大レジスタ数
1. MAX_REGISTERS_PER_MULTIPROCESSOR: 65536
    * SMごとの最大レジスタ数
1. MAX_SHARED_MEMORY_PER_BLOCK: 49152
    * ブロックごとの最大共有メモリサイズ(KB)
1. MAX_SHARED_MEMORY_PER_MULTIPROCESSOR: 65536
    * SMごとの最大共有メモリサイズ(KB)
1. MAX_THREADS_PER_BLOCK: 1024
    * ブロックごとの最大スレッド数
1. MAX_THREADS_PER_MULTIPROCESSOR: 1024
    * SMごとの最大スレッド数
1. MEMORY_CLOCK_RATE: 6001000
    * ピークメモリクロック数(kHz)
1. MULTIPROCESSOR_COUNT: 14
    * SM数
1. MULTI_GPU_BOARD: 0
    * GTX2090のように複数GPUが1ボードに載っている
1. MULTI_GPU_BOARD_GROUP_ID: 0
    * 複数GPUボードの識別子
1. PCI_BUS_ID: 1
    * PCIバスID
1. PCI_DEVICE_ID: 0
    * PCIデバイスID
1. PCI_DOMAIN_ID: 0
    * PCIドメインID
1. STREAM_PRIORITIES_SUPPORTED: 1
    * Streamの優先度設定がある
1. TCC_DRIVER: 0
    * Tesla GPUである
1. SURFACE_ALIGNMENT: 512
    * Surfaceメモリのアライメント要件
1. TEXTURE_ALIGNMENT: 512
    * Textureメモリのアライメント要件
1. TEXTURE_PITCH_ALIGNMENT: 32
    * Textureメモリのピッチアライメント要件
1. TOTAL_CONSTANT_MEMORY: 65536
    * コンスタンとメモリサイズ(KB)
1. UNIFIED_ADDRESSING: 1
    * UnifiedAddressでホストメモリを共有できる
1. WARP_SIZE: 32
    * ワープサイズ

In [7]:
dev.get_attributes()

{pycuda._driver.device_attribute.ASYNC_ENGINE_COUNT: 3,
 pycuda._driver.device_attribute.CAN_MAP_HOST_MEMORY: 1,
 pycuda._driver.device_attribute.CLOCK_RATE: 1605000,
 pycuda._driver.device_attribute.COMPUTE_CAPABILITY_MAJOR: 7,
 pycuda._driver.device_attribute.COMPUTE_CAPABILITY_MINOR: 5,
 pycuda._driver.device_attribute.COMPUTE_MODE: pycuda._driver.compute_mode.DEFAULT,
 pycuda._driver.device_attribute.CONCURRENT_KERNELS: 1,
 pycuda._driver.device_attribute.ECC_ENABLED: 0,
 pycuda._driver.device_attribute.GLOBAL_L1_CACHE_SUPPORTED: 1,
 pycuda._driver.device_attribute.GLOBAL_MEMORY_BUS_WIDTH: 128,
 pycuda._driver.device_attribute.GPU_OVERLAP: 1,
 pycuda._driver.device_attribute.INTEGRATED: 0,
 pycuda._driver.device_attribute.KERNEL_EXEC_TIMEOUT: 1,
 pycuda._driver.device_attribute.L2_CACHE_SIZE: 1048576,
 pycuda._driver.device_attribute.LOCAL_L1_CACHE_SUPPORTED: 1,
 pycuda._driver.device_attribute.MANAGED_MEMORY: 1,
 pycuda._driver.device_attribute.MAXIMUM_SURFACE1D_LAYERED_LAYERS: 20

In [8]:
# attributeの取得例
dev.get_attribute(pycuda._driver.device_attribute.WARP_SIZE)

32

# PyCudaの動作確認


In [9]:
devdat = pycuda.tools.DeviceData()

In [10]:
print("1ブロック当たりの最大スレッド数: {}".format(devdat.max_threads))

1ブロック当たりの最大スレッド数: 1024


In [11]:
print("ワープサイズ: {}".format(devdat.warp_size))

ワープサイズ: 32


In [12]:
print("1SMの最大ワープ数: {}".format(devdat.warps_per_mp))

1SMの最大ワープ数: 64


In [13]:
print("1SMの最大ブロック数: {}".format(devdat.thread_blocks_per_mp))

1SMの最大ブロック数: 8


In [14]:
print("1SM当たりのレジスタサイズ: {}".format(devdat.registers))

1SM当たりのレジスタサイズ: 65536


In [15]:
print("1SM当たりの共有メモリサイズ: {}".format(devdat.shared_memory))

1SM当たりの共有メモリサイズ: 49152


In [16]:
print("共有メモリのバンクサイズ: {} byte".format(devdat.smem_alloc_granularity))

共有メモリのバンクサイズ: 128 byte


In [17]:
print("共有メモリのバンク数: {}".format(devdat.smem_granularity))

共有メモリのバンク数: 32


In [18]:
print("コアレスアクセスを実現するためのメモリ境界: {}".format(devdat.align_bytes(word_size = 4)))

コアレスアクセスを実現するためのメモリ境界: 64


In [24]:
print("コアレスアクセスを実現するためのメモリ境界(byte指定): {}".format(devdat.align(1013, word_size = 4)))

コアレスアクセスを実現するためのメモリ境界(byte指定): 1024


In [31]:
print("コアレスアクセスを実現するための要素数境界: {}".format(devdat.align_words(word_size = 4)))

コアレスアクセスを実現するための要素数境界: 16


In [29]:
print("コアレスアクセスを実現するための要素数境界(要素数指定): {}".format(devdat.align_dtype(1013, dtype_size = 4)))

コアレスアクセスを実現するためのメモリ境界(要素数指定): 1024


In [33]:
record = pycuda.tools.OccupancyRecord(devdat, threads=1024, shared_mem = 1024, registers = 32)

In [40]:
print("SMごとに実行可能なThreadBlock数: {}".format(record.tb_per_mp))

SMごとに実行可能なThreadBlock数: 2


In [42]:
print("Occupancyを制限しているリソース: {}".format(record.limited_by))

Occupancyを制限しているリソース: regs


In [43]:
print("SMごとに実行可能なワープ数: {}".format(record.warps_per_mp))

SMごとに実行可能なワープ数: 64


In [45]:
print("計算上でのOccupancy: {}".format(record.occupancy))

計算上でのOccupancy: 1.0


In [51]:
print("CUDA Driverバージョン: {}".format(pycuda.driver.get_version()))

CUDA Driverバージョン: (11, 1, 0)


In [52]:
print("CUDA Driverバージョン: {}".format(pycuda.driver.get_driver_version()))

CUDA Driverバージョン: 11010


In [53]:
print("CUDAデバイス数: {}".format(pycuda.driver.Device.count()))

CUDAデバイス数: 1
