<a href="https://colab.research.google.com/github/rbdus0715/Machine-Learning/blob/main/study/cuda/01.intro-cuda/12.device_properties.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### **저마다 다른 성능의 디바이스에서의 속성값을 확인하는 방법**

|Property|Explanation|
|--------|-----------|
|name    |ASCII string|
|Major/ minor|3.2, 5.2, 5.3과 같은 숫자를 통해서 디바이스의 계산 능력을 파악할 수 있도록 한다. 여기서, 3.2라면 Major가 3이고, minor가 2이다.|
|totalGlobalMem|디바이스의 글로벌 메모리의 총 쓸 수 있는 공간을 바이트로 표현|
|maxThreadsPerBlock|스레드 블럭당 최대 스레드 개수|
|maxThreadsDim[3]|블럭의 각 차원의 최대 크기|
|maxGridSize[3]|그리드의 각 차원의 최대 크기|
|clockRate|클럭 주파수|
|sharedMemPerBlock|스레드 블럭에서 공유 가능한 최대 공간을 바이트로 표현|
|Warp size|warp는 스트리밍 멀티프로세서의 기본 실행 단위이며, 현재 모든 장치의 warp size는 32이다.\|

In [None]:
!nvcc --version
!pip install git+https://github.com/andreinechaev/nvcc4jupyter.git
%load_ext nvcc_plugin

In [5]:
%%cu
#include "cuda_runtime.h"
#include "device_launch_parameters.h"
#include <stdio.h>

void query_device()
{
    // 사용 가능한 디바이스들이 몇 개 있는지
    int deviceCount = 0;
    cudaGetDeviceCount(&deviceCount);

    if(deviceCount == 0)
    {
        printf("No CUDA support device found");
    }

    int devNo = 0;
    cudaDeviceProp iProp;
    cudaGetDeviceProperties(&iProp, devNo);

	printf("Device %d: %s\n", devNo, iProp.name);
	printf("  Number of multiprocessors:                     %d\n",
		iProp.multiProcessorCount);
	printf("  clock rate :                     %d\n",
		iProp.clockRate);
	printf("  Compute capability       :                     %d.%d\n",
		iProp.major, iProp.minor);
	printf("  Total amount of global memory:                 %4.2f KB\n",
		iProp.totalGlobalMem / 1024.0);
	printf("  Total amount of constant memory:               %4.2f KB\n",
		iProp.totalConstMem / 1024.0);
	printf("  Total amount of shared memory per block:       %4.2f KB\n",
		iProp.sharedMemPerBlock / 1024.0);
	printf("  Total amount of shared memory per MP:          %4.2f KB\n",
		iProp.sharedMemPerMultiprocessor / 1024.0);
	printf("  Total number of registers available per block: %d\n",
		iProp.regsPerBlock);
	printf("  Warp size:                                     %d\n",
		iProp.warpSize);
	printf("  Maximum number of threads per block:           %d\n",
		iProp.maxThreadsPerBlock);
	printf("  Maximum number of threads per multiprocessor:  %d\n",
		iProp.maxThreadsPerMultiProcessor);
	printf("  Maximum number of warps per multiprocessor:    %d\n",
		iProp.maxThreadsPerMultiProcessor / 32);
	printf("  Maximum Grid size                         :    (%d,%d,%d)\n",
		iProp.maxGridSize[0], iProp.maxGridSize[1], iProp.maxGridSize[2]);
	printf("  Maximum block dimension                   :    (%d,%d,%d)\n",
		iProp.maxThreadsDim[0], iProp.maxThreadsDim[1], iProp.maxThreadsDim[2]);

}

int main() {
    query_device();
}

Device 0: Tesla T4
  Number of multiprocessors:                     40
  clock rate :                     1590000
  Compute capability       :                     7.5
  Total amount of global memory:                 15464256.00 KB
  Total amount of constant memory:               64.00 KB
  Total amount of shared memory per block:       48.00 KB
  Total amount of shared memory per MP:          64.00 KB
  Total number of registers available per block: 65536
  Warp size:                                     32
  Maximum number of threads per block:           1024
  Maximum number of threads per multiprocessor:  1024
  Maximum number of warps per multiprocessor:    32
  Maximum Grid size                         :    (2147483647,65535,65535)
  Maximum block dimension                   :    (1024,1024,64)

