# CUDA C++ class one : 使用cuda C/C++加速程序

In [None]:
!nvidia-smi

## 将由cpu驱动的应用程序改为使用gpu驱动的应用程序

- **__global__ function(){}**  : 将函数声明为全局，供设备（gpu）调用
- **function<<<blockIdx.x , blockDim.x>>>();**  : 调用函数，并声明使用几个线程块用于运行
- **cudaDeviceSynchronize();**  : 同步gpu的结果返回给cpu


In [None]:
!nvcc -arch=sm_70 -o out some-CUDA.cu -run

## 线程层次结构

- **threadIdx.x**   : 每个线程在对应线程块的索引量
- **blockIdx.x**    : 每个线程块在申请到的总线程池中的索引量
- **blockDim.x**    : 每个块中总的线程数
- **gridDim.x**     : 网格中线程块的数量

## 在GPU上访问内存

- **cudaMallocManaged(&a , size);**
- **cudaFree(a);**

## 错误处理
```nvcc
#include <stdio.h>
#include <assert.h>

inline cudaError_t checkCuda(cudaError_t result)
{
  if (result != cudaSuccess) {
    fprintf(stderr, "CUDA Runtime Error: %s\n", cudaGetErrorString(result));
    assert(result == cudaSuccess);
  }
  return result;
}

int main()
{

/*
 * The macro can be wrapped around any function returning
 * a value of type `cudaError_t`.
 */

  checkCuda( cudaDeviceSynchronize() )
}
```