## CUDA编程模型---错误检测，事件 和 统一内存 

#### 通过之前的学习，我们已经初步掌握了利用GPU加速应用程序的方法。接下来，我们针对更多细节加以训练。本次实验课将会介绍：  
1. CUDA编程模型中的错误检测
2. CUDA编程模型中的事件
3. CUDA编程模型中的统一内存

### 1.Cuda编程模型中的错误检测

可以查看Cuda error的四个函数：  
```C++
__host__​__device__​const char* 	cudaGetErrorName ( cudaError_t error )
Returns the string representation of an error code enum name.  

__host__​__device__​const char* 	cudaGetErrorString ( cudaError_t error )
Returns the description string for an error code.  

__host__​__device__​cudaError_t 	cudaGetLastError ( void )
Returns the last error from a runtime call.  

__host__​__device__​cudaError_t 	cudaPeekAtLastError ( void )
Returns the last error from a runtime call.  
```

这里我们采用第二个，并将其封装在error.cuh文件中：
```C++
#pragma once
#include <stdio.h>

#define CHECK(call)                                   \
do                                                    \
{                                                     \
    const cudaError_t error_code = call;              \
    if (error_code != cudaSuccess)                    \
    {                                                 \
        printf("CUDA Error:\n");                      \
        printf("    File:       %s\n", __FILE__);     \
        printf("    Line:       %d\n", __LINE__);     \
        printf("    Error code: %d\n", error_code);   \
        printf("    Error text: %s\n",                \
            cudaGetErrorString(error_code));          \
        exit(1);                                      \
    }                                                 \
} while (0)
```

那么我们就可以在代码中这么使用：
```C++
    CHECK(cudaMemcpy(d_b, h_b, sizeof(int)*n*k, cudaMemcpyHostToDevice));
```

接下来，大家在之前做的[matrix_mul.cu](matrix_mul.cu)文件，添加CHECK()，如果遇到麻烦，请参考[result_1.cu](result_1.cu)

In [None]:
!/usr/local/cuda/bin/nvcc matrix_mul.cu -o matrix_mul

In [None]:
!./matrix_mul

修改
```C++
CHECK(cudaMemcpy(h_c, d_c, (sizeof(int)*m*k), cudaMemcpyDeviceToHost)); 
```
成
```C++
CHECK(cudaMemcpy(h_c, d_c, (sizeof(int)*m*k*2), cudaMemcpyDeviceToHost));
```

再编译一下，并执行查看结果

In [None]:
!/usr/local/cuda/bin/nvcc matrix_mul.cu -o matrix_mul

In [None]:
!./matrix_mul

这时我们就精准的定位了出现错误的文件，位置，以及错误原因

### 2. Cuda编程模型中的事件。事件的本质就是一个标记，它与其所在的流内的特定点相关联。可以使用时间来执行以下两个基本任务：
- 同步流执行
- 监控设备的进展

流中的任意点都可以通过API插入事件以及查询事件完成的函数，只有事件所在流中其之前的操作都完成后才能触发事件完成。默认流中设置事件，那么其前面的所有操作都完成时，事件才出发完成。
事件就像一个个路标，其本身不执行什么功能，就像我们最原始测试c语言程序的时候插入的无数多个printf一样。

创建和销毁： 

声明:
```C++
cudaEvent_t event;
```
创建：
```C++
cudaError_t cudaEventCreate(cudaEvent_t* event);
```
销毁：
```C++
cudaError_t cudaEventDestroy(cudaEvent_t event);
```
添加事件到当前执行流：
```C++
cudaError_t cudaEventRecord(cudaEvent_t event, cudaStream_t stream = 0);
```
等待事件完成，设立flag：
```C++
cudaError_t cudaEventSynchronize(cudaEvent_t event);//阻塞
```
当然，我们也可以用它来记录执行的事件：
```C++
cudaError_t cudaEventElapsedTime(float* ms, cudaEvent_t start, cudaEvent_t stop);
```

接下来，我们就修改[matrix_mul.cu](matrix_mul.cu)程序，来测试一下核函数执行的时间，如果遇到麻烦，请参考[result_2.cu](result_2.cu)

In [None]:
!/usr/local/cuda/bin/nvcc result_2.cu -o matrix_mul

In [None]:
!./matrix_mul

### 3.统一内存

Jetson系列（包括TX1，TX2，Xavier，NANO等）用的都是SoC芯片，CPU和GPU集成在一个芯片上，自然用的是同一个内存，因此GPU可以直接访问内存上的数据（100多GB/s）而不用受到PCIE的限制（10多GB/s)。

因此，在CUDA编程中可以舍弃cudaMemcpy系列函数（相当于在同一个内存上徒劳地复制了一遍），转而使用zero copy或者统一内存unified memory
今天的课程将介绍，在NANO上使用Pinned Memory加速程序

CUDA应用程序可以使用各种类型的内存缓冲区，例如设备内存，可分页的主机内存，固定内存和统一内存. 即使将这些内存缓冲区类型分配在同一物理设备上，每种类型也具有不同的访问和缓存行为，如下图所示. 选择最合适的内存缓冲区类型对于有效执行应用程序很重要.

![memory_type](memory_type.png)

接下来，我们就修改[matrix_mul.cu](matrix_mul.cu)文件，去掉```cudaMalloc()``` 和 ```cudaMemcpy()```，而采用统一内存的方法。  
如果遇到麻烦，请参考[result_3.cu](result_3.cu)

课后作业:

* 尝试利用统一内存的方法, 优化之前完成的向量相加和矩阵转置的示例