# Chapter 5 内存

- Date: 2015-7-6
- 杨攀

# 一. CPU & GPU hardware

## 1.1 CPU

![figure 1. workstation architecture](http://7xk3b0.com1.z0.glb.clouddn.com/cpu.jpg)

### video data flow for example: 
- Source video from disk to CPU memory(through I/O hub)
- CPU decode video, stored in CPU memory
- GPU pull the data from CPU memory to GPU memory(through I/O hub)
- GPU processing on the video frame (e.g. rendering), stored on GPU memory
- Preview on displays or transfered to CPU memory for encode or storage

### CPU 主要负责逻辑性较强的运算，其设计目标是使得执行单元能够以低延迟获得数据和指令，因此采用了复杂的控制逻辑和分支预测。

## 1.2 GPU

![figure 2. gpu architecture](http://7xk3b0.com1.z0.glb.clouddn.com/gpu.jpg)

### part explanation of gpu
- A host interface: connect to PCIe bus, communicates with host CPU (Copy Engine)
- Giga Thread: the thread scheduler, creates threads in hardware and distribute work to cores
- DRAM: dynamic random access memory

### GPU 设计目标时在有限的面积实现很强的计算能力和很高的存储器带宽。

# 二. Introduction to CUDA

## 2.1 CUDA 简介

### 2.1.1 GPGPU 
- General Purpose Graphics Processing Unit
- APIs： 
     CUDA(for nvidia GPUs only， 2007)
     OpenCL
     OpenACC
### 2.1.2 what is cuda? [nvidia blogs]( http://blogs.nvidia.com/blog/2012/09/10/what-is-cuda-2/)
- Compute Unified Device Architecture, 计算统一设备架构

### 2.1.3 setup cuda
- ubuntu cuda, [install](http://wiki.ubuntu.org.cn/NVIDIA)
- pycuda：provides a Python interface to nvidia's CUDA API

### 2.1.4 Simple Processing Flow
- Copy input data from cpu memory to GPU memory
- Load GPU program and execute, caching data on chip for performance
- Copy results back to CPU memory 



## 2.2 CUDA 编程模型
- 主机（cpu）与设备（gpu）
- kernel 函数： 运行在gpu上的cuda并行计算函数
- 一个完整的cuda函数由一系列的设备端kernel函数__并行__步骤和主机端的__串行__步骤共同组成
- 一个kernel函数中存在两个层次的并行，Grid中的block之间的并行和block中的thread间并行，两层模型是cuda最重要的创新之一
![figure 3. cuda programming model](http://7xk3b0.com1.z0.glb.clouddn.com/cudamodel.png)

\--------------------------------------------------------------------------------------------------------

// kernel 定义

\__global\__ void VecAdd（float \*A, float \*B, float \*C）{

}

int main(){
    # kernel 调用
    VecAdd<<<1, N>>>(A, B, C);
}

\--------------------------------------------------------------------------------------------------------

- VecAdd<<<1, N>>>(A, B, C) 语句完成对内核函数VecAdd的调用， "<<<>>>"运算符是内核函数的执行参数，小括号里时函数的参数；1代表kernel的Grid中只有1个block, N代表每个block中有N个thread

## 2.3 thread structure

### 2.3.1 软件映射
- 为了实现透明扩展，cuda将计算任务映射为大量的可以并行执行的线程，以在拥有不同核心数量的硬件上执行
- kernel 以线程网格（Grid）的形式组织，每个线程网格由若干线程块（block）组成，每个线程块又由若干个线程（thread）组成，kernel实际上是以block为执行单位的
![figure 4. grid & block & thread](http://7xk3b0.com1.z0.glb.clouddn.com/grid.jpg)
- cuda引入grid只是用来表示一系列可以被并行执行的block， 各block是并行执行的，block间无法通信，也没有执行顺序
- 目前一个kernel函数中只有一个grid
- cuda 使用了dim3类型的内建变量threadIdx和blcokIdx来标志线程，构成一维，二维，三维的线程块：
    一维block： 线程threadID为threadIdx.x
    大小为（Dx, Dy）的二维block： 线程threadID为（threadIdx.x + threadIdx.y \* Dx） （列优先）
    大小为（Dx, Dy, Dz）的三维block: 线程threadID为（threadIdx.x + threadIdx.y \* Dx + threadIdx.z \* Dx \* Dy）
- __一个blcok中的线程数量不能超过512__

\--------------------------------------------------------------------------------------------------------

// 对两个尺寸为N\*N的矩阵A,B求和，结果存储在C中

// kernel 定义

\__global\__ void MatAdd0（float A[N][N], float B[N][N], float C[N][N]）{

    int i = threadIdx.x;
    int j = threadIdx.y;
    C[i][j] = A[i][j] + B[i][j];

\__global\__ void MatAdd（float A[N][N], float B[N][N], float C[N][N]）{

    int i = blockIdx.x \* blockDim.x + threadIdx.x;
    int j = blockIdx.y \* blockDim.y + threadIdx.y;
    if (i < N && j < N)
        C[i][j] = A[i][j] + B[i][j];
        
}

int main(){

    # kernel 调用 1
    dim3 dimBlock1（N, N）；
    MatAdd0<<<1, dimBlock1>>>(A, B， C);
    
    # kernel 调用 2
    dim3 dimBlock(16, 16);
    dim3 dimGrid((N + dimBlock.x -1)/dimBlock.x, (N + dimBlock.y -1)/dimBlock.y);
    MatAdd<<<dimGrid, dimBlock>>>(A, B， C);
}

\--------------------------------------------------------------------------------------------------------

- cuda中实现block内通信的方法是：在同一个block中的线程通过共享存储器（shared memory）交换数据，并通过栅栏同步保证线程间能正确同步数据， \__syncthreads()函数实现同步


### 2.3.2 硬件映射


![figure 5. streaming multiprocessor](http://7xk3b0.com1.z0.glb.clouddn.com/sm.jpg)

- GTX Titan X for example
    SMs: 24, each has 128 cuda cores (SP, stream processor), total 2048 cuda cores
    Threads: up to 2K threads per SM
- __SP 只是执行单元，并不是完整的处理核心，完整的处理核心应该包含取指，解码，分发逻辑和执行单元等__
- 一个block必须被分配到一个SM中，但是一个SM中同一时刻可以含有多个活动线程块在等待被执行
- 实际运行中，block会被分割为更小的线程束（warp）, e.g. 在Tesla架构的GPU中，一个线程束由连续的32个线程组成
- 在硬件中实际执行程序时，warp才是真正的执行单位



# 三. CUDA with C/C++

## 1. keyword \__global\__ indicates a function that
      Runs on the device
      Is called from host code
## 2. nvcc separates source code into host and device components
      Device functions (e.g. mykernel()) processed by NVIDIA compiler
      Host functions(e.g. main()) processed by standard host compiler (gcc, cl.exe)
## 3. triple angle brackets mark a call from host code to device code
      Also called a "kernel launch"
      We'll return to parameters(1,1) in a moment
## 4. that's all that is required to execute a function on the GPU!


## references:
- http://devblogs.nvidia.com/parallelforall/easy-introduction-cuda-c-and-c/
- http://blog.csdn.net/abcjennifer/article/details/42436727
- http://docs.nvidia.com/cuda/cuda-c-best-practices-guide/index.html#using-cuda-gpu-timers

In [3]:
# simple c

In [None]:
# nvcc

# 四. CUDA with Python

## 1. 
## 2.

## references
- http://documen.tician.de/pycuda/tutorial.html
- http://documen.tician.de/pycuda/
- http://wiki.tiker.net/PyCuda/Examples

In [2]:
import pycuda.driver as cuda
import pycuda.autoinit
from pycuda.compiler import SourceModule

print 'Done'

Done
