# Introduction to CUDA using python

Python并行编程重要内容之一就是使用GPU计算，所以这里记录一些关于GPU编程的基本概念以便于后续实际并行计算的了解。

主要参考了：

- [Introduction to CUDA using python](https://gcapes.github.io/intro-cuda-python/)
- [GPU Accelerated Computing with Python](https://developer.nvidia.com/how-to-cuda-python)

## Introduction to GPU and CUDA

简单了解下GPU计算的历史。

- 多核中央处理器（CPU）：CPU是通用处理器，针对串行任务，分支操作和文件操作进行了优化。

几乎所有的消费类PC和笔记本电脑都具有带有多个内核的中央处理器（CPU）。许多手机和平板电脑也具有多个核心CPU。采用多核的原因是制造商无法通过提高时钟速度来提高性能（时钟速度衡量了可以执行计算的速率，即CPU能够执行指令的速度）。

- 图形处理单元（GPU）：GPU是专用处理器，经过优化可进行浮点运算，尤其是SIMD（单指令多数据）操作。

GPU的发展一直受到游戏行业对3D图形的要求的推动，但是针对GPU进行优化的计算（线性代数矩阵运算）也恰恰是大多数计算昂贵的科学问题所需的计算类型。

图形卡是大规模并行处理器（通常为2000-3000核）。每个内核都没有典型的CPU强大，但是GPU内核是专用处理器，GPU卡上有很多内核，因此速度可以提高10 – 1000倍以上。

![](pictures/cpu-and-gpu.jpg)

什么是CUDA？

Çompute Unified Device Architecture，是一个并行计算平台和应用编程接口（API），由Nvidia创建。

CUDA可用于利用Nvidia GPU的并行处理功能。有三种使用CUDA的基本方法：

- 使用CUDA加速的库（一个库是预编译函数的集合）
- 添加编译器指令（“提示”以自动并行化代码）
- 使用标准编程语言（例如C，Fortran）的扩展名，这些扩展名可以在GPU上运行部分代码（无需学习新的“ GPU编程语言”！）。

CUDA编程是一种混合模型，其中代码的串行部分在CPU上运行，并行部分在GPU上运行。

![](pictures/how-gpu-acceleration-works.png)

并行性的类型

CUDA的混合特性意味着CPU上的计算可以与GPU上的计算重叠。

GPU自身内部发生了更大的并行度，在该例程中，许多线程并行执行子例程。这些线程执行相同的代码，但对不同的数据执行。例如，相邻线程可以对诸如数组的元素之类的相邻数据进行操作。

与诸如消息传递接口（MPI）之类的模型形成鲜明对比，该模型将数据分为多个部分，而每个MPI进程（在单独的CPU上）是对整个数据段执行计算。

有一些基本的常见术语：

- CUDA是一种混合编程模型，这意味着代码段可以在CPU（主机）或GPU（设备）上执行。 
- 术语host 指的是CPU和它的存储器; 
- device 是指GPU及其内存。
- 在device 上执行但从host调用的子例程subroutine 称为内核kernel。
- 阅读有关CUDA C时，还有线程threads，warps，blocks 等。