# 第 3 章：GPU 上的 Python

## 编译计算与解释计算

Python 是科学、工程、数据分析和深度学习应用中最流行的编程语言之一。然而，作为一种解释型语言，它被认为速度太慢，不适合高性能计算。

编译成机器代码的程序比解释语言具有速度优势，因为在处理器上执行指令之前不需要中间步骤。

此外，由于一次只能在解释器中执行一个线程，因此 Python 线程的行为与操作系统中的线程不同。全局解释器锁 (GIL) 实质上确保线程不能并行运行，并使 Python 中的线程像单核 CPU 一样运行。通常，Python 程序员必须依靠并发程序来利用并行性，而不是多线程。

Python 中的许多外部库都已使用 C 或 C++ 等其他语言实现，以利用多线程。其中一个库是 NumPy，它是 Python 中数值计算的构建块。



## Python 科学图书馆概况

Python 科学计算生态系统中的 NumPy

NumPy（Numerical Python 的缩写）于 2005 年由 Numarray 合并到 Numeric 而创建。从那时起，开源 NumPy 库已发展成为 Python 中科学计算的重要库。它已成为许多其他科学库的基石，例如 SciPy、Scikit-learn、Pandas 等。NumPy 对科学界如此有吸引力的原因在于它提供了一个方便的 Python 接口，可以高效地处理多维数组数据结构；NumPy 数组数据结构也称为“ndarray”，是 n 维数组的缩写。

除了主要用 C 实现并使用 Python 作为“粘合语言”之外，NumPy 在数值计算方面如此高效的主要原因是 NumPy 数组使用连续的内存块，这些内存块可以被 CPU 高效缓存。相比之下，Python 列表是指向内存中随机位置对象的指针数组，这些指针无法轻松缓存，并且内存查找成本更高。然而，计算效率和低内存占用是有代价的：NumPy 数组具有固定大小并且是同质的，这意味着所有元素必须具有相同的类型。同质 `ndarray` 对象的优势在于 NumPy 可以使用高效的 C 代码执行操作，并避免昂贵的类型检查和 Python API 的其他开销。虽然在 Python 列表末尾添加和删除元素非常高效，但更改 NumPy 数组的大小非常昂贵，因为它需要创建一个新数组并保留我们想要扩展或缩小的旧数组的内容。

NumPy 除了比原生 Python 代码更高效地进行数值计算之外，还由于矢量化操作和广播而更加优雅和易读，这些都是我们将在本文中探讨的功能。

![UsesNumPy](images/chapter-03/uses-numpy.png)

如今，NumPy 有助于形成科学 Python 计算生态系统的基础。（参见 numpy.org）这些基础库的 GPU 加速版本已经在开发中，但所有科学库都有机会利用这些优化。

![ScipyEcosystem](images/chapter-03/scipy-eco.png)


### 在 Python 科学计算库中使用 CuPy

`cupy.ndarray` 类是 CuPy 的核心，是 NumPy 的 `numpy.ndarray` 的替代类，使其成为进入 Python CUDA 生态系统的绝佳切入点，特别是对于那些依赖 NumPy 构建软件的科学库开发人员而言。

CuPy 项目的目标是为 Python 用户提供 GPU 加速功能，而无需深入了解底层 GPU 技术。CuPy 团队专注于提供：

- 完整的 NumPy 和 SciPy API 覆盖，成为完全的替代品，以及先进的 CUDA 功能以最大限度地提高性能。
- 成熟且优质的库作为所有需要加速的项目（从实验室环境到大规模集群）的基础包。

CuPy 建立在 CUDA 之上，提供更高级别的抽象，使代码在不同 GPU 架构和 CUDA 版本之间移植变得更加容易。这意味着 CuPy 代码可以在不同的 CUDA 兼容系统上运行，而无需进行大量修改。

在底层，CuPy 利用 CUDA Toolkit 库（包括 cuBLAS、cuRAND、cuSOLVER、cuSPARSE、cuFFT、cuDNN 和 NCCL）充分利用 GPU 架构。



＃＃ 资源

NumPy https://numpy.org/

CuPy https://cupy.dev/

NumPy 和 CuPy 之间的区别 https://docs.cupy.dev/en/stable/user_guide/difference.html