# CuPy - GPU上的 Numpy

作者：杨岱川

时间：2020年2月

github：https://github.com/DrDavidS/basic_Machine_Learning

开源协议：[MIT](https://github.com/DrDavidS/basic_Machine_Learning/blob/master/LICENSE)

## GPU 与 CUDA

之前我们学习过 Numpy 这个 Python 开源矩阵运算库，可以很方便地进行矩阵运算。

但是也许它的速度还不能让你满意，因此我们要利用 GPU 的特性，帮助我们加速矩阵的运算。

在往下看之前，先确保你可用的 PC 或者服务器安装的是 Nvidia 的显卡，并且支持 CUDA。 CUDA 是 Nvidia 开发的用于 GPU 运算的工具，它的安装较为麻烦，不过一劳永逸。

具体的安装方法和版本下载可以参见[CUDA Toolkit Archive](https://developer.nvidia.com/cuda-toolkit-archive)。

注意，我们的示例版本是 CUDA 10.1，请注意你电脑上的版本，可能有区别而导致出现问题。

### 安装 CuPy

首先我们需要安装 [CuPy](https://cupy.chainer.org/)，它可以看做是 GPU 版本的 Numpy。

安装命令如下，**注意** 需要和你的 CUDA 版本吻合：

```shell
(For CUDA 8.0)
$ pip install cupy-cuda80

(For CUDA 9.0)
$ pip install cupy-cuda90

(For CUDA 9.1)
$ pip install cupy-cuda91

(For CUDA 9.2)
$ pip install cupy-cuda92

(For CUDA 10.0)
$ pip install cupy-cuda100

(For CUDA 10.1)
$ pip install cupy-cuda101
```

### 简单测试

安装好 CuPy 后，简单做一个速度测试：

In [None]:
import numpy as np
import cupy as cp
import torch
import time


import gc
gc.collect()

In [None]:
# GPU
print("Is CUDA available: ", torch.cuda.is_available())
if torch.cuda.is_available():
    n_gpu = torch.cuda.device_count()
    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
    print("GPU numbers: ", n_gpu)
    print("device_name: ", torch.cuda.get_device_name(0))
    torch.cuda.set_device(0)
    print(f"Current device: {torch.cuda.current_device()}")

In [None]:
### Numpy and CPU
s = time.time()
x_cpu_numpy = np.random.random((1000, 1000, 1000))
e = time.time()
print(f"建立一个三维数组，NumPy耗时：{e - s}\n")


### CuPy and GPU
s = time.time()
x_gpu_cupy = cp.random.random((1000, 1000, 1000))
e = time.time()
print(f"建立一个三维数组，CuPy耗时：{e - s}\n")


### Torch and GPU
s = time.time()
x_gpu_torch = torch.randn((1000, 1000, 1000), device=device)
e = time.time()
print(f"建立一个三维数组，PyTorch耗时：{e - s}\n")

在我的测试结果中：

- 建立一个三维数组，NumPy 耗时：9.440277576446533

- 建立一个三维数组，CuPy 耗时：1.9360268115997314

- 建立一个三维数组，PyTorch 耗时：0.006456136703491211

接下来试试矩阵乘法：

In [None]:
### Numpy and CPU
s = time.time()
x_cpu_numpy *= 5
e = time.time()
print(f"将整个数组乘以5，NumPy耗时：{e - s}\n")


### CuPy and GPU
s = time.time()
x_gpu_cupy *= 5
e = time.time()
print(f"将整个数组乘以5，CuPy耗时：{e - s}\n")


### Torch and GPU
s = time.time()
x_gpu_torch *= 5
e = time.time()
print(f"将整个数组乘以5，PyTorch耗时：{e - s}\n")

在我的测试结果中：


- 将整个数组乘以5，NumPy 耗时：0.6512627601623535

- 将整个数组乘以5，CuPy 耗时：0.0015022754669189453

- 将整个数组乘以5，PyTorch 耗时：0.01872563362121582