# Numpy 入门教程(Jupyter Notebook版)

作者：Sttot(nmg_wk@yeah.net)  [GitHub](https://github.com/Gk0Wk)

本教程为结合若干开源教程和个人学习总结的成果，参考资料均为开源免费，请勿将此教程用于商业目的。欢迎转发和补充，转发请标明出处和作者。

---

参考资料:

\[1\] https://jalammar.github.io/visual-numpy/
<br/>
\[2\] https://www.runoob.com/numpy/numpy-tutorial.html

## 介绍

### 什么是 NumPy

NumPy 是一个 Python 的张量(标量、向量、矩阵和高维张量)的运算库，并提供了大量的数学方法。\[1\]

NumPy 的前身 Numeric 最早是由 Jim Hugunin 与其它协作者共同开发，2005 年，Travis Oliphant 在 Numeric 中结合了另一个同性质的程序库 Numarray 的特色，并加入了其它扩展而开发了 NumPy。NumPy 为开放源代码并且由许多协作者共同维护开发。\[2\]

### NumPy 有什么用

因为 NumPy 可以很方便的表示张量并进行计算，并因此 NumPy 被广泛用于 Python 生态中的数据分析、机器学习和科学计算领域。很多流行的包是基于 NumPy 开发的，例如 scikit-learn, SciPy, pandas 以及 tensorflow 。

NumPy 通常与 SciPy（Scientific Python）和 Matplotlib（绘图库）一起使用， 这种组合广泛用于替代 MatLab，是一个强大的科学计算环境，有助于我们通过 Python 学习数据科学或者机器学习。

### NumPy 的主要内容

* 一个强大的N维数组对象 `ndarray` 用来描述任意维的张量(对应Tensorflow和PyTorch中的`tensor`)。
* 生成 `ndarray` 对象的一些方法，尤其是各种随机生成/抽样初始化方法。
* 广播功能函数能对 `ndarray` 对象的整体进行批量操作而不需要逐个元素计算。NumPy 提供了一系列实用的数学广播功能函数(线性代数、傅里叶变换、统计学函数等)。
* 整合 C/C++/Fortran 代码的工具。

### 如何安装 NumPy

参考[菜鸟教程](https://www.runoob.com/numpy/numpy-install.html)。

文章后面的样例需要用到 NumPy ，请确保安装 NumPy 以获得最好的阅读效果。

使用 NumPy 需要先将其引用到自己的 Python 脚本中：

```python
import numpy
```

而一种惯例写法经常将导入的 NumPy 包起别名为`np`：

```python
import numpy as np
```

在下文中也会看到`np.xxx`的这种写法，而在实际中究竟使用`numpy.xxx`还是`np.xxx`全凭自己的习惯。

---

注意：为方便起见，下文视`ndarray`(NumPy数组对象)和数学概念`张量`为等价概念，而`数组`则指Python原生的`array`数据类型。而`标量`、`向量`和`矩阵`都是`张量`的特殊类型，即`ndarray`的特殊类型。

本文不涉及过多的线性代数知识和Python知识，大都点到为止，看不懂的朋友最好温习一下之前学过的知识。

# NumPy的核心概念：`ndarray`对象 ~ 张量

NumPy 是一个以张量计算为核心的库，所以用以表示张量的`ndarray`对象就是整个库的核心和基础。

`ndarray`对象，其名称是`n-dimension array(n维数组)`的缩写，从名字来看是像极了Python和其他高级语言中多维数组的概念的。在Python中，我们可以怎样用数组来表示一个XYZ直角坐标系下的向量$\left(1,1,1\right)$呢？像这样：

```python
vector = [1, 1, 1]
```

那如果是一个2x2的单位矩阵$\begin{bmatrix}1 & 0 \\ 0 & 1\end{bmatrix}$，如何表示？我们可以用一个<u>包含数组的数组</u>所构成的“二维数组”来做：

```python
eye_matrix = [[1, 0],
              [0, 1]]
```

如果还有更高的维度，那就接着套娃。一个包含基础数据类型的数组是1维数组，而包含若干n-1维数组(等长)的数组构成n维数组，这是n维数组的归纳定义。对于n维数组而言，其包含若干n-1维数组，而n-1维数组各自包含若干n-2维数组...以此类推。而`0`和`1`这样处于最低维度的基础数据就是数组的`元素`。

在NumPy中也是如此，`ndarray`就是NumPy所提供的一种特殊的多维数组，用以表示标量(0维张量)、向量(1维张量)、矩阵(2维张量)和更高维张量。

## `ndarray`的概念构成

上文提到了`ndarray`的一个重要概念，就是维度(即“秩”)。维度说明这个`ndarray`(这个张量)总共套了多少层。除了维度，张量的“形状”也是很重要的。

什么是张量的“形状”？张量每一维包含的元素数量就是张量的“形状”。同样应用矩阵来举例，对下面的矩阵：

$$
\left.
    \begin{bmatrix}
        1 & 2 & 3 \\
        4 & 5 & 6
    \end{bmatrix}
\right\}
\text{2 line vectors}
$$

其由2行、3列构成，如果将矩阵看做是一个若干“行向量”构成的2维张量，那么它的形状就是2x3。因为“行组成列”，所以列是高维度，行是低维度；高维度在前而低维度在后，所以写成2x3。

除了“形状”，`ndarray`还有一个重要的属性，就是其包含的元素的类型。和Python数组不同，`ndarray`要求其内的元素(指张量的元素)必须是相同的类型，且类型必须从给定的若干种中选择一种(后面会提到)。这样主要是便于 NumPy 管理内存并实现算法。

综上所述，`ndarray`的几个概念：

* 维度(又称“秩”)：张量“套”了多少层
* 形状：张量的每一层的长度
* 元素的数据类型

用这三个概念就可以定义一个`ndarray`对象了。

## 产生一个`ndarray`对象

### 用指定的输入数据创建

```python
numpy.array(object, dtype = None, copy = True, order = None, subok = False, ndmin = 0)
```

* object 是指定的输入数据，一般是整数、实数、布尔值或者由其构成的多维数组，或者其他`ndarray`类型、`matrix`类型等。为什么说“一般”呢？感兴趣的可以试一下`numpy.array([1, [1]])`和`numpy.array('1')`看看会发生什么，这里不做探讨。
* dtype 是要创建`ndarray`的元素数据类型，如果是None的话会自动从object推断。
* copy 对象是否需要复制
* order 是`ndarray`的表示和存储方式，`'C'`为行方向，`'F'`为列方向，`'A'`为任意方向（默认）
* subok `numpy.array`得到的对象强制转化成`array`还是要继承object的类型，一般不需要考虑这个选项，而如果输入的是`matrix`类型而不希望通过`numpy.array()`返回`ndarray`类型就需要改成`True`。[详见此](https://stackoverflow.com/questions/50548341/what-is-the-purpose-and-utility-of-the-subok-option-in-numpy-zeros-like)。
* ndmin 指定生成数组的最小维度。如果输入数据的维度小于这个，那么就会在外面套。

我们可以很轻松的创建一个`ndarray`对象，例如：

![](http://www.junphy.com/wordpress/wp-content/uploads/2019/10/create-numpy-array-1.png)

#### 如何指定元素数据类型`dtype`

(未完待续)