# NumPy 数值计算基础



> 参考[王圣元的公众号(王的机器)](https://mp.weixin.qq.com/s?__biz=MzIzMjY0MjE1MA==&mid=2247486547&idx=1&sn=b3e8816663938f55df8603990c5d42db&chksm=e8908f5adfe7064c8500716ac77e5579077ef186ce9721110cc06c26b11ba7a10b65ea82862a&scene=21#wechat_redirect)及[机器之心文](https://zhuanlan.zhihu.com/p/342356377)章，并据本课程所需有所调整


&emsp;&emsp;上节课我们对数据分析和机器学习进行了概要性的讲解，然大家对数据分析的组成部分，利用机器学习进行数据分析的基本流程，以及分析过程所用到的工具进行了初步的了解。

&emsp;&emsp;我们知道利用机器学习进行数据分析是以数据作为前提的，数据质量的好坏直接决定了分析结果的准确率。

&emsp;&emsp;**机器学习的基本共识**：“*数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。*”<br>


&emsp;&emsp;所以这节课我们来一起数据处理的基础工具[Numpy](www.numpy.org)。

![](images/2-1.png)

## 学习目标
1. 掌握 NumPy 创建多维数组与生成随机数的方法。
2. 掌握数组的**索引**
3. 掌握数组的**变形**
4. 掌握 NumPy 中**数组的运算**
5. 掌握 NumPy 数组的存载

**课前示例-numpy应用展示**



In [None]:
import PIL.Image as Image
import numpy as np

img=plt.imread('./images/horse.jpg') 
data = np.array(img)
Image.fromarray(img).show()

Image.fromarray(img2[::-1,:,:]).show()
Image.fromarray(img2[:,::-1,:]).show()

img2 = img+1000
Image.fromarray(img2).show()
print(type(img2),type(img2[1,1,1]))

img2 = img2.astype(np.uint8)
print(type(img2),type(img2[1,1,1]))

Image.fromarray(img2).show()

numpy可以对图片进行操作，本质是把图片转成数组，然后操作数组中的每个元素
那大家思考下，我们是不是也可以用numpy来生成图片呢？

In [None]:
import numpy as np
d2 = np.zeros((5, 5, 3), dtype=np.uint8)
print(type(d2))
# Image.fromarray(d2).show()
# display(Image.fromarray(d2))

d3 = np.full((5, 5, 3), 255, dtype=np.uint8)
# d3 = np.ones((100, 100, 3), dtype=np.uint8) * 255
# Image.fromarray(d3).show()
# display(Image.fromarray(d3))

d4 = np.full((5, 5, 3), 200, dtype=np.uint8)
display(Image.fromarray(d4))

**数据类型为什么要是np.uint8**

对于8位RGB图像，每个颜色通道（红色、绿色、蓝色）的像素值范围通常是从0（无颜色）到255（全颜色）。这种范围的像素值最适合用无符号8位整数（unsigned 8-bit integer）来表示，也就是np.uint8。

以下是选择np.uint8作为dtype的几个原因：

* 范围匹配 ：np.uint8可以存储0到255之间的整数值，这正好与8位RGB图像的像素值范围相匹配。
* 内存效率：使用np.uint8可以非常有效地使用内存，因为每个像素只需要8位（即1字节）的存储空间。如果使用更大的数据类型（如np.int32或np.float32），则会浪费内存，并且可能导致不必要的计算开销。
* 兼容性：许多图像处理库（如OpenCV、PIL/Pillow等）都期望图像数据以np.uint8格式提供，以便进行各种图像处理和分析操作。
* 可视化：当你使用matplotlib等库来显示图像时，它们通常期望图像数据以np.uint8格式提供，以便正确地将像素值映射到显示设备的颜色空间。
因此，当处理8位RGB图像时，将每个元素的dtype设置为np.uint8是非常合理的选择。

**生成图片时：三维和二维有什么区别**

在图像处理中，当我们提到图像的数组或矩阵时，我们实际上是在讨论一个三维数组（或称为多维数组），即使我们通常看到的图像是二维的（具有宽度和高度）。这里的“三维”指的是图像的三个维度：宽度（width）、高度（height）和颜色通道（color channels）。

对于灰度图像（grayscale images），它只有一个颜色通道，即亮度通道，所以它的数组实际上是二维的，即 (height, width)。但当我们处理彩色图像时，例如RGB图像，每个像素都由三个颜色通道组成：红色（R）、绿色（G）和蓝色（B）。因此，每个像素都对应数组中的一个元素，该元素是一个包含三个值的元组或列表（在NumPy中，这通常是一个长度为3的数组），这三个值分别表示该像素在R、G和B三个通道上的亮度。

因此，彩色图像的数组结构是三维的，其形状（shape）通常表示为 (height, width, 3)。其中，前两个维度（height 和 width）定义了图像的尺寸，而第三个维度（3）则代表了颜色通道的数量。

数组的结构（二维或三维）是用来表示图像数据的维度和组织的，而图像的颜色是由数组中的数值来决定的。

对于二维数组（灰度图像），数组的每个元素通常表示一个像素的亮度值（如0到255的整数），这个值决定了像素的颜色深浅（在灰度范围内）。
对于三维数组（彩色图像），每个元素仍然表示一个像素，但这个元素本身是一个包含三个值的子数组（或元组），这三个值分别代表该像素在红、绿、蓝三个颜色通道上的亮度。这三个值的组合决定了像素的最终颜色。
在两种情况下，只要数组中的元素值相同，并且这些值被正确地解释和显示，生成的图像就会具有相同的颜色。例如：

一个二维数组，所有元素都是255，将生成一个全白的灰度图像。
一个三维数组，所有元素都是[255, 255, 255]（即每个像素在红、绿、蓝三个通道上的值都是255），将生成一个全白的彩色图像。


**生成带有颜色的图片**

In [None]:

# 假设我们想要一个100x100像素的红色图片  
height, width = 100, 100  
  
# 创建一个全为红色的NumPy数组（在RGB中红色为[255, 0, 0]）  
# 注意：NumPy数组中的数据类型通常是uint8，范围从0到255  
red_image = np.zeros((height, width, 3), dtype=np.uint8)  

red_image[:, :] = [255, 0, 0]  # 将所有像素设置为红色  
print(red_image.mean())
# 使用Pillow库将NumPy数组转换为图片  
red_pil_image = Image.fromarray(red_image)  
  
# 保存图片  
display(red_pil_image)

In [None]:

# 设置图像的高度和宽度  
height, width = 200, 200  
  
# 创建一个三维NumPy数组，包含三个颜色通道（红、绿、蓝）  
# 这里我们生成一个简单的彩色图片，其中红色通道从左上角到右下角逐渐变化  
red = np.linspace(0, 255, width).astype(np.uint8)  
red = np.tile(red, (height, 1))  
green = np.zeros((height, width), dtype=np.uint8)  # 绿色通道全为0  
blue = 255 - red  # 蓝色通道与红色通道相反，形成渐变  
  
# 将三个通道组合成一个三维数组  
color_image = np.dstack((red, green, blue))  
  
# 使用PIL显示或保存图像  
pil_image = Image.fromarray(color_image)  
pil_image.show()  # 显示图像  
# pil_image.save('./images/color_image.png')  # 保存图像为PNG文件

## 0 引言

&emsp;&emsp;NumPy 是一个基础软件库，很多常用的 Python 数据处理软件库都使用了它或受到了它的启发，包括 pandas、PyTorch、TensorFlow、Keras 等。理解 NumPy 的工作机制能够帮助你提升在这些软件库方面的技能。而且在 GPU 上使用 NumPy 时，无需修改或仅需少量修改代码。
&emsp;

在使用 numpy 之前，需要引进它，语法如下：

```python
import numpy
```

这样你就可以用 numpy 里面所有的内置方法 (build-in methods) 了，比如求和与均值。

```python
numpy.sum()
numpy.mean()
```

但是每次写 numpy 字数有点多，通常我们给 numpy 起个别名 np，用以下语法，这样所有出现 numpy 的地方都可以用 np 替代。

In [1]:
import numpy as np
my_arr = np.array([1,2,3,4])
my_list = [1,2,3,4]

&emsp;&emsp;乍一看，NumPy 数组与 Python 列表类似。它们都可作为容器，能够快速获取和设置元素，为什么要专门学习数组呢？「numpy 数组」和「列表」之间又有什么区别？

NumPy 数组完胜列表的最简单例子是算术运算：

![](images/2-2.png)

&emsp;&emsp;并且因为存储结构的不同，数组的运算效率要远远高于列表的运算效率。NumPy数组在内存中是顺序存储的。这意味着它们的元素在内存中是连续的。这种存储方式允许NumPy快速地进行切片操作和迭代

![](images/2-3.png)

**Numpy优势和特点**
* 更紧凑，尤其是当维度大于一维时；

* 当运算可以向量化时，速度比列表更快；

* 当在后面附加元素时，速度比列表慢；

* 通常是同质的：当元素都是一种类型时速度很快。

## 1 数组的创建

### 1.1 初次印象

数组 (array) 是相同类型的元素 (element) 的集合所组成数据结构 (data structure)。numpy 数组中的元素用的最多是「数值型」元素，平时我们说的**一维、二维、三维数组**长下面这个样子 (对应着**线、面、体**)。四维数组很难被可视化。

![](images/2-4.png)

注意一个关键字 axis，中文叫「轴」，一个数组是多少维度就有多少根轴。由于 Python 计数都是从 0 开始的，那么

* 第 1 维度 = axis 0

* 第 2 维度 = axis 1

* 第 3 维度 = axis 2

但这些数组只可能在平面上打印出来，那么它们 (高于二维的数组) 的表现形式稍微有些不同。

![](images/2-5.png)

分析上图各个数组的在不同维度上的元素：

* 一维数组：**轴 0** 有 3 个元素

* 二维数组：**轴 0** 有 2 个元素，**轴 1** 有 3 个元素

* 三维数组：**轴 0**有 2 个元素 (2 块)，**轴 1** 有 2 个元素，**轴 2** 有 3 个元素

* 四维数组：**轴 0** 有 2 个元素 (2 块)，**轴 1** 有 2 个元素 (2 块)，**轴 2** 有 2 个元素，**轴 3** 有 3 个元素

### 1.2 创建数组

带着上面这个对轴的认识，接下来我们用代码来创建 numpy 数组，有三种方式：

1. 按步就班的 **np.array()** 用在列表和元组上 

2. 定隔定点的 **np.arange()** 和 **np.linspace()**

3. 一步登天的 **np.ones(), np.zeros(), np.eye()** 和 **np.random.random()**

### 按步就班法
为了创建 NumPy 数组，一种方法是转换 Python 列表。NumPy 数组可以直接从列表元素类型转化得到。

![](images/2-6.png)
要确保向其输入的列表是同一种类型，否则你最终会得到 dtype=’object’，这会影响速度。


In [None]:
l = [3.5, 5, 2, 8, 4.2]
np.array(l)

### 定隔定点法

更常见的两种创建 numpy 数组方法：

* 定隔的 arange：固定元素**大小间隔**

* 定点的 linspace：固定元素**个数**


函数 arange 的参数为起点 , 终点 , 间隔
   
    arange(start , stop , step)

其中 stop 必须要有，start 和 step 没有的话分别默认为0 和 1。对着这个规则看看上面各种情况的输出。

函数 linspace 的参数为起点 , 终点 , 点数

    linspace (start , stop , num)

其中 start 和 stop 必须要有，num 没有的话默认为 50。对着这个规则看看上面各种情况的输出。

![](images/2-7.png)

>注：arange 并不非常擅长处理浮点数

再看 linspace 的例子：

In [None]:
print( np.arange(8) )
print( np.arange(2,8) )
print( np.arange(2,8,2))

In [None]:
print( np.linspace(2,6,3) )
print( np.linspace(3,8,11) )
print(np.arange(3,8,11))

### 一步登天法

NumPy 还提供一次性

* 用 zeros() 创建全是 0 的 n 维数组

* 用 ones() 创建全是 1 的 n 维数组

* 用 full() 创建固定值的m\*n维数组

* 用 empyt() 创建m\*n维的空数组

* 用 eye() 创建对角矩阵 (**二维数组**)

* 用 random() 创建随机 n 维数组

对于前五种，由于输出是 n 为数组，它们的参数是一个「标量」或「元组类型的形状」，下面三个例子一看就懂了：
![](images/2-8.png)

In [None]:
print( np.zeros(5) ) # 标量5代表形状(5,)
print( np.ones((2,3)) )
print( np.empty((2,3)) )
print( np.full((2,3), 7) )
print( np.eye(3) )

此外还可以设定 eye() 里面的参数 k

* 默认设置 k = 0 代表 1 落在对角线上

* k = 1 代表 1 落在对角线右上方

* k = -1 代表 1 落在对角线左下方

In [None]:
print( np.eye(3, k=-1) )

在进行测试时，我们通常需要生成随机数组：
![](images/2-9.png)

In [None]:
print( np.random.random((2,3,4)) )

random模块常用随机数生成函数：
![](images/2-10.png)

### 1.3 数组性质

还记得 Python 里面「万物皆对象」么？numpy 数组也不例外，那么我们来看看数组有什么属性 (attributes) 和方法 (methods)。


In [None]:
l2 = [[1, 2, 3], [4, 5, 6]]
arr = np.array(l2)
arr

现在你应该会用 dir(arr) 来查看数组的属性了吧，看完之后我们对 type, ndim, len(), size, shape, stride, dtype 几个感兴趣，打印出来看看：

In [None]:
print( 'The type is', type(arr) )
print( 'The dimension is', arr.ndim )
print( 'The length of array is', len(arr) )
print( 'The number of elements is', arr.size )
print( 'The shape of array is', arr.shape )
print( 'The stride of array is', arr.strides )
print( 'The type of elements is', arr.dtype )

根据结果我们来看看上面属性到底是啥：

* type：**数组类型**，当然是 numpy.ndarray

* ndim：**维度个数**是 2

* len()：**数组长度**为 2 (严格定义 len 是数组在「轴 0」的元素个数)

* size：**数组元素个数**为 6

* shape：**数组形状**，(2, 3) 即每个维度的元素个数 (用元组来表示)。若只有一维，元素个数为 5，写成元组形式是 (5,)

* strides：**跨度**，(12，4)即在某一维度下为了获取到下一个元素需要「跨过」的字节数 (用元组来表示)，int时4个字节数，float64 是 8 个字节数 (bytes)

* dtype：**数组元素类型**，是双精度浮点 (注意和 type 区分)

注意 strides，一图胜千言。

![](images/2-11.png)

在 numpy 数组中，<b><font color="red">默认的是行主序 (row-major order)</font></b>，意思就是每行的元素在内存块中彼此相邻，而列主序 (column-major order) 就是每列的元素在内存块中彼此相邻。

回顾跨度 (stride) 的定义，即在某一维度下为了获取到下一个元素需要「跨过」的字节数。注：每一个 int32 元素是 4 个字节数。对着上图：

**第一维度(轴0)**：沿着它获取下一个元素需要跨过 **3** 个元素，即 **12 = 3**×4 个字节

**第二维度 (轴 1)**：沿着它获取下一个元素需要跨过 **1** 个元素，即 **4 = 1**×4 个字节

因此该二维数组的跨度为 (**12**, 4)。



留一道思考题，strides 和 shape 有什么关系？

    strides = (12， 4)
    shape = (2, 3)

总不能每个高维数组都用可视化的方法来算 strides 吧。


## 2.数组的索引
获取数组是通过索引 (indexing) 和切片 (slicing) 来完成的，

* 切片是获取<font color="red"><b>一段</b></font>特定位置的元素

* 索引是获取<font color="red"><b>一个</b></font>特定位置的元素

索引和切片的方式和列表一模一样。对于一维数组 arr,

* 切片写法是 arr[start : stop : step]

* 索引写法是 arr[index]

因此，切片的操作是可以用索引操作来实现的 (一个一个总能凑成一段)，只是没必要罢了。为了简化，我们在本章三节标题里把切片和索引都叫做索引。

索引数组有三种形式，正规索引 (normal indexing)、布尔索引 (boolean indexing) 和花式索引 (fancy indexing)。

### 2.1 正规索引

虽然切片操作可以由多次索引操作替代，但两者最大的区别在于

* 切片得到的是原数组的一个视图 (view) ，修改切片中的内容**会**改变原数组

* 索引得到的是原数组的一个复制 (copy)，修改索引中的内容**不会**改变原数组



请看下面一维数组的例子来说明上述两者的不同。

#### 一维数组

In [None]:
arr = np.arange(10)
arr

用 arr[6] 索引第 7 个元素 (记住 Python 是从 0 开始记录位置的)

In [None]:
arr[6]

把它赋给变量 a，并重新给 a 赋值 1000，但是元数组 arr 第 7 个元素的值还是 6，并没有改成 1000。

In [None]:
a = arr[6]
a = 1000
arr

用 arr[5:8] 切片第 6 到 8 元素 (**记住 Python 切片包头不包尾**)

In [None]:
arr[5:8]

把它赋给变量 b，并重新给 b 的第二个元素赋值 12，再看发现元数组 arr 第 7 个元素的值已经变成 12 了

In [None]:
b = arr[5:8]
b[1] = 12
arr

这就证实了切片得到原数组的视图 (view)，更改切片数据会更改原数组，而索引得到原数组的复制 (copy)， 更改索引数据不会更改原数组。希望用下面一张图可以明晰 view 和 copy 的关系。
![](images/2-12.png)



In [None]:
arr[5:1:-2] #步长为负数时，开始下标必须大于结束下标

了解完一维数组的切片和索引，类比到二维和多维数组上非常简单。

#### 二维数组
![](images/2-13.png)

In [None]:
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
arr2d

#### <font color="red"><b>索引</b></font>

情况一：用 arr2d[2] 来索引第三行，更严格的说法是索引「轴 0」上的第三个元素。

In [None]:
arr2d[2]

情况二：用 arr2d[0][2] 来索引第一行第三列

In [None]:
arr2d[0][2]

索引二维数组打了两个中括号好麻烦，索引五维数组不是要打了五个中括号？还有一个简易方法，用 arr2d[0, 2] 也可以索引第一行第三列

In [None]:
arr2d[0,2]

#### <font color="red"><b>切片</b></font>

情况一：用 arr2d[:2] 切片前两行，更严格的说法是索引「轴 0」上的前两个元素。

In [None]:
arr2d[:2] 

情况二：用 arr2d[:, [0,2]] 切片第一列和第三列

In [None]:
arr2d[:,[0,2]] 

情况三：用 arr2d[1, :2] 切片第二行的前两个元素

In [None]:
arr2d[1, :2]

情况四：用 arr2d[:2, 2] 切片第三列的前两个元素

In [None]:
arr2d[:2, 2]

### 2.2 布尔索引

布尔索引，就是用一个由布尔 (boolean) 类型值组成的数组来选择元素的方法。它支持使用各类逻辑运算符：

假设我们有阿里巴巴 (BABA)，脸书 (FB) 和京东 (JD) 的

* 股票代码 code 数组

* 股票价格 price 数组：每行记录一天开盘，最高和收盘价格。

In [None]:
code = np.array(['BABA', 'FB', 'JD', 'BABA', 'JD', 'FB'])
price = np.array([[170,177,169],[150,159,153],
                  [24,27,26],[165,170,167],
                  [22,23,20],[155,116,157]])
price

假设我们想找出 BABA 对应的股价，首先找到 code 里面是 'BABA' 对应的索引 (布尔索引)，即一个值为 True 和 False 的布尔数组。

In [None]:
code == 'BABA'

用该索引可以获取 BABA 的股价：

In [None]:
price[ code == 'BABA' ]

用该索引还可以获取 BABA 的最高和收盘价格：

In [None]:
price[ code == 'BABA', 1: ]

再试试获取 JD 和 FB 的股价：

In [None]:
price[ (code == 'FB')|(code == 'JD') ]

虽然下面操作没有实际意义，试试把股价小于 25 的清零。

In [None]:
price[ price < 25 ] = 0
price

**扩展：**布尔索引应用探索
![](images/2-14.png)
any用于查看数组中是否有满足条件的元素和 all 的作用是查看数组中所有元素是否都满足条件。

不过要注意，这里不支持 Python 的「三元比较」，比如 3<=a<=5。

如上所示，布尔索引也是可写的。其两个常用功能都有各自的专用函数：过度重载的 np.where 函数和 np.clip 函数。它们的含义如下：
![](images/2-15.png)

### 2.3 花式索引

花式索引是获取数组中想要的特定元素的有效方法。考虑下面数组：

In [None]:
arr = np.arange(32).reshape(8,4)
arr

假设你想按特定顺序来获取第 5, 4 和 7 行时，用 arr[ [4,3,6] ]

In [None]:
arr[ [4,3,6] ]

假设你想按特定顺序来获取倒数第 4, 3 和 6 行时 (即正数第 4, 5 和 2 行)，用 arr[ [-4,-3,-6] ]

In [None]:
arr[ [-4,-3,-6] ]

此外，你还能更灵活的设定「行」和「列」中不同的索引，如下

In [None]:
arr[ [1,5,7,2], [0,3,1,2] ]

检查一下，上行代码获取的分别是第二行第一列、第六行第四列、第八行第二列、第三行第三列的元素，它们确实是 4, 23, 29 和 10。如果不用花式索引，就要写下面繁琐但等价的代码：

In [None]:
np.array( [ arr[1,0], arr[5,3], 
            arr[7,1], arr[2,2] ] )

## 3 数组的变形

本节介绍**四大类**数组层面上的操作，具体有

1. 重塑 (reshape) 和打平 (ravel, flatten)

2. 合并 (concatenate, stack) 和分裂 (split)

3. 重复 (repeat) 和拼接 (tile)

4. 其他操作 (sort, insert, delete, copy)

### 3.1 重塑和打平

重塑 (reshape) 和打平 (ravel, flatten) 这两个操作仅仅只改变数组的维度

* 重塑是**从低维到高维**

* 打平是**从高维到低维**

#### 重塑

用reshape()函数将一维数组 arr 重塑成二维数组。
![](images/3-1.png)

In [None]:
import numpy as np

arr = np.arange(12)
print( arr )
print( arr.reshape((4,3)) )

当你重塑高维矩阵时，不想花时间算某一维度的元素个数时，可以用「-1」取代，程序会自动帮你计算出来。比如把 12 个元素重塑成 (2, 6)，你可以写成 (2,-1) 或者 (-1, 6)。


In [None]:
print( arr.reshape((2,-1)) )
print( arr.reshape((-1,6)) )

#### 打平

用 ravel() 或flatten() 函数将二维数组 arr 打平成一维数组。
* ravel()展开后可以直接修改原数组
* flatten()返回一个原数组copy

In [None]:
arr = np.arange(12).reshape((4,3))
print( arr )

ravel_arr = arr.ravel()
print( ravel_arr )

flatten_arr = arr.flatten()   ##横向展平
print( flatten_arr )

flatten_arr = arr.flatten('F')   ##横向展平
print( flatten_arr )

### 3.2 合并和分裂

合并 (concatenate, stack) 和分裂 (split) 这两个操作仅仅只改变数组的分合

* 合并是多合一

* 分裂是一分多

#### 合并

使用「合并」函数有两种选择

1. 有通用的 concatenate

2. 有专门的 vstack, hstack, dstack

用下面两个数组来举例：

In [None]:
arr1 = np.array([[1, 2, 3], [4, 5, 6]])
arr2 = np.array([[7, 8, 9], [10, 11, 12]])

#### <font color="red"><b>concatenate</b></font>

In [None]:
np.concatenate([arr1, arr2], axis=0)

In [None]:
np.concatenate([arr1, arr2], axis=1)

在 concatenate() 函数里通过设定轴，来对数组进行竖直方向合并 (轴 0) 和水平方向合并 (轴 1)。 

#### <font color="red"><b>vstack, hstack, dstack</b></font>

通用的东西是好，但是可能效率不高，NumPy 里还有专门合并的函数

* vstack：v 代表 vertical，竖直合并，等价于 concatenate(axis=0)

* hstack：h 代表 horizontal，水平合并，等价于 concatenate(axis=1)

* dstack：d 代表 depth-wise，按深度合并，深度有点像彩色照片的 RGB 通道

一图胜千言：

![](images/3-3.png)

用代码验证一下：

In [None]:
print( np.vstack((arr1, arr2)) )
print( np.hstack((arr1, arr2)) )
print( np.dstack((arr1, arr2)) )

和 vstack, hstack 不同，dstack 将原数组的维度增加了一维。

In [None]:
np.dstack((arr1, arr2)).shape

#### 分裂

使用「分裂」函数有两种选择

1. 有通用的 split

2. 有专门的 hsplit, vsplit

用下面数组来举例：

In [None]:
arr = np.arange(25).reshape((5,5))
print( arr )

#### <font color="red"><b>split</b></font>

和 concatenate() 函数一样，我们可以在 split() 函数里通过设定轴，来对数组沿着竖直方向分裂 (轴 0) 和沿着水平方向分裂 (轴 1)。

In [None]:
first, second, third = np.split(arr,[1,3])
print( 'The first split is', first )
print( 'The second split is', second )
print( 'The third split is', third )

split() 默认沿着轴 0 分裂，其第二个参数 [1, 3] 相当于是个切片操作，将数组分成三部分：

* 第一部分 - :1 (即第 1 行)

* 第二部分 - 1:3 (即第 2 到 3 行)

* 第二部分 - 3:  (即第 4 到 5 行)

#### <font color="red"><b>hsplit, vsplit</b></font>

vsplit() 和 split(axis=0) 等价，hsplit() 和 split(axis=1) 等价。一图胜千言：

![](images/3-4.png)

为了和上面不重复，我们只看 hsplit。

In [None]:
first, second, third = np.hsplit(arr,[1,3])
print( 'The first split is', first )
print( 'The second split is', second )
print( 'The third split is', third )

### 3.3 重复和拼接

重复 (repeat) 和拼接 (tile) 这两个操作本质都是复制

* 重复是在元素层面复制

* 拼接是在数组层面复制
![](images/3-5.png)


#### 重复


函数 repeat() 复制的是数组的每一个元素，参数有几种设定方法：

* 一维数组：用标量和列表来复制元素的个数

* 多维数组：用标量和列表来复制元素的个数，用轴来控制复制的行和列

<font color="red"><b>标量</b></font>

In [None]:
arr = np.arange(3)
print( arr )
print( arr.repeat(3) )

标量参数 3 - 数组 arr 中每个元素复制 3 遍。

<font color="red"><b>列表</b></font>

In [None]:
print( arr.repeat([2,3,4]) )

列表参数 [2,3,4] - 数组 arr 中每个元素分别复制 2, 3, 4 遍。

<font color="red"><b>标量和轴</b></font>

In [None]:
arr2d = np.arange(6).reshape((2,3))
print( arr2d )
print( arr2d.repeat(2, axis=0) )

标量参数 2 和轴 0 - 数组 arr2d 中每个元素沿着轴 0 复制 2 遍。

<font color="red"><b>列表和轴</b></font>

In [None]:
print( arr2d.repeat([2,3,4], axis=1) )

列表参数 [2,3,4] 和轴 1 - 数组 arr2d 中每个元素沿着轴 1 分别复制 2, 3, 4 遍。

#### 拼接

函数 tile() 复制的是数组本身，参数有几种设定方法：

* 标量：把数组当成一个元素，一列一列复制

* 形状：把数组当成一个元素，按形状复制

<font color="red"><b>标量</b></font>

In [None]:
arr2d = np.arange(6).reshape((2,3))
print( arr2d )
print( np.tile(arr2d,2) )

标量参数 2 - 数组 arr 按列复制 2 遍。

<font color="red"><b>形状</b></font>

tile 是瓷砖的意思，顾名思义，这个函数就是把数组像瓷砖一样铺展开来。

In [None]:
arr2d2 = np.array([[1,2], [3, 4]])
print( arr2d2 )

**横向**

![](images/3-6.png)

In [None]:
np.tile(arr2d2, (1,4))    # 与 np.tile(arr2d2, 4) 等价

**纵向**

![](images/3-7.png)

In [None]:
np.tile(arr2d2, (3,1))

**横向+纵向**

![](images/3-8.png)

In [None]:
print( np.tile(arr2d2, (3,4)) )

形状参数 (3,4) - 数组 arr 按形状复制 12 (3×4) 遍，并以 (3,4) 的形式展现。

### 3.4 其他操作

本节讨论数组的其他操作，包括排序 (sort)，插入 (insert)，删除 (delete) 和复制 (copy)。

#### 排序

排序包括直接排序 (direct sort) 和间接排序 (indirect sort)。

<font color="red"><b>直接排序</b></font>

In [None]:
arr = np.array([5,3,2,6,1,4])
print( 'Before sorting', arr )
arr.sort()
print( 'After sorting', arr )

sort()函数是按升序 (ascending order) 排列的，该函数里没有参数可以控制 order，因此你想要按降序排列的数组，只需

In [None]:
print( arr[::-1] )

现在让人困惑的地方来了。

<font color="red"><b>知识点</b></font>

用来排序 numpy 用两种方式：

1. arr.sort()

2. np.sort( arr )

第一种 sort 会改变 arr，第二种 sort 在排序时创建了 arr 的一个复制品，不会改变 arr。看下面代码，用一个形状是 (3, 4) 的「二维随机整数」数组来举例，用整数是为了便于读者好观察排序前后的变化：

In [None]:
arr = np.random.randint( 40, size=(3,4) )
print( arr )

第一种 arr.sort()，对第一列排序，发现 arr 的元素**改变**了。

In [None]:
arr[:, 0].sort() 
print( arr )

第二种 np.sort(arr)，对第二列排序，但是 arr 的元素**不变**。

In [None]:
np.sort(arr[:,1])

In [None]:
print( arr )

此外也可以在不同的轴上排序，对于二维数组，在「轴 0」上排序是「跨行」排序，在「轴 1」上排序是「跨列」排序。
![](images/3-11.png)

In [None]:
arr.sort(axis=1)
print( arr )

<font color="red"><b>间接排序</b></font>

有时候我们不仅仅只想排序数组，还想在排序过程中<font color="red"><b>提取每个元素在原数组对应的索引</b></font>(index)，这时 argsort() 就派上用场了。以排列下面五个学生的数学分数为例：
![](images/3-12.png)

In [None]:
score = np.array([100, 60, 99, 80, 91])
idx = score.argsort()
print( idx )

这个 idx = [1 3 4 2 0] 怎么理解呢？很简单，排序完之后分数应该是 [60 80 91 99 100]，

* 60，即 score[1] 排在第0位， 因此 idx[0] =1

* 80，即 score[3] 排在第1 位， 因此 idx[1] =3

* 91，即 score[4] 排在第2 位， 因此 idx[2] =4

* 99，即 score[2] 排在第3 位， 因此 idx[3] =2

* 100，即 score[0] 排在第4 位， 因此 idx[4] =0

用这个 idx 对 score 做一个「花式索引」得到 (还记得上贴的内容吗？)
![](images/3-13.png)

In [None]:
print( score[idx] )

再看一个二维数组的例子。

In [None]:
arr = np.random.randint( 40, size=(3,4) )
print( arr )

对其第一行 arr[0] 排序，获取索引，在应用到所用行上。

In [None]:
arr[:, arr[0].argsort()]

这不就是「花式索引」吗？来我们分解一下以上代码，先看看索引。

In [None]:
print( arr[0].argsort() )

「花式索引」来了，结果和上面一样的。

In [None]:
arr[:, [2, 0, 3, 1]]

In [None]:
arr[arr[:,0].argsort()]  ##可按第一列对数组排序：

#### 插入和删除

和列表一样，我们可以给 numpy 数组

* 用delete()函数删除某些特定元素
![](images/3-9.png))

* 用insert()函数在某个特定位置之前插入元素
![](images/3-10.png))

In [None]:
a = np.arange(6)
print( a )
print( np.insert(a, 1, 100) )
print( np.delete(a, [1,3]) )

#### 复制

用copy()函数来复制数组 a 得到 a_copy，很明显，改变 a_copy 里面的元素不会改变 a。

In [None]:
a = np.arange(6)
a_copy = a.copy()
print( 'Before changing value, a is', a )
print( 'Before changing value, a_copy is', a_copy )
a_copy[-1] = 99
print( 'After changing value, a_copy is', a_copy )
print( 'After changing value, a is', a )

## 4 数组的计算

本节介绍**两大类**数组计算，具体有

1. 元素层面 (element-wise) 计算

2. 广播机制 (broadcasting) 计算



### 4.1 元素层面计算

Numpy 数组元素层面计算包括：

1. 二元运算 (binary operation)：加减乘除

2. 数学函数：倒数、平方、指数、对数

3. 比较运算 (comparison)

先定义两个数组 arr1 和 arr2。

In [None]:
arr1 = np.array([[1., 2., 3.], [4., 5., 6.]])
arr2 = np.ones((2,3)) * 2
print( arr1 )
print( arr2 )

<font color="red"><b>加、减、乘、除</b></font>
![](images/4-1.png)

In [None]:
print( arr1 + arr2 + 1 )
print( arr1 - arr2 )
print( arr1 * arr2 )
print( arr1 / arr2 )

<font color="red"><b>倒数、平方、指数、对数</b></font>

In [None]:
print( 1 / arr1 )
print( arr1 ** 2 )
print( np.exp(arr1) )
print( np.log(arr1) )

大多数数学函数都有用于处理向量的 NumPy 对应函数：
![](images/4-2.png)
标量积有自己的运算符：
![](images/4-3.png)
执行三角函数时也无需循环：
![](images/4-4.png)
我们可以在整体上对数组进行舍入：
![](images/4-5.png)
floor 为舍、ceil 为入，around 则是舍入到最近的整数（其中 .5 会被舍掉）
NumPy 也能执行基础的统计运算：
![](images/4-6.png)
<font color="red"><b>比较</b></font>

In [None]:
arr1 > arr2
arr1 > 3

从上面结果可知

* 「数组和数组间的二元运算」都是在元素层面上进行的

* 「作用在数组上的数学函数」都是作用在数组的元素层面上的。

* 「数组和数组间的比较」都是在元素层面上进行的

但是在「数组和标量间的比较」时，python 好像先把 3 复制了和 arr1 形状一样的数组 [[3,3,3], [3,3,3]]，然后再在元素层面上作比较。上述这个复制标量的操作叫做「广播机制」，是 NumPy 里最重要的一个特点，在下一节会详细讲到。

#### 4.2 广播机制计算

#### 广播的引出

当两个数组的形状并不相同的时候，我们可以通过扩展数组的方法来实现相加、相减、相乘等操作，这种机制叫做广播（broadcasting）。

比如，一个二维数组减去列平均值，来对数组的每一列进行距平化处理：

In [None]:
arr = np.random.randn(4,3)  #shape(4,3)
arr_mean = arr.mean(0)      #shape(3,)
demeaned = arr -arr_mean

print(arr)
print(arr_mean)
print(demeaned)

很明显上式arr和arr_mean维度并不形同，但是它们可以进行相减操作，这就是通过广播机制来实现的。

**广播的原则**

**如果两个数组的后缘维度（trailing dimension，即从末尾开始算起的维度）的轴长度相符，或其中的一方的长度为1，则认为它们是广播兼容的。广播会在缺失和（或）长度为1的维度上进行。**

这句话乃是理解广播的核心。广播主要发生在两种情况，一种是两个数组的维数不相等，但是它们的后缘维度的轴长相符，另外一种是有一方的长度为1。

**<font color="red">数组维度不同，后缘维度的轴长相符</font>**

我们来看一个例子：

In [None]:
import numpy as np
arr1 = np.array([[0, 0, 0],[1, 1, 1],[2, 2, 2], [3, 3, 3]])  #arr1.shape = (4,3)
arr2 = np.array([1, 2, 3])    #arr2.shape = (3,)
arr_sum = arr1 + arr2
print(arr_sum)

上例中arr1的shape为（4,3），arr2的shape为（3，）。可以说前者是二维的，而后者是一维的。但是它们的后缘维度相等，arr1的第二维长度为3，和arr2的维度相同。arr1和arr2的shape并不一样，但是它们可以执行相加操作，这就是通过广播完成的，在这个例子当中是将arr2沿着0轴进行扩展。

上面程序当中的广播如下图所示(**一维数据在轴0上的广播**):

![](images/numpy-bc1.png)

同样的例子还有(**三维数据在轴0上的广播**)：

![](images/numpy-bc3.png)

从上面的图可以看到，（3,4,2）和（4,2）的维度是不相同的，前者为3维，后者为2维。但是它们后缘维度的轴长相同，都为（4,2），所以可以沿着0轴进行广播。

同样，还有一些例子：（4,2,3）和（2,3）是兼容的，（4,2,3）还和（3）是兼容的，后者需要在两个轴上面进行扩展。

**<font color="red">数组维度相同，其中有个轴为1</font>**

我们来看下面的例子：

In [None]:
import numpy as np

arr1 = np.array([[0, 0, 0],[1, 1, 1],[2, 2, 2], [3, 3, 3]])  #arr1.shape = (4,3)
arr2 = np.array([[1],[2],[3],[4]])    #arr2.shape = (4, 1)

arr_sum = arr1 + arr2
print(arr_sum)

arr1的shape为（4,3），arr2的shape为（4,1），它们都是二维的，但是第二个数组在1轴上的长度为1，所以，可以在1轴上面进行广播，如下图所示(**二维数组在轴1上的广播**)：

![](images/numpy-bc2.png)

在这种情况下，两个数组的维度要保证相等，其中有一个轴的长度为1，这样就会沿着长度为1的轴进行扩展。这样的例子还有：（4,6）和（1,6） 。（3,5,6）和（1,5,6）、（3,1,6）、（3,5,1），后面三个分别会沿着0轴，1轴，2轴进行广播。

人们经常需要通过算术运算过程将较低维度的数组在除0轴以外的其他轴向上广播。根据广播的原则，较小数组的“广播维”必须为1。

对于三维的情况，在三维中的任何一维上广播其实也就是将数据重塑为兼容的形状而已。下图说明了要在三维数组各维度上广播的形状需求(**能在该三维数组上广播的二维数组的形状**)。

![](images/numpy-bc4.png)

## 5 数组的存载与

### 5.1 数组的存载
本节讲数组的「保存」和「加载」，我知道它们没什么技术含量，但是很重要。假设你已经训练完一个深度神经网络，该网络就是用无数参数来表示的。比如权重都是 numpy 数组，为了下次不用训练而重复使用，将其保存成 .npy 格式或者 .csv 格式是非常重要的。



### <font color="red"><b>numpy 自身的 .npy 格式</b></font>

用 np.save 函数将 numpy 数组保存为 .npy 格式，具体写法如下：



    np.save("文件名"，数组 )

In [None]:
arr_disk = np.arange(8)
np.save("arr_disk", arr_disk)
arr_disk

![](images/5-1.png)
arr_disk.npy 保存在 Jupyter Notebook 所在的根目录下。要加载它也很简单，用 np.load( "文件名" ) 即可：

In [None]:
np.load("arr_disk.npy")

### <font color="red"><b>文本 .txt 格式</b></font>

用 np.savetxt 函数将 numpy 数组保存为 .txt 格式，具体写法如下：

>np.savetxt("文件名",数组 )


In [None]:
arr_text = np.array([[1., 2., 3.], [4., 5., 6.]])
np.savetxt("arr_from_text.txt", arr_text)

arr_from_text.txt 保存在 Jupyter Notebook 所在的根目录下，用 Notepad 打开看里面确实存储着 [[1,2,3], [4,5,6]]。

![](images/5-2.png)
用 np.loadtxt( "文件名" ) 即可加载该文件

In [None]:
np.loadtxt("arr_from_text.txt")

### <font color="red"><b>文本 .csv 格式</b></font>

另外，假设我们已经在 arr_from_csv 的 csv 文件里写进去了 [[1,2,3], [4,5,6]]，每行的元素是由「分号 ;」来分隔的，展示如下：

![](images/5-3.png)
用 np.genfromtxt( "文件名" ) 即可加载该文件

In [None]:
np.genfromtxt("arr_from_csv.csv")

奇怪的是数组里面都是 nan，原因是没有设定好「分隔符 ;」，那么函数 genfromtxt 读取的两个元素是

* 1;2;3

* 4;5;6

它们当然不是数字拉，Numpy 只能用两个 nan (Not a Number) 来代表上面的四不像了。

带上「分隔符 ;」再用 np.genfromtxt( "文件名"，分隔符 ) 即可加载该文件

In [None]:
np.genfromtxt("arr_from_csv.csv", delimiter=";")

## 6 作业
![](images/6-1.png)

![结束](./images/end.png)