## 数组的基本运算

数组上的算术运算符按元素应用。


In [1]:
import numpy as np
a = np.array([(20, 30),(40, 50)])
b = np.arange(2, 6).reshape(2, 2)

print(f"数组a:\n{a}")
print(f"数组b:\n{b}")

print(f"加法运算:\n{np.add(a, b)}")   # 等价于a + b

print(f"减法运算:\n{np.subtract(a, b)}")   # 等价于a - b

print(f"乘法运算:\n{np.multiply(a, b)}")   # 等价于a * b

print(f"除法运算:\n{np.divide(a, b)}")   # 等价于a / b

print(f"平方运算:\n{np.square(b)}")   # 等价于b ** 2


数组a:
[[20 30]
 [40 50]]
数组b:
[[2 3]
 [4 5]]
加法运算:
[[22 33]
 [44 55]]
减法运算:
[[18 27]
 [36 45]]
乘法运算:
[[ 40  90]
 [160 250]]
除法运算:
[[10. 10.]
 [10. 10.]]
平方运算:
[[ 4  9]
 [16 25]]


矩阵（二维数组）乘积运算用`@`或`.dot()`：

::: {.callout-note}

计算矩阵A和B的乘积时，新矩阵第i行第j列的元素为矩阵A第i行元素和矩阵B第j列元素的乘积之和。

:::

下列示例中，矩阵A的第一行乘以矩阵B的第一列的元素并加和：1 x 3 + 2 x 1 = 5，得到新矩阵第1行第1列的元素。

In [2]:
A = np.array([(1, 2),(3, 4)])
B = np.array([(3, 2, 1),(1, 1, 1)])

print(f"数组A:\n{A}")
print(f"数组B:\n{B}")

print(f"矩阵的乘积:\n{A@B}")
# 等价于A.dot(B)

数组A:
[[1 2]
 [3 4]]
数组B:
[[3 2 1]
 [1 1 1]]
矩阵的乘积:
[[ 5  4  3]
 [13 10  7]]


## 聚合函数的运算

In [3]:
arr = np.array([(1, 2), (3, 4)])
print(f"对数组进行聚合函数的运算:\n{arr}")

print("数组元素求和:", arr.sum())

print("对每列求和:", arr.sum(axis=0))  # 行求和: axis = 1

print("数组元素最小值:", arr.min())

print("每列最小值:", arr.min(axis=0)) 

对数组进行聚合函数的运算:
[[1 2]
 [3 4]]
数组元素求和: 10
对每列求和: [4 6]
数组元素最小值: 1
每列最小值: [1 2]


## 数组的索引和切片

数组包含的元素，每一个都有唯一的索引能够找到它，我们可以通过引用索引获取单个元素，如`arr[n]`，也能通过切片获取部分元素。

一维数组切片的语法是 `arr[start:stop:step]`，其中 start 是切片开始的位置索引（包含在切片中），默认为0，stop 是切片结束的位置索引（不包含在切片中），step 是切片步长，默认为1。

1. 索引默认从0开始，步长为1，第一个元素索引为0，第二个元素索引为1，依此类推。

2. 且满足前闭后开规则，默认含首不含尾，结束索引指代的元素取不到。

3. -n表示结束索引时，表示反方向（从后往前）第n个数；表示步长时指反方向取数且步长为n。

4. 修改切片元素时原数组的元素也会相应改变。

### 一维数组

In [4]:
arr = np.arange(10)
print('以此数组为例:', arr)

slice_one = arr[:5]    # 等价于arr[0:5:1]
print('索引从0到4的切片:', slice_one)

slice_two = arr[4:7]
print('索引从4到6的切片:', slice_two)

slice_three = arr[0:10:3]     # 范围取全部,起始/结束索引可省略,等价于arr[::3] 
print('索引从0到9且步长为3的切片', slice_three)

slice_four = arr[:-5]
print('索引从0到反向第5个数(不包含)的切片:', slice_four)

slice_four[0] = 99
print('修改切片元素后原数组随之改变:', arr)

以此数组为例: [0 1 2 3 4 5 6 7 8 9]
索引从0到4的切片: [0 1 2 3 4]
索引从4到6的切片: [4 5 6]
索引从0到9且步长为3的切片 [0 3 6 9]
索引从0到反向第5个数(不包含)的切片: [0 1 2 3 4]
修改切片元素后原数组随之改变: [99  1  2  3  4  5  6  7  8  9]


### 二维数组

二维数组的切片语法是 `arr[start:stop:step, start:stop:step]`。逗号前是第一维度，逗号后是第二维度，同时对两个维度的位置索引进行定位，也就是同时定位行和列才能找到单个元素。

这些值可以省略，但start和stop之间的:不能省略, 可以省略后面的冒号，不能省略前面的冒号。例如`arr[:]`表示取所有行和所有列，省略了第二个冒号，等价于`arr[:, :]`，可以理解为，当我们筛选行时，可以省略列的筛选，但是筛选列的时候，不能省略行的筛选，即使没有进行筛选也要用一个冒号表示取全部行。举个例子，当我们想要找到电影院的座位时，必须先找到座位在哪一排，座位号才有意义。

In [5]:
arr = np.arange(1, 10).reshape(3, 3)
print(f"二维数组:\n{arr}")

print(f"第2行第2列的元素5: {arr[1, 1]}")

print(f"第1,3行的元素: {arr[::2, :]}")

print(f"第2行第1,3列的元素: {arr[1, ::2]}")

二维数组:
[[1 2 3]
 [4 5 6]
 [7 8 9]]
第2行第2列的元素5: 5
第1,3行的元素: [[1 2 3]
 [7 8 9]]
第2行第1,3列的元素: [4 6]


## 条件过滤

除了用索引获取元素，还可以用逻辑条件来筛选满足条件的元素，提取数组部分元素用中括号，当用多个条件进行筛选过滤时，单个条件用圆括号括起来，条件之间用符号&连接。筛选后的数组会被展平为一维数组：

::: {.callout-note}

条件过滤筛选数据时，条件之间要用符号`&`而不是`and`连接。

:::

In [6]:
arr = np.arange(12).reshape((3, 4))
print(f"以此数组为例:\n{arr}")

print(f"大于6的元素:{arr[arr > 6]}")

print(f"大于6且小于10的元素:{arr[(arr > 6) & (arr < 10)]}")

以此数组为例:
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
大于6的元素:[ 7  8  9 10 11]
大于6且小于10的元素:[7 8 9]


### 缺失值筛选

在日常的数据中，很多时候会有一些缺失的情况存在。在NumPy中，也可以运用`np.isnan()`对元素进行条件筛选，剔除缺失的数据，一般这样的工作会在平时的数据清洗的过程中实现。


In [7]:
arr = np.array([1, 2, np.nan, 4, 5])
print(f"以此数组为例:\n{arr}")
# 识别缺失值，看是否出现True
np.isnan(arr)


以此数组为例:
[ 1.  2. nan  4.  5.]


array([False, False,  True, False, False])

`np.isnan(arr)`会得到一个布尔数组，其中缺失值位置是True，所以`arr[np.isnan(arr)]`筛选出来的就是数组中的所有缺失值，要筛选出所有的非缺失值，可以在条件前加一个符号`~`，这里的`~`表示对布尔数组按位取反，这样原来的True和False会相互交换，按位取反后True位置上是非缺失值，所以这样筛选出来的才是非缺失值。

In [8]:
arr[~np.isnan(arr)]

array([1., 2., 4., 5.])

返回满足条件的元素索引：

In [9]:
arr = np.random.randint(4, size=(3, 3))
print(f"以此二维数组为例:\n{arr}")

print(f"所有非零元素的索引(分维度):\n{np.nonzero(arr)}")

print(f"元素小于均值的索引:\n{np.nonzero(arr < np.mean(arr))}")


以此二维数组为例:
[[0 1 0]
 [0 0 0]
 [1 0 2]]
所有非零元素的索引(分维度):
(array([0, 2, 2], dtype=int64), array([1, 0, 2], dtype=int64))
元素小于均值的索引:
(array([0, 0, 1, 1, 1, 2], dtype=int64), array([0, 2, 0, 1, 2, 1], dtype=int64))


以坐标形式(打包成元组)返回元素索引：

In [10]:
ind = np.nonzero(arr < 6)
# ind[0]为第一维度索引数组，ind[1]为第二维度索引数组
list_of_coordinates = list(zip(ind[0], ind[1]))
print(list_of_coordinates)

[(0, 0), (0, 1), (0, 2), (1, 0), (1, 1), (1, 2), (2, 0), (2, 1), (2, 2)]


::: {.callout-note}

遇到不认识的函数或模块时，例如上述示例代码的`zip()`可以使用`help(zip())`查询函数或模块的详细参数信息以及示例代码。不习惯看英文解释可以复制以后进行中文翻译。

如果想要了解某个特定模块的方法，例如numpy的array方法，可以使用`numpy.info(numpy.array)`，也可以使用缩写`np.info(np.array)`。

此外，在学习过程中，除了会遇到一些不了解的代码，我们在执行代码时，也总会遇到各种各样的英文报错信息。大多数的报错在网络上都已经有大量的经验和讨论信息，学会去理解报错信息，借助网络找到解决办法也是学习编程的一项重要能力。我们可以通过翻译报错信息去思考报错的根源，也可以通过复制粘贴直接上网搜索，看看已有的一些解决问题的思路，在不断的尝试中累积经验和对代码的理解。

学习编程是一个长期的过程，希望大家在学习的过程中能保持思考和独立解决问题的积极性。

:::

对数组的操作，不仅体现在计算和筛选，还可以对元素重新排序、去重复值、以及数组的拼接、堆叠、展平等各种操作，并且这些操作对于表格数据，在Pandas库中也有类似的方法能实现。

## 数组的排序、反转和去重

### 排序和反转

对元素进行排序一般默认为按升序排列。

In [11]:
x = np.array([7, 2, 5, 3, 6, 4, 9, 1, 8])
print(f"一维数组:{x}")

print(f"排序:{np.sort(x)}")

print(f"反转:{np.flip(x)}")

print(f"利用切片方式反转,步长为-1:{x[::-1]}")

一维数组:[7 2 5 3 6 4 9 1 8]
排序:[1 2 3 4 5 6 7 8 9]
反转:[8 1 9 4 6 3 5 2 7]
利用切片方式反转,步长为-1:[8 1 9 4 6 3 5 2 7]


二维数组的排序在默认情况下，每一行按升序排列。当`axis=0`时，每一列按升序排序。

In [12]:
y = np.array([[6, 5, 4], [3, 2, 1], [9, 8, 7]])
print(f"二维数组:\n{y}")

print(f"排序:\n{np.sort(y, axis=0)}")

print(f"反转:\n{np.flip(y)}")

print(f"仅反转子数组顺序:\n{np.flip(y, axis=0)}")

print(f"切片反转数组顺序:\n{y[::-1,::-1]}")

# 以上反转不改变原数组，下面的赋值才会使原数组改变
y[:,1] = np.flip(y[:,1])
print(f"仅反转第二列:\n{y}")

二维数组:
[[6 5 4]
 [3 2 1]
 [9 8 7]]
排序:
[[3 2 1]
 [6 5 4]
 [9 8 7]]
反转:
[[7 8 9]
 [1 2 3]
 [4 5 6]]
仅反转子数组顺序:
[[9 8 7]
 [3 2 1]
 [6 5 4]]
切片反转数组顺序:
[[7 8 9]
 [1 2 3]
 [4 5 6]]
仅反转第二列:
[[6 8 4]
 [3 2 1]
 [9 5 7]]


### 去重复值

设置`return_index=True`时，会同时返回去重后的数组和数组索引，可以分别赋值给两个变量同时得到数组和索引。

In [13]:
arr = np.array([1, 2, 2, 5, 7, 7, 8, 9, 9, 12, 14])
print(f"原数组:{arr}")

print(f"去重后的数组:{np.unique(arr)}")

unique_arr, indices_list = np.unique(arr, return_index=True)
print(f"去重数组的索引:{indices_list}")

原数组:[ 1  2  2  5  7  7  8  9  9 12 14]
去重后的数组:[ 1  2  5  7  8  9 12 14]
去重数组的索引:[ 0  1  3  4  6  7  9 10]


## 数组的展平、合并、堆叠、拆分

### 展平数组

展平数组可用`flatten()`或`ravel()`。

::: {.callout-note}

使用`flatten`时，对展平数组的更改不会影响原数组，使用`ravel`时，数组的更改会影响原数组。

:::

In [14]:
arr = np.arange(6).reshape(2, 3)
print(f"展平前:\n{arr}")

arr_one = arr.flatten()
print(f"使用flatten展平后:\n{arr_one}")

arr_one[0] = 99
print(f"修改元素:\n{arr_one}")

print(f"原数组不变:\n{arr}")

展平前:
[[0 1 2]
 [3 4 5]]
使用flatten展平后:
[0 1 2 3 4 5]
修改元素:
[99  1  2  3  4  5]
原数组不变:
[[0 1 2]
 [3 4 5]]


In [15]:
arr_two = arr.ravel()
print(f"使用ravel展平后:\n{arr_two}")

arr_two[0] = 99
print(f"修改元素:\n{arr_two}")

print(f"原数组改变:\n{arr}")

使用ravel展平后:
[0 1 2 3 4 5]
修改元素:
[99  1  2  3  4  5]
原数组改变:
[[99  1  2]
 [ 3  4  5]]


### 拼接和堆叠数组

::: {.callout-note}

二维数组的垂直堆叠需要列数相同，水平堆叠需要行数相同。

用`np.concatenate()`合并数组时，默认`axis=0`，即沿着行方向进行合并，设置`axis=1`，即沿着列方向进行合并。

:::

In [16]:
a = np.array([(1, 2),(3, 4)])
b = np.array([(1, 2),(3, 4)])
c = np.zeros((1, 2), dtype=np.int_)

print(f"数组a:\n{a}")
print(f"数组b:\n{b}")
print(f"数组c:\n{c}")

print(f"合并数组:\n{np.concatenate((a, b))}")

print(f"垂直堆叠三个数组:\n{np.vstack((a, b, c))}")

print(f"水平堆叠数组:\n{np.hstack((a, a))}")

数组a:
[[1 2]
 [3 4]]
数组b:
[[1 2]
 [3 4]]
数组c:
[[0 0]]
合并数组:
[[1 2]
 [3 4]
 [1 2]
 [3 4]]
垂直堆叠三个数组:
[[1 2]
 [3 4]
 [1 2]
 [3 4]
 [0 0]]
水平堆叠数组:
[[1 2 1 2]
 [3 4 3 4]]


### 拆分数组

In [17]:
arr = np.arange(1, 21).reshape(2, 10)
print(f"以此数组为例:\n{arr}")

print(f"拆分为2个形状相同的数组(相当于从第5列开始拆分):\n{np.hsplit(arr, 2)}")

print(f"从第3列,第7列之后开始拆分:\n{np.hsplit(arr, (3, 7))}")

以此数组为例:
[[ 1  2  3  4  5  6  7  8  9 10]
 [11 12 13 14 15 16 17 18 19 20]]
拆分为2个形状相同的数组(相当于从第5列开始拆分):
[array([[ 1,  2,  3,  4,  5],
       [11, 12, 13, 14, 15]]), array([[ 6,  7,  8,  9, 10],
       [16, 17, 18, 19, 20]])]
从第3列,第7列之后开始拆分:
[array([[ 1,  2,  3],
       [11, 12, 13]]), array([[ 4,  5,  6,  7],
       [14, 15, 16, 17]]), array([[ 8,  9, 10],
       [18, 19, 20]])]



以上,我们了解了NumPy作为数值计算的核心库，不仅提供了高性能的多维数组对象（ndarray）和对这些数组执行操作的函数，还能够高效地处理大规模数据。但对于数据处理和分析来说，往往还需要更高级的工具。例如Pandas，是Python中另一个强大的数据处理库，和NumPy的数组操作有许多相似之处，例如索引切片，Pandas库也是接下来我们要重点学习的内容。Pandas构建在NumPy之上，提供了丰富的功能，包括数据导入和导出、缺失数据处理、数据重塑、合并、分组和聚合、时间序列处理等。能让日常的数据处理更加简洁、高效。

NumPy和Pandas是Python数据科学和数值计算领域的两个重要库。NumPy提供了多维数组和高性能数值计算功能，是数据处理的基础。而Pandas提供了更高级的数据结构和数据处理功能，使得数据分析更加方便。两者共同组成了Python数据科学生态系统的重要组成部分，为数据科学家和工程师提供了强大的工具来探索、处理和分析数据。