## 数组的形状操作*

::: {.callout-note}
重塑数组的形状或添加新轴不会改变元素，只会改变数组的形状。

:::


In [8]:
import numpy as np
a = np.arange(6)
print(f"原数组:{a}")

print(f"重塑形状:\n{a.reshape(2, 3)}")

row_vector = a[np.newaxis, :]
print(f"添加新轴,从一维转为二维:\n{row_vector}")

print(f"相当于在索引位置0处添加轴:\n{np.expand_dims(a, axis = 0)}")

col_vector = a[:, np.newaxis]
print(f"添加新轴,转换为列向量:\n{col_vector}")

print(f"相当于在索引位置1处添加轴:\n{np.expand_dims(a, axis = 1)}")

原数组:[0 1 2 3 4 5]
重塑形状:
[[0 1 2]
 [3 4 5]]
添加新轴,从一维转为二维:
[[0 1 2 3 4 5]]
相当于在索引位置0处添加轴:
[[0 1 2 3 4 5]]
添加新轴,转换为列向量:
[[0]
 [1]
 [2]
 [3]
 [4]
 [5]]
相当于在索引位置1处添加轴:
[[0]
 [1]
 [2]
 [3]
 [4]
 [5]]


转置矩阵：

In [9]:
arr = np.arange(1, 7).reshape(2, 3)
print(f"原矩阵:\n{arr}")

print(f"转置后:\n{arr.transpose()}")

print(f"也可以用.T:\n{arr.T}")

原矩阵:
[[1 2 3]
 [4 5 6]]
转置后:
[[1 4]
 [2 5]
 [3 6]]
也可以用.T:
[[1 4]
 [2 5]
 [3 6]]


## 数组的索引和切片*

1. 索引默认从0开始，切片起始为第一个索引，结尾为最后一个索引时可以省略不写。

2. 前闭后开规则，默认含首不含尾。

3. -n意味着反向第n个数。

4. 修改切片元素时原数组的元素也会相应改变。

In [6]:
arr = np.arange(10)
print('以此数组为例:', arr)

slice_one = arr[:5] # 提取单个元素去掉冒号即可:arr[4]
print('从0到4的切片:', slice_one)

slice_two = arr[4:7]
print('从4到6的切片:', slice_two)

slice_three = arr[0:10:3]  # 前两个数可省略：arr[::3] 
print('从0到9步长为3的切片', slice_three)

slice_four = arr[:-5]
print('从0到4的切片:', slice_four)

slice_four[0] = 99
print('修改切片元素后原数组随之改变:', arr)

以此数组为例: [0 1 2 3 4 5 6 7 8 9]
从0到4的切片: [0 1 2 3 4]
从4到6的切片: [4 5 6]
从0到9步长为3的切片 [0 3 6 9]
从0到4的切片: [0 1 2 3 4]
修改切片元素后原数组随之改变: [99  1  2  3  4  5  6  7  8  9]


In [27]:
arr = np.arange(1, 10).reshape(3, 3)
print(f"二维数组:\n{arr}")

print(f"行索引从1开始(第2行),列索引取到2(第3列但不包含):\n{arr[1:, :2]}")


二维数组:
[[1 2 3]
 [4 5 6]
 [7 8 9]]
行索引从1开始(第2行),列索引取到2(第3列但不包含):
[[4 5]
 [7 8]]


以下面的三维数组为例，该数组三个维度的轴长均为2，意味着，每个维度有两个元素。
第一个维度包含两个二维数组，第二个维度包含两个行向量也就是一维数组，第三个维度包含两个整数。（依次去掉中括号来看）

In [28]:
arr = np.arange(8).reshape((2, 2, 2))

print(f"三维数组:\n{arr}")

print(f"第一维度从第二个元素开始:\n{arr[1:, ...]}")  # 等价于 arr[1:, :, :]

print(f"第三维度到第二个元素结束(不包含):\n{arr[..., :1]}")  # 等价于 arr[:, :, :1]


三维数组:
[[[0 1]
  [2 3]]

 [[4 5]
  [6 7]]]
第一维度从第二个元素开始:
[[[4 5]
  [6 7]]]
第三维度到第二个元素结束(不包含):
[[[0]
  [2]]

 [[4]
  [6]]]


用逻辑条件来筛选满足条件的元素，筛选后的数组会被展平为一维数组：

In [30]:
arr = np.arange(12).reshape((3, 4))
print(f"以此数组为例:\n{arr}")

print(f"大于12的元素:{arr[arr > 6]}")

print(f"返回布尔值:\n{arr > 6}")


以此数组为例:
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
大于12的元素:[ 7  8  9 10 11]
返回布尔值:
[[False False False False]
 [False False False  True]
 [ True  True  True  True]]


返回满足条件的元素索引：

In [15]:
arr = np.random.randint(4, size = (3, 3))
print(f"以此二维数组为例:\n{arr}")

print(f"非零元素的索引(分维度):\n{np.nonzero(arr)}")

print(f"元素小于1的索引:\n{np.nonzero(arr < 1)}")


以此二维数组为例:
[[0 0 0]
 [2 1 0]
 [2 1 3]]
非零元素的索引(分维度):
(array([1, 1, 2, 2, 2], dtype=int64), array([0, 1, 0, 1, 2], dtype=int64))
元素小于2的索引:
(array([0, 0, 0, 1, 1, 2], dtype=int64), array([0, 1, 2, 1, 2, 1], dtype=int64))


以坐标形式返回元素索引：

In [34]:
ind = np.nonzero(arr < 6)

list_of_coordinates= list(zip(ind[0], ind[1]))
for coord in list_of_coordinates:
    print(coord)

(0, 0)
(0, 1)
(0, 2)
(0, 3)
(1, 0)
(1, 1)


::: {.callout-tips}

遇到不认识的函数或模块时，例如上述示例代码的`zip()`可以使用`help()`查询函数或模块的信息以及示例代码。

:::

In [74]:
help(zip())

Help on zip object:

class zip(object)
 |  zip(*iterables, strict=False) --> Yield tuples until an input is exhausted.
 |  
 |     >>> list(zip('abcdefg', range(3), range(4)))
 |     [('a', 0, 0), ('b', 1, 1), ('c', 2, 2)]
 |  
 |  The zip object yields n-length tuples, where n is the number of iterables
 |  passed as positional arguments to zip().  The i-th element in every tuple
 |  comes from the i-th iterable argument to zip().  This continues until the
 |  shortest argument is exhausted.
 |  
 |  If strict is true and one of the arguments is exhausted before the others,
 |  raise a ValueError.
 |  
 |  Methods defined here:
 |  
 |  __getattribute__(self, name, /)
 |      Return getattr(self, name).
 |  
 |  __iter__(self, /)
 |      Implement iter(self).
 |  
 |  __next__(self, /)
 |      Implement next(self).
 |  
 |  __reduce__(...)
 |      Return state information for pickling.
 |  
 |  __setstate__(...)
 |      Set state information for unpickling.
 |  
 |  ------------------

::: {.callout-tips}

如果想要了解某个特定模块的函数，例如numpy的array函数，可以使用`numpy.info(numpy.array)`

:::

In [75]:
np.info(np.array)

array(object, dtype=None, *, copy=True, order='K', subok=False, ndmin=0,
      like=None)

Create an array.

Parameters
----------
object : array_like
    An array, any object exposing the array interface, an object whose
    __array__ method returns an array, or any (nested) sequence.
    If object is a scalar, a 0-dimensional array containing object is
    returned.
dtype : data-type, optional
    The desired data-type for the array.  If not given, then the type will
    be determined as the minimum type required to hold the objects in the
    sequence.
copy : bool, optional
    If true (default), then the object is copied.  Otherwise, a copy will
    only be made if __array__ returns a copy, if obj is a nested sequence,
    or if a copy is needed to satisfy any of the other requirements
    (`dtype`, `order`, etc.).
order : {'K', 'A', 'C', 'F'}, optional
    Specify the memory layout of the array. If object is not an array, the
    newly created array will be in C order (row major) 

## 数组的基本运算*

数组上的算术运算符按元素应用。


In [36]:
a = np.array([(20,30),(40,50)])
b = np.arange(2,6).reshape(2,2)

print(f"数组a:\n{a}")
print(f"数组b:\n{b}")

print(f"加法运算:\n{np.add(a, b)}")
# 等价于a + b

print(f"减法运算:\n{np.subtract(a, b)}")
# 等价于a - b

print(f"乘法运算:\n{np.multiply(a, b)}")
# 等价于a * b

print(f"除法运算:\n{np.divide(a, b)}")
# 等价于a / b

print(f"平方运算:\n{np.square(b)}")
# 等价于b**2

数组a:
[[20 30]
 [40 50]]
数组b:
[[2 3]
 [4 5]]
加法运算:
[[22 33]
 [44 55]]
减法运算:
[[18 27]
 [36 45]]
乘法运算:
[[ 40  90]
 [160 250]]
除法运算:
[[10. 10.]
 [10. 10.]]
平方运算:
[[ 4  9]
 [16 25]]


矩阵（二维数组）乘积运算用`@`或`.dot()`：

::: {.callout-note}

计算矩阵A和B的乘积时，新矩阵第i行第j列的元素为矩阵A第i行元素和矩阵B第j列元素的乘积和，所以需要A矩阵的列数和矩阵B的行数相同。

:::

In [64]:
A = np.array([(1, 2),(3, 4)])
B = np.array([(3, 2, 1),(1, 1, 1)])

print(f"数组A:\n{A}")
print(f"数组B:\n{B}")

print(f"矩阵的乘积:\n{A@B}")
# 等价于A.dot(B)

数组A:
[[1 2]
 [3 4]]
数组B:
[[3 2 1]
 [1 1 1]]
矩阵的乘积:
[[ 5  4  3]
 [13 10  7]]


聚合函数的运算（可以指定轴）：

In [7]:
arr = np.array([(1, 2), (3, 4)])
print(f"对数组进行聚合函数的运算:\n{arr}")

print("数组元素求和:", arr.sum())

print("数组元素每列求和:", arr.sum(axis = 0))  # 行求和:axis = 1

print("数组元素最小值:", arr.min())

print("数组元素每列最小值:", arr.min(axis = 0)) 

对数组进行聚合函数的运算:
[[1 2]
 [3 4]]
数组元素求和: 10
数组元素每列求和: [4 6]
数组元素最小值: 1
数组元素每列最小值: [1 2]


## 数组的排序、反转和去重*

对元素进行排序/反转，以一维、二维数组为例：


In [43]:
x = np.array([7, 2, 5, 3, 6, 4, 9, 1, 8])
print(f"一维数组:{x}")

print(f"排序:{np.sort(x)}")


print(f"反转:{np.flip(x)}")


print(f"利用切片方式反转,步长为-1:{x[::-1]}")


一维数组:[7 2 5 3 6 4 9 1 8]
排序:[1 2 3 4 5 6 7 8 9]
反转:[8 1 9 4 6 3 5 2 7]
利用切片方式反转,步长为-1:[8 1 9 4 6 3 5 2 7]


In [45]:
y = np.array([[7, 2, 5], [3, 6, 4], [9, 1, 8]])
print(f"二维数组:\n{y}")

print(f"排序:\n{np.sort(y)}")

print(f"反转:\n{np.flip(y)}")

print(f"仅反转子数组顺序:\n{np.flip(y, axis=0)}")

y[:,1] = np.flip(y[:,1])
print(f"仅反转第二列:\n{y}")

二维数组:
[[7 2 5]
 [3 6 4]
 [9 1 8]]
排序:
[[2 5 7]
 [3 4 6]
 [1 8 9]]
反转:
[[8 1 9]
 [4 6 3]
 [5 2 7]]
仅反转子数组顺序:
[[9 1 8]
 [3 6 4]
 [7 2 5]]
反转第二列:
[[7 1 5]
 [3 6 4]
 [9 2 8]]


去重复值：

In [48]:
arr = np.array([1, 2, 2, 5, 7, 7, 8, 9, 9, 12, 14])
print(f"原数组:{arr}")

print(f"去重后:{np.unique(arr)}")

unique_arr, indices_list = np.unique(arr, return_index = True)
print(f"去重数组的索引:{indices_list}")

原数组:[ 1  2  2  5  7  7  8  9  9 12 14]
去重后:[ 1  2  5  7  8  9 12 14]
去重数组的索引:[ 0  1  3  4  6  7  9 10]


## 数组的展平、拼接、堆叠、拆分*

展平数组可用`flatten()`或`ravel()`。

::: {.callout-note}
使用`flatten`时，对展平数组的更改不会影响原数组，使用`ravel`时，数组的更改会影响原数组。

:::

In [56]:
arr = np.arange(6).reshape(2, 3)
print(f"展平前:\n{arr}")

arr_one = arr.flatten()
print(f"使用flatten展平后:\n{arr_one}")

arr_one[0] = 99
print(f"修改元素:\n{arr_one}")

print(f"原数组不变:\n{arr}")

展平前:
[[0 1 2]
 [3 4 5]]
使用flatten展平后:
[0 1 2 3 4 5]
修改元素:
[99  1  2  3  4  5]
原数组不变:
[[0 1 2]
 [3 4 5]]


In [57]:
arr_two = arr.ravel()
print(f"使用ravel展平后:\n{arr_two}")

arr_two[0] = 99
print(f"修改元素:\n{arr_two}")

print(f"原数组改变:\n{arr}")

使用ravel展平后:
[0 1 2 3 4 5]
修改元素:
[99  1  2  3  4  5]
原数组改变:
[[99  1  2]
 [ 3  4  5]]


拼接和堆叠数组：

::: {.callout-note}
垂直堆叠和拼接需要列数相同，水平堆叠需要行数相同。

:::

In [59]:
a = np.array([(1, 2),(3, 4)])
b = np.ones((3, 2), dtype = np.int_)
c = np.zeros((1, 2), dtype = np.int_)

print(f"数组a:\n{a}")
print(f"数组b:\n{b}")
print(f"数组c:\n{c}")

print(f"拼接三个数组:\n{np.concatenate((a, b, c))}")

print(f"等价于垂直堆叠三个数组:\n{np.vstack((a, b, c))}")

print(f"水平堆叠数组a和数组a:\n{np.hstack((a, a))}")

数组a:
[[1 2]
 [3 4]]
数组b:
[[1 1]
 [1 1]
 [1 1]]
数组c:
[[0 0]]
拼接三个数组:
[[1 2]
 [3 4]
 [1 1]
 [1 1]
 [1 1]
 [0 0]]
等价于垂直堆叠三个数组:
[[1 2]
 [3 4]
 [1 1]
 [1 1]
 [1 1]
 [0 0]]
水平堆叠数组a和数组a:
[[1 2 1 2]
 [3 4 3 4]]


拆分数组：

In [60]:
arr = np.arange(1, 21).reshape(2, 10)
print(f"以此数组为例:\n{arr}")

print(f"拆分为2个形状相同的数组(相当于从第5列开始拆分):\n{np.hsplit(arr, 2)}")

print(f"从第3列,第7列之后开始拆分:\n{np.hsplit(arr, (3, 7))}")

以此数组为例:
[[ 1  2  3  4  5  6  7  8  9 10]
 [11 12 13 14 15 16 17 18 19 20]]
拆分为2个形状相同的数组(相当于从第5列开始拆分):
[array([[ 1,  2,  3,  4,  5],
       [11, 12, 13, 14, 15]]), array([[ 6,  7,  8,  9, 10],
       [16, 17, 18, 19, 20]])]
从第3列,第7列之后开始拆分:
[array([[ 1,  2,  3],
       [11, 12, 13]]), array([[ 4,  5,  6,  7],
       [14, 15, 16, 17]]), array([[ 8,  9, 10],
       [18, 19, 20]])]


## 数学公式

数组的运算可以帮助实现数学公式的运算，以均方误差公式为例：

$$MeanSquareError=\frac{1}{n}\sum_{i=1}^{n}{(Prediction_i-Y_i)^2}$$
将Prediction和Y看作一维数组进行运算即可：

`error = (1/n)*np.sum(np.square(prediction-y))`

In [61]:
prediction = np.array([2, 2, 2])
y = np.array([1, 2, 3])

print("观测值:", y)
print("预测值:", prediction)
print("预测值和观测值之差:", prediction - y)

error = (1/3)*np.sum(np.square(prediction - y))
print("均方误差:", error)

观测值: [1 2 3]
预测值: [2 2 2]
预测值和观测值之差: [ 1  0 -1]
均方误差: 0.6666666666666666


## 数组对象的读取和保存

将数组对象存为`filename.npy`并读取：

In [62]:
arr = np.array([1,2,3])
np.save("arr", arr)
np.load('arr.npy')

array([1, 2, 3])

也可以保存为文本并读取：

In [63]:
np.savetxt('arr.csv', arr)
np.loadtxt('arr.csv')

array([1., 2., 3.])