# 2.2 NumPy数组基础

本节将展示一些用NumPy数组操作获取数据或子数组，对数组进行分裂、变形和连接的例子。  
  
**数组的属性**：确定数组的大小、形状、存储大小、数据类型。  
**数组的索引**：获取和设置数组各个元素的值。  
**数组的切分**：在大的数组中获取或设置更小的子数组。  
**数组的变形**：改变给定数组的形状。  
**数组的拼接和变形**：将多个数组合并为一个，以及将一个数组分裂成多个。

## NumPy数组的属性
数组的属性：确定数组的大小、形状、存储大小、数据类型。

In [1]:
import numpy as np

np.random.seed(0) #设置随机数种子，以确保每次程序执行时都可以生成同样的随机数组

x1 = np.random.randint(10,size=6)#一维数组
x2 = np.random.randint(10,size=(3,4)) #二维数组
x3 = np.random.randint(10,size=(3,4,5)) #三维数组

每个数组有`ndim`（数组的维度）、`shape`(数组每个维度的大小)和`size`(数组的总大小)属性：

In [8]:
print("x3 ndim: ", x3.ndim)
print("x3 shape: ", x3.shape)
print("x3 size: ", x3.size)

x3 ndim:  3
x3 shape:  (3, 4, 5)
x3 size:  60


另一个有用的属性是`dtype`,它是数组的数据类型：

In [9]:
print("x3 dtype: ", x3.dtype)

x3 dtype:  int32


其他的属性包括表示每个数组元素字节大小的`itemsize`，以及表示数组总字节大小的属性`nbytes`:

In [10]:
print("x3 itemsize: ", x3.itemsize)
print("x3 nbytes: ", x3.nbytes)

x3 itemsize:  4
x3 nbytes:  240


一般来说，可以认为`nbytes`跟`itemsize`和`size`的成绩大小相等。

## 数组索引：获取单个元素
数组的索引：获取和设置数组各个元素的值。  
  
和Python列表一样，在一维数组中，你也可以通过中括号指定索引获取第i个值（从0开始计数）。

In [12]:
x1

array([5, 0, 3, 3, 7, 9])

In [13]:
x1[0]

5

In [14]:
x1[4]

7

为了获取数组的末尾索引，可以使用负值索引：

In [15]:
x1[-1]

9

In [16]:
x1[-2]

7

在多维数组中，可以用逗号分隔的索引元组获取元素：

In [17]:
x2

array([[3, 5, 2, 4],
       [7, 6, 8, 8],
       [1, 6, 7, 7]])

In [18]:
x2[0,0]

3

In [19]:
x2[2,0]

1

In [20]:
x2[2,-1]

7

也可以用以上索引方式修改元素值：

In [21]:
x2[0,0] = 12
x2

array([[12,  5,  2,  4],
       [ 7,  6,  8,  8],
       [ 1,  6,  7,  7]])

请注意，和Python列表不同，NumPy数组是固定类型的。这意味着当你试图将一个浮点值插入一个整型数组时，浮点值会被截短成整型。这并且这种截短是自动完成的，不会给你提示或警告，所以需要特别注意这一点！

In [22]:
x1[0] = 3.1415926 #这将被截短
x1

array([3, 0, 3, 3, 7, 9])

## 数组切片：获取子数组
我们可以用切片（slice）符号获取子数组，切片符号用冒号（:）表示。NumPy切片语法和Python列表的标准切片语法相同。为了获取数组x的一个切片，可以用以下方式：

In [None]:
x[start:stop:step]

如果以上三个参数都未指定，那么它们将会被分别设置默认值start = 0、stop = 维度的大小（size of dimension）和step = 1。

### 一维子数组

In [23]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [24]:
x[:5] #前五个元素

array([0, 1, 2, 3, 4])

In [25]:
x[5:] #索引5之后的元素

array([5, 6, 7, 8, 9])

In [26]:
x[4:7] #中间的子数组

array([4, 5, 6])

In [27]:
x[::2] #每隔一个元素

array([0, 2, 4, 6, 8])

In [28]:
x[1::2] #每隔一个元素，从索引1开始

array([1, 3, 5, 7, 9])

你可能会在步长值为负时感到困惑。在这个例子中，start参数和stop参数默认是被交换的。  
因此这是一种非常方便的逆序数组的方式：

In [30]:
x[::-1] #所有元素，逆序的

array([9, 8, 7, 6, 5, 4, 3, 2, 1, 0])

In [31]:
x[5::-2] #从索引5开始每隔一个元素逆序

array([5, 3, 1])

### 多维子数组
多维切片也采用同样的方式处理，用逗号分隔。

In [32]:
x2

array([[12,  5,  2,  4],
       [ 7,  6,  8,  8],
       [ 1,  6,  7,  7]])

In [34]:
x2[:2,:3] #两行，三列

array([[12,  5,  2],
       [ 7,  6,  8]])

In [38]:
x2[:3,::2] #所有行，每隔一列

array([[12,  2],
       [ 7,  8],
       [ 1,  7]])

最后，子数组维度也可以同时被逆序：

In [40]:
x2[::-1,::-1]

array([[ 7,  7,  6,  1],
       [ 8,  8,  6,  7],
       [ 4,  2,  5, 12]])

### 获取数组的行和列
一种常见的需求是获取数组的单行和单列。你可以将索引与切片组合起来实现这个功能，用一个冒号（:）表示空切片：

In [41]:
print(x2[:,0]) #x2的第一列

[12  7  1]


In [42]:
print(x2[0,:]) #x2的第一行

[12  5  2  4]


在获取行时，出于语法的简洁考虑，可以省略空的切片：

In [43]:
print(x2[0]) #等于x2[0,:]

[12  5  2  4]


### 非副本试图的子数组
关于数组切片有一点很重要也非有用，那就是数组切片返回的是数组数据的视图，而不是数值数据的副本。这一点也是NumPy数组切片和Python列表切片的不同之处：在Python列表中，切片是值的副本。例如此前示例中的那个二维数组：

In [44]:
print(x2)

[[12  5  2  4]
 [ 7  6  8  8]
 [ 1  6  7  7]]


从中抽取一个2x2的子数组：

In [46]:
x2_sub = x2[:2,:2]
print(x2_sub)

[[12  5]
 [ 7  6]]


现在如果修改这个子数组，将会看到原始数组也被修改了。结果如下所示：

In [47]:
x2_sub[0,0] = 99
print(x2_sub)

[[99  5]
 [ 7  6]]


In [48]:
print(x2)

[[99  5  2  4]
 [ 7  6  8  8]
 [ 1  6  7  7]]


### 创建数组的副本
尽管数组视图有一些非常好的特性，但是在有些时候明确地复制数组里地数据或子数组也是非常有用的。可以很简单地通过`copy( )`方法来实现：

In [50]:
x2_sub_copy = x2[:2,:2].copy()
print(x2_sub_copy)

[[99  5]
 [ 7  6]]


如果修改这个子数组，原始的数组不会被改变：

In [51]:
x2_sub_copy[0,0] = 42
print(x2_sub_copy)

[[42  5]
 [ 7  6]]


In [52]:
print(x2)

[[99  5  2  4]
 [ 7  6  8  8]
 [ 1  6  7  7]]


## 数组的变形
数组变形最灵活的实现方式是通过`reshape( )`函数来实现。
  
如果你希望将数字1-9放入一个3x3的矩阵中，可以采用如下方法：

In [55]:
grid = np.arange(1,10).reshape(3,3)
print(grid)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


请注意，如果希望该方法可行，那么原始数组的大小必须和变形后数组的大小一致。  
  
如果满足这个条件，`reshape`方法将会用到原始数组的一个非副本视图。但实际情况是，在非连续的数据缓存的情况下，返回非副本试图往往不可能实现。

另外一个常见的变形模式是将一个一维数组转变为二维数组的行或列的矩阵。你也可以通过`reshape`方法来时间，或者更见地在一个切片操作中利用`newaxis`关键字：

In [57]:
x = np.array([1,2,3])

#通过变形获得的行向量
x.reshape((1,3))

array([[1, 2, 3]])

In [59]:
#通过newaxis获得的行向量
x[np.newaxis,:]

array([[1, 2, 3]])

In [60]:
#通过变形获得的列向量
x.reshape((3,1))

array([[1],
       [2],
       [3]])

In [61]:
#通过newaxis获得的列向量
x[:,np.newaxis]

array([[1],
       [2],
       [3]])

## 数组的拼接和分裂

### 数组的拼接
拼接或连接NumPy中的两个数组主要由`np.concatenate`、`np.vstack`和`np.hstack`例程实现。  
  
`np.concatenate`将数组元组或数组列表作为第一个参数，如下所示：

In [63]:
x = np.array([1,2,3])
y = np.array([3,2,1])
np.concatenate([x,y])

array([1, 2, 3, 3, 2, 1])

你也可以一次性拼接两个以上数组：

In [65]:
z = [99,99,99]
print(np.concatenate([x,y,z]))

[ 1  2  3  3  2  1 99 99 99]


`np.concatenate`也可以用于二维数组的拼接：

In [67]:
grid = np.array([[1,2,3],
                [4,5,6]])

#沿着第一个轴拼接
np.concatenate([grid,grid])

array([[1, 2, 3],
       [4, 5, 6],
       [1, 2, 3],
       [4, 5, 6]])

In [68]:
#沿着第二个轴拼接（从0开始索引）
np.concatenate([grid,grid],axis=1)

array([[1, 2, 3, 1, 2, 3],
       [4, 5, 6, 4, 5, 6]])

沿着固定维度处理数组时，使用`np.vstack`(垂直栈)和`np.hstack`（水平栈）函数会更简洁：

In [69]:
x = np.array([1,2,3])
grid = np.array([[9,8,7],
                [6,5,4]])
#垂直栈数组
np.vstack([x,grid])

array([[1, 2, 3],
       [9, 8, 7],
       [6, 5, 4]])

In [72]:
#水平栈数组
y = np.array([[99],
             [99]])
np.hstack([grid,y])

array([[ 9,  8,  7, 99],
       [ 6,  5,  4, 99]])

与之类似，`np.dstack`将沿着第三个维度拼接数组。

### 数组的分裂
与拼接相反的过程是分裂。分裂可以通过`np.split`、`np.hsplit`和`np.vsplit`函数来实现。  
可以向以上函数传递一个索引列表作为参数，索引列表记录的是分裂点位置：

In [74]:
x = [1,2,3,99,99,3,2,1]
x1,x2,x3 = np.split(x,[3,5])
print(x1,x2,x3)

[1 2 3] [99 99] [3 2 1]


值得注意的是，N分裂点会得到N+1个子数组。相关的`np.hsplit`和`np.vsplit`的用法也类似：

In [76]:
grid = np.arange(16).reshape((4,4))
grid

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [80]:
upper,lower = np.vsplit(grid,[2])
print(upper)
print(lower)

[[0 1 2 3]
 [4 5 6 7]]
[[ 8  9 10 11]
 [12 13 14 15]]


In [82]:
left,right = np.hsplit(grid,[2])
print(left)
print(right)

[[ 0  1]
 [ 4  5]
 [ 8  9]
 [12 13]]
[[ 2  3]
 [ 6  7]
 [10 11]
 [14 15]]


同样，`np.dsplit`将数组沿着第三个维度分裂。