# numpy数组

## 1. 使用numpy内置的方法创建数组是一种高效的方法。实例如下：

In [2]:
# 创建一个长度为10的数组，数组的值都是0
# dtype用来指定数组的数据类型
np.zeros(10, dtype=int)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [3]:
# 创建一个3x5的浮点型数组，数组的值都是1
np.ones((3, 5), dtype=float)

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [4]:
# 创建一个3x5的浮点型数组，数组的值都是3.14
np.full((3, 5), 3.14)

array([[3.14, 3.14, 3.14, 3.14, 3.14],
       [3.14, 3.14, 3.14, 3.14, 3.14],
       [3.14, 3.14, 3.14, 3.14, 3.14]])

In [5]:
# 创建一个线性序列数组
# 从0开始，到20结束[0, 20)，步长为2
np.arange(0, 20 ,2)

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [6]:
# 创建一个5个元素的数组，这5个数均匀的分布在[0, 1.]之间
np.linspace(0, 1, 5)

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

In [7]:
# 创建一个3x3的，在[0,1.)之间均匀分布的随机数组成的数组
np.random.random((3, 3))

array([[0.44482344, 0.65456838, 0.01285138],
       [0.37510454, 0.24251386, 0.52785462],
       [0.87401625, 0.36808377, 0.29851656]])

In [8]:
# 创建一个3x3的，均值为0、标准差为1的正态分布的随机数数组
np.random.normal(0, 1, (3, 3))

array([[-0.02069661,  0.49760332, -0.34412539],
       [-0.25786993, -0.16635452,  0.14804662],
       [-0.47892528,  0.11067103, -1.37862325]])

In [9]:
# 创建一个3x3的、[0, 10）区间的随机整型数组
np.random.randint(0, 10, (3,3))

array([[6, 3, 3],
       [3, 1, 8],
       [5, 1, 7]])

In [10]:
# 创建一个3x3的单位矩阵
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [15]:
# 创建一个由3个整型数组成的未初始化的数组
# 数组的值是内存空间中的任意值
np.empty(9,)

array([1., 0., 0., 0., 1., 0., 0., 0., 1.])

 ## 2. NumPy数组的属性

In [19]:
# 用NumPy的随机数生成器设置一组种子值，确保每次程序执行时都可以生成同样的随机数组
import numpy as np
np.random.seed(0) # 设置随机数种子

x1 = np.random.randint(10, size=6) # 一维数组
x2 = np.random.randint(10, size=(3, 4)) # 二维数组
x3 = np.random.randint(10, size=(3, 4, 5)) # 三维数组

# 数组有ndim（数组的维度），shape（数组的每个维度的大小），size（数组的大小）三个属性:
print("x3 ndim: ", x3.ndim)
print("x3 shape: ", x3.shape)
print("x3 size: ", x3.size)

# 查看数组的数据类型
print("数组的数据类型dtype: ", x3.dtype)

# 查看数组每个元素字节大小，数组总字节大小
print("itemsize: ", x3.itemsize, "bytes")
print("nbytes: ", x3.nbytes, "bytes")

x3 ndim:  3
x3 shape:  (3, 4, 5)
x3 size:  60
数组的数据类型dtype:  int32
itemsize:  4 bytes
nbytes:  240 bytes


## 3. 数组索引：获取单个元素

In [20]:
x1

array([5, 0, 3, 3, 7, 9])

In [21]:
x1[0]

5

In [23]:
x1[4]

7

### 3.1 使用负值索引，获取数组的末尾索引

In [24]:
# 使用负值索引，获取数组的末尾索引
x1[-1]

9

In [25]:
x1[-2]

7

### 3.2 在多维数组中，可以用逗号分隔的索引元组获取元素：

In [26]:
# 在多维数组中，可以用逗号分隔的索引元组获取元素：
x2

array([[3, 5, 2, 4],
       [7, 6, 8, 8],
       [1, 6, 7, 7]])

In [27]:
x2[0,0]

3

In [28]:
x2[2, 0]

1

In [29]:
x2[2, -1]

7

### 3.3 利用索引方式修改元素值

In [30]:
x2[0,0] = 12
x2

array([[12,  5,  2,  4],
       [ 7,  6,  8,  8],
       [ 1,  6,  7,  7]])

### 3.4 与python列表不同，*NumPy数组是固定类型的；意味着当你试图将一个浮点值插入一个整数数组时，浮点数会被截短成整型。且这种截短是自动完成的，不会给提示或警告*。

In [31]:
x1[0] = 3.1245
x1

array([3, 0, 3, 3, 7, 9])

## 4. 数组切片：获取子数组

获取数组`x`的一个切片,其中`(:)`是切片符号:

`x[start:stop:step]`

如果以上三个参数都没有指定，或使用默认值start=0、stop=维度的大小（size of dimension）和step=1。

### 4.1 一维数组

In [32]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [33]:
x[:5] # 前5个元素

array([0, 1, 2, 3, 4])

In [34]:
x[5:] # 索引5之后的元素

array([5, 6, 7, 8, 9])

In [37]:
x[4:7] # 中间的子数组

array([4, 5, 6])

In [38]:
x[::2] # 每隔一个元素

array([0, 2, 4, 6, 8])

In [39]:
x[1::2] # 从索引1开始，每隔一个元素

array([1, 3, 5, 7, 9])

In [40]:
x[::-1] # 步长为负时，start参数和stop参数默认是被交换的（逆序）。

array([9, 8, 7, 6, 5, 4, 3, 2, 1, 0])

In [41]:
x[5::-2] # 从索引5开始每隔一个元素逆序

array([5, 3, 1])

### 4.2 多维子数组

多维数组也采用同样的方式处理，用逗号分隔

In [42]:
x2

array([[12,  5,  2,  4],
       [ 7,  6,  8,  8],
       [ 1,  6,  7,  7]])

In [43]:
x2[:2, :3] # 两行，三列

array([[12,  5,  2],
       [ 7,  6,  8]])

In [47]:
x2[:3, ::2] # 所有行，每个一列

array([[12,  2],
       [ 7,  8],
       [ 1,  7]])

In [48]:
x2[::-1, ::-1] # 子数组维度也可以同时被逆序

array([[ 7,  7,  6,  1],
       [ 8,  8,  6,  7],
       [ 4,  2,  5, 12]])

### 4.3 获取数组的行和列

In [49]:
# 将索引与切片组合起来，获取数组的单行和单列。(:)表示空切片
x2[:, 0] # x2的第一列

array([12,  7,  1])

In [50]:
x2[0, :] # x2的第一行

array([12,  5,  2,  4])

In [52]:
# 获取行时，出于语法的简洁考虑，可以省略空的切片
x2[0]

array([12,  5,  2,  4])

### 4.4 python切片和numpy切片的不同

数组切片返回的是数组数据的视图，而不是数值数据的**副本**。python列表中，切片是值的副本。

In [53]:
x2

array([[12,  5,  2,  4],
       [ 7,  6,  8,  8],
       [ 1,  6,  7,  7]])

In [55]:
x2_sub = x2[:2, :2]
x2_sub

array([[12,  5],
       [ 7,  6]])

In [57]:
# 修改切片的第一个元素，x2的第一个元素也会被修改
x2_sub[0, 0] = 999
x2

array([[999,   5,   2,   4],
       [  7,   6,   8,   8],
       [  1,   6,   7,   7]])

***Note：*** numpy切片在处理非常大的数据集时，可以获取或处理这些数据的片段，而不用复制底层的数据缓存

4.5 创建数组的副本

副本修改了，不会影响原数组

In [63]:
x2_sub_copy = x2[:2, :2].copy()
x2_sub_copy

array([[11,  5],
       [ 7,  6]])

In [64]:
x2_sub_copy[0, 0] = 55
x2_sub_copy

array([[55,  5],
       [ 7,  6]])

In [65]:
x2

array([[11,  5,  2,  4],
       [ 7,  6,  8,  8],
       [ 1,  6,  7,  7]])

## 5、 数组变形

### 5.1 reshape()函数

In [67]:
grid = np.arange(1, 10).reshape((3, 3))
print(grid)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


要使用reshape()函数，原始数组的大小必须和变形后数组的大小一致。满足这个条件，reshape()方法将会用到原始数组的一个非副本视图。但实际情况是，在非连续的数据缓存情况下，返回副本;连续的数据缓存情况下，返回非副本视图。

### 5.2 使用newaxis关键字

In [83]:
x = np.arange(1, 4)
print("x: ", x)

# 通过变形获得的行向量
x_reshape = x.reshape((1, 3))
print("reashaped x: ", x_reshape)

print("x: ", x)

# 通过newaxis获得的行向量
x_newaxis = x[np.newaxis, :]
print("x_newaxis: ", x_newaxis)

# 通过变形获得的列向量
x_reshaped_column = x.reshape((3, 1))
print("x_reshaped_column: ", x_reshaped_column)

print("x: ", x)

# 通过newaxis获得的列向量
x_newaxis_column = x[:, np.newaxis]
print("x_newaxis_column: ", x_newaxis_column)

x:  [1 2 3]
reashaped x:  [[1 2 3]]
x:  [1 2 3]
x_newaxis:  [[1 2 3]]
x_reshaped_column:  [[1]
 [2]
 [3]]
x:  [1 2 3]
x_newaxis_column:  [[1]
 [2]
 [3]]


## 6. 数组拼接和分裂

### 6.1 数组的拼接

#### 6.1.1 np.concatenate

In [86]:
# 一维数组拼接
x = np.array([1, 2, 3])
y = np.array([3, 2, 1])
z = np.array([99, 99, 99])
np.concatenate([x, y, z])

array([ 1,  2,  3,  3,  2,  1, 99, 99, 99])

In [88]:
# 二维数组拼接
grid = np.array([[1, 2, 3],
               [4, 5, 6]])

In [90]:
# 沿着第一个轴拼接
np.concatenate([grid, grid])

array([[1, 2, 3],
       [4, 5, 6],
       [1, 2, 3],
       [4, 5, 6]])

In [92]:
# 沿着第二个轴拼接
np.concatenate([grid, grid], axis=1)

array([[1, 2, 3, 1, 2, 3],
       [4, 5, 6, 4, 5, 6]])

#### 6.1.2 np.vstack垂直拼接

In [93]:
x = np.array([1, 2, 3])
grid = np.array([[9, 8, 7],
                [6, 5, 4]])
np.vstack([x, grid])

array([[1, 2, 3],
       [9, 8, 7],
       [6, 5, 4]])

#### 6.1.3 np.hstack水平拼接

In [97]:
y = np.array([[99], [99]])
np.hstack([y, grid])

array([[99,  9,  8,  7],
       [99,  6,  5,  4]])

#### 6.1.4 np.dstack沿着第三个维度拼接数组

### 6.2 数组的分裂

#### 6.2.1 np.split

In [100]:
x = [1, 2, 3, 99, 99, 3, 2, 1]
x1, x2, x3 = np.split(x, [3, 5])
print(x1, x2, x3)

[1 2 3] [99 99] [3 2 1]


#### 6.2.2 np.vsplit

In [104]:
grid = np.arange(16).reshape((4, 4))
print( grid)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]


In [106]:
upper, lower = np.vsplit(grid, [2])
print(upper)
print(lower)

[[0 1 2 3]
 [4 5 6 7]]
[[ 8  9 10 11]
 [12 13 14 15]]


#### 6.2.3 np.hsplit

In [110]:
left, right = np.hsplit(grid, [2])
print(left)
print(right)

[[ 0  1]
 [ 4  5]
 [ 8  9]
 [12 13]]
[[ 2  3]
 [ 6  7]
 [10 11]
 [14 15]]


#### 6.2.4 np.dsplit沿数组第三个维度分裂