# Numpy数组

In [1]:
import numpy as np

## 1. 创建numpy数组

In [2]:
np.array([1,2,3,4,5])  # 一般提供列表作为参数，也可以是元组

array([1, 2, 3, 4, 5])

numpy数组只接受相同类型的数据，若数据类型不同，numpy尝试强制转换，例如int转化为float，int/float被转化为string

In [3]:
np.array([1,2,3.0])  # 整数被转化为浮点值

array([1., 2., 3.])

In [4]:
np.array([1,2,'str'])  # 整数被转化为字符串

array(['1', '2', 'str'], dtype='<U21')

创建数组时最好声明数据类型，既可以是字符串，也可以是np的数据类型对象

In [5]:
np.array([1,2,3], dtype="float64")  # 等价于dtype=np.float64

array([1., 2., 3.])

创建多维数组(矩阵)，提供一个嵌套列表作为参数

In [6]:
np.array([[1,2,3],[4,5,6],[7,8,9]])

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

快速创建数组

In [7]:
np.zeros(10, dtype=int)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [8]:
np.zeros((3,3), dtype=int)

array([[0, 0, 0],
       [0, 0, 0],
       [0, 0, 0]])

In [9]:
np.ones((3,3), dtype=int)

array([[1, 1, 1],
       [1, 1, 1],
       [1, 1, 1]])

In [10]:
np.full((3,3), 3.14)

array([[3.14, 3.14, 3.14],
       [3.14, 3.14, 3.14],
       [3.14, 3.14, 3.14]])

创建线性序列(等差数列)

In [11]:
np.arange(start=0, stop=20, step=3)  # 加强版range()

array([ 0,  3,  6,  9, 12, 15, 18])

In [12]:
np.linspace(start=1, stop=10, num=6)

array([ 1. ,  2.8,  4.6,  6.4,  8.2, 10. ])

生成服从均匀分布的随机变量

In [13]:
np.random.random(10)

array([0.56318986, 0.77967317, 0.3138818 , 0.18835325, 0.86364042,
       0.63122317, 0.78052238, 0.53230816, 0.53141348, 0.40058398])

生成正态变量，服从正态分布

In [14]:
np.random.normal(0, 1, 10)

array([-0.00634796, -0.46735929, -0.00695054,  0.08314466, -0.02488507,
        2.21343243,  1.49395275,  0.38817275, -0.90590639, -0.79126788])

在$[a, b)$区间取随机整数

In [15]:
np.random.randint(1, 10, 10)

array([4, 2, 3, 7, 7, 3, 2, 8, 2, 7])

## 2. Numpy数据类型

* bool_     布尔型数据类型（True 或者 False）
* int_      默认的整数类型（类似于 C 语言中的 long，int32 或 int64）
* intc      与 C 的 int 类型一样，一般是 int32 或 int 64
* intp      用于索引的整数类型（类似于 C 的 ssize_t，一般情况下仍然是 int32 或 int64）
* int8      字节（-128 to 127）
* int16     整数（-32768 to 32767）
* int32     整数（-2147483648 to 2147483647）
* int64     整数（-9223372036854775808 to 9223372036854775807）
* uint8     无符号整数（0 to 255）
* uint16    无符号整数（0 to 65535）
* uint32    无符号整数（0 to 4294967295）
* uint64    无符号整数（0 to 18446744073709551615）
* float_    float64 类型的简写
* float16   半精度浮点数，包括：1 个符号位，5 个指数位，10 个尾数位
* float32   单精度浮点数，包括：1 个符号位，8 个指数位，23 个尾数位
* float64   双精度浮点数，包括：1 个符号位，11 个指数位，52 个尾数位
* complex_  complex128 类型的简写，即 128 位复数
* complex64 复数，表示双 32 位浮点数（实数部分和虚数部分）
* complex128 复数，表示双 64 位浮点数（实数部分和虚数部分）

## 3. 数组操作

为便于操作，先创建3个数组，分别是一维，二维，三维数组。

In [16]:
np.random.seed(123)

x1 = np.random.randint(1, 100, 10)
x2 = np.random.randint(1, 100, (3, 3))
x3 = np.random.randint(1, 100, (2, 3, 3))

print(x1)
print(x2)
print(x3)

[67 93 99 18 84 58 87 98 97 48]
[[74 33 47]
 [97 26 84]
 [79 37 97]]
[[[81 69 50]
  [56 68  3]
  [85 40 67]]

 [[85 48 62]
  [49  8 93]
  [53 98 86]]]


### 3.1 数组属性

数组的常用属性：维度，每个维度大小，元素数量，数据类型。

In [17]:
print("x3 dimensions: ", x3.ndim)
print("x3 shape: ", x3.shape)
print("x3 size: ", x3.size)
print("x3 dtype: ", x3.dtype)

x3 dimensions:  3
x3 shape:  (2, 3, 3)
x3 size:  18
x3 dtype:  int64


如果想知道数组占用多少内存，查看itemsize和nbytes.

In [18]:
print("itemsize: %d bytes" % x3.itemsize)
print("nbytes: %d bytes" % x3.nbytes)

itemsize: 8 bytes
nbytes: 144 bytes


### 3.2 索引

一维数组的索引跟列表索引的操作一致。

In [19]:
x1[0]  # 第一个元素

67

In [20]:
x1[3]

18

In [21]:
x1[-1]  # 最后一个元素

48

多维数组索引是一维索引的拓展，只需要清楚维度即可。

In [22]:
print(x2)

x2[0, 1]  # 第一行第二个元素

[[74 33 47]
 [97 26 84]
 [79 37 97]]


33

In [23]:
x2[-1, -1]  # 最后一行最后一个元素

97

### 3.3 切片(提取子数组)

一维数组，array[start:stop:step]

In [24]:
x1[1:3]  # 提取第二和第三个元素

array([93, 99])

In [25]:
x1[:3]  # 提取index=[0,1,2]的元素

array([67, 93, 99])

In [26]:
x1[4:]  # 提取index=4之后的所有元素

array([84, 58, 87, 98, 97, 48])

In [27]:
x1[1::2]  # 从index=1开始，取相隔1位的元素

array([93, 18, 58, 98, 48])

In [28]:
x1[::-1]  # 反转元素排序的快捷方式

array([48, 97, 98, 87, 58, 84, 18, 99, 93, 67])

多维数组，一维数组方法的拓展

In [29]:
x2

array([[74, 33, 47],
       [97, 26, 84],
       [79, 37, 97]])

In [30]:
x2[0, 0]  # 第一行，第一列的元素

74

In [31]:
x2[1, :]  # 第二行所有元素

array([97, 26, 84])

In [32]:
x2[:, 2]  # 第三列所有元素

array([47, 84, 97])

In [33]:
x2[:2, :2]  # 忽略第三行和第三列

array([[74, 33],
       [97, 26]])

### 3.4 数组复制

提取数组的一个子集，返回视图(views)而不是副本(copies)，更改视图会改变原来的数组，有点类似于浅层复制(shallow copy)，这种设计的好处在于处理大数据时，更改一个子集也就更改了原始的大型数组。

In [34]:
x2_sub = x2[:2, :2]
x2_sub

array([[74, 33],
       [97, 26]])

In [35]:
x2_sub[0, 0] = 999

In [36]:
print(x2_sub)
print(x2)

[[999  33]
 [ 97  26]]
[[999  33  47]
 [ 97  26  84]
 [ 79  37  97]]


如果要创建副本，可以使用copy方法。

In [37]:
x2_sub_copy = x2[:2, :2].copy()
x2_sub_copy

array([[999,  33],
       [ 97,  26]])

In [38]:
x2_sub_copy[0, 0] = 1999
print(x2_sub_copy)
print(x2)

[[1999   33]
 [  97   26]]
[[999  33  47]
 [ 97  26  84]
 [ 79  37  97]]


### 3.5 重排数组维数

最常见的操作是一维数组变为二维数组，用array.reshape方法。

In [39]:
x1.reshape((2, 5))

array([[67, 93, 99, 18, 84],
       [58, 87, 98, 97, 48]])

### 3.6 数组连接

最常见的3个方法：np.concatenate, np.vstack, np.hstack.

np.concatenate适用于相同维数的数组，当数组维数不同，应该使用np.vstack和np.hstack.

In [40]:
x = np.array([1, 2, 3])
y = np.array([4, 5, 6])
z = np.array([
    [1, 2, 3],
    [4, 5, 6]
])

连接相同维度的数组

In [41]:
np.concatenate([x, y])  # 维数相同，按列连接

array([1, 2, 3, 4, 5, 6])

In [42]:
np.vstack([x, y])  # 垂直连接，生成两行三列的矩阵

array([[1, 2, 3],
       [4, 5, 6]])

In [43]:
np.hstack([z, z])  # 水平连接，生成两行六列矩阵

array([[1, 2, 3, 1, 2, 3],
       [4, 5, 6, 4, 5, 6]])

连接不同维度的数组

In [45]:
np.vstack([x, z])  # 垂直连接，生成三行三列矩阵

array([[1, 2, 3],
       [1, 2, 3],
       [4, 5, 6]])

### 3.7 数组拆分

拆分一维数组

In [56]:
x = np.array([1, 3, 5, 99, 98, 97, 7, 8, 9])
np.split(x, 3)

[array([1, 3, 5]), array([99, 98, 97]), array([7, 8, 9])]

拆分二维数组

In [65]:
grid = np.arange(16).reshape((4,4))
grid

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [68]:
left, right = np.hsplit(grid, [2])  # 按列分割
print(left)
print(right)

[[ 0  1]
 [ 4  5]
 [ 8  9]
 [12 13]]
[[ 2  3]
 [ 6  7]
 [10 11]
 [14 15]]


In [79]:
upper, lower = np.vsplit(grid, [3])  # 按行分割
print(upper)
print(lower)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[[12 13 14 15]]
