通过numpy官网的[quickstart tutorial](https://numpy.org/devdocs/user/quickstart.html)英文文档进行numpy模块的入门学习。

# 一些基础概念

Numpy研究的对象是有着相同数据类型的多维数组，一般是有着相同类型的数字，用一系列非负整数的元组来索引。在Numpy中维度也叫做axes.

In [1]:
[1, 2, 1] # has one axis, length of 3
[[1., 0., 0.],
 [0., 1., 2.]] # has 2 axes, first axis has length of 2,second axis has length of 3

[[1.0, 0.0, 0.0], [0.0, 1.0, 2.0]]

Numpy数组类型叫做ndarray。
下面是ndarray类的一些重要的属性：    
**ndarry.ndim**: 数组维度数  
**ndarry.shape**: 数组的维度，以整数元组来表示，如对于n行m列的矩阵的shape = (n, m) 
**ndarry.size**: 数组中所有元素的个数  
**ndarry.dtype**: 描述数组中元素的类型的对象，可以是python标准类型，也可以是numpy提供的类型，比如numpy.int32, numpy.int16, numpy.float64.  
**ndarry.itemsize**: 数组中每个元素以字节表示的大小，等价于ndarry.dtype.itemsize，比如float64的itemsize等于8（=64/8）.

In [2]:
# An example
import numpy as np
a = np.arange(15).reshape(3, 5)

In [3]:
a

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [4]:
a.shape

(3, 5)

In [5]:
a.ndim

2

In [6]:
a.dtype.name

'int32'

In [7]:
a.itemsize

4

In [8]:
a.size

15

In [9]:
type(a)

numpy.ndarray

In [10]:
b = np.array([6, 7, 8])
b

array([6, 7, 8])

In [11]:
type(b)

numpy.ndarray

# 创建数组

1. 利用array函数使用python自带的列表或者元组创建数组，数组的类型取决于序列中元素的类型

In [12]:
import numpy as np
a = np.array([2, 3, 4])
a

array([2, 3, 4])

In [13]:
a.dtype

dtype('int32')

In [14]:
b = np.array([1.2, 3.5, 5.1])
b.dtype

dtype('float64')

array函数将序列的序列转换成二维数组，序列的序列的序列转换成三维数组

In [15]:
b = np.array([(1.5, 2, 3), (4, 5, 6)])
b

array([[1.5, 2. , 3. ],
       [4. , 5. , 6. ]])

数组的类型也可以在创建时显式制定

In [16]:
c = np.array([[1, 2], [3, 4]], dtype = complex)
c

array([[1.+0.j, 2.+0.j],
       [3.+0.j, 4.+0.j]])

2. 如果你不知道数组的具体元素，但是知道数组的大小，那么你可以使用以下几个函数来创建数组，同时起到占位的作用，这有利于减小开支。  
**zeros**: 创建元素全为0的数组  
**empty**: 创建元素为随机数的数组  
以上数组默认类型均为float64

In [17]:
np.zeros((3, 4))

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [18]:
np.ones((2, 3, 4), dtype = np.int16) # 也可以指定元素类型(dtype)

array([[[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]],

       [[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]]], dtype=int16)

In [19]:
np.empty((5, 6))

array([[ 0.00000000e+000,  0.00000000e+000,  0.00000000e+000,
         0.00000000e+000,  0.00000000e+000,  0.00000000e+000],
       [ 0.00000000e+000,  0.00000000e+000,  0.00000000e+000,
         0.00000000e+000,  0.00000000e+000,  0.00000000e+000],
       [ 0.00000000e+000,  0.00000000e+000,  0.00000000e+000,
        -2.22733717e-310,  0.00000000e+000,  0.00000000e+000],
       [ 0.00000000e+000,  0.00000000e+000,  0.00000000e+000,
         0.00000000e+000,  0.00000000e+000,  0.00000000e+000],
       [ 0.00000000e+000,  0.00000000e+000,  0.00000000e+000,
         0.00000000e+000,  0.00000000e+000,  0.00000000e+000]])

3. 利用numpy提供的arange函数（类似于range)，返回array

In [20]:
np.arange(10, 30, 5)

array([10, 15, 20, 25])

In [21]:
np.arange(0, 2, 0.3) # arange可以以浮点数为参数，range则不行

array([0. , 0.3, 0.6, 0.9, 1.2, 1.5, 1.8])

arange可以使用浮点数参数，但是因为有限的浮点数精度无法预测获得的元素个数。因此，我们可以使用linspace函数来获得我们想要的元素个数，而不是步长

In [22]:
from numpy import pi
np.linspace(0, 2, 9) # 起始，末尾，个数

array([0.  , 0.25, 0.5 , 0.75, 1.  , 1.25, 1.5 , 1.75, 2.  ])

In [23]:
x = np.linspace(0, 2 * pi, 100)
f = np.sin(x)

# 打印数组

利用print函数但因Numpy数组，显示方式和嵌套列表类型，直接看例子

In [24]:
a = np.arange(6) # 一维数组
print(a)

[0 1 2 3 4 5]


In [25]:
b = np.arange(12).reshape(4, 3) # 二维数组
print(b)

[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]


In [26]:
c = np.arange(24).reshape(2, 3, 4) # 三维数组
print(c)

[[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 11]]

 [[12 13 14 15]
  [16 17 18 19]
  [20 21 22 23]]]


# 基础操作

基于数组的算数运算符是对数组中每个元素进行操作的，直接看例子

In [27]:
a = np.array([20, 30, 40, 50])
b = np.arange(4)
b

array([0, 1, 2, 3])

In [28]:
c = a - b
c

array([20, 29, 38, 47])

In [29]:
b ** 2

array([0, 1, 4, 9], dtype=int32)

In [30]:
10 * np.sin(a)

array([ 9.12945251, -9.88031624,  7.4511316 , -2.62374854])

In [31]:
a < 35 # 其实这是逻辑运算操作了，也是针对每个元素

array([ True,  True, False, False])

值得注意的是，numpy中 * 运算符是针对每个元素的，其他许多矩阵语言都是矩阵乘法，numpy中可以使用 @ 运算符或者 dot 函数或方法，直接看例子

In [32]:
A = np.array([[1, 1], # 矩阵一般用大写
            [0, 1]])

In [33]:
B = np.array([[2, 0],
             [3, 4]])

In [34]:
A * B # elementwise product

array([[2, 0],
       [0, 4]])

In [35]:
A @ B # matrix product

array([[5, 4],
       [3, 4]])

In [36]:
A.dot(B) # another matrix product

array([[5, 4],
       [3, 4]])

\*=， += 等复合运算符也可以用，直接原地修改数组

如果操作的是不同类型的数组，会发生类型转换，朝着更高精度的方向转换（向上转换）

In [37]:
a = np.ones(3, dtype = np.int32)
b = np.linspace(0, pi, 3)
b.dtype.name

'float64'

In [38]:
c = a + b
c

array([1.        , 2.57079633, 4.14159265])

In [39]:
c.dtype.name

'float64'

In [40]:
d = np.exp(c * 1j)
d

array([ 0.54030231+0.84147098j, -0.84147098+0.54030231j,
       -0.54030231-0.84147098j])

In [41]:
d.dtype.name

'complex128'

许多一元操作符，例如求和，在Numpy中以ndarry类的方法实现

In [42]:
a = np.random.random((2, 3))
a

array([[0.27004051, 0.40530259, 0.60362768],
       [0.58411473, 0.70044172, 0.6828331 ]])

In [43]:
a.sum()

3.246360330518467

In [44]:
a.min()

0.27004051051966704

In [45]:
a.max()

0.7004417163791943

这些操作符默认对所有的数组元素操作如同一个数字列表一样，但是也可以指定axis参数来针对数组的axis进行操作

In [46]:
b = np.arange(12).reshape(3,4)
b

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [47]:
b.sum(axis = 0) # 每一列

array([12, 15, 18, 21])

In [48]:
b.min(axis = 1) # 每一行

array([0, 4, 8])

In [49]:
b.cumsum(axis = 1) # 沿着每一行累计求和

array([[ 0,  1,  3,  6],
       [ 4,  9, 15, 22],
       [ 8, 17, 27, 38]], dtype=int32)

# 普遍函数(ufunc)

sin, cos, exp等常用数学函数在numpy中叫做universal functions，这些都是对元素操作的

In [50]:
B = np.arange(3)
B

array([0, 1, 2])

In [51]:
np.exp(B)

array([1.        , 2.71828183, 7.3890561 ])

In [52]:
np.sqrt(B)

array([0.        , 1.        , 1.41421356])

In [53]:
C = np.array([2., -1., 4.])

In [54]:
np.add(B, C)

array([2., 0., 6.])

# 索引，切片和迭代

一维数据可以被索引、切片和迭代，和List很像

In [55]:
a = np.arange(10) ** 3
a

array([  0,   1,   8,  27,  64, 125, 216, 343, 512, 729], dtype=int32)

In [56]:
a[2]

8

In [57]:
a[2: 5]

array([ 8, 27, 64], dtype=int32)

In [58]:
a[: 6: 2] = -1000 # 等价于 a[0: 6: 2] = -1000; 从开始到位置6，步长为2设置为-1000

In [59]:
a

array([-1000,     1, -1000,    27, -1000,   125,   216,   343,   512,
         729], dtype=int32)

In [60]:
a[: : -1] # 反转a

array([  729,   512,   343,   216,   125, -1000,    27, -1000,     1,
       -1000], dtype=int32)

In [61]:
for i in a:
    print(i ** 2)

1000000
1
1000000
729
1000000
15625
46656
117649
262144
531441


多维数组可以有每个轴的一个索引，切片使用逗号分隔的元组

In [62]:
def f(x, y):
    return 10 * x + y

In [63]:
b = np.fromfunction(f, (5, 4), dtype = int)
b

array([[ 0,  1,  2,  3],
       [10, 11, 12, 13],
       [20, 21, 22, 23],
       [30, 31, 32, 33],
       [40, 41, 42, 43]])

In [64]:
b[2, 3]

23

In [65]:
b[0:5, 1] # b的第二列的每一行

array([ 1, 11, 21, 31, 41])

In [66]:
b[ : , 1]

array([ 1, 11, 21, 31, 41])

In [67]:
b[1: 3, :] # 第二和第三行的每列元素

array([[10, 11, 12, 13],
       [20, 21, 22, 23]])

当提供的索引少于轴的个数，缺失的索引会被补充

In [68]:
b[-1] # 等价于 b[-1, :]

array([40, 41, 42, 43])

方括号里的 ... 被视为代表若干个分号，即当作补充索引，是一种简便的写法  
* x[1, 2, ...] 等价于 x[1, 2, :, :, :],
* x[..., 3] 等价于 x[:, :, :, 3]

In [69]:
c = np.array( [[[0, 1, 2],
             [10, 12, 13]],
              [[100, 101, 102],
               [110, 112, 113]]])
c.shape

(2, 2, 3)

In [70]:
c[1, ...]

array([[100, 101, 102],
       [110, 112, 113]])

In [71]:
c[..., 2]

array([[  2,  13],
       [102, 113]])

多维数组的迭代是针对第一个轴的

In [72]:
for row in b:
    print(row)

[0 1 2 3]
[10 11 12 13]
[20 21 22 23]
[30 31 32 33]
[40 41 42 43]


如果你想对数组的每个元素进行操作，可以使用flat属性，flat属性是一个针对数组所有元素的迭代器

In [73]:
for element in b.flat:
    print(element)

0
1
2
3
10
11
12
13
20
21
22
23
30
31
32
33
40
41
42
43


# 数组形状操纵

数组的形状就是每个轴的元素个数

In [74]:
a = np.floor(10 * np.random.random((3, 4)))
a

array([[3., 5., 5., 0.],
       [7., 6., 8., 4.],
       [0., 6., 3., 2.]])

In [75]:
a.shape

(3, 4)

数组的形状可以通过不同的命令更改，以下三种命令都返回一个修改过的数组，但是不会更改原数组：

In [76]:
a.ravel() # 返回平整化(flattened)的数组

array([3., 5., 5., 0., 7., 6., 8., 4., 0., 6., 3., 2.])

In [77]:
a.reshape(6, 2)

array([[3., 5.],
       [5., 0.],
       [7., 6.],
       [8., 4.],
       [0., 6.],
       [3., 2.]])

In [78]:
a.T # 数组转置

array([[3., 7., 0.],
       [5., 6., 6.],
       [5., 8., 3.],
       [0., 4., 2.]])

In [79]:
a.T.shape

(4, 3)

In [80]:
a.shape

(3, 4)

reshape方法返回新的修改后的数组，而ndarray.resize方法直接修改数组本身

In [81]:
a

array([[3., 5., 5., 0.],
       [7., 6., 8., 4.],
       [0., 6., 3., 2.]])

In [82]:
a.resize((2, 6))

In [83]:
a

array([[3., 5., 5., 0., 7., 6.],
       [8., 4., 0., 6., 3., 2.]])

如果在改变形状的操作中维度为-1，那么其他的维度会被自动计算出

In [84]:
a.reshape(3, -1)

array([[3., 5., 5., 0.],
       [7., 6., 8., 4.],
       [0., 6., 3., 2.]])

# 堆积不同数组

几个数组可以通过不同轴进行堆积

In [85]:
a = np.floor(10 * np.random.random((2, 2)))
a

array([[0., 3.],
       [6., 5.]])

In [86]:
b = np.floor(10 * np.random.random((2, 2)))
b

array([[9., 5.],
       [7., 0.]])

In [87]:
np.vstack((a, b))

array([[0., 3.],
       [6., 5.],
       [9., 5.],
       [7., 0.]])

In [88]:
np.hstack((a, b))

array([[0., 3., 9., 5.],
       [6., 5., 7., 0.]])

方法column_stack可以将一维数组加到二维数组中去（作为列）

In [89]:
from numpy import newaxis

In [90]:
np.column_stack((a, b)) # a,b都是二维数组

array([[0., 3., 9., 5.],
       [6., 5., 7., 0.]])

In [91]:
a = np.array([4., 2.])
b = np.array([3., 8.])
np.column_stack((a, b)) # 返回二维数组

array([[4., 3.],
       [2., 8.]])

In [92]:
np.hstack((a, b)) # 这个结果是不同的

array([4., 2., 3., 8.])

In [93]:
a[:, newaxis] # 这样可以创建一个二维列向量

array([[4.],
       [2.]])

In [94]:
np.column_stack((a[:, newaxis], b[:, newaxis]))

array([[4., 3.],
       [2., 8.]])

In [95]:
np.hstack((a[:, newaxis], b[:, newaxis])) # 这样结果就一样了

array([[4., 3.],
       [2., 8.]])

同样地，row_stack方法相当于vstack。总之，对于超过二维的数组来说，hstack沿着第二个轴进行堆积，vstack沿着第一个轴进行堆积

r_和c_在通过沿着一个轴堆积创建数组时非常有用，而且允许使用:

In [96]:
np.r_[1: 4, 0, 4]

array([1, 2, 3, 0, 4])

In [97]:
d = np.array([1, 3, 4, 6])
e = np.arange(4)
np.c_[e.T, d.T]

array([[0, 1],
       [1, 3],
       [2, 4],
       [3, 6]])

# 将一个数组分隔成几个小数组

使用hsplit将一个数组沿着水平轴分隔

In [98]:
a = np.floor(10 * np.random.random((2, 12)))
a

array([[7., 8., 1., 8., 6., 7., 5., 0., 8., 6., 2., 4.],
       [0., 2., 1., 8., 7., 9., 0., 4., 1., 6., 7., 3.]])

In [99]:
np.hsplit(a, 3)

[array([[7., 8., 1., 8.],
        [0., 2., 1., 8.]]), array([[6., 7., 5., 0.],
        [7., 9., 0., 4.]]), array([[8., 6., 2., 4.],
        [1., 6., 7., 3.]])]

# 复制和视图

当操作数组时，有时候数据被复制进一个新数组有时候不是，以下列举三种情形：

1. 啥也不复制  
简单的赋值操作不会复制数组对象和它的数组

In [100]:
a = np.arange(12)
b = a # 没有新的对象被创建
b is a # a 和 b是同一个ndarray对象的两个名字

True

In [101]:
b.shape = 3, 4
a.shape

(3, 4)

Python以引用的方式传递不可变对象，所以调用函数不会创建副本

In [102]:
def f(x):
    print(id(x))

In [103]:
id(a)

2330468367936

In [104]:
f(a)

2330468367936


# 视图和浅复制

不同的数组对象可以分享相同的数据，view方法创建一个新的相同数据的数组对象

In [105]:
c = a.view()
c is a

False

In [106]:
c.base is a # c是a拥有的数据的一个视图

True

In [107]:
c.flags.owndata

False

In [108]:
c.shape = 2, 6 # a的形状不会改变

In [109]:
a.shape

(3, 4)

In [110]:
c[0, 4] = 1234 # a的数据会改变

In [111]:
a

array([[   0,    1,    2,    3],
       [1234,    5,    6,    7],
       [   8,    9,   10,   11]])

对一个数组切片返回的是该数组的视图

In [112]:
s = a [:, 1:3] 

In [113]:
s[:] = 10 # s[:] 是s的一个视图，注意s = 10 和 s[:] = 10的区别

In [114]:
a

array([[   0,   10,   10,    3],
       [1234,   10,   10,    7],
       [   8,   10,   10,   11]])

In [115]:
s

array([[10, 10],
       [10, 10],
       [10, 10]])

# 深复制

copy方法可以实现对数组及其数据的完全复制

In [116]:
d = a.copy() # 一个有着新数据的新数组对象被创建了

In [117]:
d is a

False

In [118]:
d.base is a # d不和a分享任何东西

False

In [119]:
d[0, 0] = 9999
a

array([[   0,   10,   10,    3],
       [1234,   10,   10,    7],
       [   8,   10,   10,   11]])

# 一些tricks 

原文接下来的内容其实超过了get start的要求，但是其中有一些经常用的tricks我也顺便记录下来

1. 通过布尔数组来索引  
通过布尔数组我们可以显式地选择数组中我们想要地元素，直接看例子

In [120]:
a = np.arange(12).reshape((3, 4))
b = a > 4
b # b是一个和a形状一样地布尔数组

array([[False, False, False, False],
       [False,  True,  True,  True],
       [ True,  True,  True,  True]])

In [121]:
a[b] # 得到的是一维数组

array([ 5,  6,  7,  8,  9, 10, 11])

In [122]:
a

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

这个用法在复制操作中很有用：

In [123]:
a[b] = 0 # a中所有大于4的元素被设为0
a

array([[0, 1, 2, 3],
       [4, 0, 0, 0],
       [0, 0, 0, 0]])

另一种常用的通过布尔值进行索引的方式：对于数组的每个维度我们可以用一个一维布尔数组来选择切片

In [124]:
a = np.arange(12).reshape((3, 4))
b1 = np.array([False, True, True]) # 第一个维度
b2 = np.array([True, False, True, False]) # 第二个维度

In [125]:
a[b1, :] # 选择第一个维度，即行

array([[ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [126]:
a[b1] # 一样的结果，会自动补全索引

array([[ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [127]:
a[:, b2] # 选择第二个维度，即列

array([[ 0,  2],
       [ 4,  6],
       [ 8, 10]])

In [128]:
a[b1, b2]

array([ 4, 10])

2. 自动改变形状(reshape)  
为了改变一个数组的维度，我们可以省略其中一个维度长度，这个会被自动推导出来

In [129]:
a = np.arange(30)
a.shape = (2, -1, 3) # -1 指的是不指定长度，由系统推导
a.shape

(2, 5, 3)

In [130]:
a

array([[[ 0,  1,  2],
        [ 3,  4,  5],
        [ 6,  7,  8],
        [ 9, 10, 11],
        [12, 13, 14]],

       [[15, 16, 17],
        [18, 19, 20],
        [21, 22, 23],
        [24, 25, 26],
        [27, 28, 29]]])

3. 向量堆积  
从相同形状的行向量的列表中构建一个二维数组

In [131]:
x = np.arange(0, 10, 2) # x = ([0, 2, 4, 6, 8])
y = np.arange(5) # y = ([0, 1, 2, 3, 4])
m = np.vstack([x, y]) # m = ([[0, 2, 3, 6, 8],
                      #       [0, 1, 2, 3, 4]])
xy = np.hstack([x, y]) # xy = ([0, 2, 4, 6, 8, 0, 1, 2, 3, 4])