In [1]:
import numpy as np
import matplotlib.pyplot as plt
import sys

## I. numpy array的六类基本操作

### 第1类操作：创建
1. 有3种常用的创建方式：\
   (1) 直接用sequence \
   (2) 指定shape和初始值 \
   (3) 用arange或者linspace设置起始值和分割数量
2. 创建时可以直接指定数据类型 \
   <font color=orange>如果不指定，整数默认是int64，浮点数默认是float64</font>

#### 创建例子
1. 直接用sequence创建
 - <font color=orange>array transforms sequences of sequences into two-dimensional arrays, sequences of sequences of sequences into three-dimensional arrays, and so on.</font>

In [2]:
a = np.array([1, 2, 3, 4])
# a = np.array(1, 2, 3, 4)    # WRONG 要用sequence

In [3]:
b = np.array([(1.5, 2, 3), (4, 5, 6)])
b

array([[1.5, 2. , 3. ],
       [4. , 5. , 6. ]])

In [4]:
c = np.array([[1, 2], [3, 4]], dtype=np.float32)
c.dtype, b.dtype, a.dtype

(dtype('float32'), dtype('float64'), dtype('int64'))

2. 指定shape来初始化矩阵 \
   (1) np.zeros, np.ones, np.empty \
   (2) np.zeros_like, np.ones_like, np.empty_like \
   (3) 默认数据类型是float64，可以直接指定类型

In [5]:
x, y = np.zeros((2, 3), dtype=np.int16), np.empty((2, 3))
x, y

(array([[0, 0, 0],
        [0, 0, 0]], dtype=int16),
 array([[1.5, 2. , 3. ],
        [4. , 5. , 6. ]]))

In [6]:
z = np.ones_like(y, dtype=np.int16)
z

array([[1, 1, 1],
       [1, 1, 1]], dtype=int16)

3. 设置起始值和分割数量 \
   (1) arange(start, stop, step)，生成的数据范围是[start, stop) \
   (2) linspace(start, stop, number_of_point)，生成的数据范围是[start, stop]
    - <font color=orange>arange能提前知道前后两个point之间的step size，不知道生成的point数量。linspace直接指定生成的point数量</font>

In [7]:
p, q = np.arange(0, 20, 5), np.arange(20, 0, -5) # reverse的时候，step size要设为负数
p, q

(array([ 0,  5, 10, 15]), array([20, 15, 10,  5]))

In [8]:
s, t = np.linspace(0, 2, 9), np.linspace(0, 2, 8, dtype=np.float16)
s, t

(array([0.  , 0.25, 0.5 , 0.75, 1.  , 1.25, 1.5 , 1.75, 2.  ]),
 array([0.    , 0.2856, 0.5713, 0.857 , 1.143 , 1.429 , 1.714 , 2.    ],
       dtype=float16))

In [9]:
# linspace常用于函数自变量取值范围分割
x = np.linspace(0, 2*np.pi, 100)
f = np.sin(s)

4. 打印numpy array

In [10]:
# 当array太大的时候，默认的print会省略一部分内容。如果想打印全部，可以用np.set_printoptions()
np.set_printoptions(threshold=sys.maxsize)
print(np.arange(50).reshape(10, 5))

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]
 [20 21 22 23 24]
 [25 26 27 28 29]
 [30 31 32 33 34]
 [35 36 37 38 39]
 [40 41 42 43 44]
 [45 46 47 48 49]]


In [11]:
# 通常还是设置为只打印部分
np.set_printoptions(threshold=10)
print(np.arange(50).reshape(10, 5))

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 ...
 [35 36 37 38 39]
 [40 41 42 43 44]
 [45 46 47 48 49]]


### 第2类操作：属性
1. 属性不是函数，是实例的变量
2. 主要的属性有：\
   (1) A.ndim，A.dtype，A.shape \
   (2) A.size是number of elements, A.itemsize是byte size of one elements \
   (3) A.data是数据存储地址

In [12]:
a = np.array([[1., 0., 0.],[0., 1., 2.]])
print(a.ndim, a.shape, a.size)
print(a.dtype, a.itemsize)
print(a.data)

2 (2, 3) 6
float64 8
<memory at 0x770cf1ce3370>


### 第3类操作：索引 indexing

#### 普通索引
1. 每个dim一个index，反向索引时index用负数
2. 多维索引用‘,‘隔开
3. ‘...’用于表示缺省值是连续多个冒号':'，x[1, 2, ...] 相当于x[1, 2, :, :, :],x[4, ..., 5, :] 相当于x[4, :, :, 5, :]
4. 直接用index取单个元素，提出来的是该元素本身的数据类型；如果用start:stop:step，即使实际上提取的也是一个元素，但是得到的是array

In [137]:
a = np.arange(10)**3
a

array([  0,   1,   8,  27,  64, 125, 216, 343, 512, 729])

In [138]:
a[:6:2] = 1000
a

array([1000,    1, 1000,   27, 1000,  125,  216,  343,  512,  729])

In [143]:
a[6], a[6:7] # 注意这种结果差异

(216, array([216]))

In [15]:
a[::-1]  # reversed a

array([ 729,  512,  343,  216,  125, 1000,   27, 1000,    1, 1000])

In [16]:
b = np.array([[ 0,  1,  2,  3],
       [10, 11, 12, 13],
       [20, 21, 22, 23],
       [30, 31, 32, 33],
       [40, 41, 42, 43]])

In [17]:
b[2, 3], b[:5, 1]

(23, array([ 1, 11, 21, 31, 41]))

In [18]:
b[-1]   # the last row，相当于b[-1, :]

array([40, 41, 42, 43])

In [135]:
c = np.array([[[  0,  1,  2], 
               [ 10, 12, 13]],
              [[100, 101, 102],
               [110, 112, 113]]])
c.shape

(2, 2, 3)

In [20]:
c[1, ...]  # same as c[1, :, :] or c[1]

array([[100, 101, 102],
       [110, 112, 113]])

In [21]:
c[..., 2]  # same as c[:, :, 2]

array([[  2,  13],
       [102, 113]])

#### fancy indexing
1. 用arrays of indices来做indexing
 - 如果index是array，即使它有多维，也被视为单一index，每个元素都检索原始array的dim1
 - 如果index是两个独立的index，那么分别作为row和col的index，此时两个index的shape要相同，如果不同，必须符合broadcast规则。他们的元素pair提取原始array对应$(row_i, col_i)$位置的元素
2. 常见用途
 - 用indexing来改变特定维度的排序
 - 用mask=argmax, argmin等方式定位特征元素的位置，然后用index[mask]提取特征元素
 - 用boolean函数做mask，然后用index[mask]提取特征元素

In [179]:
# 例1：一维索引和一维原始array
a1 = np.arange(12)*2
ind = np.array([1, 1, 3, 8, 5]) 
a1[ind] 

array([ 2,  2,  6, 16, 10])

In [175]:
# 例2：利用索引功能改变位置
a = np.arange(6).reshape(2, 3)
a

array([[0, 1, 2],
       [3, 4, 5]])

In [176]:
ind_move_dim1 = [1, 0] # 改变第一个维度
a[ind_move_dim1]

array([[3, 4, 5],
       [0, 1, 2]])

In [177]:
a[:,[2, 1, 0]]       # 改变第二个维度

array([[2, 1, 0],
       [5, 4, 3]])

In [180]:
# 例3：索引和mask配合
mask = np.array([[3, 4], [9, 7]])
a1[mask]

array([[ 6,  8],
       [18, 14]])

In [155]:
# 例4：不同形态索引的index效果不同
palette = np.array([[0, 0, 0],    
                    [254, 0, 0],  
                    [0, 253, 0],  
                    [0, 0, 252],  
                    [251, 205, 225]])
palette.shape

(5, 3)

In [156]:
# (1)单一index
# 如果一个index是array，即使它有多维，也被视为单一index，每个元素都检索原始array的dim1
ind = np.array([[0, 1, 2, 0],   # 如果索引是单个array，则索引中每个元素对应提取原始array的第一个dim
                  [0, 3, 4, 0]])
x = palette[ind]
x, ind.shape, x.shape

(array([[[  0,   0,   0],
         [254,   0,   0],
         [  0, 253,   0],
         [  0,   0,   0]],
 
        [[  0,   0,   0],
         [  0,   0, 252],
         [251, 205, 225],
         [  0,   0,   0]]]),
 (2, 4),
 (2, 4, 3))

In [182]:
# (2)两个index，一维
row_ind = [0, 3, 4, 0]     # 如果索引index是两个一维array，则他们的元素分别作为dim1和dim2的index
col_ind = [0, 1, 2, 0]     # 提取出来的结果是一维array
y = palette[row_ind, col_ind]
y

array([  0,   0, 225,   0])

In [191]:
ind_2D = [row_ind, col_ind] # 如果把他们合并成一个list，就会和index是单一array一样，提取原始array的dim1
palette[ind_2D]

array([[[  0,   0,   0],
        [  0,   0, 252],
        [251, 205, 225],
        [  0,   0,   0]],

       [[  0,   0,   0],
        [254,   0,   0],
        [  0, 253,   0],
        [  0,   0,   0]]])

In [192]:
ind_2D_tuple = (row_ind, col_ind) # 但如果把他们合并成一个tuple, 此时和两个index效果一致
print(ind_2D_tuple)
print(palette[ind_2D_tuple])

([0, 3, 4, 0], [0, 1, 2, 0])
[  0   0 225   0]


In [149]:
# (3)两个index，二维
row_ind = np.array([0, 1, 2])
col_ind = np.array([2, 1, 0])
row_ind_2D = row_ind[:,np.newaxis] # 相当于row_ind.reshape(3, 1)
col_ind_2D = col_ind[np.newaxis, :] # 相当于col_ind.reshape(1, 3)
row_ind_2D, col_ind_2D

(array([[0],
        [1],
        [2]]),
 array([[2, 1, 0]]))

In [189]:
# 如果两个index分别是多维矩阵，当他们形状不同时，用broadcast规则将他们扩展成相同的形状
# 扩展完后，提取原array元素的方式与index形状相同时一致，见下例
palette[row_ind_2D, col_ind_2D] 

array([[  0,   0,   0],
       [  0,   0, 254],
       [  0, 253,   0]])

In [153]:
# 如果两个index分别是多维矩阵，如果他们shape相同，那么他们最后两个维度分别是row和col的index
row = row_ind_2D[:, (0,0,0)]    
col = col_ind_2D[[0, 0, 0], :]  
row, col

(array([[0, 0, 0],
        [1, 1, 1],
        [2, 2, 2]]),
 array([[2, 1, 0],
        [2, 1, 0],
        [2, 1, 0]]))

In [116]:
palette[row, col] 

array([[  0,   0,   0],
       [  0,   0, 254],
       [  0, 253,   0]])

In [199]:
# 例5：配合argmax得到的特征mask提取元素
time = np.arange(5)*2 + 12# 从12点到20点举行了5场比赛
data = np.sin(np.arange(20)).reshape(5, 4)**2  # 5个时点上4个人的成绩
time, data

(array([12, 14, 16, 18, 20]),
 array([[0.        , 0.70807342, 0.82682181, 0.01991486],
        [0.57275002, 0.91953576, 0.07807302, 0.43163139],
        [0.97882974, 0.16984165, 0.29595897, 0.99998041],
        [0.2879105 , 0.17654034, 0.98130293, 0.42287428],
        [0.08288832, 0.92428514, 0.56398184, 0.02246318]]))

In [195]:
ind = data.argmax(axis=0) # 每个人最好的成绩发生在第几场
ind

array([2, 4, 3, 2])

In [201]:
best_time = time[ind]    # 查出这些场次对应的具体时间
best_time

array([16, 20, 18, 16])

### 第4类操作：切片 slicing
1. 每个维度都用一组start:stop:step, 各个维度之间用','隔开，反向时step取负数
2. slice是引用而非复制，改变slice中的value会同时改变原array中对应位置的值。
3. 如果slice得到结果之后原array不需要使用，最好用copy()。这样可以释放原array占用的空间

In [27]:
a = np.arange(int(1e8))
b = a[:100].copy()
del a  # the memory of ``a`` can be released.

### 第5类操作：变形 reshaping

1. 用A.reshape(dim1, dim2, ..., dimN)
   - reshape前后的size要一样，二维条件下size = row * column
   - reshape得到的新array是新建的array，原array形状不变
   - 一维numpy array的shape是(n,)，在broadcast规则中，会被扩展为(1, n)。但它不同于二维shape取(1, n)的场景。

In [28]:
a = np.arange(6)
b = np.arange(6).reshape(1, -1)
print(a, b)
print(a.shape, b.shape)

[0 1 2 3 4 5] [[0 1 2 3 4 5]]
(6,) (1, 6)


In [29]:
b.reshape(2, 3)
b

array([[0, 1, 2, 3, 4, 5]])

2. A.resize(dim1, dim2, ..., dimN)直接改变原array的形状

In [30]:
b.resize(2, 3)
b

array([[0, 1, 2],
       [3, 4, 5]])

3. A.ravel()会将矩阵flattened

In [31]:
b.ravel()

array([0, 1, 2, 3, 4, 5])

4. 让矩阵增加一个维度，但没有新增元素时，用None或者它的alias：np.newaxis

In [120]:
np.newaxis is None

True

In [123]:
x = np.arange(3)
x.shape, x

((3,), array([0, 1, 2]))

In [133]:
x[np.newaxis, :]

array([[0, 1, 2]])

In [127]:
x[:, np.newaxis, None] # None就是np.newaxis

array([[[0]],

       [[1]],

       [[2]]])

### 第6类操作：合并分割: joining and splitting

#### stacking
 - np.vstack(): stacking发生在第一个维度上(first axes)
 - np.hstack(): stacking发生在第二个维度上(second axes)

In [32]:
a = np.array([4., 2.])
b = np.array([3., 8.])
np.vstack((a, b))

array([[4., 2.],
       [3., 8.]])

In [33]:
np.hstack((a, b))

array([4., 2., 3., 8.])

In [34]:
c = np.arange(12).reshape(2, 3, 2)
c

array([[[ 0,  1],
        [ 2,  3],
        [ 4,  5]],

       [[ 6,  7],
        [ 8,  9],
        [10, 11]]])

In [35]:
d = np.ones((2, 3, 2))

In [36]:
np.hstack((c, d)).shape, np.vstack((c, d)).shape

((2, 6, 2), (4, 3, 2))

#### concatenate
 - np.concatenate((a, b, ...), axis=0)可以自定义stacking发生的维度

In [37]:
s = np.concatenate((c, d), axis=2)
s.shape, s

((2, 3, 4),
 array([[[ 0.,  1.,  1.,  1.],
         [ 2.,  3.,  1.,  1.],
         [ 4.,  5.,  1.,  1.]],
 
        [[ 6.,  7.,  1.,  1.],
         [ 8.,  9.,  1.,  1.],
         [10., 11.,  1.,  1.]]]))

#### split
 - np.hsplit(array, indices or section): 在axis=1上分割。
 - np.vsplit(array, indices or section):在axis=1上分割。
 - np.split(array, axis=0, indices or section): 对应前面的concatenate，自定义分割的维度
 - 如果第二个参数是1个整数n，分为n份；如果是tuple，那么tuple中的数字就是分割位置
 - <font color=norange>注：他们返回的结果都是list of arrays.</font>

In [38]:
x = np.arange(24).reshape(2, 4, 3)
x

array([[[ 0,  1,  2],
        [ 3,  4,  5],
        [ 6,  7,  8],
        [ 9, 10, 11]],

       [[12, 13, 14],
        [15, 16, 17],
        [18, 19, 20],
        [21, 22, 23]]])

In [39]:
np.hsplit(x, 2)

[array([[[ 0,  1,  2],
         [ 3,  4,  5]],
 
        [[12, 13, 14],
         [15, 16, 17]]]),
 array([[[ 6,  7,  8],
         [ 9, 10, 11]],
 
        [[18, 19, 20],
         [21, 22, 23]]])]

In [40]:
np.hsplit(x, (1, 3))

[array([[[ 0,  1,  2]],
 
        [[12, 13, 14]]]),
 array([[[ 3,  4,  5],
         [ 6,  7,  8]],
 
        [[15, 16, 17],
         [18, 19, 20]]]),
 array([[[ 9, 10, 11]],
 
        [[21, 22, 23]]])]

In [41]:
np.vsplit(x, 2)

[array([[[ 0,  1,  2],
         [ 3,  4,  5],
         [ 6,  7,  8],
         [ 9, 10, 11]]]),
 array([[[12, 13, 14],
         [15, 16, 17],
         [18, 19, 20],
         [21, 22, 23]]])]

## II. 数学运算
numpy中针对ndarray的运算基本都是用universal functions来执行的。这些universal function的特点是：
1. operate element-wise on arrays。比如$A*2$是将A中每个元素都*2
2. 支持broadcasting
3. 支持type casting
- <font color=norange>本质上，ufunc是一般function的一个wrapper，把一般function运算改造成了适用于矩阵的运算。</font>

### II.1 数学运算的基本规则

1. 数学运算符在numpy中基本都已经处理成了universal function。所以一般数学运算在numpy array上都是elementwise的。

In [42]:
# elementwise
a = np.array([20, 30, 40, 50])
a < 35

array([ True,  True, False, False])

In [43]:
b = np.arange(4)
b ** 2

array([0, 1, 4, 9])

In [44]:
a - b

array([20, 29, 38, 47])

2. 正常执行数学expression之后，会生成新的numpy array。但如果用的是+=,-=等operator，那么不会生成新的array，等号左边的变量的变化是in place的。\
   <font color=deeppink>**要注意数据类型变化**：
   - 如果两个operant的dtype不一样，会自动做数据类型变换，规则是upcasting，resulting array的类型是更general or precise的那种
   - 如果是+=,-=等operator，发生的是in place赋值，那么要注意左边operant的数据类型无法自动upcast。</font>

In [45]:
# dtype
b = np.random.randn(6)
a, c = np.ones(6, dtype=np.int16), np.ones(6, dtype=np.int16)
print(a.dtype, b.dtype, c.dtype)
b += a
print(b.dtype)

int16 float64 int16
float64


In [46]:
# c += b # 报错，UFuncTypeError: Cannot cast ufunc 'add' output from dtype('float64') to dtype('int16') 

3. 二元运算的时候，两个operator array的shape要一样。如果不一样，那么要遵守broadcast规则的要求 \
   <font color=norange>**broadcast的两个规则**：
   - 如果两个矩阵的ndims不同，运算的时候自动将它的最左边缺的维度上的size扩展为1，使两个矩阵的ndims相同。比如：一个shape是(n,)的array A与另一个二维array B做运算，会先扩展为(1, n)
   - 两个ndims相同的array做运算，如果它们的shape不同，那么不同的维度上至少其中一个的size必须为1，在size=1的维度上copy，直到两个array的size相同。如果前面例子中array B的shape是(3, n)，那么A会在第一个维度上自我复制，扩展为形状是(3, n)后再跟B做elementwise的运算。</font>

### II.2 常见ufun运算

1. 一般数学运算：+, -, *, /, //, %, **

In [47]:
A = np.array([[2, 0],
              [3, 4]])
print(A // 2)
print(A % 2)

[[1 0]
 [1 2]]
[[0 0]
 [1 0]]


2. 三角运算：sin, cos, tan, arcsin, arccos, arctan, sinh, cosh, tanh ...
3. 比较运算：>, >=, <, <=, ==, !=
4. 位运算和逻辑运算：&(and), |(or), ^(xor)和~(not)
   - 如果operant是int类型，上述operator会执行位运算
   - 如果operant是boolean类型，上述operator会执行逻辑运算。
   - <font color=norange>逻辑运算经常用来做mask</font>

In [48]:
B = np.array([1, 2, 3, 4])
b = np.array([True, False, True, False])
print(~B, ~b)

[-2 -3 -4 -5] [False  True False  True]


In [49]:
c = np.array([9, 12, 3, 4, 5])
mask = (c > 3) & (c < 10)
print(c[mask], c[~mask])

[9 4 5] [12  3]


4. 统计摘要: \
   (1) 返回value：sum, min, max, std, var, mean, median, percentile\
   (2) 返回value index：argmin, argmax\
   (3) any, all：范围boolean scalar\
   (4) prod：返回所有元素相乘的结果scalar

In [50]:
a = np.random.randn(2, 3)
a

array([[ 2.07986062, -1.77728059,  0.48135172],
       [ 0.47497251,  0.46570305, -0.53527223]])

In [51]:
a.sum(), a.max()

(1.1893350931151254, 2.079860623535624)

In [52]:
# 指定axia：规则被指定的dim会被reduce掉
a.sum(axis=0)

array([ 2.55483314, -1.31157754, -0.05392051])

In [53]:
np.any(a>0), np.all(a>0)

(True, False)

In [54]:
b = np.arange(10)
c = np.random.choice(b, size=5, replace=True)
c

array([9, 6, 5, 1, 2])

In [55]:
c.argmax(), c.argmin(), np.percentile(c, 4)

(0, 3, 1.16)

5. 2种规则不同的矩阵inner product \
   (1) matmul, 也就是@ \
   (2) dot
- 在两个二维矩阵求内积的时候他们效果一样，两者的差异是：
  - matmul不能用scalar做乘法。 比如不能用：A @ 2
  - matmul中，Stacks of matrices are broadcast together as if the matrices were elements, respecting the signature (n,k),(k,m)->(n,m)

In [56]:
x = np.ones([2, 4])
y = np.ones([4, 3])
z = x @ y
w = np.dot(x, y)
z==w, z.shape

(array([[ True,  True,  True],
        [ True,  True,  True]]),
 (2, 3))

In [57]:
a = np.ones([6, 5, 2, 4])
b = np.ones([6, 5, 4, 3])
c = a @ b # 在最后两个维度上做(2, 4),(4, 3)的inner product，前面的维度视为stack
c.shape

(6, 5, 2, 3)

In [58]:
d = np.dot(a, b)
d.shape

(6, 5, 2, 6, 5, 3)

5. ufunc提供的一些功能性method \
   (1) reduce：在指定维度上执行ufunc运算，同时将该维度reduce掉 \
   (2) accumulate：在指定维度上执行ufunc运算，该维度上保留运算执行到每个elements时候的中间值 \
   (3) outer：外积运算   

In [59]:
a = np.array([2,3,5])
np.add.reduce(a), np.multiply.reduce(a)

(10, 30)

In [60]:
b = np.array([[2,3,5],
              [4, 6, 10]])
np.add.reduce(b, axis=0), np.multiply.reduce(b, axis=1)

(array([ 6,  9, 15]), array([ 30, 240]))

In [61]:
a = np.array([2,3,5])
np.add.accumulate(a), np.multiply.accumulate(a)

(array([ 2,  5, 10]), array([ 2,  6, 30]))

## III. View和copy

### view
1. 一般赋值不会发生复制
2. ndarray做为参数传递给函数的时候，也不会复制
3. slicing得到的也不是复制
上面三种情况返回的都是原array的View

In [62]:
a = np.array([[ 0,  1,  2,  3],
              [ 4,  5,  6,  7],
              [ 8,  9, 10, 11]])
b = a            # no new object is created
b is a           # a and b are two names for the same ndarray object

True

In [63]:
def f(x):
    print(id(x))

id(a), f(a) # id is a unique identifier of an object 

130897476022800


(130897476022800, None)

### copy
如果要copy的话，直接用A.copy