### numpy基础

#### 1. 创建numpy数组/矩阵

In [1]:
import numpy as np

In [2]:
np.__version__

'1.18.1'

In [4]:
# 创建 
np_arr = np.array([x for x in range(10)])
print(np_arr)
np_arr[0] = 100 # 与list基本类似
print(np_arr) 

[0 1 2 3 4 5 6 7 8 9]
[100   1   2   3   4   5   6   7   8   9]


In [5]:
np_arr.dtype # 查看类型

dtype('int64')

In [15]:
# 其他创建方法

# 创建都是0的数组, 默认为float
np.zeros(10) 
np.zeros(10, dtype='int')

np.zeros((3,5)) # 三行五列
# 或者
np.zeros(shape=(3,5))

# 创建全1矩阵
np.ones((3,5))

# 其他数字矩阵
np.full(shape = (2,4), fill_value=3)



array([[3, 3, 3, 3],
       [3, 3, 3, 3]])

In [19]:
# arange类似于range，但是可以支持浮点型
[i for i in np.arange(1, 2, 0.1)]

# 类似的参数：linespace
np.linspace(0,20,11) # 注意包括1与20， 第三个数代表生成的数字个数，而不是步长

array([ 0.,  2.,  4.,  6.,  8., 10., 12., 14., 16., 18., 20.])

In [21]:
# 生成随机数模块 np.random

# 生成随机整数
np.random.randint(0, 10,10) # 随机生成从0到10的一维10个随机数，这是左开右闭的
np.random.randint(0, 10, size = (3,5))

array([[7, 5, 7, 5, 4],
       [6, 3, 6, 8, 5],
       [2, 6, 8, 6, 6]])

In [None]:
# 随机种子
np.random.seed(1)

In [25]:
# 生成符合某种分布的随机数
np.random.normal(10,100)  # 正态分布，指定均值和方差
np.random.normal(0,1,size = (3,4)) 

array([[-1.01521884, -0.92880061,  0.73632182,  0.21620208],
       [ 0.61027844,  0.11515691, -0.92897622,  0.68065186],
       [ 0.48687961,  0.59268377, -0.2466373 ,  0.01645957]])

#### 2. numpy数据/矩阵的基本操作

In [49]:
X = np.arange(15).reshape(3,5)
X

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [50]:
X.ndim # 二维数组 （输出几维）
X.shape # 三行五列
X.size 

15

In [51]:
# 数据访问

X[0][0] # 访问一行一列，不过不建议这样写

X[(2,2)] # 或者
X[2,2] # 这两种方法会更方便


12

In [52]:
# 切片
X[:5] 
X[::2] # 步长为2 
X[::-1] # reversed

array([[10, 11, 12, 13, 14],
       [ 5,  6,  7,  8,  9],
       [ 0,  1,  2,  3,  4]])

In [53]:
X[:2, :3] # 前两行前三列

X[:2, ::2] # 前两行，列是隔一行取一列

array([[0, 2, 4],
       [5, 7, 9]])

In [54]:
X[0] # 第一行， 或者
X[0, :]

X[:, 0] # 第一列

array([ 0,  5, 10])

In [55]:
# 子矩阵，使用引用的方法获得的，修改子矩阵的元素，原矩阵是会变化的；而原矩阵改变，子矩阵也会变化，一定要注意。

subX = X[:2, :3]
subX

array([[0, 1, 2],
       [5, 6, 7]])

In [56]:
subX[0, 0] = 100
X

array([[100,   1,   2,   3,   4],
       [  5,   6,   7,   8,   9],
       [ 10,  11,  12,  13,  14]])

In [57]:
X[0, 0] = 0
subX

array([[0, 1, 2],
       [5, 6, 7]])

In [58]:
# 如果想要构建出不受原矩阵变化影响的子矩阵，可以使用copy

subX = X[:2, :3].copy()
subX[0, 0] = 100
X

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [60]:
# reshape

X.reshape(5,3)

# 或者
X.reshape(5, -1) # 提供行的数目， 列由计算机确定

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14]])

#### 3. 合并

In [61]:
x = np.array([1,2,3])
y = np.array([3,2,1])

In [63]:
np.concatenate([x, y])

array([1, 2, 3, 3, 2, 1])

In [64]:
A = np.array([[1,2,3], 
              [4,5,6]])
A

array([[1, 2, 3],
       [4, 5, 6]])

In [66]:
np.concatenate([A, A]) # 在行下面拼接

array([[1, 2, 3],
       [4, 5, 6],
       [1, 2, 3],
       [4, 5, 6]])

In [67]:
# 列拼接
np.concatenate([A, A], axis = 1) # axis默认为0

array([[1, 2, 3, 1, 2, 3],
       [4, 5, 6, 4, 5, 6]])

In [72]:
np.vstack([A, np.array([6,6,6])])
np.hstack([A, np.full((2,2), 100)])

array([[  1,   2,   3, 100, 100],
       [  4,   5,   6, 100, 100]])

#### 4. 分割

In [80]:
np.split(np.arange(10), [2,6]) # 向量

np.split(A, [1]) # 矩阵, 默认分割行
np.split(A, [2], axis=1) # 按列分割

[array([[1, 2],
        [4, 5]]), array([[3],
        [6]])]

In [84]:
np.vsplit(A, [1]) # 分割出上下
np.hsplit(A, [2]) # 分割出左右

np.tile(A, [2]) # 重复数组

array([[1, 2, 3, 1, 2, 3],
       [4, 5, 6, 4, 5, 6]])

#### 5. 矩阵运算

In [87]:
# Universal functions
# 乘法

a = np.arange(10)
a * 2

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [89]:
X = np.arange(15).reshape(3,5)
X

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [103]:
# 加减法
X + 1 

# 除法
X/2

# 整除
X//2

# 求余
X % 2 

# 乘方

X ** 3
np.power(X, 3)

array([[   0,    1,    8,   27,   64],
       [ 125,  216,  343,  512,  729],
       [1000, 1331, 1728, 2197, 2744]])

In [106]:
A = np.arange(4).reshape(2,2)
B = np.full((2,2), 10)
print(A)
print(B)

[[0 1]
 [2 3]]
[[10 10]
 [10 10]]


In [107]:
A + B
A - B

array([[-10,  -9],
       [ -8,  -7]])

In [108]:
# 对应元素的乘法
A * B

array([[ 0, 10],
       [20, 30]])

In [109]:
# 矩阵乘法
A.dot(B)

array([[10, 10],
       [50, 50]])

In [111]:
# 矩阵的逆
invA = np.linalg.inv(A)
invA

array([[-1.5,  0.5],
       [ 1. ,  0. ]])

In [113]:
A.dot(invA)
invA.dot(A)

array([[1., 0.],
       [0., 1.]])

In [116]:
# 伪逆矩阵 (只有方阵才有逆矩阵)
X = np.arange(16).reshape(2,8)
X

array([[ 0,  1,  2,  3,  4,  5,  6,  7],
       [ 8,  9, 10, 11, 12, 13, 14, 15]])

In [118]:
pinvX = np.linalg.pinv(X)
pinvX

array([[-1.35416667e-01,  5.20833333e-02],
       [-1.01190476e-01,  4.16666667e-02],
       [-6.69642857e-02,  3.12500000e-02],
       [-3.27380952e-02,  2.08333333e-02],
       [ 1.48809524e-03,  1.04166667e-02],
       [ 3.57142857e-02, -7.30583920e-18],
       [ 6.99404762e-02, -1.04166667e-02],
       [ 1.04166667e-01, -2.08333333e-02]])

In [120]:
X.dot(pinvX)

array([[ 1.00000000e+00, -2.77555756e-16],
       [ 1.69309011e-15,  1.00000000e+00]])

####  6. 聚合运算

In [122]:
# 原生的sum与np.sum速度不同，np.sum更快

big = np.arange(1000000)
%timeit sum(big)
%timeit np.sum(big)

235 ms ± 20.4 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
759 µs ± 38.5 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [124]:
np.min(big)

# 或者
big.min()

0

In [125]:
# 矩阵的聚合运算

X = np.arange(16).reshape(4,4)
X

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [128]:
np.sum(X) # 所有数字的和

# 计算每一行列的和
np.sum(X, axis=0)

# 计算每一行的和
np.sum(X, axis = 1)

array([ 6, 22, 38, 54])

In [129]:
# 乘积

np.prod(X + 1)

20922789888000

In [131]:
# 中位数与均值
np.median(X)
np.mean(X)

7.5

In [132]:
# 求百分位数

np.percentile(big, q = 50) # 即中位数


499999.5

In [133]:
np.var(big) # 方差
np.std(big) # 标准差

288675.1345946685

#### 7. 索引

In [134]:
# 最小值的索引
np.argmin(big)

0

In [136]:
x = np.arange(16)
x

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15])

In [138]:
# 乱序处理

np.random.shuffle(x)
x

array([12,  2,  8,  1,  0,  5,  4,  9, 11,  3,  6, 14, 15,  7, 13, 10])

In [139]:
# 排序
np.sort(x)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15])

In [140]:
# 但是x并没有变化
x

array([12,  2,  8,  1,  0,  5,  4,  9, 11,  3,  6, 14, 15,  7, 13, 10])

In [141]:
# 如果对x直接修改
x.sort()
x

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15])

In [144]:
# 矩阵
X = np.random.randint(10, size = (4,4))
X

array([[4, 7, 3, 4],
       [4, 7, 2, 6],
       [2, 0, 4, 3],
       [5, 5, 0, 0]])

In [145]:
# 对每一行都排序，默认axis = 1
np.sort(X)

array([[3, 4, 4, 7],
       [2, 4, 6, 7],
       [0, 2, 3, 4],
       [0, 0, 5, 5]])

In [146]:
np.argsort(X) # 返回排序的索引

array([[2, 0, 3, 1],
       [2, 0, 3, 1],
       [1, 0, 3, 2],
       [2, 3, 0, 1]])

In [150]:
# 快速排序
# 以3位分割点，3前面的都比3要小，但是不一定按照大小排序

np.random.shuffle(x)
np.partition(x, 3)

array([ 1,  0,  2,  3,  4,  5, 15, 12,  7,  8, 13,  9, 10, 14, 11,  6])

#### 8. Fancy indexing

In [151]:
x = np.arange(16)
x

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15])

In [152]:
ind = [3,5,8]
x[ind]

array([3, 5, 8])

In [154]:
ind = np.array([[0,1], [1,2]])
x[ind]

array([[0, 1],
       [1, 2]])

In [156]:
# 矩阵中使用

X = x.reshape(4,4)
X

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [157]:
row = np.array([0,1,2])
col = np.array([1,2,3])

X[row, col] # 分别对应原来的坐标中的0行一列等的三个数字

array([ 1,  6, 11])

In [158]:
# 或者提供布尔数组
col = [True, False, True, False]
X[:2, col]

array([[0, 2],
       [4, 6]])

In [170]:
# 比较运算
x < 3
x[x<3] # 取值
sum(x<3) # 求个数
np.count_nonzero(x<3) # 同样也是求个数
np.any(x==0) # 判断有没有0
np.all(x>=0) # 判断是否所有元素都是>=0

True

In [175]:
# 矩阵

# 每一行有多少偶数
np.sum(X % 2, axis=1)

np.sum( (X>3) & (X<10))
np.sum( (X>3) | (X<10))

16

In [177]:
# 非
np.sum(~(X==3))

15