# NumPy

NumPy 是用于科学计算的包。

本文的内容包括：

1. ndarray
    - 初始化
    - 索引
    - 转置
2. 通用函数
    - 一元ufunc
    - 二元ufunc
    - 用于聚合计算的函数
    - 排序
    - 去重
    - 成员资格
3. 数组文件
4. 线性代数
    - 点乘
    - 求逆
    - qr分解

## 1. ndarray

ndarray 是 NumPy 的 N 维数组对象。ndarray 是一个同构数据多维容器，也就是说，其中所有元素必须是相同类型的。每个数组都有一个 shape（表示各维度大小的元组） 和 dtype（表示数组数据类型的对象）。

In [1]:
import numpy as np

data = np.array([[0, 1, 2],[1, 1, 2]])

In [2]:
print('array:', data)
print('shape:', data.shape)
print('dtype:', data.dtype)
print('dtype:', data.ndim)

array: [[0 1 2]
 [1 1 2]]
shape: (2, 3)
dtype: int64
dtype: 2


### 1.1 初始化

In [3]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [4]:
np.zeros((2,3))

array([[0., 0., 0.],
       [0., 0., 0.]])

In [5]:
np.ones(10)

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

In [6]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [7]:
np.linspace(1, 10, 4)

array([ 1.,  4.,  7., 10.])

In [8]:
np.empty((2,3,1))

array([[[0.],
        [0.],
        [0.]],

       [[0.],
        [0.],
        [0.]]])

In [9]:
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [10]:
arr = np.array([1, 2, 3, 4, 5])
print('dtype of arr:', arr.dtype)
arr1 = arr.astype(np.int32)  # astype
print('dtype of arr1:', arr1.dtype)

dtype of arr: int64
dtype of arr1: int32


### 1.2 索引

（1）花式索引

In [11]:
arr = np.empty((8, 4))
for i in range(8):
    arr[i] = i
arr

array([[0., 0., 0., 0.],
       [1., 1., 1., 1.],
       [2., 2., 2., 2.],
       [3., 3., 3., 3.],
       [4., 4., 4., 4.],
       [5., 5., 5., 5.],
       [6., 6., 6., 6.],
       [7., 7., 7., 7.]])

In [12]:
arr[1]

array([1., 1., 1., 1.])

In [13]:
arr[[4,3,0,6]]  #  花式索引

array([[4., 4., 4., 4.],
       [3., 3., 3., 3.],
       [0., 0., 0., 0.],
       [6., 6., 6., 6.]])

（2）布尔索引

In [14]:
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'John', 'Will'])
names

array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'John', 'Will'], dtype='<U4')

In [15]:
data = np.empty((7,4))
for i in range(7):
    data[i] = i
data

array([[0., 0., 0., 0.],
       [1., 1., 1., 1.],
       [2., 2., 2., 2.],
       [3., 3., 3., 3.],
       [4., 4., 4., 4.],
       [5., 5., 5., 5.],
       [6., 6., 6., 6.]])

In [16]:
names == 'Bob'

array([ True, False, False,  True, False, False, False])

In [17]:
data[names == 'Bob']

array([[0., 0., 0., 0.],
       [3., 3., 3., 3.]])

### 1.3 转置

In [18]:
arr = np.arange(15).reshape((3, 5))
arr

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [19]:
arr.T

array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

In [20]:
np.dot(arr.T, arr)

array([[125, 140, 155, 170, 185],
       [140, 158, 176, 194, 212],
       [155, 176, 197, 218, 239],
       [170, 194, 218, 242, 266],
       [185, 212, 239, 266, 293]])

## 2. 通用函数

In [21]:
arr = np.arange(5)
arr

array([0, 1, 2, 3, 4])

### 2.1 一元 ufunc

In [22]:
np.sqrt(arr)  # 计算各元素的平方根

array([0.        , 1.        , 1.41421356, 1.73205081, 2.        ])

In [23]:
np.exp(arr)  # 计算各元素的指数 e^x

array([ 1.        ,  2.71828183,  7.3890561 , 20.08553692, 54.59815003])

In [24]:
np.modf(arr+0.2)  # 将各元素的小数部分和整数部分拆成两个独立的数组返回

(array([0.2, 0.2, 0.2, 0.2, 0.2]), array([0., 1., 2., 3., 4.]))

In [25]:
np.log(arr+1)  # 计算各元素的自然对数（以 e 为底）

array([0.        , 0.69314718, 1.09861229, 1.38629436, 1.60943791])

In [26]:
np.log2(arr+1)  # 计算各元素的以2为底的对数

array([0.        , 1.        , 1.5849625 , 2.        , 2.32192809])

In [27]:
np.log10(arr+1)  # 计算各元素的以10为底的对数

array([0.        , 0.30103   , 0.47712125, 0.60205999, 0.69897   ])

In [28]:
np.log1p(arr+1)

array([0.69314718, 1.09861229, 1.38629436, 1.60943791, 1.79175947])

In [29]:
np.sign(arr-2)  # 计算各元素的正负号

array([-1, -1,  0,  1,  1])

In [30]:
np.ceil(arr+0.5)  # 计算大于等于各元素的最小整数

array([1., 2., 3., 4., 5.])

In [31]:
np.floor(arr+0.5)  # 计算小于等于各元素的最大整数

array([0., 1., 2., 3., 4.])

### 2.2 二元 ufunc

In [32]:
arr1 = np.arange(5)
arr2 = np.arange(5)
arr1, arr2

(array([0, 1, 2, 3, 4]), array([0, 1, 2, 3, 4]))

In [33]:
np.add(arr1, arr2)

array([0, 2, 4, 6, 8])

In [34]:
np.subtract(arr1, arr2)

array([0, 0, 0, 0, 0])

In [35]:
np.multiply(arr1, arr2)

array([ 0,  1,  4,  9, 16])

In [36]:
np.divide(arr1, arr2+1)

array([0.        , 0.5       , 0.66666667, 0.75      , 0.8       ])

In [37]:
xarr = np.array([1,2,3,4,5])
yarr = -np.array([1,2,3,4,5])
cond = np.array([True, False, True, False, False])

result = [(x if c else y) for x, y, c in zip(xarr, yarr, cond)]
result

[1, -2, 3, -4, -5]

In [38]:
result = np.where(cond, xarr, yarr)
result

array([ 1, -2,  3, -4, -5])

In [39]:
arr = np.random.randn(4, 4)
print(arr)
print(np.where(arr > 0,2,-2))

[[-1.4520328   0.46796559  0.04009273 -0.65284537]
 [ 0.2253458  -0.72851218  0.2969817   0.34907328]
 [-0.46883545 -0.75434186  0.05345496  0.70306638]
 [ 0.93135381  0.75384036  0.93932933  0.11281731]]
[[-2  2  2 -2]
 [ 2 -2  2  2]
 [-2 -2  2  2]
 [ 2  2  2  2]]


### 2.3 用于聚合计算的函数

sum、mean、std 等用于聚合（aggregation）计算的函数既可以当作数组的实例方法调用，也可以当作 NumPy 函数使用。

In [40]:
arr = np.random.randn(5, 4)  # 正态分布的数据
arr

array([[-0.01030724,  0.02415502,  0.70959201,  1.48827416],
       [ 1.48264474, -0.49954628,  1.43150085, -0.95378831],
       [-0.31764038,  0.28911225,  0.72048087,  0.47574223],
       [ 0.98996638, -1.23078632,  1.12019974, -0.10209505],
       [-1.0789762 , -1.78398352,  1.00315765,  0.05076895]])

作为实例方法使用：

In [41]:
arr.mean()

0.19042357780455127

In [42]:
arr.sum()

3.808471556091025

In [43]:
arr.std()

0.9339799233140939

作为 NumPy 函数使用：

In [44]:
np.mean(arr)

0.19042357780455127

In [45]:
np.sum(arr)

3.808471556091025

In [46]:
np.std(arr)

0.9339799233140939

mean 和 sum 这类函数可以接受一个 axis 参数，用于计算该轴向的统计值，最终结果是一个少了一个维度的数组。

In [47]:
arr.mean(axis=0)

array([ 0.21313746, -0.64020977,  0.99698622,  0.19178039])

In [48]:
arr.mean(1)

array([ 0.55292849,  0.36520275,  0.29192374,  0.19432119, -0.45225828])

In [49]:
arr.sum(1)

array([ 2.21171395,  1.46081101,  1.16769497,  0.77728474, -1.80903311])

在上面这些方法中，布尔值会被强制转换为1和0。可以用sum来统计布尔型数组中的 True 值的数量。

In [50]:
arr = np.random.randn(10)
arr

array([-0.06472213,  0.60001579, -0.81041849, -0.09097733, -0.90251394,
       -1.84481318, -1.74608313, -1.28283515, -1.5512434 ,  2.17776954])

In [51]:
(arr > 0).sum()

2

In [52]:
np.sum(arr > 0)

2

any 和 all 对于布尔型数组非常有用。any 用于测试数组中是否存在一个或多个 True，而 all 用于检查数组中是否所有值都是 True。

In [53]:
bools = np.array([False, False, False, True, False])
bools1 = np.array([True, True, True, True, True])
bools2 = np.array([False, False, False, False, False])
bools, bools1, bools2

(array([False, False, False,  True, False]),
 array([ True,  True,  True,  True,  True]),
 array([False, False, False, False, False]))

In [54]:
bools.any(), bools1.any(), bools2.any()

(True, True, False)

In [55]:
bools.all(), bools1.all(), bools2.all()

(False, True, False)

### 2.4 排序

In [56]:
arr = np.random.randn(10)
print('Before:\n', arr, end='\n\n')
arr.sort()
print('After:\n', arr)

Before:
 [ 1.27238783 -0.4606725  -0.80430804 -0.62677661  1.20115833  1.34521734
  1.24681413 -1.50593932  0.17936734  0.47657867]

After:
 [-1.50593932 -0.80430804 -0.62677661 -0.4606725   0.17936734  0.47657867
  1.20115833  1.24681413  1.27238783  1.34521734]


In [57]:
arr = np.random.randn(10)
print('Before:\n', arr, end='\n\n')
print('After:\n', np.sort(arr))

Before:
 [-0.18274372  0.40630207  0.47358589  0.4704768   0.87472197  0.98291605
 -0.13958742  0.10758062  1.04475972 -0.02541826]

After:
 [-0.18274372 -0.13958742 -0.02541826  0.10758062  0.40630207  0.4704768
  0.47358589  0.87472197  0.98291605  1.04475972]


### 2.5 去重

`np.unique()` 用于返回去重后排序的结果。

In [58]:
names = np.array(['Bob', 'Will', 'Joe', 'Bob', 'Will'])
np.unique(names)

array(['Bob', 'Joe', 'Will'], dtype='<U4')

In [59]:
ints = np.array([3, 3, 2, 2, 1, 1, 4, 1])
np.unique(ints)

array([1, 2, 3, 4])

### 2.6 成员资格

`np.in1d(array1, array2)` 用于测试一个数组 array1 的值在另一个数组 array2 中的成员资格，返回一个布尔型数组：

In [60]:
values = np.array([6, 0, 0, 3, 2, 5, 6])
np.in1d(values, [2,3,6])

array([ True, False, False,  True,  True, False,  True])

## 3. 数组文件

`np.save()` 和 `np.load()` 是读写磁盘数组数据的两个主要函数。默认情况下，数组是以未压缩的原始二进制格式保存在扩展名为 .npy 的文件中的。

In [61]:
arr = np.arange(10)
np.save('some_array', arr)

In [62]:
np.load('some_array.npy')

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

通过 `np.savez()` 可以通过多个数组保存到一个压缩文件中。保存时，将数组以关键字参数的形式传入。加载时，该对象会对各个数组进行延迟加载。

In [63]:
arr1 = np.arange(10)
arr2 = np.arange(10)[::-1]
np.savez('some_array', a=arr1, b=arr2)

In [64]:
arch = np.load('some_array.npz')
arch['a'], arch['b']

(array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]), array([9, 8, 7, 6, 5, 4, 3, 2, 1, 0]))

## 4. 线性代数

### 4.1 点乘

点乘又名点积、数量积、内积。

In [65]:
x = np.array([[1., 2., 3.], [4., 5., 6.]])
y = np.array([[6., 23.], [-1., 7.], [8., 9.]])
print('x:\n', x, end='\n\n')
print('y:\n', y)

x:
 [[1. 2. 3.]
 [4. 5. 6.]]

y:
 [[ 6. 23.]
 [-1.  7.]
 [ 8.  9.]]


In [66]:
x.dot(y)

array([[ 28.,  64.],
       [ 67., 181.]])

也可以写成：

In [67]:
np.dot(x, y)

array([[ 28.,  64.],
       [ 67., 181.]])

### 4.2 求逆

`np.linalg.inv()` 可以求矩阵的逆。

In [68]:
X = np.random.randn(3,3)
mat = X.T.dot(X)
np.linalg.inv(mat)

array([[ 0.20636479,  0.11242435, -0.41966912],
       [ 0.11242435,  0.22607325, -0.27637878],
       [-0.41966912, -0.27637878,  1.67468684]])

验证一下：

In [69]:
np.dot(mat, np.linalg.inv(mat))

array([[ 1.00000000e+00, -3.60214148e-17, -4.72464162e-17],
       [-1.36853836e-16,  1.00000000e+00,  1.81597694e-16],
       [ 9.07846598e-17,  8.24798782e-17,  1.00000000e+00]])

### 4.3 qr分解

In [70]:
X = np.random.randn(5,5)
mat = X.T.dot(X)
q, r = np.linalg.qr(mat)
print('q:\n', q, end='\n\n')
print('r:\n', r)

q:
 [[-0.86416068  0.21411703  0.22785198 -0.06108635 -0.38952811]
 [-0.16303656 -0.41847795  0.56595053 -0.44159834  0.53196447]
 [-0.20036701 -0.56935333 -0.64654208 -0.43081606 -0.17908298]
 [ 0.21724063  0.58603998 -0.04779949 -0.77635062 -0.0660195 ]
 [-0.3732358   0.3338024  -0.45550195  0.11373917  0.72722237]]

r:
 [[-5.68236008 -1.66379726 -4.00345484  3.4009407  -2.55526949]
 [ 0.         -2.38820676 -7.16141994  5.92190277  0.56712221]
 [ 0.          0.         -3.45701994  1.74262701 -0.75599114]
 [ 0.          0.          0.         -0.6462744  -0.04296967]
 [ 0.          0.          0.          0.          0.10038942]]
