Task01 预备知识

### 1.Python基础

#### 1.1.列表推导式与条件赋值

用python生成一个数字序列：

In [1]:
L = []

def my_func(x):
    return 2*x

for i in range(5):
    L.append(my_func(i))

L

[0, 2, 4, 6, 8]

可以用列表推导式进行写法上的简化：`[* for i in *]`，其中第一个`*`为映射函数，其输入为后面`i`指代的内容，第二个`*`表示迭代的对象。

In [3]:
[my_func(i) for i in range(5)]

[0, 2, 4, 6, 8]

列表表达式还支持多层嵌套，如下面例子中第一个`for`为外层循环，第二个为内层循环：

In [4]:
[m+'_'+n for m in ['a','b'] for n in ['c','d']]

['a_c', 'a_d', 'b_c', 'b_d']

另一个实用的语法是带有`if`选择的条件赋值，其形式为`value = a if condition else b`：

In [5]:
value = 'cat' if 2>1 else 'dog'

value

'cat'

下面的例子，截断列表中超过5的元素，即超过5的用5代替，小于5的保留原来的值：

In [6]:
L = [1, 2, 3, 4, 5, 6, 7]

[i if i <= 5 else 5 for i in L]

[1, 2, 3, 4, 5, 5, 5]

#### 1.2.匿名函数与map方法

对一些有清晰简单映射关系的函数，如上面的`my_func`函数，可以用匿名函数的方法简洁地表示，python用lambda来创建匿名函数，lambda函数有自己的命名空间，且不能访问自有参数列表之外或全局命名空间里的参数。

In [7]:
my_func = lambda x: 2*x

my_func(3)

6

In [8]:
multi_para_func = lambda a, b: a + b

multi_para_func(1, 2)

3

但上面的用法其实违背了匿名的含义，事实上它往往在无需多处调用的场合进行使用，例如上面列表推导式中的例子，用户不关心函数的名字，只关心这种映射的关系：

In [9]:
[(lambda x: 2*x)(i) for i in range(5)]

[0, 2, 4, 6, 8]

对于上述的这种列表推导式的匿名函数映射，python中提供了`map`函数来完成，它返回的是一个`map`对象，需要通过`list`转为列表。

`map()`函数的用法：`map(function, iterable, ...)`，`map()`会根据提供的函数对指定序列中做映射，第一个参数`function`以参数序列中的每一个元素调用`function`函数，返回包含每次`function`函数返回值的迭代器。

In [10]:
list(map(lambda x: 2*x, range(5)))

[0, 2, 4, 6, 8]

对于多个输入值的函数映射，可以通过追加迭代对象实现：

In [11]:
list(map(lambda x, y: str(x)+'_'+y, range(5), list('abcde')))

['0_a', '1_b', '2_c', '3_d', '4_e']

#### 1.3.zip对象与enumerate对象

`zip`函数能够把多个可迭代对象打包成一个元组构成的可迭代对象，它返回了一个`zip`对象，通过`tuple`，`list`可以得到相应的打包结果：

In [13]:
L1, L2, L3 = list('abc'), list('def'), list('hij')

list(zip(L1, L2, L3))

[('a', 'd', 'h'), ('b', 'e', 'i'), ('c', 'f', 'j')]

In [14]:
tuple(zip(L1, L2, L3))

(('a', 'd', 'h'), ('b', 'e', 'i'), ('c', 'f', 'j'))

往往会在循环迭代时用到`zip`函数：

In [15]:
for i, j, k in zip(L1, L2, L3):
    print(i, j, k)

a d h
b e i
c f j


`enumerate`是一种特殊的打包，它可以在迭代时绑定迭代元素的遍历序号：

In [16]:
L = list('abcd')

for index, value in enumerate(L):
    print(index, value)

0 a
1 b
2 c
3 d


用`zip`对象也能够实现这个功能：

In [17]:
for index, value in zip(range(len(L)), L):
    print(index, value)

0 a
1 b
2 c
3 d


当需要对两个列表建立字典映射时，可以利用`zip`对象：

In [18]:
dict(zip(L1, L2))

{'a': 'd', 'b': 'e', 'c': 'f'}

python提供了`*`操作符和`zip`联合使用进行解压操作：

In [19]:
zipped = list(zip(L1, L2, L3))

zipped

[('a', 'd', 'h'), ('b', 'e', 'i'), ('c', 'f', 'j')]

In [20]:
list(zip(*zipped))  #三个元组分别对应原来的列表

[('a', 'b', 'c'), ('d', 'e', 'f'), ('h', 'i', 'j')]

### 2.Numpy基础

#### 2.1.np数组的构造

一般的方法是通过`array`来构造：

In [2]:
import numpy as np

np.array([1,2,3])

array([1, 2, 3])

下面是一些特殊数组的生成方式：

* 等差序列：`np.linspace`，`np.arange`

In [25]:
np.linspace(1, 10, 4)  #起始，终止（包含），样本个数

array([ 1.,  4.,  7., 10.])

In [26]:
np.arange(1, 10, 4)    #起始，终止（不包含），步长

array([1, 5, 9])

* 特殊矩阵：`zeros`，`eye`，`full`

In [27]:
np.zeros((2, 3))  #传入元组表示各维度大小

array([[0., 0., 0.],
       [0., 0., 0.]])

In [28]:
np.eye(3)  #3*3的单位矩阵

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [29]:
np.eye(3, k=1)  #偏移主对角线1个单位的伪单位矩阵

array([[0., 1., 0.],
       [0., 0., 1.],
       [0., 0., 0.]])

In [30]:
np.eye(3, k=-1)

array([[0., 0., 0.],
       [1., 0., 0.],
       [0., 1., 0.]])

In [31]:
np.full((2, 3), 10)   #传入元组表示各维度大小，10表示填充数值

array([[10, 10, 10],
       [10, 10, 10]])

In [33]:
np.full((2,3), [1, 2, 3])   #通过传入列表填充每列的值

array([[1, 2, 3],
       [1, 2, 3]])

* 随机矩阵：`np.random`

最常用的随机生成函数为：

1. `rand`：0-1均匀分布的随机数组
2. `randn`：标准正态分布的随机数组
3. `randint`：随机整数组
4.  `choice`：随机列表抽样

In [34]:
np.random.rand(3)  #生成服从0-1均匀分布的三个随机数

array([0.57363621, 0.55496252, 0.53689275])

In [35]:
np.random.rand(3, 3)  #注意这里传入的不是元组，每个维度大小分开输入

array([[0.18875529, 0.66334258, 0.74608398],
       [0.55897999, 0.01062609, 0.03136409],
       [0.85220282, 0.78568595, 0.92191976]])

服从区间a到b上的均匀分布：

In [36]:
a, b = 5, 15

(b - a) * np.random.rand(3) + a

array([14.40612723,  8.74699956, 13.05105617])

`randn`生成了$N(0,1)$的标准正态分布

In [37]:
np.random.randn(3)

array([-1.40705299, -1.55685971, -0.91506274])

In [38]:
np.random.randn(2, 2)

array([[ 0.06741853,  1.81092518],
       [-1.88424284, -2.0361553 ]])

服从方差为$\sigma^2$均值为$\mu$的一元正态分布

In [39]:
sigma, mu = 2.5, 3

mu + np.random.randn(3) * sigma

array([0.86297934, 0.3868606 , 2.33133131])

`randint`可以指定生成随机整数的最小，最大值（不包含）和维度大小

In [40]:
low, high, size = 5, 15, (2, 3)

np.random.randint(low, high, size)

array([[ 7,  5,  8],
       [13, 12,  8]])

`choice`可以从给定的列表中，以一定概率和方式抽取结果，当不指定概率时为均匀采样，默认抽取方式为有放回采样：

In [41]:
my_list = ['a', 'b', 'c', 'd']

np.random.choice(my_list, 2, replace=False, p=[0.1, 0.7, 0.1, 0.1])

array(['b', 'a'], dtype='<U1')

In [42]:
np.random.choice(my_list, (3, 3))

array([['b', 'c', 'a'],
       ['b', 'c', 'c'],
       ['a', 'b', 'a']], dtype='<U1')

当返回元素个数与原列表相同时，等价于使用`permutation`函数，即打散原列表：

In [43]:
np.random.permutation(my_list)

array(['a', 'c', 'd', 'b'], dtype='<U1')

随机种子，它能够固定随机数的输出结果：

In [44]:
np.random.seed(0)

np.random.rand()

0.5488135039273248

#### 2.2.np数组的变形与合并

* 转置：`T`

In [3]:
np.zeros((2,3)).T

array([[0., 0.],
       [0., 0.],
       [0., 0.]])

* 合并操作：`r_`，`_c`，对于二维数组而言，`r_`是垂直拼接，沿着列的方向，对行进行拼接；`c_`是水平拼接，沿着行的方向，对列进行拼接。

In [4]:
np.r_[np.zeros((2,3)), np.zeros((2,3))]    #上下合并

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [5]:
np.c_[np.zeros((2,3)), np.zeros((2,3))]    #上下合并

array([[0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.]])

一维数组和二维数组合并时，应把其视作列向量，在长度匹配的情况下只能够使用左右合并的`c_`操作：

In [7]:
#try/except语句用来检测try语句块中的错误，从而让except语句捕获异常信息并处理。
try:      
    np.r_[np.array([0,0]), np.zeros((2,1))]
except Exception as e:
    Err_Msg = e

Err_Msg

ValueError('all the input arrays must have same number of dimensions')

In [10]:
np.r_[np.array([0,0]), np.zeros(2)]

array([0., 0., 0., 0.])

In [12]:
np.c_[np.array([0,0]), np.zeros((2,3))]

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.]])

* 维度变换：`reshape`，能够把原数组按照新的维度重新排列。在使用时有两种模式，分别为`C`模式和`F`模式，分别以逐行和逐列的顺序进行读取和填充。

In [14]:
target = np.arange(8).reshape(2,4)

target

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [15]:
target.reshape((4,2), order='C')    #按照行读取和填充，在新矩阵和原矩阵中都是按行读，先读0,1,2,3，填第一行0,1，再填第二行2,3

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7]])

In [16]:
target.reshape((4,2), order='F')    #按照列读取和填充，在新矩阵和原矩阵中都是按列读，先读第一列0,4，填入第一列，再读第二列1,5，填入第一列

array([[0, 2],
       [4, 6],
       [1, 3],
       [5, 7]])

特别地，由于被调用数组的大小是确定的，`reshape`允许有一个维度存在空缺，即其他维确定了，剩下的这一维就可算出来，用-1代替即可：

In [17]:
target.reshape((4,-1))

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7]])

将`n*1`大小的数组转换为1维数组的操作是经常使用的：

In [18]:
target = np.ones((3,1))

target.reshape(-1)

array([1., 1., 1.])

#### 2.3.np数组的切片与索引

数组的切片模式支持使用`slice`类型的`start:end:step`切片，还可以直接传入列表指定某个维度的索引进行切片：

In [19]:
target = np.arange(9).reshape(3,3)

target

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [20]:
target[:-1, [0,2]]   #第一维:-1，表示不取最后一行，第二维的[0,2]，表示取第0列和第2列

array([[0, 2],
       [3, 5]])

In [22]:
target = np.arange(25).reshape(5,5)

target

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

In [26]:
target[0:5:2, 0:5:2]

array([[ 0,  2,  4],
       [10, 12, 14],
       [20, 22, 24]])

此外，还可以利用`np.ix_`在对应的维度上使用布尔索引，True表示取，False表示不取，但此时不能使用`slice`切片：

In [27]:
target = np.arange(9).reshape(3,3)
target[np.ix_([True, False, True], [True, False, True])]

array([[0, 2],
       [6, 8]])

In [28]:
target[np.ix_([1,2], [True, False, True])]

array([[3, 5],
       [6, 8]])

当数组维度为1维时，可以直接进行布尔索引，而无需`np.ix_`

In [29]:
new = target.reshape(-1)

new[new%2==0]

array([0, 2, 4, 6, 8])

#### 2.4.常用函数

假设下述函数输入的数组都是一维的。

* `where`：一种条件函数，可以在指定满足条件与不满足条件位置对应的**填充值**：

In [30]:
a = np.array([-1, 1, -1, 0])

np.where(a>0, a, 5)   #对应位置为True时填充a对应元素，否则填充5

array([5, 1, 5, 5])

* `nonzero`：返回非零数的**索引**；`argmax`，`argmin`分别返回最大和最小数的索引：

In [31]:
a = np.array([-2, -5, 0, 1, 3, -1])

np.nonzero(a)

(array([0, 1, 3, 4, 5], dtype=int64),)

In [32]:
a.argmax()

4

In [33]:
a.argmin()

1

* `any`指定序列至少存在一个`True`或非零元素时返回`True`，否则返回`False`；

* `all`指定序列元素全为`True`或非零元素时返回`True`，否则返回`False`；

In [34]:
a = np.array([0,1])

a. any()

True

In [35]:
a.all()

False

* `cumpprod`，`cumsum`分别表示累乘和累加函数，返回同长度的数组；

* `diff`表示和前一个元素做差，由于第一个元素为缺失值，因此在默认参数情况下，返回长度是原数组长度-1

In [36]:
a = np.array([1,2,3])

a.cumprod()

array([1, 2, 6], dtype=int32)

In [37]:
a.cumsum()

array([1, 3, 6], dtype=int32)

In [38]:
np.diff(a)

array([1, 1])

* 统计函数，常见的统计函数包括`max`，`min`，`mean`，`median`，`std`，`var`，`sum`，`quantile`（分位数）。

In [40]:
target = np.arange(5)
target

array([0, 1, 2, 3, 4])

In [41]:
target.max()

4

In [42]:
np.quantile(target, 0.5)

2.0

但对于有缺失值的数组，它们返回的结果也是缺失值，如果需要略过缺失值，必须使用`nan*`类型的函数，上述的几个统计函数都有对应的`nan*`函数。

In [43]:
target = np.array([1, 2, np.nan])
target

array([ 1.,  2., nan])

In [44]:
target.max()

nan

In [45]:
np.nanmax(target)

2.0

In [46]:
np.nanquantile(target, 0.5)

1.5

* `cov`和`corrcoef`分别用来计算协方差和相关系数：

In [49]:
target1 = np.array([1,3,5,9])
target2 = np.array([1,5,3,-9])

np.cov(target1, target2)

array([[ 11.66666667, -16.66666667],
       [-16.66666667,  38.66666667]])

In [50]:
np.corrcoef(target1, target2)

array([[ 1.        , -0.78470603],
       [-0.78470603,  1.        ]])

二维Numpy数组中统计函数的`axis`参数，能够进行某一个维度下的统计特征计算，当`axis=0`时结果为列的统计指标（个人习惯理解成按行计算，即在列中取不同行的数字来统计），当`axis=1`时结果为行的统计指标：

In [51]:
target = np.arange(1,10).reshape(3,-1)
target

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [52]:
target.sum(0)

array([12, 15, 18])

In [53]:
target.sum(1)

array([ 6, 15, 24])

#### 2.5.广播机制

广播机制用于处理两个不同维度数组之间的操作，下面只讨论不超过两维的数组广播机制。

* 标量和数组的操作：当一个标量和数组进行运算时，标量会自动把大小扩充成数组大小，之后进行逐元素操作：

In [54]:
res = 3 * np.ones((2,2)) + 1

res

array([[4., 4.],
       [4., 4.]])

In [55]:
res = 1 / res
res

array([[0.25, 0.25],
       [0.25, 0.25]])

* 二维数组之间的操作：当两个数组维度完全一致时，使用对应元素的操作，否则会报错，除非其中的某个数组的维度是$m \times 1$或者$1 \times n$，那么扩充其具有1的维度为另一个数组对应维度的大小，但要运行成功需保证两个数组其他的维度大小一致。

In [56]:
res = np.ones((3,2))
res

array([[1., 1.],
       [1., 1.],
       [1., 1.]])

In [57]:
res * np.array([[2,3]])   #扩充第二个数组的第一维度为3，然后按元素积操作

array([[2., 3.],
       [2., 3.],
       [2., 3.]])

In [59]:
res * np.array([[2], [3], [4]])   #扩充其第二维度为2

array([[2., 2.],
       [3., 3.],
       [4., 4.]])

In [60]:
res * np.array([[2]])   #等价于两次扩充

array([[2., 2.],
       [2., 2.],
       [2., 2.]])

* 一维数组与二维数组的操作：当一维数组$A_k$与二维数组$B_{m,n}$操作时，等价于把一维数组视作$A_{1,k}$的二维数组，然后再使用上述的广播法则，当$k \ne n$且$k,n$都不是1时报错。

In [61]:
np.ones(3) + np.ones((2,3))

array([[2., 2., 2.],
       [2., 2., 2.]])

In [62]:
np.ones(3) + np.ones((2,1))

array([[2., 2., 2.],
       [2., 2., 2.]])

In [63]:
np.ones(1) + np.ones((2,3))

array([[2., 2., 2.],
       [2., 2., 2.]])

#### 2.6.向量与矩阵的计算

* 向量内积：`dot`

* 矩阵乘法：`@`

* 向量范数和矩阵范数：`np.linalg.norm`，其重要参数是`ord`，默认是2范数，可选值如下：

In [64]:
m = np.arange(4).reshape(-1,2)
m

array([[0, 1],
       [2, 3]])

In [65]:
np.linalg.norm(m, 'fro')  

3.7416573867739413

In [66]:
np.linalg.norm(m, np.inf)  

5.0

In [67]:
np.linalg.norm(m, 2) 

3.702459173643833

In [68]:
v = np.arange(4)
v

array([0, 1, 2, 3])

In [69]:
np.linalg.norm(v, np.inf)  

3.0

In [70]:
np.linalg.norm(v, 2)

3.7416573867739413

In [71]:
np.linalg.norm(v, 3)

3.3019272488946263

### 3.练习

#### 3.1.利用列表推导式写矩阵乘法

>将计算矩阵乘法的三重循环写成列表推导式的形式。

In [81]:
M1 = np.random.rand(2,3)

M2 = np.random.rand(3,4)

res = np.zeros((M1.shape[0],M2.shape[1]))

res = [[sum([M1[i][k] * M2[k][j] for k in range(M1.shape[1])]) for j in range(M2.shape[1])] for i in range(M1.shape[0])]

((M1@M2 - res) < 1e-15).all()

True

#### 3.2.更新矩阵

>设矩阵$A_{m×n}$ ，现在对 $A$ 中的每一个元素进行更新生成矩阵 $B$ ，更新方法是 $B_{ij}=A_{ij}\sum_{k=1}^n\frac{1}{A_{ik}}$ ，例如下面的矩阵为 $A$ ，则 >$B_{2,2}=5\times(\frac{1}{4}+\frac{1}{5}+\frac{1}{6})=\frac{37}{12}$ ，请利用 `Numpy` 高效实现。
>$$\begin{split}A=\left[ \begin{matrix} 1 & 2 &3\\4&5&6\\7&8&9 \end{matrix} \right]\end{split}$$

利用了广播机制, `1/A`计算出每一项$A_{ij}$，`(1/A).sum(1)`计算出每行的和，但此时得到的结果的`shape`为`(1,3)`，需要再`.reshpae(-1,1)`一下将形状转为`(3,1)`。这样`(3,3)`的矩阵`*(3,1)`的向量，由广播机制就是把后一个向量复制两列变成`(3,3)`的矩阵再相乘，符合题目的要求。

In [7]:
A = np.arange(1,10).reshape(3,3)

B = A * (1/A).sum(1).reshape(-1,1)

B

array([[1.83333333, 3.66666667, 5.5       ],
       [2.46666667, 3.08333333, 3.7       ],
       [2.65277778, 3.03174603, 3.41071429]])

#### 3.3.卡方统计量

>设矩阵$A_{m\times n}$，记$B_{ij} = \frac{(\sum_{i=1}^mA_{ij})\times (\sum_{j=1}^nA_{ij})}{\sum_{i=1}^m\sum_{j=1}^nA_{ij}}$，定义卡方值如下：
>$$\chi^2 = \sum_{i=1}^m\sum_{j=1}^n\frac{(A_{ij}-B_{ij})^2}{B_{ij}}$$
>请利用`Numpy`对给定的矩阵$A$计算$\chi^2$ 

有了上一题的启发，这题就比较好理解了，也是利用广播机制来简化代码。

In [14]:
np.random.seed(0)
A = np.random.randint(10, 20, (8, 5))
A

array([[15, 10, 13, 13, 17],
       [19, 13, 15, 12, 14],
       [17, 16, 18, 18, 11],
       [16, 17, 17, 18, 11],
       [15, 19, 18, 19, 14],
       [13, 10, 13, 15, 10],
       [12, 13, 18, 11, 13],
       [13, 13, 17, 10, 11]])

In [17]:
B = (A.sum(0) * A.sum(1).reshape(-1,1)) / A.sum()
B

array([[14.14211438, 13.08145581, 15.20277296, 13.67071057, 11.90294627],
       [15.18197574, 14.04332756, 16.32062392, 14.67590988, 12.77816291],
       [16.63778163, 15.38994801, 17.88561525, 16.08318891, 14.0034662 ],
       [16.42980936, 15.19757366, 17.66204506, 15.88214905, 13.82842288],
       [17.67764298, 16.35181976, 19.0034662 , 17.08838821, 14.87868284],
       [12.68630849, 11.73483536, 13.63778163, 12.26343154, 10.67764298],
       [13.93414211, 12.88908146, 14.97920277, 13.46967071, 11.72790295],
       [13.3102253 , 12.31195841, 14.3084922 , 12.86655113, 11.20277296]])

In [20]:
chi = ((A - B)**2 / B).sum()
chi

11.842696601945802

#### 3.4.改进矩阵计算的性能
>设$Z$为$m×n$的矩阵，$B$和$U$分别是$m×p$和$p×n$的矩阵，$B_i$为$B$的第$i$行，$U_j$为$U$的第$j$列，下面定义$\displaystyle R=\sum_{i=1}^m\sum_{j=1}^n\|B_i-U_j\|_2^2Z_{ij}$，其中$\|\mathbf{a}\|_2^2$表示向量$a$的分量平方和$\sum_i a_i^2$。
>现有某人根据如下给定的样例数据计算$R$的值，请充分利用`Numpy`中的函数，基于此问题改进这段代码的性能。

In [21]:
np.random.seed(0)

m,n,p = 100,80,50

B = np.random.randint(0, 2, (m, p))
U = np.random.randint(0, 2, (p, n))
Z = np.random.randint(0, 2, (m, n))

In [22]:
def solution(B=B, U=U, Z=Z):
    L_res = []
    for i in range(m):
        for j in range(n):
            norm_value = ((B[i] - U[:,j])**2).sum()
            L_res.append(norm_value*Z[i][j])
    return sum(L_res)

solution(B,U,Z)

100566

In [37]:
def solution_2(B=B, U=U, Z=Z):
    tmp = [np.linalg.norm(B[i]-U[:,j])**2 for i in range(B.shape[0]) for j in range(U.shape[1])]   #这里要先i再j，与结果的顺序对应
    tmp = np.array(tmp).reshape(m,n)
    return (tmp*Z).sum()

solution_2(B,U,Z)

100566.0

但这样写只是简化了下代码，并没有在性能上做改进，因此要从计算$||B_i-U_j||^2_2$入手：
$$
\begin{split}Y_{ij} &= \|B_i-U_j\|_2^2\\
&=\sum_{k=1}^p(B_{ik}-U_{kj})^2\\
&=\sum_{k=1}^p B_{ik}^2+\sum_{k=1}^p U_{kj}^2-2\sum_{k=1}^p B_{ik}U_{kj}\\\end{split}
$$

从上式可以看出$Y_{ij}$的第一部分是$B$的行平方和，第二部分是$U$的列的平方和，第三部分是`B[i]`与`U[:,j]`的点积，计算整个$Y$矩阵时就是矩阵$B$和$U$的乘积。这样做性能提升的原因是什么？

In [34]:
(((B**2).sum(1).reshape(-1,1) + (U**2).sum(0) - 2*B@U) * Z).sum()

100566

几种方法的性能对比：

In [35]:
%timeit -n 30 solution(B,U,Z)

59.9 ms ± 3.05 ms per loop (mean ± std. dev. of 7 runs, 30 loops each)


In [38]:
%timeit -n 30 solution_2(B,U,Z)    #比原来的还慢。。。。。。

82.2 ms ± 5.65 ms per loop (mean ± std. dev. of 7 runs, 30 loops each)


In [39]:
%timeit -n 30 (((B**2).sum(1).reshape(-1,1) + (U**2).sum(0) - 2*B@U) * Z).sum()

835 µs ± 58.3 µs per loop (mean ± std. dev. of 7 runs, 30 loops each)


#### 3.5.连续整数的最大长度

>输入一个整数的`Numpy`数组，返回其中递增连续整数子数组的最大长度，正向是指递增方向。例如，输入\[1,2,5,6,7\]，\[5,6,7\]为具有最大长度的连续整数子数组，因此输出3；输入\[3,2,1,2,3,4,6\]，\[1,2,3,4\]为具有最大长度的连续整数子数组，因此输出4。请充分利用`Numpy`的内置函数完成。（提示：考虑使用`nonzero, diff`函数）

In [41]:
A = [3, 2, 1, 2, 3, 4, 6]

np.diff(A)

array([-1, -1,  1,  1,  1,  2])

In [42]:
A = [1, 2, 5, 6, 7]

np.diff(A)

array([1, 3, 1, 1])

In [43]:
np.diff(A) != 1

array([False,  True, False, False])

In [44]:
np.r_[1, np.diff(A)!=1, 1]

array([1, 0, 1, 0, 0, 1], dtype=int32)

In [45]:
np.nonzero(np.r_[1, np.diff(A)!=1, 1])

(array([0, 2, 5], dtype=int64),)

In [46]:
np.diff(np.nonzero(np.r_[1, np.diff(A)!=1, 1]))

array([[2, 3]], dtype=int64)

In [48]:
f = lambda x: np.diff(np.nonzero(np.r_[1, np.diff(A)!=1, 1])).max()

f(A)

3