# 一、Python 基础进阶
### 1. 列表推导式与条件赋值


In [1]:
[m + '_' + n for m in ['a', 'b'] for n in ['c', 'd']]

['a_c', 'a_d', 'b_c', 'b_d']

In [2]:
value = 'cat' if 2 > 1 else 'dog'
value

'cat'

In [3]:
L = [1, 2, 3, 4, 5, 6, 7]
[i if i <= 5 else 5 for i in L]

[1, 2, 3, 4, 5, 5, 5]

### 2. 匿名函数与 map 方法

In [4]:
my_func = lambda x: 2 * x
my_func(4)

8

##### map 让匿名函数更简洁


In [5]:
list(map(lambda x, y: str(x) + '_' + y, range(5), list('abcde')))


['0_a', '1_b', '2_c', '3_d', '4_e']

### 3. zip 对象与enumerate 方法
当两个列表建立字典映射，或一个列表的下标和原色建立字典映射

In [6]:
L1, L2, L3 = list('abc'), list('def'), list('hij')
print('---------- zip -------------')
for i, j, k in zip(L1, L2, L3):
    print(i, j, k)
print('---------- enumenate ---------')
for index, value in enumerate(zip(L1, L2, L3)):
    print(index, value)

---------- zip -------------
a d h
b e i
c f j
---------- enumenate ---------
0 ('a', 'd', 'h')
1 ('b', 'e', 'i')
2 ('c', 'f', 'j')


##### zip 的是压缩，×zipped 对应的是解压缩

In [7]:
zipped = list(zip(L1, L2, L3))
list(zip(*zipped))

[('a', 'b', 'c'), ('d', 'e', 'f'), ('h', 'i', 'j')]

# 二、 Numpy 基础


### 1. 构造（基础部分）

In [8]:
import numpy as np
print('----------- 1 ----------\n{}\n'.format(np.array([1, 2, 3])))
print('----------- 2 ----------\n{}\n'.format(np.linspace(1, 5, 11)))  # 起始， 终止（包含）， 样本个数
print('----------- 3 ----------\n{}\n'.format(np.arange(1, 5, 2)))
print('----------- 4 ----------\n{}\n'.format(np.zeros((2, 3))))
print('----------- 5 ----------\n{}\n'.format(np.eye(3)))
print('----------- 6 ----------\n{}\n'.format(np.eye(3, 1)))  # 偏离主对角线 1 个单位
print('----------- 7 ----------\n{}\n'.format(np.full((2, 3), 10)))  # np.zeros 是一个特例
print('----------- 8 ----------\n{}\n'.format(np.full((2, 3), [1, 2, 3])))  # 每行传入的向量
print('----------- 9 ----------\n{}\n'.format(np.random.rand(3)))
print('----------- 10 ----------\n{}\n'.format(np.random.rand(3, 3)))  # 和上面的zeros参数不一样
print('----------- 11 ----------\n{}\n'.format((15 - 5) * np.random.rand(3) + 5))  # 均匀分布
print('----------- 12 ----------\n{}\n'.format(np.random.randn(2, 2)))  # N(0, 1) 的标准正态分布
print('----------- 13 ----------\n{}\n'.format(np.random.randn(3) * 2.5 + 4)) # 方差为 2.5, 均值为 4 的正态分布
print('----------- 14 ----------\n{}\n'.format(np.random.randint(5, 15, (2,3))))  # [5, 15）间规模为(2, 3)的随机整数
print('----------- 15 ----------\n{}\n'.format(np.random.choice([1,2,3,4], 2, replace = False, p=[0.1,0.7,0.1,0.1])))  # 给定列表，随机抽取，定抽取样本数，默认放回抽样，默认均匀采样
print('----------- 16 ----------\n{}\n'.format(np.random.permutation([1,2,3,4])))  # 洗牌，相当于 choice 不重复取 n 个
print('----------- 17 ----------\n{}\n'.format(np.random.seed()))  # 固定随机数输出

----------- 1 ----------
[1 2 3]

----------- 2 ----------
[1.  1.4 1.8 2.2 2.6 3.  3.4 3.8 4.2 4.6 5. ]

----------- 3 ----------
[1 3]

----------- 4 ----------
[[0. 0. 0.]
 [0. 0. 0.]]

----------- 5 ----------
[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]

----------- 6 ----------
[[1.]
 [0.]
 [0.]]

----------- 7 ----------
[[10 10 10]
 [10 10 10]]

----------- 8 ----------
[[1 2 3]
 [1 2 3]]

----------- 9 ----------
[0.32242072 0.4514259  0.50516782]

----------- 10 ----------
[[0.64803398 0.60012536 0.05505646]
 [0.41671923 0.3774417  0.86574841]
 [0.76841108 0.70869675 0.90352828]]

----------- 11 ----------
[ 7.21670963 14.42035775  8.91768505]

----------- 12 ----------
[[-0.10051846 -1.73797569]
 [ 0.67672649  0.05324714]]

----------- 13 ----------
[ 7.56491419  3.31205717 -0.42491009]

----------- 14 ----------
[[14  6  9]
 [ 5  8  8]]

----------- 15 ----------
[2 3]

----------- 16 ----------
[3 4 1 2]

----------- 17 ----------
None



##### 2. np 数组的变形与合并
.T 转置，r_/c_ 合并，reshape 变换

In [9]:
# r_/c_ 合并
print('------------ 1 ------------\n{}\n'.format(np.r_[np.zeros((2, 3)), np.zeros((2, 3))]))
print('------------ 2 ------------\n{}\n'.format(np.c_[np.zeros((2, 3)), np.zeros((2, 3))]))
print('------------ 3 ------------\n{}\n'.format(np.c_[np.array([0, 0]), np.zeros(2)]))  # 一维和二维合并，一维作为列处理

------------ 1 ------------
[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]

------------ 2 ------------
[[0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0.]]

------------ 3 ------------
[[0. 0.]
 [0. 0.]]



In [10]:
# shape 变换 按照新维度重新排列 C/F 按行和列填充读取
print('------------ 1 ------------\n{}\n'.format(np.arange(8).reshape(2, 4)))
print('------------ 2 ------------\n{}\n'.format(np.arange(8).reshape(2, 4).reshape((4, 2), order = 'C')))  # 按照行填充
print('------------ 3 ------------\n{}\n'.format(np.arange(8).reshape(2, 4).reshape((4, 2), order = 'F')))  # 按照列填充, 按行读取，按行填写
print('------------ 4 ------------\n{}\n'.format(np.arange(8).reshape((4, -1))))  # 对允许缺失的维度，填充 -1
print('------------ 5 ------------\n{}\n{}'.format(np.ones((3, 1)), np.ones((3, 1)).reshape(-1)))  # 将任意数组，转化为一维数组

------------ 1 ------------
[[0 1 2 3]
 [4 5 6 7]]

------------ 2 ------------
[[0 1]
 [2 3]
 [4 5]
 [6 7]]

------------ 3 ------------
[[0 2]
 [4 6]
 [1 3]
 [5 7]]

------------ 4 ------------
[[0 1]
 [2 3]
 [4 5]
 [6 7]]

------------ 5 ------------
[[1.]
 [1.]
 [1.]]
[1. 1. 1.]


### 3. np 数组的切片和索引
slice类 -> startL: end: step， 直接传入列表制定维度索引切片


In [11]:
target = np.arange(9).reshape(3, 3)
print('------------ 1 ------------\n{}\n'.format(target))
print('------------ 2 ------------\n{}\n'.format(target[:-1, [0, 2]]))
print('------------ 3 ------------\n{}\n'.format(target[np.ix_([True, False, True], [True, False, True])]))  # np.ix_ 对应维度使用布尔索引
print('------------ 4 ------------\n{}\n'.format(target[np.ix_([1,2], [True, False, True])]))
print('------------ 5 ------------\n{}\n'.format(target.reshape(-1)[target.reshape(-1)%2 == 0]))

------------ 1 ------------
[[0 1 2]
 [3 4 5]
 [6 7 8]]

------------ 2 ------------
[[0 2]
 [3 5]]

------------ 3 ------------
[[0 2]
 [6 8]]

------------ 4 ------------
[[3 5]
 [6 8]]

------------ 5 ------------
[0 2 4 6 8]



### 4. 常见函数
where 指定满足与不满足条件的值；nonzero，argmax，argmin 返回索引

any，all 存在 和 任意；cumprob，cumsum，diff，累乘，累加，差

max, min, mean, median, std, var, sum, quantile 统计函数


In [12]:
a = np.array([-2, -5, 0, 0, 1, 3, -1])
print('------------ 1 ------------\n{}\n'.format(np.where(a > 0, a, 5)))  # 替换满足和不满足条件的值

print('------------ 2 ------------\n{}\n'.format(np.nonzero(a)))  # 返回非 0 索引
print('------------ 3 ------------\n{}\n'.format(a.argmax()))  # 返回最大值索引
print('------------ 4 ------------\n{}\n'.format(a.argmin()) ) # 返回最小值索引

print('------------ 5 ------------\n{}\n'.format(a.any()))  # 存在一个 True 就返回 True
print('------------ 6 ------------\n{}\n'.format(a.all()))  # 存在一个 False 就返回 False

print('------------ 7 ------------\n{}\n'.format(a.cumprod()))  # 累乘
print('------------ 8 ------------\n{}\n'.format(a.cumsum()))  # 累加
print('------------ 9 ------------\n{}\n'.format(np.diff(a)))  # 差 长度 － 1

print('------------ 10 ------------\n{}\n'.format(a.max()))
print('------------ 11 ------------\n{}\n'.format(np.quantile(a, 0.5)))  # 0.5 分位数
print('------------ 12 ------------\n{}\n'.format(np.nanmax(a)))  # 略过缺失值
print('------------ 13 ------------\n{}\n'.format(np.cov(a, a + 1)))  # 协方差
print('------------ 14 ------------\n{}\n'.format(np.corrcoef(a, a + 1)))  # 相关系数
print('------------ 15 ------------\n{}\n'.format(a.sum(0)))  # axis = 0 表示为列的统计指标

------------ 1 ------------
[5 5 5 5 1 3 5]

------------ 2 ------------
(array([0, 1, 4, 5, 6]),)

------------ 3 ------------
5

------------ 4 ------------
1

------------ 5 ------------
True

------------ 6 ------------
False

------------ 7 ------------
[-2 10  0  0  0  0  0]

------------ 8 ------------
[-2 -7 -7 -7 -6 -3 -4]

------------ 9 ------------
[-3  5  0  1  2 -4]

------------ 10 ------------
3

------------ 11 ------------
0.0

------------ 12 ------------
3

------------ 13 ------------
[[6.28571429 6.28571429]
 [6.28571429 6.28571429]]

------------ 14 ------------
[[1. 1.]
 [1. 1.]]

------------ 15 ------------
-4



### 5. 广播机制
不同维度数组间：标量和数组；二维数组间；一维和二维数组

In [13]:
res = 3 * np.ones((2, 2)) + 1
print("{}".format(res))
print("{}".format(1 / res))

[[4. 4.]
 [4. 4.]]
[[0.25 0.25]
 [0.25 0.25]]


In [14]:
res = np.ones((3, 2))
print('------------ 1 ------------\n{}\n'.format(res * np.array([[2, 3]])))  # 扩充第一维度为 3
print('------------ 2 ------------\n{}\n'.format(res * np.array([[2], [3], [4]])))  # 扩充第二维度为 2
print('------------ 3 ------------\n{}\n'.format(res * np.array([[2]])))  # 等价于两次扩充

------------ 1 ------------
[[2. 3.]
 [2. 3.]
 [2. 3.]]

------------ 2 ------------
[[2. 2.]
 [3. 3.]
 [4. 4.]]

------------ 3 ------------
[[2. 2.]
 [2. 2.]
 [2. 2.]]



![广播机制](https://upload-images.jianshu.io/upload_images/25239821-197a2df5a9a5afd5.png)
[广播机制](https://blog.csdn.net/emy_zj/article/details/104723476)

In [15]:

print('------------ 1 ------------\n{}\n'.format(np.ones(3) + np.ones((2, 3))))  
print('------------ 2 ------------\n{}\n'.format(np.ones(3) + np.ones((2, 1))))  
print('------------ 3 ------------\n{}\n'.format(np.ones(1) + np.ones((2, 3))))


------------ 1 ------------
[[2. 2. 2.]
 [2. 2. 2.]]

------------ 2 ------------
[[2. 2. 2.]
 [2. 2. 2.]]

------------ 3 ------------
[[2. 2. 2.]
 [2. 2. 2.]]



### 6. 向量与矩阵的计算
向量内积：dot；向量范数和矩阵范数(ord参数如下)：np.linalg.norm；矩阵乘法：@

   | ord | norm for matrices | norm for vectors |
   | :---- | ----: | ----: |
   | None   | Frobenius norm | 2-norm |
    | 'fro'  | Frobenius norm  | / |
    | 'nuc'  | nuclear norm    | / |
    | inf    | max(sum(abs(x), axis=1))   | max(abs(x)) |
    | -inf   | min(sum(abs(x), axis=1))  |  min(abs(x)) |
    | 0      | /   |  sum(x != 0) |
    | 1      | max(sum(abs(x), axis=0))  |  as below |
    | -1     | min(sum(abs(x), axis=0))   |  as below |
    | 2      | 2-norm (largest sing. value) | as below |
    | -2     | smallest singular value    | as below |
    | other  | /   | sum(abs(x)**ord)**(1./ord) |

In [16]:
a = np.array([1, 2, 3])
b = np.array([1, 3, 5])
a.dot(b)

22

In [17]:
matrix_target = np.arange(4).reshape(-1, 2)
print('------------ 1 --------------\n{}\n'.format(matrix_target))
print('------------ 2 --------------\n{}\n'.format(np.linalg.norm(matrix_target, 'fro')))
print('------------ 3 --------------\n{}\n'.format(np.linalg.norm(matrix_target, np.inf)))
print('------------ 4 --------------\n{}\n'.format(np.linalg.norm(matrix_target, 2)))
print('------------ 5 --------------\n{}\n'.format(np.linalg.norm(matrix_target.reshape(-1), np.inf)))
print('------------ 6 --------------\n{}\n'.format(np.linalg.norm(matrix_target.reshape(-1), 2)))
print('------------ 7 --------------\n{}\n'.format(np.linalg.norm(matrix_target.reshape(-1), 3)))


------------ 1 --------------
[[0 1]
 [2 3]]

------------ 2 --------------
3.7416573867739413

------------ 3 --------------
5.0

------------ 4 --------------
3.702459173643833

------------ 5 --------------
3.0

------------ 6 --------------
3.7416573867739413

------------ 7 --------------
3.3019272488946263



In [18]:
a = np.arange(4).reshape(-1, 2)
b = np.arange(-4, 0).reshape(-1, 2)
print('----------- 1 -------------\n{}\n'.format(a))
print('----------- 2 -------------\n{}\n'.format(b))
print('----------- 3 -------------\n{}\n'.format(a@b))


----------- 1 -------------
[[0 1]
 [2 3]]

----------- 2 -------------
[[-4 -3]
 [-2 -1]]

----------- 3 -------------
[[ -2  -1]
 [-14  -9]]



# 三、联系

### Ex1： 利用列表推导式写矩阵乘法

In [19]:
# 三重循环
M1 = np.random.rand(2,3)
M2 = np.random.rand(3,4)
res = np.empty((M1.shape[0],M2.shape[1]))
for i in range(M1.shape[0]):
    for j in range(M2.shape[1]):
        item = 0
        for k in range(M1.shape[1]):
            item += M1[i][k] * M2[k][j]
        res[i][j] = item
((M1@M2 - res) < 1e-15).all() # 排除数值误差

True

In [20]:
# 列表推导式
M1 = np.random.rand(2,3)
M2 = np.random.rand(3,4)

res = np.empty((M1.shape[0],M2.shape[1]))
res = np.array([[sum([M1[i][k] * M2[k][j]for k in range(M1.shape[1])]) for j in range(M2.shape[1])] for i in range(M1.shape[0])])
print('------- M1 --------- \n{}\n------- M2 --------\n{}\n------- M1 * M2 --------\n{}\n------- res --------\n{}\n'.format(M1, M2, M1.dot(M2), res))
((M1@M2 - res) < 1e-15).all()  # 排除数值误差

------- M1 --------- 
[[0.97504847 0.18982414 0.79669579]
 [0.69722858 0.98720653 0.94359789]]
------- M2 --------
[[0.78321487 0.24367814 0.06931667 0.0478412 ]
 [0.47249692 0.00949655 0.06062225 0.78642644]
 [0.54570739 0.13972354 0.19661355 0.73994575]]
------- M1 * M2 --------
[[1.28812657 0.35071784 0.23573587 0.78544187]
 [1.52746019 0.31111727 0.29370038 1.50793282]]
------- res --------
[[1.28812657 0.35071784 0.23573587 0.78544187]
 [1.52746019 0.31111727 0.29370038 1.50793282]]



True

### Ex2：更新矩阵
设矩阵 $A_{m×n}$ ，现在对 $A$ 中的每一个元素进行更新生成矩阵 $B$ ，更新方法是 $B_{ij}=A_{ij}\sum_{k=1}^n\frac{1}{A_{ik}}$ ，例如下面的矩阵为 $A$ ，则 $B_{2,2}=5\times(\frac{1}{4}+\frac{1}{5}+\frac{1}{6})=\frac{37}{12}$ ，请利用 `Numpy` 高效实现。
$$\begin{split}A=\left[ \begin{matrix} 1 & 2 &3\\4&5&6\\7&8&9 \end{matrix} \right]\end{split}$$

In [21]:
A = np.arange(1, 10).reshape(3, -1)
B = np.empty(A.shape)
B = np.array([[A[i][j] * sum([1/A[i][k] for k in range(A.shape[1])]) for j in range(A.shape[1])] for i in range(A.shape[0])])
print('---------- A -----------\n{}\n----------- B ------------\n{}\n'.format(A, B))

---------- A -----------
[[1 2 3]
 [4 5 6]
 [7 8 9]]
----------- B ------------
[[1.83333333 3.66666667 5.5       ]
 [2.46666667 3.08333333 3.7       ]
 [2.65277778 3.03174603 3.41071429]]



### Ex3：卡方统计量

设矩阵$A_{m\times n}$，记$B_{ij} = \frac{(\sum_{i=1}^mA_{ij})\times (\sum_{j=1}^nA_{ij})}{\sum_{i=1}^m\sum_{j=1}^nA_{ij}}$，定义卡方值如下：
$$\chi^2 = \sum_{i=1}^m\sum_{j=1}^n\frac{(A_{ij}-B_{ij})^2}{B_{ij}}$$
请利用`Numpy`对给定的矩阵$A$计算$\chi^2$ 

In [22]:
np.random.seed(0)
A = np.random.randint(10, 20, (8, 5))
B = np.empty(A.shape)
# stupid method
# B = np.array([[sum(A)[j] * sum(A.T)[i] / sum(A.reshape(-1)) for j in range(A.shape[1])] for i in range(A.shape[0])])
# broadcast
B = np.array(sum(A)) * np.array(sum(A.T)).reshape(-1, 1) / sum(A.reshape(-1))
x_2 = sum([(A[i, j] - B[i, j]) ** 2 / B[i, j] for j in range(A.shape[1]) for i in range(A.shape[0])])
print(x_2)

11.842696601945802


### Ex4：改进矩阵计算的性能
设$Z$为$m×n$的矩阵，$B$和$U$分别是$m×p$和$p×n$的矩阵，$B_i$为$B$的第$i$行，$U_j$为$U$的第$j$列，下面定义$\displaystyle R=\sum_{i=1}^m\sum_{j=1}^n\|B_i-U_j\|_2^2Z_{ij}$，其中$\|\mathbf{a}\|_2^2$表示向量$a$的分量平方和$\sum_i a_i^2$。

现有某人根据如下给定的样例数据计算$R$的值，请充分利用`Numpy`中的函数，基于此问题改进这段代码的性能。

In [23]:
np.random.seed(0)
m, n, p = 100, 80, 50
B = np.random.randint(0, 2, (m, p))
U = np.random.randint(0, 2, (p, n))
Z = np.random.randint(0, 2, (m, n))
print()




In [24]:
def solution(B=B, U=U, Z=Z):
    L_res = []
    for i in range(m):
        for j in range(n):
            norm_value = ((B[i]-U[:,j])**2).sum()
            L_res.append(norm_value*Z[i][j])
    return sum(L_res)
solution(B, U, Z)

100566

In [25]:
sum([sum(np.array([sum([i**2 for i in rows]) for rows in (B - U[:, i])]) * np.array(Z[:, i])) for i in range(n)])

100566

### Ex5：连续整数的最大长度

输入一个整数的`Numpy`数组，返回其中递增连续整数子数组的最大长度，正向是指递增方向。例如，输入\[1,2,5,6,7\]，\[5,6,7\]为具有最大长度的连续整数子数组，因此输出3；输入\[3,2,1,2,3,4,6\]，\[1,2,3,4\]为具有最大长度的连续整数子数组，因此输出4。请充分利用`Numpy`的内置函数完成。（提示：考虑使用`nonzero, diff`函数）


In [84]:
input_a = [1,2,5,6,7]
# np.random.randint(-10, 11, (1, 4000000))
b = np.diff(input_a)
c = np.diff(b)
d = list(np.nonzero(c)[0]) + [len(c)]
str_max = d[0] + 1
for index in range(1, len(d)):
    count = d[index] - d[index - 1]
    if count > str_max:
        str_max = count 
str_max += 1
str_max

3