<img src="http://hilpisch.com/tpq_logo.png" alt="The Python Quants" width="35%" align="right" border="0"><br>

# Python for Finance (2nd ed.)

**Mastering Data-Driven Finance**

&copy; Dr. Yves J. Hilpisch | The Python Quants GmbH

<img src="http://hilpisch.com/images/py4fi_2nd_shadow.png" width="300px" align="left">

# Numerical Computing with NumPy

## Arrays with Python Lists

In [1]:
v = [0.5, 0.75, 1.0, 1.5, 2.0]  

In [2]:
m = [v, v, v]  
m  

[[0.5, 0.75, 1.0, 1.5, 2.0],
 [0.5, 0.75, 1.0, 1.5, 2.0],
 [0.5, 0.75, 1.0, 1.5, 2.0]]

In [3]:
m[1]

[0.5, 0.75, 1.0, 1.5, 2.0]

In [4]:
m[1][0]

0.5

m = [v, v, v]将行形式的list组合起来形成矩阵，list切片先行后列

In [5]:
v1 = [0.5, 1.5]
v2 = [1, 2]
m = [v1, v2]
c = [m, m]  
c

[[[0.5, 1.5], [1, 2]], [[0.5, 1.5], [1, 2]]]

In [6]:
c[1][1][0]

1

相当于是3维的矩阵,按由大到小不断做切片

In [7]:
v = [0.5, 0.75, 1.0, 1.5, 2.0]
m = [v, v, v]
m

[[0.5, 0.75, 1.0, 1.5, 2.0],
 [0.5, 0.75, 1.0, 1.5, 2.0],
 [0.5, 0.75, 1.0, 1.5, 2.0]]

In [8]:
v[0] = 'Python'
m

[['Python', 0.75, 1.0, 1.5, 2.0],
 ['Python', 0.75, 1.0, 1.5, 2.0],
 ['Python', 0.75, 1.0, 1.5, 2.0]]

简单的copy只是将list和矩阵之间建立了一种索引的关系，所以组成矩阵的list改变,矩阵里面对应的值也会改变

In [9]:
from copy import deepcopy
v = [0.5, 0.75, 1.0, 1.5, 2.0]
m = 3 * [deepcopy(v), ]  
m

[[0.5, 0.75, 1.0, 1.5, 2.0],
 [0.5, 0.75, 1.0, 1.5, 2.0],
 [0.5, 0.75, 1.0, 1.5, 2.0]]

In [10]:
v[0] = 'Python'  
m  

[[0.5, 0.75, 1.0, 1.5, 2.0],
 [0.5, 0.75, 1.0, 1.5, 2.0],
 [0.5, 0.75, 1.0, 1.5, 2.0]]

deepcopy意味着彻底的复制出一份新的list，这样原有list改变不会影响矩阵。

## Interlude: Python Array Class（Python自带的像np.array，实际功能类似于list）

In [14]:
v = [0.5, 0.75, 1.0, 1.5, 2.0]

In [15]:
import array

In [16]:
a = array.array('f', v)  
a

array('f', [0.5, 0.75, 1.0, 1.5, 2.0])

In [17]:
a.append(0.5)  
a

array('f', [0.5, 0.75, 1.0, 1.5, 2.0, 0.5])

In [18]:
a.extend([5.0, 6.75])  
a

array('f', [0.5, 0.75, 1.0, 1.5, 2.0, 0.5, 5.0, 6.75])

In [19]:
2 * a  

array('f', [0.5, 0.75, 1.0, 1.5, 2.0, 0.5, 5.0, 6.75, 0.5, 0.75, 1.0, 1.5, 2.0, 0.5, 5.0, 6.75])

基本上和list的作用一致，可以append，extend。2 * a代表在a list的后面再接一个a list，而不是对list里面的数据进行乘以2的操作。

In [25]:
a.append('data')  

TypeError: must be real number, not str

一种array只有一种类型array('f', []):f代表float浮点数,非浮点数（int，str等)不能加进去。

In [26]:
# causes intentional error

In [27]:
a.tolist()  

[0.5, 0.75, 1.0, 1.5, 2.0, 0.5, 5.0, 6.75]

tolist将数据转换为list形式。

In [32]:
f = open('array.apy', 'wb')  
a.tofile(f)  
f.close()  

open('array.apy', 'wb')新建一个名字为'array.apy'的文件，wb代表只写模式，f.close() 结尾需要，结束对apy文件的修改。

In [40]:
with open('array.apy', 'wb') as f:  
    a.tofile(f)  

简易版写法，with代表实际上没有完全open，所以不需要close()。

In [43]:
!dir arr*  

 驱动器 C 中的卷是 Windows-SSD
 卷的序列号是 8403-5705

 C:\Users\PC\python for finance 的目录

2021/06/04  23:08                32 array.apy
               1 个文件             32 字节
               0 个目录 24,807,555,072 可用字节


查看当前页面上的ipynb文件在电脑中的位置，并且查出运行所在文件夹里面array.apy格式的文件。

In [44]:
b = array.array('f')  

建立一个格式为float的array

In [45]:
with open('array.apy', 'rb') as f:  
    b.fromfile(f, 5)  

'rb'只读，fromfile(f, 5) 从f('array.apy')当中截取5个数(从0第一位开始往后数5个数)放入b(float格式的array)里面。

In [47]:
b  

array('f', [0.5, 0.75, 1.0, 1.5, 2.0])

In [48]:
b = array.array('d')  

d和f是不同的浮点数形式， d是double float.

In [50]:
with open('array.apy', 'rb') as f:
    b.fromfile(f, 2)  

In [51]:
b  

array('d', [0.0004882813645963324, 0.12500002956949174, 0.0004882813645963324, 0.12500002956949174])

如果预设的array容器的形式和取出的元素的形式不一致，过程上不会报错，但是结果上会报错(出现被取数array里面没有的元素)

'rb'和'wb'里面的b是必须要写，针对电脑的01二进制语言(array格式的apy文件)

## Regular NumPy Arrays

### The Basics

In [1]:
import numpy as np  

In [2]:
a = np.array([0, 0.5, 1.0, 1.5, 2.0])  
a

array([0. , 0.5, 1. , 1.5, 2. ])

In [3]:
type(a)  

numpy.ndarray

In [4]:
a = np.array(['a', 'b', 'c'])  
a

array(['a', 'b', 'c'], dtype='<U1')

In [32]:
a = np.arange(2, 20, 2)  
a

array([ 2,  4,  6,  8, 10, 12, 14, 16, 18])

和range不同,arange的步长可以是小数。不能到20

In [5]:
a = np.arange(8, dtype = np.float)  
a

array([0., 1., 2., 3., 4., 5., 6., 7.])

dtype = np.float改成浮点数

In [7]:
a[5:]  

array([5., 6., 7.])

从第6个数字一直到最后一个

In [35]:
a[:2]  

array([0., 1.])

从第2个数往前数

In [8]:
a.sum()  

28.0

In [9]:
a.std()  

2.29128784747792

In [10]:
a.cumsum()  

array([ 0.,  1.,  3.,  6., 10., 15., 21., 28.])

cumsum累加，结果为数值

In [12]:
l = [0., 0.5, 1.5, 3., 5.]
2 * l  

[0.0, 0.5, 1.5, 3.0, 5.0, 0.0, 0.5, 1.5, 3.0, 5.0]

In [40]:
a

array([0., 1., 2., 3., 4., 5., 6., 7.])

In [13]:
a * 2  

array([ 0.,  2.,  4.,  6.,  8., 10., 12., 14.])

2 * a  是对a(numpy.array)里面的所有元素进行乘以2的操作，对于list，*2代表将list里面的元素复制一份跟在原来list的后面

In [15]:
a ** 2  

array([ 0.,  1.,  4.,  9., 16., 25., 36., 49.])

In [16]:
2 ** a  

array([  1.,   2.,   4.,   8.,  16.,  32.,  64., 128.])

In [17]:
a ** a  

array([1.00000e+00, 1.00000e+00, 4.00000e+00, 2.70000e+01, 2.56000e+02,
       3.12500e+03, 4.66560e+04, 8.23543e+05])

a ** 2 是a里面所有的数平方，2 ** a 是2开a里面所有数次方(相当于是2^a1,a2,...)

In [18]:
np.exp(a)  

array([1.00000000e+00, 2.71828183e+00, 7.38905610e+00, 2.00855369e+01,
       5.45981500e+01, 1.48413159e+02, 4.03428793e+02, 1.09663316e+03])

exp(a)就是e^a1,a2,...，e^a1 = e^0 = 1

In [23]:
np.sqrt(a)  

array([0.        , 1.        , 1.41421356, 1.73205081, 2.        ,
       2.23606798, 2.44948974, 2.64575131])

In [25]:
np.sqrt(2.5)  

1.5811388300841898

因为numpy.array是数组数据结构(向量化运算),所以相比list，numpy.array可以直接对里面的数字进行数学操作。

通用函数（或简称ufunc）是以ndarrays逐个元素的方式运行的函数，支持数组广播、类型转换和其他几个标准特性。也就是说，ufunc 是一个函数的“向量化”包装器，它接受固定数量的特定输入并产生固定数量的特定输出。

In [26]:
import math  

In [27]:
math.sqrt(2.5)  

1.5811388300841898

# causes intentional error ：math不能对numpy.array数据进行向量化运算。
# math.sqrt(a)  

In [30]:
%timeit np.sqrt(2.5)  

700 ns ± 5.44 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


In [31]:
%timeit math.sqrt(2.5)  

123 ns ± 1.45 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)


np.sqrt运行时间要比math.sqrt长，因为np太大了

### Multiple Dimensions多维矩阵

In [33]:
b = np.array([a, a * 2])  
b

array([[ 0.,  1.,  2.,  3.,  4.,  5.,  6.,  7.],
       [ 0.,  2.,  4.,  6.,  8., 10., 12., 14.]])

In [34]:
b[0]  

array([0., 1., 2., 3., 4., 5., 6., 7.])

In [55]:
b[0, 2]  

2.0

In [56]:
b[:, 1]  

array([1., 2.])

In [83]:
x = np.array([a, a * 2, a])

In [90]:
x[:, 1 :2: 3]

array([[1.],
       [2.],
       [1.]])

可以截取竖列的元素，跨两个原始的array的同一个位置上的元素组成新的array(将2维降维到一维的array)。[:, 1:2]用:将需要截取的相邻的元素，从最小的开始[:, n: n+1: n+2...]这样就不会发生降维。

In [36]:
b.sum()  

84.0

In [37]:
b.sum(axis=0)  

array([ 0.,  3.,  6.,  9., 12., 15., 18., 21.])

In [38]:
b.sum(axis=1)  

array([28., 56.])

### sum()加总，sum(axis=0)按竖列加总(其他轴/维度不变），获得一个元素个数等于array内元素个数的array)，sum(axis=1) 按横行加总(获得一个元素个数等于array个数/数据维数的array)，或者说相当于是二维(第二层大括号)情况下，其他轴/维度不变。

In [43]:
ii = np.array([1, 2])
iii = np.array([ii, ii, ii*2])
print(iii, iii.sum(axis = 0),iii.sum(axis = 1))

[[1 2]
 [1 2]
 [2 4]] [4 8] [3 3 6]


In [54]:
iiii = np.array([iii, iii*2])
print(iiii)
print(iiii.sum(axis = 0))
io = iiii.sum(axis = 2)
print(io)
print(iiii.sum(axis = 1))

[[[1 2]
  [1 2]
  [2 4]]

 [[2 4]
  [2 4]
  [4 8]]]
[[ 3  6]
 [ 3  6]
 [ 6 12]]
[[ 3  3  6]
 [ 6  6 12]]
[[ 4  8]
 [ 8 16]]


In [59]:
print(iiii[:,:,0])
print(iiii[:,:,1]) 
io = iiii.sum(axis = 2)
print(io)

[[1 1 2]
 [2 2 4]]
[[2 2 4]
 [4 4 8]]
[[ 3  3  6]
 [ 6  6 12]]


### 对应的是axis = 2轴，相加方向是从内到外第二个[ ]内，第一个[ ]间对应相加，第二个[ ] 内的元素数量3个决定结果中最里面一个[ ]内元素的数量，第3个[ ]内的元素数量决定结果中外面一层[ ]里面[ ]的数量。

In [60]:
print(iiii[:,0,:])
print(iiii[:,1,:])
print(iiii[:,2,:])# 对应的是axis = 1轴
print(iiii.sum(axis = 1))

[[1 2]
 [2 4]]
[[1 2]
 [2 4]]
[[2 4]
 [4 8]]
[[ 4  8]
 [ 8 16]]


### 对应的是axis = 1轴，相加方向是从内到外第3个[ ]内，第二个[ ]间对应相加，第一个[ ] 内的元素数量2个决定结果中最里面一个[ ]内元素的数量，第2个[ ]内的元素数量2个决定结果中外面一层[ ]里面[ ]的数量。

依然可以依靠[]来判定axis轴是0还是1，np.array([iii, iii * 2])在0轴中体现为一个[]里面有两个元素，在1轴中体现为有两个[]两行。

也可以直接从最后一维的定义式出发，做计算的是第一维数据，归纳近

In [215]:
np.shape(iiii)

(2, 3, 2)

In [218]:
print(iiii.sum(axis = 0), iiii)

[[ 3  6]
 [ 3  6]
 [ 6 12]] [[[1 2]
  [1 2]
  [2 4]]

 [[2 4]
  [2 4]
  [4 8]]]


#### iiii是一个(2, 3, 2)形式的矩阵，3维，axis = 0, 就是（0，3，2），只有第一个数相加，代表3维的列数：2，其他不动，相当于是跨过第二个[]来将两个2维矩阵里面的元素一一相加。格式保留二维矩阵的样式。

In [61]:
c = np.zeros((2, 3), dtype='i', order='C')  
c

array([[0, 0, 0],
       [0, 0, 0]], dtype=int32)

只知道要做一个什么规格的矩阵，不清楚里面要放什么元素，所以直接全部用0替代，后面可以换上需要的数。

In [62]:
c = np.ones((2, 3, 4), dtype='i', order='C')  
c

array([[[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]],

       [[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]]], dtype=int32)

ones全部填充1，dtype='i'数据格式为int整数。order='C'代表是按从左到右横行的形式记录数据，order='F'代表是按从上到下竖列的形式记录数据

In [64]:
d = np.zeros_like(c, dtype='f16', order='C')  
d

TypeError: data type 'f16' not understood

In [67]:
d = np.zeros_like(c, dtype='f8', order='C')  
d

array([[[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]],

       [[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]]])

In [68]:
d = np.ones_like(c, dtype='f8', order='C')  
d

array([[[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]],

       [[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]]])

np.zeros_like和np.ones_like可以做出和c数据形式(2, 3, 4)一致的零矩阵和要矩阵。

In [72]:
e = np.empty((2, 3, 2))  
e

array([[[0., 0.],
        [0., 0.],
        [0., 0.]],

       [[0., 0.],
        [0., 0.],
        [0., 0.]]])

np.empty不一定里面装0，随机填入一些数。

In [73]:
f = np.empty_like(c)  
f

array([[[0, 0, 0, 0],
        [0, 0, 0, 0],
        [0, 0, 0, 0]],

       [[0, 0, 0, 0],
        [0, 0, 0, 0],
        [0, 0, 0, 0]]], dtype=int32)

empty_like里面复制的数据结构不仅仅包括几行几列，还包括数据的形式

In [74]:
np.eye(5)  

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

In [78]:
g = np.linspace(5, 15, 12) 
g

array([ 5.        ,  5.90909091,  6.81818182,  7.72727273,  8.63636364,
        9.54545455, 10.45454545, 11.36363636, 12.27272727, 13.18181818,
       14.09090909, 15.        ])

In [76]:
g = np.linspace(5, 15, 11) 
g

array([ 5.,  6.,  7.,  8.,  9., 10., 11., 12., 13., 14., 15.])

eye是单位矩阵(方正的，行列数相等，对角线为1，其他为0)， linespace是求出一组等差数列，(5, 15, 12)从5到15，包括5和15，还包括10个距离相等的点

### Meta-Information

In [79]:
g.size  

12

In [69]:
g.itemsize  

8

In [70]:
g.ndim  

1

In [71]:
g.shape  

(12,)

In [72]:
g.dtype  

dtype('float64')

In [73]:
g.nbytes  

96

size有几个，itemsize 一个元素占几个bytes，ndim维度数，shape结构，nbytes所有的要素用了多少个btye, 

（2， 3， 4）代表有两个3 * 4的矩阵。主要关注最后两位的数字：组成基础的矩阵

### Reshaping, Resizing, Stacking, Flattening

In [91]:
g = np.arange(15)

In [92]:
g

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [93]:
g.shape  

(15,)

In [94]:
np.shape(g) 

(15,)

(15,) = (15, 1)

In [95]:
g.reshape((3, 5))  

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [96]:
h = g.reshape((5, 3))  
h

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14]])

In [98]:
n = g.reshape((3, 5))  
n

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

reshape重新将g里面的数按(5, 3)(5行/外面的[],3列/里面的[])

In [99]:
h.T  

array([[ 0,  3,  6,  9, 12],
       [ 1,  4,  7, 10, 13],
       [ 2,  5,  8, 11, 14]])

In [100]:
h.transpose()  

array([[ 0,  3,  6,  9, 12],
       [ 1,  4,  7, 10, 13],
       [ 2,  5,  8, 11, 14]])

T = transpose转制

In [101]:
g

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [102]:
np.resize(g, (3, 1))  

array([[0],
       [1],
       [2]])

(3, 1)可以看成3行1列

In [103]:
np.resize(g, (1, 5))  

array([[0, 1, 2, 3, 4]])

In [104]:
np.resize(g, (2, 5))  

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [105]:
n = np.resize(g, (5, 4))  
n

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14,  0],
       [ 1,  2,  3,  4]])

In [106]:
h

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14]])

resize和reshape是不一样的，不会改变原有的矩阵，只是新生成一个矩阵。

In [108]:
np.concatenate((h, 2*h))

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14],
       [ 0,  2,  4],
       [ 6,  8, 10],
       [12, 14, 16],
       [18, 20, 22],
       [24, 26, 28]])

直接将后面合并的array接在前面的array的后面，共在一个大的[]里面。

In [107]:
np.hstack((h, 2 * h))  

array([[ 0,  1,  2,  0,  2,  4],
       [ 3,  4,  5,  6,  8, 10],
       [ 6,  7,  8, 12, 14, 16],
       [ 9, 10, 11, 18, 20, 22],
       [12, 13, 14, 24, 26, 28]])

In [89]:
np.vstack((h, 0.5 * h))  

array([[ 0. ,  1. ,  2. ],
       [ 3. ,  4. ,  5. ],
       [ 6. ,  7. ,  8. ],
       [ 9. , 10. , 11. ],
       [12. , 13. , 14. ],
       [ 0. ,  0.5,  1. ],
       [ 1.5,  2. ,  2.5],
       [ 3. ,  3.5,  4. ],
       [ 4.5,  5. ,  5.5],
       [ 6. ,  6.5,  7. ]])

vstack和concatenate一致，垂直累起来，hstack是里面对应的[]里面的元素水平衔接，形成一个新的array[].

In [109]:
h

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14]])

In [91]:
h.flatten()  

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [92]:
h.flatten(order='C')  

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [93]:
h.flatten(order='F')  

array([ 0,  3,  6,  9, 12,  1,  4,  7, 10, 13,  2,  5,  8, 11, 14])

flatten摊平，'C'横行的形式，一行一行摊平,'F'竖列形式，一列一列摊平。

In [111]:
for i in h.flat:  
    print(i, end=',')

0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,

In [112]:
for i in h.ravel(order='C'):  
    print(i, end=',')

0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,

In [113]:
for i in h.ravel(order='F'):  
    print(i, end=',')

0,3,6,9,12,1,4,7,10,13,2,5,8,11,14,

ravel(order='C') = flat = flatten都是摊平的意思。

### Boolean Arrays（用于筛选数列，里面的元素是True或者False，可以配合筛选条件的函数。

In [114]:
h

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14]])

In [115]:
h > 8  

array([[False, False, False],
       [False, False, False],
       [False, False, False],
       [ True,  True,  True],
       [ True,  True,  True]])

In [99]:
h <= 7  

array([[ True,  True,  True],
       [ True,  True,  True],
       [ True,  True, False],
       [False, False, False],
       [False, False, False]])

In [100]:
h == 5  

array([[False, False, False],
       [False, False,  True],
       [False, False, False],
       [False, False, False],
       [False, False, False]])

In [101]:
(h == 5).astype(int)  

array([[0, 0, 0],
       [0, 0, 1],
       [0, 0, 0],
       [0, 0, 0],
       [0, 0, 0]])

In [102]:
(h > 4) & (h <= 12)  

array([[False, False, False],
       [False, False,  True],
       [ True,  True,  True],
       [ True,  True,  True],
       [ True, False, False]])

### h <= 7 直接对array使用判定条件，获得一个由True和False组成的数列，h == 5 判定条件变成了是不是一个数，返回的一样是Boolean Arrays，
### 0代表False，1代表True，astype(int)  将Boolean Arrays转变成0，1组成的数列。
### &代表同时满足两个条件的为True，其他为False（and并集）。|代表分别满足两个条件的都可以为True（or交集）。

In [120]:
h[h > 8]  

array([ 9, 10, 11, 12, 13, 14])

In [121]:
h[(h > 4) & (h <= 12)]  

array([ 5,  6,  7,  8,  9, 10, 11, 12])

In [122]:
h[(h < 4) | (h >= 12)]  

array([ 0,  1,  2,  3, 12, 13, 14])

Boolean Arrays配合切片可以找出需要的数字。

In [125]:
np.where(h > 7, 1, 0)  

array([[0, 0, 0],
       [0, 0, 0],
       [0, 0, 1],
       [1, 1, 1],
       [1, 1, 1]])

In [126]:
np.where(h % 2 == 0, 'even', 'odd')  

array([['even', 'odd', 'even'],
       ['odd', 'even', 'odd'],
       ['even', 'odd', 'even'],
       ['odd', 'even', 'odd'],
       ['even', 'odd', 'even']], dtype='<U4')

In [127]:
np.where(h <= 7, h * 2, h / 2)  

array([[ 0. ,  2. ,  4. ],
       [ 6. ,  8. , 10. ],
       [12. , 14. ,  4. ],
       [ 4.5,  5. ,  5.5],
       [ 6. ,  6.5,  7. ]])

U4是str的形式，代表最长不超过4个字母的str

np.where找符合条件的数，并且对它和其他数进行操作

(h > 7, 1, 0) 类似于if从句，（条件，为True的输出结果，为False的输出结果）

### Speed Comparison速度对比

In [128]:
import random
I = 5000

In [129]:
%time mat = [[random.gauss(0, 1) for j in range(I)] for i in range(I)]  

Wall time: 16.4 s


gauss(0, 1)：（mean，std)高斯正态分布

random.gauss(0, 1)一次只能抓出1个符合正态分布数，需要for j in range(I)] for i in range(I)]来形成矩阵。 

In [130]:
mat[0][:5]  

[1.8509645184792525,
 -0.11177994108253837,
 -1.4783423516800287,
 1.0068031163410516,
 -1.8851109839779552]

形成的是类似二维矩阵的list合集

In [131]:
%time sum([sum(l) for l in mat])  

Wall time: 138 ms


-7606.050629831675

需要sum([sum(l) for l in mat])，两步来计算全部的sum. 先把每列加总起来，再对列总数进行加总。

In [134]:
import sys
sum([sys.getsizeof(l) for l in mat])  

215200000

sys记录每一列占据的memory内存btyes，最后求总数sum.

In [135]:
%time mat = np.random.standard_normal((I, I))  

Wall time: 830 ms


5000 * 5000的标准正态分布数形成的数组，((I, I))一定双括号，后面还可以跟其他参数。

In [137]:
%time mat.sum()  

Wall time: 30 ms


-11178.294342128394

In [138]:
mat.nbytes  

200000000

In [117]:
sys.getsizeof(mat)  

200000112

numpy比纯python储存的效率更高，速度更快。

### Structured Arrays结构型数列（接近于pandas的dataframe的功能了）

#### 正常numpy.array是不能存储两种不同的数据类型的，但借助于Structured Arrays，numpy可以做到类似于pandas的功能。
#### 每一栏都可以赋予不同的数据属性，同时还具备检索功能。

In [144]:
dt = np.dtype([('Name', 'S10'), ('Age', 'i4'),
               ('Height', 'f'), ('Children/Pets', 'i4', 2)])  

S10不超过10个字符的字符串，i4整数，f浮点数，'i4', 2两个整数构成的()tuple

In [145]:
dt  

dtype([('Name', 'S10'), ('Age', '<i4'), ('Height', '<f4'), ('Children/Pets', '<i4', (2,))])

In [148]:
dt = np.dtype({'names': ['Name', 'Age', 'Height', 'Children/Pets'],
             'formats':'O int float int,int'.split()})  

ValueError: 'names', 'formats', 'offsets', and 'titles' dict entries must have the same length

##### 第二种形式{}，以字典的形式来定义type，
##### 上面'names':是title/key组成的[]list，下面‘'formats':'表示开始定义格式。
##### 'O int float int,int'一一对应，O等于S10，int就是i4, f就是float, int,int代表'i4', 2两个整数组成的tuple。
##### 一定要split()，将’‘里面写的一大堆用空格隔开的格式名称在电脑层面隔离开。不然会报错
#####  一定要用'names'和'formats'来写dict{}不然np.dtype会识别不了
##### names'和'formats'里面的元素个数必须保持一致，不然报错

In [149]:
dt  

dtype([('Name', 'O'), ('Age', '<i4'), ('Height', '<f8'), ('Children/Pets', [('f0', '<i4'), ('f1', '<i4')])])

In [150]:
s = np.array([('Smith', 45, 1.83, (0, 1)),
              ('Jones', 53, 1.72, (2, 2))], dtype=dt)  

In [151]:
s  

array([('Smith', 45, 1.83, (0, 1)), ('Jones', 53, 1.72, (2, 2))],
      dtype=[('Name', 'O'), ('Age', '<i4'), ('Height', '<f8'), ('Children/Pets', [('f0', '<i4'), ('f1', '<i4')])])

In [152]:
type(s)  

numpy.ndarray

一组数据一个tuple()，外面用[]括起来，里面的数据一定要按顺序，一一对应names和formats。, dtype=dt写入dt格式。

In [157]:
s['Name']  

array(['Smith', 'Jones'], dtype=object)

In [158]:
s['Height'].mean()  

1.775

In [159]:
s[0]  

('Smith', 45, 1.83, (0, 1))

In [156]:
s[1]['Age']  

53

先[]行后[]names

不丢失numpy本身向量化运算的优势，同时由于存在names和里面的data一一对应的关系，所以可以像对dict一样进行key到value的检索。

## Vectorization of Code向量化

In [160]:
np.random.seed(100)
r = np.arange(12).reshape((4, 3))  
s = np.arange(12).reshape((4, 3)) * 0.5  

In [161]:
r  

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

In [162]:
s  

array([[0. , 0.5, 1. ],
       [1.5, 2. , 2.5],
       [3. , 3.5, 4. ],
       [4.5, 5. , 5.5]])

In [163]:
r + s  

array([[ 0. ,  1.5,  3. ],
       [ 4.5,  6. ,  7.5],
       [ 9. , 10.5, 12. ],
       [13.5, 15. , 16.5]])

In [164]:
r + 3  

array([[ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14]])

In [165]:
2 * r  

array([[ 0,  2,  4],
       [ 6,  8, 10],
       [12, 14, 16],
       [18, 20, 22]])

In [170]:
2 * r + 3  

array([[ 3,  5,  7],
       [ 9, 11, 13],
       [15, 17, 19],
       [21, 23, 25]])

r + s 行列数一样的两个数组可以直接相加，数组可以直接加上一个数，或者乘以一个数

In [171]:
r

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

In [172]:
r.shape

(4, 3)

In [183]:
s = np.arange(0, 12, 4)  
s  

array([0, 4, 8])

In [184]:
s + r

array([[ 0,  5, 10],
       [ 3,  8, 13],
       [ 6, 11, 16],
       [ 9, 14, 19]])

In [185]:
ab = np.array([r , r]) 
ab + s

array([[[ 0,  5, 10],
        [ 3,  8, 13],
        [ 6, 11, 16],
        [ 9, 14, 19]],

       [[ 0,  5, 10],
        [ 3,  8, 13],
        [ 6, 11, 16],
        [ 9, 14, 19]]])

在数学上数量不同的矩阵是不能相加的，但是numpy有broadcast广播的功能，可以将单行的s在相加时广播复制3行成4 * 3 的矩阵

将相加中比较小的矩阵补全一个新轴, 在多维矩阵里面依然适用。

In [187]:
s = np.arange(0, 12, 3)  
s  

array([0, 3, 6, 9])

In [188]:
# causes intentional error
r + s  

ValueError: operands could not be broadcast together with shapes (4,3) (4,) 

报错因为，broadcast的基础是最基础的矩阵(最里面的[])的个数要与相加的矩阵的列数相等

In [189]:
r.transpose() + s  

array([[ 0,  6, 12, 18],
       [ 1,  7, 13, 19],
       [ 2,  8, 14, 20]])

转制后可以相加，因为shape改变了

In [190]:
sr = s.reshape(-1, 1)  
sr

array([[0],
       [3],
       [6],
       [9]])

reshape(-1, 1)一个轴的个数不指定，电脑自动做除法补齐(所以只能空一个)，空的地方用-1代替。

In [191]:
sr.shape  

(4, 1)

In [192]:
r + s.reshape(-1, 1)  

array([[ 0,  1,  2],
       [ 6,  7,  8],
       [12, 13, 14],
       [18, 19, 20]])

In [193]:
def f(x):
    return 3 * x + 5  

In [194]:
f(0.5)  

6.5

In [195]:
f(r)  

array([[ 5,  8, 11],
       [14, 17, 20],
       [23, 26, 29],
       [32, 35, 38]])

自定义函数里面的自变量可以填numpy.array

## Memory Layout   记录memory（bytes）的总结

Cf. http://eli.thegreenplace.net/2015/memory-layout-of-multi-dimensional-arrays/

In [222]:
x = np.random.standard_normal((1000000, 5))  

In [223]:
y = 2 * x + 3  

In [224]:
C = np.array((x, y), order='C')  

In [225]:
F = np.array((x, y), order='F')  

In [202]:
C.shape

(2, 1000000, 5)

In [204]:
x = 0.0; y = 0.0   #memory clear

In [205]:
C[:2].round(2)  

array([[[-1.75,  0.34,  1.15, -0.25,  0.98],
        [ 0.51,  0.22, -1.07, -0.19,  0.26],
        [-0.46,  0.44, -0.58,  0.82,  0.67],
        ...,
        [-0.05,  0.14,  0.17,  0.33,  1.39],
        [ 1.02,  0.3 , -1.23, -0.68, -0.87],
        [ 0.83, -0.73,  1.03,  0.34, -0.46]],

       [[-0.5 ,  3.69,  5.31,  2.5 ,  4.96],
        [ 4.03,  3.44,  0.86,  2.62,  3.51],
        [ 2.08,  3.87,  1.83,  4.63,  4.35],
        ...,
        [ 2.9 ,  3.28,  3.33,  3.67,  5.78],
        [ 5.04,  3.6 ,  0.54,  1.65,  1.26],
        [ 4.67,  1.54,  5.06,  3.69,  2.07]]])

In [206]:
%timeit C.sum()  

11.4 ms ± 24 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [207]:
%timeit F.sum()  

11.4 ms ± 64.8 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [208]:
%timeit C.sum(axis=0)  

20.1 ms ± 278 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [209]:
%timeit C.sum(axis=1)  

28.3 ms ± 313 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [210]:
%timeit F.sum(axis=0)  

54.3 ms ± 1.18 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [211]:
%timeit F.sum(axis=1)  

62.4 ms ± 595 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [226]:
np.shape(F)

(2, 1000000, 5)

相对来说C排列的速度快一些

In [212]:
F = 0.0; C = 0.0  

#### C ： (2, 1000000, 5)，axis = 0，2这个轴代表的两个二维的矩阵相加，固定其他的两个维度，结果保留(1000000 * 5)的矩阵格式。
#### axis = 1，1000000这个轴代表的两组二维矩阵里面的1000000行list相加，固定其他的两个维度，结果保留(2 * 5)的矩阵格式。
#### axis = 2,5这个轴代表的两组二维矩阵里面的每个list里面的5个数相加，固定其他的两个维度，结果保留(2 * 1000000)的矩阵格式。

<img src="http://hilpisch.com/tpq_logo.png" alt="The Python Quants" width="35%" align="right" border="0"><br>

<a href="http://tpq.io" target="_blank">http://tpq.io</a> | <a href="http://twitter.com/dyjh" target="_blank">@dyjh</a> | <a href="mailto:training@tpq.io">training@tpq.io</a>