#### Numpy

NumPy（Numerical Python）是Python的一种开源的数值计算扩展。这种工具可用来存储和处理大型矩阵，比Python自身的嵌套列表（nested list structure)结构要高效的多（该结构也可以用来表示矩阵**matrix**），支持大量的维度数组与矩阵运算，此外也针对数组运算提供大量的数学函数库. 

NumPy（Numeric Python）提供了许多高级的数值编程工具，如：**矩阵数据类型**、**矢量处理**，以及精密的运算库。专为进行严格的数字处理而产生。多为很多**大型金融公司**使用，以及核心的科学计算组织如：Lawrence Livermore，NASA用其处理一些本来使用C++，Fortran或Matlab等所做的任务。

NumPy 的前身为 Numeric，最早由 Jim Hugunin 与其它协作者共同开发，2005 年，Travis Oliphant 在 Numeric 中结合了另一个同性质的程序库 Numarray 的特色，并加入了其它扩展而开发了 NumPy。NumPy 为开放源代码并且由许多协作者共同维护开发。

#### Numpy 教程

- 官方教程 （英文） https://numpy.org/doc/stable/user/quickstart.html
- Numpy中文网  https://www.numpy.org.cn/
- Numpy 菜鸟教程 https://www.runoob.com/numpy/numpy-tutorial.html



In [1]:
import numpy as np   # 导入numpy模块
np.__version__

'1.20.1'

#### Numpy的数据结构

NumPy 数组的维数称为秩（rank），秩就是轴的数量，即数组的维度，一维数组的秩为 1，二维数组的秩为 2，以此类推。

在 NumPy中，每一个线性的数组称为是一个轴（axis），也就是维度（dimensions）。比如说，二维数组相当于是两个一维数组，其中第一个一维数组中每个元素又是一个一维数组。所以一维数组就是 NumPy 中的轴（axis），第一个轴相当于是底层数组，第二个轴是底层数组里的数组。而轴的数量 — 秩，就是数组的维数。

很多时候可以声明 axis。axis=0，表示沿着第 0 轴进行操作，即对每一列进行操作；axis=1，表示沿着第1轴进行操作，即对每一行进行操作。

NumPy 的数组中比较重要 ndarray 对象属性有：

- ndarray.ndim 	  秩，即轴的数量或维度的数量
- ndarray.shape   数组的维度，对于矩阵，n 行 m 列
- ndarray.size 	  数组元素的总个数，相当于 .shape 中 n*m 的值
- ndarray.dtype   ndarray 对象的元素类型

In [63]:
stock_return = np.random.random(50)  # 假设有5个股票，各4天的收益率是20个随机数  np.random.random 用以产生随机数
print(stock_return)
#type(stock_return)

[0.67497884 0.74365826 0.11049645 0.34200921 0.83730297 0.16112518
 0.64456253 0.01897481 0.34397336 0.44400478 0.86530451 0.76648118
 0.79855579 0.52605236 0.17774474 0.57357227 0.47322626 0.08847508
 0.00541124 0.96392024 0.84684207 0.70142698 0.30215742 0.15778681
 0.14291563 0.18002984 0.47177526 0.16025584 0.15736658 0.17790203
 0.31703224 0.48100671 0.15708195 0.75356239 0.06672335 0.75341732
 0.84414594 0.18550314 0.25076828 0.46369581 0.21461733 0.63562547
 0.21568787 0.10165615 0.4766322  0.11563854 0.29620995 0.30480358
 0.23125344 0.62126829]


In [64]:
# 将数据调整成 4 * 5 的维度
stock_return = stock_return.reshape(10,5)
print(stock_return)
print('stock_return的维度是：')
print(stock_return.ndim)

[[0.67497884 0.74365826 0.11049645 0.34200921 0.83730297]
 [0.16112518 0.64456253 0.01897481 0.34397336 0.44400478]
 [0.86530451 0.76648118 0.79855579 0.52605236 0.17774474]
 [0.57357227 0.47322626 0.08847508 0.00541124 0.96392024]
 [0.84684207 0.70142698 0.30215742 0.15778681 0.14291563]
 [0.18002984 0.47177526 0.16025584 0.15736658 0.17790203]
 [0.31703224 0.48100671 0.15708195 0.75356239 0.06672335]
 [0.75341732 0.84414594 0.18550314 0.25076828 0.46369581]
 [0.21461733 0.63562547 0.21568787 0.10165615 0.4766322 ]
 [0.11563854 0.29620995 0.30480358 0.23125344 0.62126829]]
stock_return的维度是：
2


In [59]:
stock_return.shape  # 查看其维度

(4, 5)

In [60]:
stock_return.size # 查看其大小

20

#### 创建数组

- 创建全零或者全1的数组
- 创建一个index序列，通常在循环中需要使用
- 创建等差数列、等比数列

In [19]:
# 生成全零或者全一矩阵
zeros = np.zeros(5)
ones = np.ones((3,2), dtype = int)
print(ones)

[[1 1]
 [1 1]
 [1 1]]


In [30]:
# 将列表转成 array
ones = [1,2,3,4,5]
new_ones = np.asarray(ones)

new_ones

array([1, 2, 3, 4, 5])

In [38]:
x = np.arange(10,20,2)  
print (x)

x_list = [y for y in range(5)]
print(x_list)

for i in range(10):
    print(i)

[10 12 14 16 18]
[0, 1, 2, 3, 4]
0
1
2
3
4
5
6
7
8
9


In [39]:
# np.linspace(start, stop, num=50, dtype)
x = np.linspace(5, 20, num = 10, dtype = int)  
print (x)

[ 5  6  8 10 11 13 15 16 18 20]


In [40]:
# np.logspace 函数用于创建一个于等比数列, base 参数意思是取对数的时候 log 的下标
# np.logspace(start, stop, num=50, base=10.0, dtype=None)
x = np.logspace(0,9,10,base=2, dtype = int)
n =5
print (x[x>5])

[  8  16  32  64 128 256 512]


#### 数组的索引、切片和排序

- **索引和切片**
ndarray 数组可以基于 0 - n 的下标进行索引， 通常可以通过冒号分隔切片参数 start:stop:step 来进行切片操作

>冒号的解释：如果只放置一个参数，如 [2]，将返回与该索引相对应的单个元素。如果为 [2:]，表示从该索引开始以后的所有项都将被提取。如果使用了两个参数，如 [2:7]，那么则提取两个索引(不包括停止索引)之间的项。

>布尔索引：布尔索引通过布尔运算（如：比较运算符）来获取符合指定条件的元素的数组

- **排序**
NumPy 提供了多种排序的方法。 这些排序函数实现不同的排序算法

>numpy.sort() 函数返回输入数组的排序副本

>numpy.argsort() 函数返回的是数组值从小到大的索引值

>numpy.argmax() 和 numpy.argmin()函数分别沿给定轴返回最大和最小元素的索引

>numpy.where() 函数返回输入数组中满足给定条件的元素的索引

>numpy.extract() 函数根据某个条件从数组中抽取元素，返回满条件的元素。

In [41]:
# 索引和切片
a = np.arange(10)  
b = a[2:7:2]   # 从索引 2 开始到索引 7 停止，间隔为 2
c = a[3:] # 从索引 3 开始到结束
d = a[:-2]  # 从索引 0 开始到倒数第 2
print(d)

[0 1 2 3 4 5 6 7]


In [42]:
# 索引和切片
x = np.array([[  0,  1,  2],[  3,  4,  5],[  6,  7,  8],[  9,  10,  11]])  
# 现在我们会打印出大于 5 的元素  
print  ('大于 5 的元素是：')
print (x[x >  5])  # 布尔索引

大于 5 的元素是：
[ 6  7  8  9 10 11]


In [43]:
# 排序 np.sort
x = np.array([[3,7],[9,1]])  
print ('原始数组是：')
print (x)
print ('\n')
print ('按行排序：')
print (np.sort(x, axis = 1))
print ('\n')
print ('按列排序：')
print (np.sort(x))

原始数组是：
[[3 7]
 [9 1]]


按行排序：
[[3 7]
 [1 9]]


按列排序：
[[3 7]
 [1 9]]


In [44]:
# 排序 np.argsort

x = np.array([3,  1,  2])  
print ('原始数组是：')
print (x)
print ('\n')
print ('对 x 调用 argsort() 函数：')
y = np.argsort(x)  
print (y)
print ('\n')
print ('以排序后的顺序重构原数组：')
print (x[y])

原始数组是：
[3 1 2]


对 x 调用 argsort() 函数：
[1 2 0]


以排序后的顺序重构原数组：
[1 2 3]


In [45]:
#  numpy.argmax() 和 numpy.argmin()
x = np.array([[30,40,70],[80,20,10],[50,90,60]])  
print  ('原始数组是：') 
print (x) 
print ('\n') 
print ('调用 argmax() 函数：') 
print (np.argmax(x)) 
print ('\n') 
print ('展开数组：') 
print (x.flatten()) 
print ('\n') 
print ('沿轴 0 的最大值索引：') 
maxindex = np.argmax(x, axis =  0)  
print (maxindex) 
print ('\n') 
print ('沿轴 1 的最大值索引：') 
maxindex = np.argmax(x, axis =  1)  
print (maxindex) 
print ('\n') 
print ('调用 argmin() 函数：') 
minindex = np.argmin(x)  
print (minindex) 
print ('\n') 
print ('展开数组中的最小值：') 
print (x.flatten()[minindex]) 
print ('\n') 
print ('沿轴 0 的最小值索引：') 
minindex = np.argmin(x, axis =  0)  
print (minindex) 
print ('\n') 
print ('沿轴 1 的最小值索引：') 
minindex = np.argmin(x, axis =  1)  
print (minindex)

原始数组是：
[[30 40 70]
 [80 20 10]
 [50 90 60]]


调用 argmax() 函数：
7


展开数组：
[30 40 70 80 20 10 50 90 60]


沿轴 0 的最大值索引：
[1 2 0]


沿轴 1 的最大值索引：
[2 0 1]


调用 argmin() 函数：
5


展开数组中的最小值：
10


沿轴 0 的最小值索引：
[0 1 1]


沿轴 1 的最小值索引：
[0 2 0]


In [46]:
# numpy.where() 函数返回输入数组中满足给定条件的元素的索引

x = np.arange(9).reshape(3,  3)  
print ('原始数组是：')
print (x)
print ( '大于 3 的元素的索引：')
y = np.where(x >  3)  
print (y)
print ('使用这些索引来获取满足条件的元素：')
print (x[y])

# np.where(x) 输出的是5个判断为真的数的坐标，第一个array是横坐标，第二个array是纵坐标

y = np.where(x>3, x, 3)
print('如果数字大于3输出该数字，如果小于3则输出3')
print(y)

原始数组是：
[[0 1 2]
 [3 4 5]
 [6 7 8]]
大于 3 的元素的索引：
(array([1, 1, 2, 2, 2], dtype=int64), array([1, 2, 0, 1, 2], dtype=int64))
使用这些索引来获取满足条件的元素：
[4 5 6 7 8]
如果数字大于3输出该数字，如果小于3则输出3
[[3 3 3]
 [3 4 5]
 [6 7 8]]


In [47]:
# numpy.extract() 函数根据某个条件从数组中抽取元素，返回满条件的元素。

x = np.arange(9.).reshape(3,  3)  
print ('原始数组是：')
print (x)
# 定义条件, 选择偶数元素
condition = np.mod(x,2)  ==  0  
print ('按元素的条件值：')
print (condition)
print ('使用条件提取元素：')
print (np.extract(condition, x))

原始数组是：
[[0. 1. 2.]
 [3. 4. 5.]
 [6. 7. 8.]]
按元素的条件值：
[[ True False  True]
 [False  True False]
 [ True False  True]]
使用条件提取元素：
[0. 2. 4. 6. 8.]


#### 数组运算

- 求和运算
- 求极值运算
- 求均值
- 求方差和标准差

In [48]:
# 求5个股票收益率在N天中的和
stock_return.sum(axis = 0)

array([10.26400127,  9.16671573,  8.39926713, 10.37403751, 11.87001419])

In [50]:
# 求5个股票收益率在N天中的最大收益
stock_return.max(axis = 0)

array([0.99782003, 0.86303888, 0.830863  , 0.99724603, 0.92626506])

In [51]:
# 求N天中每天最大收益股票的收益值
stock_return.max(axis = 1)

array([0.99782003, 0.91972954, 0.65945356, 0.6173478 , 0.83526649,
       0.59777641, 0.99724603, 0.68908272, 0.73225915, 0.73732918,
       0.89416605, 0.86303888, 0.71402699, 0.98903386, 0.88161355,
       0.82696571, 0.80861432, 0.84794746, 0.64734693, 0.96265043])

In [52]:
# 求5个股票收益率在N天中的平均收益
stock_return.mean(axis = 0)

array([0.51320006, 0.45833579, 0.41996336, 0.51870188, 0.59350071])

In [53]:
# 求5个股票收益率在N天中的方差
print('方差')
stock_return.var(axis = 0)

方差


array([0.06111953, 0.05729788, 0.06141346, 0.10077193, 0.06787449])

In [55]:
# 求5个股票收益率在N天中的标准差
print('标准差')
stock_return.std(axis = 0)

标准差


array([0.24722365, 0.23936975, 0.24781739, 0.31744595, 0.26052733])

#### 矩阵操作

- 矩阵的对角线，行列式
- 矩阵相乘，矩阵的逆和特征值分解

In [67]:
# 求5个股票收益率在N天中的协方差矩阵
print('协方差矩阵')
np.corrcoef(stock_return.T)

协方差矩阵


array([[ 1.        ,  0.71169998,  0.46246506,  0.05583479, -0.01801459],
       [ 0.71169998,  1.        ,  0.23041479,  0.10558956, -0.11337707],
       [ 0.46246506,  0.23041479,  1.        ,  0.28671801, -0.39583237],
       [ 0.05583479,  0.10558956,  0.28671801,  1.        , -0.51279261],
       [-0.01801459, -0.11337707, -0.39583237, -0.51279261,  1.        ]])

In [69]:
# 对角线元素
stock_corr = np.corrcoef(stock_return.T)
np.diag(stock_corr)

array([1., 1., 1., 1., 1.])

In [70]:
# 计算行列式
import numpy.linalg as la
stock_corr = np.corrcoef(stock_return.T)
la.det(stock_corr)

0.20961763497989772

In [71]:
# 特征值分解 singular value decomposition
import numpy.linalg as la
stock_corr = np.corrcoef(stock_return.T)
la.eig(stock_corr)

(array([2.17724511, 1.45884805, 0.20161953, 0.47914389, 0.68314342]),
 array([[-0.5061784 , -0.47674729, -0.70321198, -0.14260177,  0.04065837],
        [-0.47258042, -0.43047502,  0.55522597,  0.24381764, -0.47290177],
        [-0.50395136,  0.10484992,  0.36892797, -0.16545308,  0.75601386],
        [-0.35314262,  0.52323824,  0.00202759, -0.63339142, -0.44757484],
        [ 0.37652954, -0.55011955,  0.2471944 , -0.70118349,  0.05320361]]))