#### Numpy

NumPy（Numerical Python）是Python的一种开源的数值计算扩展。这种工具可用来存储和处理大型矩阵，比Python自身的嵌套列表（nested list structure)结构要高效的多（该结构也可以用来表示矩阵**matrix**），支持大量的维度数组与矩阵运算，此外也针对数组运算提供大量的数学函数库. 

NumPy（Numeric Python）提供了许多高级的数值编程工具，如：**矩阵数据类型**、**矢量处理**，以及精密的运算库。专为进行严格的数字处理而产生。多为很多**大型金融公司**使用，以及核心的科学计算组织如：Lawrence Livermore，NASA用其处理一些本来使用C++，Fortran或Matlab等所做的任务。

NumPy 的前身为 Numeric，最早由 Jim Hugunin 与其它协作者共同开发，2005 年，Travis Oliphant 在 Numeric 中结合了另一个同性质的程序库 Numarray 的特色，并加入了其它扩展而开发了 NumPy。NumPy 为开放源代码并且由许多协作者共同维护开发。

#### Numpy 教程

- 官方教程 （英文） https://numpy.org/doc/stable/user/quickstart.html
- Numpy中文网  https://www.numpy.org.cn/
- Numpy 菜鸟教程 https://www.runoob.com/numpy/numpy-tutorial.html



In [82]:
import numpy as np   # 导入numpy模块
np.__version__

'1.19.1'

#### Numpy的数据结构

NumPy 数组的维数称为秩（rank），秩就是轴的数量，即数组的维度，一维数组的秩为 1，二维数组的秩为 2，以此类推。

在 NumPy中，每一个线性的数组称为是一个轴（axis），也就是维度（dimensions）。比如说，二维数组相当于是两个一维数组，其中第一个一维数组中每个元素又是一个一维数组。所以一维数组就是 NumPy 中的轴（axis），第一个轴相当于是底层数组，第二个轴是底层数组里的数组。而轴的数量 — 秩，就是数组的维数。

很多时候可以声明 axis。axis=0，表示沿着第 0 轴进行操作，即对每一列进行操作；axis=1，表示沿着第1轴进行操作，即对每一行进行操作。

NumPy 的数组中比较重要 ndarray 对象属性有：

- ndarray.ndim    秩，即轴的数量或维度的数量
- ndarray.shape   数组的维度，对于矩阵，n 行 m 列
- ndarray.size    数组元素的总个数，相当于 .shape 中 n*m 的值
- ndarray.dtype   ndarray 对象的元素类型

In [83]:
# 假设有5个股票的时间序列，时间序列的长度为4天，共为20个随机数  
# np.random.random 用以产生随机数（注意np.random与python自带random库的区别）
stock_return = np.random.random(20)  
print(stock_return)

[0.7391617  0.95235697 0.95015763 0.09278953 0.76356769 0.15642227
 0.03119094 0.88411982 0.04912428 0.69013711 0.04117794 0.16384529
 0.89736423 0.94011197 0.91033691 0.63165453 0.07979777 0.86245795
 0.37111322 0.86892033]


In [84]:
# 修改数组形状，将数据调整成 4 * 5 的维度
stock_return = stock_return.reshape(4,5)
print(stock_return)

[[0.7391617  0.95235697 0.95015763 0.09278953 0.76356769]
 [0.15642227 0.03119094 0.88411982 0.04912428 0.69013711]
 [0.04117794 0.16384529 0.89736423 0.94011197 0.91033691]
 [0.63165453 0.07979777 0.86245795 0.37111322 0.86892033]]


In [85]:
stock_return.ndim  # 查看秩，即轴的数量或维度的数量

2

In [86]:
stock_return.shape  # 查看数组的维度，对于矩阵，n 行 m 列

(4, 5)

In [87]:
stock_return.size  # 查看数组元素的总个数，相当于 .shape 中 n*m 的值

20

In [88]:
# transpose 函数用于对换数组的维度，即对数组进行转置
a = np.arange(12).reshape(3,4)

print ('原数组：')
print (a)
 
print ('对换数组：')
print (np.transpose(a))

原数组：
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
对换数组：
[[ 0  4  8]
 [ 1  5  9]
 [ 2  6 10]
 [ 3  7 11]]


#### 创建数组

- 创建全0或者全1的数组
- 从已有对象（列表、元组）创建数组
- 从数值范围创建数组（等差数列、等比数列）

In [89]:
# 生成全零或者全一矩阵
# 默认为浮点数
zeros = np.zeros(5)
print(zeros)

# 设置类型为整数
ones = np.ones([3,2], dtype = int)
print(ones)

[0. 0. 0. 0. 0.]
[[1 1]
 [1 1]
 [1 1]]


In [90]:
# 将list/tuple转成array，调用array/asarray函数即可
ones = [1,2,3,4,5]
print(type(ones))

ones1 = np.array(ones)
print(type(ones1))

ones = (1,2,3,4,5)
print(type(ones))

ones2 = np.asarray(ones)
print(type(ones2))

<class 'list'>
<class 'numpy.ndarray'>
<class 'tuple'>
<class 'numpy.ndarray'>


In [91]:
# 从数值范围创建数组,数组是一个等差数列构成的
# np.arange(start, stop, step, dtype)

x = np.arange(5)  
print (x)
x.dtype

[0 1 2 3 4]


dtype('int32')

In [92]:
# 设置dtype
x = np.arange(10,20,2,dtype =  float)  
print (x)
x.dtype

[10. 12. 14. 16. 18.]


dtype('float64')

In [93]:
# numpy.linspace 函数用于创建一个一维数组，数组是一个等差数列构成的。
# np.linspace(start, stop, num=50, dtype=None)
x = np.linspace(5, 20, num = 10, dtype = int)  
print (x)

[ 5  6  8 10 11 13 15 16 18 20]


In [94]:
# np.logspace 函数用于创建一个于等比数列, base 参数意思是取对数的时候 log 的底数
# np.logspace(start, stop, num=50, base=10.0, dtype=None)
x = np.logspace(0,9,10,base=2, dtype = int)
print (x)

[  1   2   4   8  16  32  64 128 256 512]


- 请大家练习：使用arange，linspace，logspace创建一维数组，使用random，ones，zeros创建矩阵。

#### 数组的索引、切片和排序

- **索引和切片**
ndarray对象的内容可以通过索引或切片来访问和修改，与 Python 中 list 的切片操作一样
ndarray 数组可以基于 0 - n 的下标进行索引， 可以通过冒号分隔切片参数 start:stop:step 来进行切片操作

>冒号的解释：如果只放置一个参数，如 [2]，将返回与该索引相对应的单个元素。如果为 [2:]，表示从该索引开始以后的所有项都将被提取。如果使用了两个参数，如 [2:7]，那么则提取两个索引(不包括停止索引)之间的项。

>布尔索引：布尔索引通过布尔运算（如：比较运算符）来获取符合指定条件的元素的数组

- **排序**
NumPy 提供了多种排序的方法。 这些排序函数实现不同的排序算法

>numpy.sort() 函数返回输入数组的排序副本

>numpy.argsort() 函数返回的是数组值从小到大的索引值

>numpy.argmax() 和 numpy.argmin()函数分别沿给定轴返回最大和最小元素的索引

>numpy.where() 函数返回输入数组中满足给定条件的元素的索引

>numpy.extract() 函数根据某个条件从数组中抽取元素，返回满条件的元素。

In [95]:
# 索引和切片（通过下标）
a = np.arange(10)  
print(a)
b = a[2:7:2]   # 从索引 2 开始到索引 7 停止，间隔为 2
print(b)
c = a[3:] # 从索引 3 开始到结束
print(c)
d = a[:-2]  # 从索引 0 开始到倒数第 2
print(d)

[0 1 2 3 4 5 6 7 8 9]
[2 4 6]
[3 4 5 6 7 8 9]
[0 1 2 3 4 5 6 7]


In [96]:
# 多维数组的索引提取方法
a = np.arange(30).reshape(-1,5)
print(a)
# 从某个索引处开始切割
print('从数组索引 a[1:] 处开始切割')
print(a[1:])
print('提取索引为[1,2]的元素')
print(a[1,2])
print(a[1][2])
print('提取某两行')
print(a[[1,2]])
print('提取某两列')
print(a[:,[1,2]])

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]
 [20 21 22 23 24]
 [25 26 27 28 29]]
从数组索引 a[1:] 处开始切割
[[ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]
 [20 21 22 23 24]
 [25 26 27 28 29]]
提取索引为[1,2]的元素
7
7
提取某两行
[[ 5  6  7  8  9]
 [10 11 12 13 14]]
提取某两列
[[ 1  2]
 [ 6  7]
 [11 12]
 [16 17]
 [21 22]
 [26 27]]


In [97]:
# 布尔索引通过布尔运算（如：比较运算符）来获取符合指定条件的元素的数组。
# 以下实例获取大于 5 的元素：
x = np.array([[  0,  1,  2],[  3,  4,  5],[  6,  7,  8],[  9,  10,  11]])  
print ('我们的数组是：')
print (x)
# 现在我们会打印出大于 5 的元素  
print  ('大于 5 的元素是：')
print (x[x >  5])  # 布尔索引

我们的数组是：
[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]
大于 5 的元素是：
[ 6  7  8  9 10 11]


In [98]:
# 排序 np.sort
# numpy.sort(a, axis, kind, order)
x = np.array([[3,7],[9,1]])  
print ('原始数组是：')
print (x)
print ('按行排序：')
print (np.sort(x, axis = 1))
print ('按列排序：')
print (np.sort(x, axis = 0))

原始数组是：
[[3 7]
 [9 1]]
按行排序：
[[3 7]
 [1 9]]
按列排序：
[[3 1]
 [9 7]]


In [99]:
# 排序 np.argsort
# numpy.argsort() 函数返回的是数组值从小到大的索引值。
x = np.array([3,  1,  2])  
print ('原始数组是：')
print (x)
print ('对 x 调用 argsort() 函数：')
y = np.argsort(x)  
print (y)
print ('以排序后的顺序重构原数组：')
print (x[y])

原始数组是：
[3 1 2]
对 x 调用 argsort() 函数：
[1 2 0]
以排序后的顺序重构原数组：
[1 2 3]


In [100]:
#  numpy.argmax() 和 numpy.argmin()分别沿给定轴返回最大和最小元素的索引。
x = np.array([[30,40,70],[80,20,10],[50,90,60]])  
print  ('原始数组是：') 
print (x) 
print ('调用 argmax() 函数：') 
print (np.argmax(x)) 
print ('沿轴 0 的最大值索引：') 
maxindex = np.argmax(x, axis =  0)  
print (maxindex) 
print ('沿轴 1 的最大值索引：') 
maxindex = np.argmax(x, axis =  1)  
print (maxindex) 
print ('调用 argmin() 函数：') 
minindex = np.argmin(x)  
print (minindex) 
print ('沿轴 0 的最小值索引：') 
minindex = np.argmin(x, axis =  0)  
print (minindex) 
print ('沿轴 1 的最小值索引：') 
minindex = np.argmin(x, axis =  1)  
print (minindex)

原始数组是：
[[30 40 70]
 [80 20 10]
 [50 90 60]]
调用 argmax() 函数：
7
沿轴 0 的最大值索引：
[1 2 0]
沿轴 1 的最大值索引：
[2 0 1]
调用 argmin() 函数：
5
沿轴 0 的最小值索引：
[0 1 1]
沿轴 1 的最小值索引：
[0 2 0]


In [101]:
# numpy.where() 函数返回输入数组中满足给定条件的元素的索引

x = np.arange(9).reshape(3,  3)  
print ('原始数组是：')
print (x)
print ( '大于 3 的元素的索引：')
# np.where(condition) 输出的是判断condition为真的元素的坐标，第一个array是横坐标，第二个array是纵坐标
y = np.where(x >  3)  
print (y)
print ('使用这些索引来获取满足条件的元素：')
print (x[y])
# np.where(condition, x, y) 满足条件(condition)，输出x，不满足输出y
y = np.where(x>3, x, 3)
print('如果数字大于3输出该数字，如果小于3则输出3')
print(y)

原始数组是：
[[0 1 2]
 [3 4 5]
 [6 7 8]]
大于 3 的元素的索引：
(array([1, 1, 2, 2, 2], dtype=int64), array([1, 2, 0, 1, 2], dtype=int64))
使用这些索引来获取满足条件的元素：
[4 5 6 7 8]
如果数字大于3输出该数字，如果小于3则输出3
[[3 3 3]
 [3 4 5]
 [6 7 8]]


In [102]:
# numpy.extract() 函数根据某个条件从数组中抽取元素，返回满条件的元素。

x = np.arange(9.).reshape(3,  3)  
print ('原始数组是：')
print (x)
# 定义条件，选择偶数元素
condition = np.mod(x,2)  ==  0  
print ('按元素的条件值：')
print (condition)
print ('使用条件提取元素：')
print (np.extract(condition, x))

原始数组是：
[[0. 1. 2.]
 [3. 4. 5.]
 [6. 7. 8.]]
按元素的条件值：
[[ True False  True]
 [False  True False]
 [ True False  True]]
使用条件提取元素：
[0. 2. 4. 6. 8.]


- 请大家练习：使用sort和argsort函数分别返回生成的二维数组在不同方向上排序后的元素值和索引值。

#### 数组运算

- 求和、求积运算
- 求极值运算
- 求均值
- 求方差和标准差

In [103]:
# 求5个股票收益率在4天中的和
stock_return.sum(axis = 0)

array([1.56841645, 1.22719097, 3.59409962, 1.45313899, 3.23296204])

In [104]:
# 求5个股票收益率在4天中的乘积
stock_return.prod(axis = 0)

array([3.00733851e-03, 3.88376529e-04, 6.50149851e-01, 1.59030784e-03,
       4.16835822e-01])

In [105]:
# 求5个股票收益率在4天中的最大收益
stock_return.max(axis = 0)

array([0.7391617 , 0.95235697, 0.95015763, 0.94011197, 0.91033691])

In [106]:
# 求4天中每天最大收益股票的收益值
stock_return.max(axis = 1)

array([0.95235697, 0.88411982, 0.94011197, 0.86892033])

In [107]:
# 求5个股票收益率在4天中的平均收益
print('均值：')
stock_return.mean(axis = 0)

均值：


array([0.39210411, 0.30679774, 0.89852491, 0.36328475, 0.80824051])

In [108]:
# 求5个股票收益率在4天中的方差和标准差
print('方差：')
stock_return.var(axis = 0)

方差：


array([0.08913212, 0.14116755, 0.0010439 , 0.12616385, 0.00751245])

In [109]:
# 求5个股票收益率在4天中的方差和标准差
print('标准差：')
stock_return.std(axis = 0)

标准差：


array([0.29855003, 0.37572271, 0.03230951, 0.35519551, 0.08667438])

#### 矩阵操作

- 相关系数矩阵和对角线元素
- 矩阵的对角线，行列式和特征值分解

In [110]:
# 求5个股票收益率在4天中的相关系数矩阵
print('相关系数矩阵：')
print(np.corrcoef(stock_return))

相关系数矩阵：
[[ 1.          0.4450981  -0.38558319  0.19130126]
 [ 0.4450981   1.          0.57648417  0.86084969]
 [-0.38558319  0.57648417  1.          0.48001842]
 [ 0.19130126  0.86084969  0.48001842  1.        ]]


In [111]:
# 提取对角线元素
stock_corr = np.corrcoef(stock_return)
print('对角线元素：')
print(np.diag(stock_corr))

对角线元素：
[1. 1. 1. 1.]


In [112]:
# 计算行列式
import numpy.linalg as la
stock_corr = np.corrcoef(stock_return)
print('行列式：')
print(la.det(stock_corr))

行列式：
0.003057710611029972


In [113]:
# 特征值分解 singular value decomposition
import numpy.linalg as la
stock_corr = np.corrcoef(stock_return)
w, v = la.eig(stock_corr)
print('特征值：')
print(w)
print('特征向量：')
print(v)
print('特征值：')
print(la.eigvals(stock_corr))

特征值：
[2.32798688 1.36467546 0.00316421 0.30417345]
特征向量：
[[ 0.17200155  0.80591936  0.41901573 -0.38122864]
 [ 0.64073913  0.15233875 -0.72828363 -0.18933893]
 [ 0.44550408 -0.5712813   0.41545666 -0.55005414]
 [ 0.60116133  0.03040677  0.34846025  0.71850953]]
特征值：
[2.32798688 1.36467546 0.00316421 0.30417345]


- 请大家完成testNumpy中的习题