### Numpy

NumPy(Numerical Python) 是 Python 语言的一个扩展程序库，支持大量的维度数组与矩阵运算，此外也针对数组运算提供大量的数学函数库。

NumPy 的前身 Numeric 最早是由 Jim Hugunin 与其它协作者共同开发，2005 年，Travis Oliphant 在 Numeric 中结合了另一个同性质的程序库 Numarray 的特色，并加入了其它扩展而开发了 NumPy。NumPy 为开放源代码并且由许多协作者共同维护开发。

NumPy 是一个运行速度非常快的数学库，主要用于数组计算，包含：
- 一个强大的N维数组对象 ndarray
- 广播功能函数
- 整合 C/C++/Fortran 代码的工具
- 线性代数、傅里叶变换、随机数生成等功能

#### Numpy 教程

- 官方教程 （英文） https://numpy.org/doc/stable/user/quickstart.html
- Numpy中文网  https://www.numpy.org.cn/
- Numpy 菜鸟教程 https://www.runoob.com/numpy/numpy-tutorial.html

#### Numpy的引用

In [1]:
import numpy as np   # 导入numpy模块
np.__version__

'1.19.2'

#### Numpy的Ndarray对象

>Python已有列表类型，为什么需要一个数组对象(类型)？

    数组对象可以去掉元素间运算所需的循环，使一维向量更像单个数据
    设置专门的数组对象，经过优化，可以提升这类应用的运算速度
    数组对象采用相同的数据类型，有助于节省运算和存储空间

N维数组对象——ndarray，是一系列**同类型数据**的集合，以**0为开始下标**进行集合中元素的索引。

创建一个ndarray对象，可以调用numpy的array函数：  
`numpy.array(object, dtype = None, copy = True, order = None, subok = False, ndmin = 0)`  
object：通常为list或tuple  
dtype：数组元素的数据类型，可选  
copy：对象是否需要复制，可选  


#### 数组的属性

轴(axis): 保存数据的维度；秩(rank)：轴的数量。  
很多时候可以声明 axis。axis=0，表示沿着第0轴进行操作，即对每一列进行操作；axis=1，表示沿着第1轴进行操作，即对每一行进行操作。

比较重要的ndarray对象属性有：
```
ndarray.ndim：秩，即轴的数量或维度的数量
ndarray.shape：数组的维度，对于矩阵，n行m列
ndarray.size：数组元素的总个数，相当于 .shape 中 n*m的值
ndarray.dtype：ndarray对象的元素类型
```

In [56]:
import numpy as np
# 创建数组
a = np.array(range(20))
# 修改数组形状，将数据调整成 4 * 5 的维度
a = a.reshape(4,5)
print(a)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]]


In [57]:
a.ndim  # 查看秩，即轴的数量或维度的数量

2

In [58]:
a.shape  # 查看数组的维度，对于矩阵，n 行 m 列

(4, 5)

In [59]:
a.size  # 查看数组元素的总个数，相当于 .shape 中 n*m 的值

20

#### 数组的创建

- 从Python中的列表、元组等类型创建ndarray数组：`np.array(list/tuple)`
- 使用NumPy中的函数创建ndarray数组
    - 创建特定的数组  
    ```
    np.zeros(shape)：根据shape生成一个全0数组  
    np.ones(shape)：根据shape生成一个全1数组  
    np.full(shape, val)：根据shape生成一个数组，每个元素值都是val  
    np.eye(n)：创建一个n*n单位矩阵，对角线为1，其余为0
    ```
    - 从数值范围创建数组（等差数列、等比数列）  
    ```
    np.arange(start=起始值(默认为0), stop=终止值(不包含), step=步长(默认为1), dtype)
    np.linspace(start, stop, num=样本数量)：
    np.logspace(start, stop, num=样本数量, base=对数log的底数)：
    ```
    - 从已有数组对象创建数组
    ```
    np.concatenate()：将两个或多个数组合并成一个新的数组
    
    ```

In [47]:
# 生成全零或者全一矩阵
# 默认为浮点数
zeros = np.zeros(5)
print(zeros)

# 设置类型为整数
ones = np.ones([3,2], dtype = int)
print(ones)

[0. 0. 0. 0. 0.]
[[1 1]
 [1 1]
 [1 1]]


In [48]:
# 将list/tuple转成ndarray，调用array/asarray函数即可
ones = [1,2,3,4,5]
print(type(ones))

ones1 = np.array(ones)
print(type(ones1))

ones = (1,2,3,4,5)
print(type(ones))

ones2 = np.asarray(ones)
print(type(ones2))

<class 'list'>
<class 'numpy.ndarray'>
<class 'tuple'>
<class 'numpy.ndarray'>


In [49]:
# 从数值范围创建数组,数组是一个等差数列构成的
# np.arange(start, stop, step, dtype)

x = np.arange(5)  
print (x)
x.dtype

[0 1 2 3 4]


dtype('int32')

In [50]:
# 设置dtype
x = np.arange(10, 20, 2, dtype = float)  
print(x)
x.dtype

[10. 12. 14. 16. 18.]


dtype('float64')

In [51]:
# numpy.linspace 函数用于创建一个一维数组，数组是一个等差数列构成的。
# np.linspace(start, stop, num=50, dtype=None)
x = np.linspace(5, 20, num = 10, dtype = int)  
print(x)
x.dtype

[ 5  6  8 10 11 13 15 16 18 20]


dtype('int32')

In [52]:
# np.logspace 函数用于创建一个于等比数列, base 参数意思是取对数的时候 log 的底数
# np.logspace(start, stop, num=50, base=10.0, dtype=None)
x = np.logspace(0, 9, num = 5, base=2, dtype = float)
print(x)
x.dtype

[  1.           4.75682846  22.627417   107.63474115 512.        ]


dtype('float64')

**Exercise：**

    自行练习并掌握np.concatenate()函数的用法。例如：任意选择上面的两种创建数组的方法创建数组并连接它们，注意被连接的数组的维度对连接结果的影响。

#### 一些常用的数组操作

ndarray数组的维度变换：
```
.reshape(shape)：不改变数组元素，返回一个shape形状的数组，原数组不变  
.flatten()：对数组进行降维，返回展开后的一维数组，原数组不变  
.transpose()/.T：转置，对换数组的维度
```
ndarray数组的类型变换：
`new_a = a.astype(new_type)`

ndarray数组向列表的转换：
`ls = a.tolist()`

In [60]:
a = np.arange(30)
print('原数组')
print(a)
a = np.arange(30).reshape(-1,5) # -1表示该轴上的数值未知，此处与reshape(6,5)同
print('修改数组形状')
print(a)
print('转置数组')
print(a.T)
print('展开为一维数组')
print(a.flatten())

原数组
[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29]
修改数组形状
[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]
 [20 21 22 23 24]
 [25 26 27 28 29]]
转置数组
[[ 0  5 10 15 20 25]
 [ 1  6 11 16 21 26]
 [ 2  7 12 17 22 27]
 [ 3  8 13 18 23 28]
 [ 4  9 14 19 24 29]]
展开为一维数组
[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29]


In [63]:
a = [1,2,3]
print('a的类型：')
print(type(a))
b = np.asarray(a)
print('由列表a生成的数组b：')
print(type(b))
print('将数组b转化为列表：')
print(type(b.tolist())) # 将数组转换为列表
print('b中元素的数据类型为：')
print(b.dtype)
print('修改b中元素的数据类型：')
c = b.astype(float) # 转换数组中元素的数据类型
print(c.dtype)

a的类型：
<class 'list'>
由列表a生成的数组b：
<class 'numpy.ndarray'>
将数组b转化为列表：
<class 'list'>
b中元素的数据类型为：
int32
修改b中元素的数据类型：
float64


#### 数组的索引和切片

ndarray对象的内容可以通过索引或切片来访问和修改，与Python中list的切片操作一样。
- 索引：获取数组中特定位置元素的过程。ndarray数组基于0 - n的下标进行索引
    - 布尔索引：布尔索引通过布尔运算（如：比较运算符）来获取符合指定条件的元素
- 切片：获取数组元素子集的过程。ndarray数组通过冒号分隔切片参数 start: stop: step 来进行切片操作  
    >冒号的解释：如果只放置一个参数，如 [2]，将返回与该索引相对应的单个元素。如果为 [2:]，表示从该索引开始以后的所有项都将被提取。如果使用了两个参数，如 [2:7]，那么则提取两个索引(不包括停止索引)之间的项。


In [95]:
# 索引和切片（通过下标）
a = np.arange(10)  
print(a)
b = a[2:7:2]   # 从索引 2 开始到索引 7 停止，间隔为 2
print(b)
c = a[3:] # 从索引 3 开始到结束
print(c)
d = a[:-2]  # 从索引 0 开始到倒数第 2
print(d)

[0 1 2 3 4 5 6 7 8 9]
[2 4 6]
[3 4 5 6 7 8 9]
[0 1 2 3 4 5 6 7]


In [28]:
# 多维数组的索引提取方法
a = np.arange(30).reshape(-1,5)
print(a)
# 从某个索引处开始切割
print('从数组索引 a[1:] 处开始切割')
print(a[1:])
print('提取索引为[1,2]的元素')
print(a[1,2])
print(a[1][2])
print('提取某两行')
print(a[[1,2]])
print('提取某两列')
print(a[:,[1,2]])

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]
 [20 21 22 23 24]
 [25 26 27 28 29]]
从数组索引 a[1:] 处开始切割
[[ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]
 [20 21 22 23 24]
 [25 26 27 28 29]]
提取索引为[1,2]的元素
7
7
提取某两行
[[ 5  6  7  8  9]
 [10 11 12 13 14]]
提取某两列
[[ 1  2]
 [ 6  7]
 [11 12]
 [16 17]
 [21 22]
 [26 27]]


In [97]:
# 布尔索引通过布尔运算（如：比较运算符）来获取符合指定条件的元素的数组。
# 以下实例获取大于 5 的元素：
x = np.array([[  0,  1,  2],[  3,  4,  5],[  6,  7,  8],[  9,  10,  11]])  
print ('我们的数组是：')
print (x)
# 现在我们会打印出大于 5 的元素  
print  ('大于 5 的元素是：')
print (x[x >  5])  # 布尔索引

我们的数组是：
[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]
大于 5 的元素是：
[ 6  7  8  9 10 11]


#### 数组的排序和条件筛选
- 排序
    - numpy.sort() 函数返回输入数组的排序副本  
    `numpy.sort(a, axis, kind, order)`
    - numpy.argsort() 函数返回的是数组值从小到大的索引值  
    - numpy.argmax() 和 numpy.argmin()函数分别沿给定轴返回最大和最小元素的索引
- 条件筛选
    - numpy.where() 函数返回输入数组中满足给定条件的元素的索引
    - numpy.extract() 函数根据某个条件从数组中抽取元素，返回满足条件的元素。

In [98]:
# 排序 np.sort
# numpy.sort(a, axis, kind, order)
x = np.array([[3,7],[9,1]])  
print ('原始数组是：')
print (x)
print ('按行排序：')
print (np.sort(x, axis = 1))
print ('按列排序：')
print (np.sort(x, axis = 0))

原始数组是：
[[3 7]
 [9 1]]
按行排序：
[[3 7]
 [1 9]]
按列排序：
[[3 1]
 [9 7]]


In [99]:
# 排序 np.argsort
# numpy.argsort() 函数返回的是数组值从小到大的索引值。
x = np.array([3,  1,  2])  
print ('原始数组是：')
print (x)
print ('对 x 调用 argsort() 函数：')
y = np.argsort(x)  
print (y)
print ('以排序后的顺序重构原数组：')
print (x[y])

原始数组是：
[3 1 2]
对 x 调用 argsort() 函数：
[1 2 0]
以排序后的顺序重构原数组：
[1 2 3]


In [100]:
#  numpy.argmax() 和 numpy.argmin()分别沿给定轴返回最大和最小元素的索引。
x = np.array([[30,40,70],[80,20,10],[50,90,60]])  
print  ('原始数组是：') 
print (x) 
print ('调用 argmax() 函数：') 
print (np.argmax(x)) 
print ('沿轴 0 的最大值索引：') 
maxindex = np.argmax(x, axis =  0)  
print (maxindex) 
print ('沿轴 1 的最大值索引：') 
maxindex = np.argmax(x, axis =  1)  
print (maxindex) 
print ('调用 argmin() 函数：') 
minindex = np.argmin(x)  
print (minindex) 
print ('沿轴 0 的最小值索引：') 
minindex = np.argmin(x, axis =  0)  
print (minindex) 
print ('沿轴 1 的最小值索引：') 
minindex = np.argmin(x, axis =  1)  
print (minindex)

原始数组是：
[[30 40 70]
 [80 20 10]
 [50 90 60]]
调用 argmax() 函数：
7
沿轴 0 的最大值索引：
[1 2 0]
沿轴 1 的最大值索引：
[2 0 1]
调用 argmin() 函数：
5
沿轴 0 的最小值索引：
[0 1 1]
沿轴 1 的最小值索引：
[0 2 0]


In [101]:
# numpy.where() 函数返回输入数组中满足给定条件的元素的索引

x = np.arange(9).reshape(3,  3)  
print ('原始数组是：')
print (x)
print ( '大于 3 的元素的索引：')
# np.where(condition) 输出的是判断condition为真的元素的坐标，第一个array是横坐标，第二个array是纵坐标
y = np.where(x >  3)  
print (y)
print ('使用这些索引来获取满足条件的元素：')
print (x[y])
# np.where(condition, x, y) 满足条件(condition)，输出x，不满足输出y
y = np.where(x>3, x, 3)
print('如果数字大于3输出该数字，如果小于3则输出3')
print(y)

原始数组是：
[[0 1 2]
 [3 4 5]
 [6 7 8]]
大于 3 的元素的索引：
(array([1, 1, 2, 2, 2], dtype=int64), array([1, 2, 0, 1, 2], dtype=int64))
使用这些索引来获取满足条件的元素：
[4 5 6 7 8]
如果数字大于3输出该数字，如果小于3则输出3
[[3 3 3]
 [3 4 5]
 [6 7 8]]


In [102]:
# numpy.extract() 函数根据某个条件从数组中抽取元素，返回满条件的元素。

x = np.arange(9.).reshape(3,  3)  
print ('原始数组是：')
print (x)
# 定义条件，选择偶数元素
condition = np.mod(x,2)  ==  0  
print ('按元素的条件值：')
print (condition)
print ('使用条件提取元素：')
print (np.extract(condition, x))

原始数组是：
[[0. 1. 2.]
 [3. 4. 5.]
 [6. 7. 8.]]
按元素的条件值：
[[ True False  True]
 [False  True False]
 [ True False  True]]
使用条件提取元素：
[0. 2. 4. 6. 8.]


**Exercise：**

    请大家利用前面所述的内容，练习：
    - 生成二维数组
    - 利用切片方法提取特定位置的元素
    - 返回这些数组在不同方向上排序后的元素值和索引值。
    - 进行条件筛选

#### 数组的运算
|函数|说明|
| -- | -- |
|+ ‐ * / ** | 两个数组中对应元素进行加，减，乘，除，指数运算 |
| np.mod() np.fmod() | 模运算，二者处理负数的方式不同 |
| np.reciprocal() | 返回数组中元素的倒数 |
| > < >= <= == != | 算术比较，产生布尔型数组 |


In [84]:
import numpy as np 
 
a = np.arange(9, dtype = np.float).reshape(3,3)  
print ('第一个数组：')
print (a)
print ('\n')
print ('第二个数组：')
b = np.array([10,10,10])  
print (b)
print ('\n')
print ('两个数组相加：')
print (np.add(a,b)) # +
print ('\n')
print ('两个数组相减：')
print (np.subtract(a,b)) # -
print ('\n')
print ('两个数组相乘：')
print (np.multiply(a,b)) # *
print ('\n')
print ('两个数组相除：')
print (np.divide(a,b)) # /

第一个数组：
[[0. 1. 2.]
 [3. 4. 5.]
 [6. 7. 8.]]


第二个数组：
[10 10 10]


两个数组相加：
[[10. 11. 12.]
 [13. 14. 15.]
 [16. 17. 18.]]


两个数组相减：
[[-10.  -9.  -8.]
 [ -7.  -6.  -5.]
 [ -4.  -3.  -2.]]


两个数组相乘：
[[ 0. 10. 20.]
 [30. 40. 50.]
 [60. 70. 80.]]


两个数组相除：
[[0.  0.1 0.2]
 [0.3 0.4 0.5]
 [0.6 0.7 0.8]]


In [88]:
import numpy as np 

# .power()等同于**
a = np.array([10,100,1000])  
print ('我们的数组是；')
print (a)
print ('\n') 
print ('调用 power 函数：')
print (np.power(a,2))
print (a**2)
print ('\n')
print ('第二个数组：')
b = np.array([1,2,3])  
print (b)
print ('\n')
print ('调用 power 函数：')
print (np.power(a,b))
print (a**b)

我们的数组是；
[  10  100 1000]


调用 power 函数：
[    100   10000 1000000]
[    100   10000 1000000]


第二个数组：
[1 2 3]


调用 power 函数：
[        10      10000 1000000000]
[        10      10000 1000000000]


In [91]:
import numpy as np
 
a = np.array([-10,20,-30]) 
b = np.array([3,5,7])  
print ('第一个数组：')
print (a)
print ('第二个数组：')
print (b)
print ('调用 mod() 函数：')
print (np.mod(a,b))
print ('调用 fmod() 函数：')
print (np.fmod(a,b))

第一个数组：
[-10  20 -30]
第二个数组：
[3 5 7]
调用 mod() 函数：
[2 0 5]
调用 fmod() 函数：
[-1  0 -2]


In [92]:
a = np.array([0.25,  1.33,  1,  100])  
print ('我们的数组是：')
print (a)
print ('调用 reciprocal 函数：')
print (np.reciprocal(a))

我们的数组是：
[  0.25   1.33   1.   100.  ]
调用 reciprocal 函数：
[4.        0.7518797 1.        0.01     ]


#### Numpy中的统计函数
| 函数 | 说明 |
| ----  | ---- |
| sum(a, axis=None) | 根据给定轴axis计算数组a相关元素之和 |
| mean(a, axis=None) | 根据给定轴axis计算数组a相关元素的期望 |
| average(a,axis=None,weights=None) | 根据给定轴axis计算数组a相关元素的加权平均值 |
| std(a, axis=None) | 根据给定轴axis计算数组a相关元素的标准差 |
| var(a, axis=None) | 根据给定轴axis计算数组a相关元素的方差 |
| min(a) max(a) | 计算数组a中元素的最小值、最大值 |

In [65]:
# 假设有5个股票的时间序列，时间序列的长度为4天，共为20个随机数  
# np.random.random 用以产生随机数（注意np.random与python自带random库的区别）
stock_return = np.random.random(20).reshape(4,5)  
print(stock_return)

[[0.44769478 0.27564407 0.72485823 0.6529637  0.48678569]
 [0.52850158 0.48934174 0.4387976  0.95523601 0.55784119]
 [0.64129849 0.46584572 0.34560508 0.4662815  0.92167153]
 [0.40552355 0.014046   0.41605365 0.12612868 0.2339359 ]]


In [66]:
# 求5个股票收益率在4天中的和
stock_return.sum(axis = 0)

array([2.0230184 , 1.24487752, 1.92531457, 2.20060989, 2.20023431])

In [67]:
# 求5个股票收益率在4天中的乘积
stock_return.prod(axis = 0)

array([0.06153251, 0.00088258, 0.0457348 , 0.03668274, 0.05854926])

In [68]:
# 求5个股票收益率在4天中的最大收益
stock_return.max(axis = 0)

array([0.64129849, 0.48934174, 0.72485823, 0.95523601, 0.92167153])

In [69]:
# 求4天中每天最小收益股票的收益值
stock_return.min(axis = 1)

array([0.27564407, 0.4387976 , 0.34560508, 0.014046  ])

In [70]:
# 求5个股票收益率在4天中的平均收益
print('均值：')
stock_return.mean(axis = 0)

均值：


array([0.5057546 , 0.31121938, 0.48132864, 0.55015247, 0.55005858])

In [71]:
# 求5个股票收益率在4天中的方差和标准差
print('方差：')
stock_return.var(axis = 0)

方差：


array([0.00807669, 0.03630362, 0.02094931, 0.09037333, 0.06052344])

In [72]:
# 求5个股票收益率在4天中的方差和标准差
print('标准差：')
stock_return.std(axis = 0)

标准差：


array([0.08987043, 0.1905351 , 0.14473878, 0.30062158, 0.24601512])

#### Numpy 线性代数
NumPy 提供了线性代数函数库 linalg，该库包含了线性代数所需的所有功能

- 相关系数矩阵和对角线元素
- 矩阵的逆矩阵，行列式和特征值分解

In [94]:
# 求5个股票收益率在4天中的相关系数矩阵
print('相关系数矩阵：')
print(np.corrcoef(stock_return))

相关系数矩阵：
[[ 1.          0.32560122 -0.3222009   0.51886409]
 [ 0.32560122  1.         -0.04924375 -0.38293844]
 [-0.3222009  -0.04924375  1.          0.03508507]
 [ 0.51886409 -0.38293844  0.03508507  1.        ]]


In [95]:
# 提取对角线元素
stock_corr = np.corrcoef(stock_return)
print('对角线元素：')
print(np.diag(stock_corr))

对角线元素：
[1. 1. 1. 1.]


In [96]:
# 计算行列式
import numpy.linalg as la
stock_corr = np.corrcoef(stock_return)
print('行列式：')
print(la.det(stock_corr))

行列式：
0.26126445438314755


In [97]:
# 矩阵求逆
import numpy.linalg as la
stock_corr = np.corrcoef(stock_return)
print('逆矩阵：')
print(la.inv(stock_corr))

逆矩阵：
[[ 3.25733352 -1.95763138  1.03999424 -2.47625398]
 [-1.95763138  2.35012731 -0.58295154  1.93615161]
 [ 1.03999424 -0.58295154  1.33478809 -0.80968136]
 [-2.47625398  1.93615161 -0.80968136  3.05467389]]


In [98]:
# 特征值分解 singular value decomposition
import numpy.linalg as la
stock_corr = np.corrcoef(stock_return)
w, v = la.eig(stock_corr)
print('特征值：')
print(w)
print('特征向量：')
print(v)
print('特征值：')
print(la.eigvals(stock_corr))

特征值：
[0.13285107 0.89630421 1.59660857 1.37423614]
特征向量：
[[-0.61403009  0.22682751  0.72967532 -0.19771255]
 [ 0.47710155  0.43980294  0.05922497 -0.75857754]
 [-0.22481559  0.84485843 -0.36513208  0.31992303]
 [ 0.58719598  0.20331474  0.57510424  0.53208938]]
特征值：
[0.13285107 0.89630421 1.59660857 1.37423614]
