## Numpy 常用函数
-  本章涵盖以下内容：
    -   数组相关的函数；
    -   从文件中载入数据；
      
    - 将数组写入文件；
      
    - 简单的数学和统计分析函数。




# 文件的读写
- (1) 单位矩阵，即主对角线上的元素均为1，其余元素均为0的正方形矩阵。在NumPy中可以
    用 eye 函数创建一个这样的二维数组，我们只需要给定一个参数，用于指定矩阵中1的元素个  数。
    例如，创建2×2的数组：

In [1]:
# 单位矩阵的创建方法

import numpy as np
i2 = np.eye(2)
print(i2)

[[1. 0.]
 [0. 1.]]


In [2]:
# 数据储存到文件 用savetxt函数，我们需要指定文件名以及要保存的数组
# 默认储存在当前路径

np.savetxt("单位矩阵.txt",i2)



### 3.3 CSV 文件


- CSV（Comma-Separated Value，逗号分隔值）格式是一种常见的文件格式。通常，数据库的
转存文件就是CSV格式的，文件中的各个字段对应于数据库表中的列。众所周知，电子表格软件
（如Microsoft Excel）可以处理CSV文件。

- CSV文件的读取以及处理
  *  NumPy中的 loadtxt 函数可以方便地读取CSV文件，自动切分字段，并将数据载入NumPy数组
  *  usecols 的参数为一个元组，以获取第7字段至第8字段的数据，也就是股票的收盘价和成交量数据。 unpack 参数设置为 True ，意思是分拆存储不同列的数据，即分别将收盘价和成交量的数组赋值给变量 c 和 v 。

In [3]:
# 我们应该如何处理CSV文件呢？幸运的是，NumPy中的 loadtxt 函数可以方便地读取CSV
# 文件，自动切分字段，并将数据载入NumPy数组。下面，我们以载入苹果公司的历史股价数据为
# 例展开叙述。股价数据存储在CSV文件中，第一列为股票代码以标识股票（苹果公司股票代码为
# AAPL ），第二列为dd-mm-yyyy格式的日期，第三列为空，随后各列依次是开盘价、最高价、最低
# 价和收盘价，最后一列为当日的成交量。下面为一行数据：

import numpy as np
c,v=np.loadtxt('data.csv', delimiter=',', usecols=(6,7), unpack=True)
vwap = np.average(c, weights=v)
print ("VWAP =", vwap)

# CSV文件是一种经常用于数据处理的文件格式。我们用 loadtxt 函数读取了一个包含股价数据
# 的CSV文件，用 delimiter 参数指定了文件中的分隔符为英文逗号，用 usecols 中的参数指定了我
# 们感兴趣的数据列，并将 unpack 参数设置为 True 使得不同列的数据分开存储，以便随后使用。

VWAP = 350.5895493532009


In [5]:
# 成交量加权平均价格（VWAP）
# VWAP（Volume-Weighted Average Price，成交量加权平均价格）是一个非常重要的经济学量，
# 它代表着金融资产的“平均”价格。某个价格的成交量越高，该价格所占的权重就越大。VWAP
# 就是以成交量为权重计算出来的加权平均值，常用于算法交易。

#  1  将数据读入数组

#  2   计算VWAP

import numpy as np
c,v=np.loadtxt('data.csv', delimiter=',', usecols=(6,7), unpack=True)
vwap = np.average(c, weights=v)
print("VWAP =", vwap)

# 算数平均值
print("mean = ",np.mean(c))

VWAP = 350.5895493532009
mean =  351.0376666666667


### 3.6.1 算术平均值函数
    NumPy中的 mean 函数很友好，一点儿也不mean（该词有“尖酸刻薄”的意思）。这个函数可
    以计算数组元素的算术平均值。

In [6]:
# 时间加权平均价格
# 在经济学中，TWAP（Time-Weighted Average Price，时间加权平均价格）是另一种“平均”
# 价格的指标。既然我们已经计算了VWAP，那也来计算一下TWAP吧。其实TWAP只是一个变种
# 而已，基本的思想就是最近的价格重要性大一些，所以我们应该对近期的价格给以较高的权重。
# 最简单的方法就是用 arange 函数创建一个从0开始依次增长的自然数序列，自然数的个数即为收
# 盘价的个数。当然，这并不一定是正确的计算TWAP的方式。

t = np.arange(len(c))
print( "twap =", np.average(c, weights=t))

twap = 352.4283218390804


In [8]:
# 找到最大值和最小值
# min 函数和 max 函数能够满足需求。我们按如下步骤来找最大值和最小值。
# (1) 首先，需要再次读入数据，将每日最高价和最低价的数据载入数组：
h,l=np.loadtxt('data.csv',delimiter=',', usecols=(4,5), unpack=True)

print ("highest =", np.max(h))
print ("lowest =", np.min(l))

highest = 364.9
lowest = 333.53


In [9]:
# NumPy中有一个 ptp 函数可以计算数组的取值范围。该函数返回的是数组元素的最大值
# 和最小值之间的差值。也就是说，返回值等于max(array) - min(array)。调用 ptp 函数：
print ("Spread high price", np.ptp(h))
print ("Spread low price", np.ptp(l))

Spread high price 24.859999999999957
Spread low price 26.970000000000027


In [10]:
import numpy as np
h,l=np.loadtxt('data.csv', delimiter=',', usecols=(4,5), unpack=True)
print ("highest =", np.max(h))
print ("lowest =", np.min(l))
print ((np.max(h) + np.min(l)) /2)
print ("Spread high price", np.ptp(h))
print ("Spread low price", np.ptp(l))

highest = 364.9
lowest = 333.53
349.215
Spread high price 24.859999999999957
Spread low price 26.970000000000027


In [11]:
# 计算中位数
# 中位数的概念，将各个变量值按大小顺序排列起来，
# 形成一个数列，居于数列中间位置的那个数即为中位数
c=np.loadtxt('data.csv', delimiter=',', usecols=(6,), unpack=True)

#  一个叫做 median 的函数将帮助我们找到中位数。我们调用它并立即打印出结果。添加下
# 面这行代码

print ("median =", np.median(c))

median = 352.055


In [18]:
# 我们将对价格数组进行排序，并输出排序后居于中间位置的值，这也就是模拟了寻找中位数的
# 算法。 msort 函数可以帮我们完成第一步。我们将调用这个函数，获得排序后的数组，并输出
# 结果
sorted_close = np.msort(c)
print ("sorted =", sorted_close)

N = len(c)
print ("middle =", sorted[(N - 1)/2])
print ("average middle =", (sorted[N /2] + sorted[(N - 1) / 2]) / 2)

sorted = [336.1  338.61 339.32 342.62 342.88 343.44 344.32 345.03 346.5  346.67
 348.16 349.31 350.56 351.88 351.99 352.12 352.47 353.21 354.54 355.2
 355.36 355.76 356.85 358.16 358.3  359.18 359.56 359.9  360.   363.13]


TypeError: 'builtin_function_or_method' object is not subscriptable

In [19]:
# 在NumPy中，计算方差只需要一行代码
print( "variance =", np.var(c))

variance = 50.126517888888884


——————————
- 方差是指各个数据与所有数据算术平均数的离差平方和除以数据个数所得
- 到的值。
- 一些书里面告诉我们，应该用数据个数减1去除离差平方和
- print "variance from definition =", np.mean((c - c.mean())**2)
        ——————————


    ① 注意样本方差和总体方差在计算上的区别。总体方差是用数据个数去除离差平方和，而样本方差则是用样本数据
    个数减1去除离差平方和，其中样本数据个数减1（即n1）称为自由度。之所以有这样的差别，是为了保证样本
    方差是一个无偏估计量

In [20]:
print ("variance from definition =", np.mean((c - c.mean())**2))

variance from definition = 50.126517888888884


## 矩阵的常见操作

In [1]:
import numpy as np 
B = np.arange(3)
print(B)
# 求常数e的x次幂
print(np.exp(B))
# 求B的算数平方根
print(np.sqrt(B))

[0 1 2]
[1.         2.71828183 7.3890561 ]
[0.         1.         1.41421356]


In [5]:
# floor 向下取整
import numpy as np
a = np.floor(10*np.random.random((3,4)))
print(a)
print("--------------")
# ravel 将矩阵转换为向量的形式
print(a.ravel())
a.shape = (6,-1)
# (6,-1)中的-1 将自动计算维度的列数
print(a)
print("--------------")
print(a.T)

[[1. 1. 0. 6.]
 [3. 1. 9. 4.]
 [0. 0. 5. 1.]]
--------------
[1. 1. 0. 6. 3. 1. 9. 4. 0. 0. 5. 1.]
[[1. 1.]
 [0. 6.]
 [3. 1.]
 [9. 4.]
 [0. 0.]
 [5. 1.]]
--------------
[[1. 0. 3. 9. 0. 5.]
 [1. 6. 1. 4. 0. 1.]]


In [26]:
# 矩阵的拼接
import numpy as np
np.random.seed(1)
a = np.random.randint(1,9,size = (2,2))
b = np.random.randint(1,9,size = (2,2))
print(a)
print("--------")
print(b)
print("--------")
# 矩阵的水平拼接
print(np.hstack((a,b)))
print("--------")
# 矩阵的垂直拼接
print(np.vstack((a,b)))

[[6 4]
 [5 1]]
--------
[[8 2]
 [4 6]]
--------
[[6 4 8 2]
 [5 1 4 6]]
--------
[[6 4]
 [5 1]
 [8 2]
 [4 6]]


In [38]:
# 矩阵的切分
import numpy as np
np.random.seed(1)
a = np.random.randint(1,9,size=(2,12))
print(a)
print("--------")
print(np.hsplit(a,4))
print(np.hsplit(a,(3,9)))

b = a.T
print(b)
print("--------")
print(np.vsplit(b,3))
print("--------")
print(np.vsplit(b,(5,7)))

[[6 4 5 1 8 2 4 6 8 1 1 2]
 [5 8 6 5 7 2 3 5 7 6 3 5]]
--------
[array([[6, 4, 5],
       [5, 8, 6]]), array([[1, 8, 2],
       [5, 7, 2]]), array([[4, 6, 8],
       [3, 5, 7]]), array([[1, 1, 2],
       [6, 3, 5]])]
[array([[6, 4, 5],
       [5, 8, 6]]), array([[1, 8, 2, 4, 6, 8],
       [5, 7, 2, 3, 5, 7]]), array([[1, 1, 2],
       [6, 3, 5]])]
[[6 5]
 [4 8]
 [5 6]
 [1 5]
 [8 7]
 [2 2]
 [4 3]
 [6 5]
 [8 7]
 [1 6]
 [1 3]
 [2 5]]
--------
[array([[6, 5],
       [4, 8],
       [5, 6],
       [1, 5]]), array([[8, 7],
       [2, 2],
       [4, 3],
       [6, 5]]), array([[8, 7],
       [1, 6],
       [1, 3],
       [2, 5]])]
--------
[array([[6, 5],
       [4, 8],
       [5, 6],
       [1, 5],
       [8, 7]]), array([[2, 2],
       [4, 3]]), array([[6, 5],
       [8, 7],
       [1, 6],
       [1, 3],
       [2, 5]])]
