# 第1章 Numpy快速入门

In [1]:
import numpy as np

In [7]:
def numpysum(n):
    a = numpy.arange(n) ** 2
    b = numpy.arange(n) ** 3
    c = a + b
    return c

In [8]:
print(numpysum(9))

[  0   2  12  36  80 150 252 392 576]


> 在使用`%run -p` 来运行程序的话，可以进行性能的调试。

# 第2章 NumPy基础

## NumPy数组对象
NumPy中的ndarray是一个多维数组对象，该对象由两部分组成：
* 实际的数据；
* 描述这些数据的元数据。

`大部分的数组操作仅仅修改元数据部分，而不改变底层的实际数据。`

In [2]:
a = np.arange(5)
a.dtype

dtype('int64')

In [3]:
a

array([0, 1, 2, 3, 4])

In [4]:
a.shape

(5,)

下面是演示创建多维数组

In [5]:
m = np.array(np.arange(2), np.arange(2))
m

TypeError: data type not understood

In [6]:
m = np.array([np.arange(2), np.arange(2)])
m

array([[0, 1],
       [0, 1]])

下面是创建一个3*3的数组对象，并检查其维度

In [7]:
m = np.array([np.arange(3), np.arange(3), np.arange(3)])
m.shape

(3, 3)

In [8]:
m

array([[0, 1, 2],
       [0, 1, 2],
       [0, 1, 2]])

下面演示从数组中获取数据

In [9]:
a = np.array([[1,2], [3,4]])
a

array([[1, 2],
       [3, 4]])

In [10]:
a[0, 0]

1

In [11]:
a[0, 1]

2

## NumPy数据类型
    Python支持的数据类型有整型、浮点型以及复数型，但这些类型不足以满足科学计算的需求，因此NumPy添加了很多其他的数据类型。在实际应用中，我们需要不同精度的数据类型，它们占用的内存空间也是不同的。在NumPy中，大部分数据类型名是以数字结尾的，这个数字表示其在内存中占用的位数。
类型|描述
:---- | :------------
bool|用一位存储的布尔类型(值为TRUE或FALSE)
inti|由所在平台决定其精度的整数（一般为int32或int64）
int8|整数，范围为-128至127
int16|整数，范围为-32 768至32 767
int32|整数，范围-2<sup>31</sup>至2<sup>31</sup>-1
int64|整数，范围-2<sup>63</sup>至2<sup>31</sup>-1
uint8|无符号整数，范围为0至255
uint16|无符号整数，范围为0至65 535
uint32|无符号整数，范围为0至2<sup>32</sup>-1
uint64|无符号整数，范围为0至2<sup>64</sup>-1
float16|半精度浮点数(16位):其中用1位表示正负号，5位表示指数，10位表示尾数
float32|单精度浮点数(32位):其中用1位表示正负号，8位表示指数，23位表示尾数
float64或float|双精度浮点数(64位):其中用1位表示正负号，11位表示指数，52位表示尾数
complex64|复数，分别用两个32位浮点数表示实部和虚部
complex128或complex|复数，分别用两个64位浮点数表示实部和虚部

In [13]:
# 在numpy中，许多函数的参数中可以指定数据类型，通常这个参数是可选的：
np.arange(7, dtype=np.uint16)

array([0, 1, 2, 3, 4, 5, 6], dtype=uint16)

### 数据类型对象
数据类型对象是numpy.dtype类的实例。如前所述，NumPy数组是有数据类型的，更确切地说，NumPy数组中的每一个元素均为相同的数据类型。数据类型对象可以给出`单个数组元素在内存中占用的字节数`，即**dtype类的itemsize属性**。

In [14]:
a.dtype.itemsize

8

### 字符编码
NumPy可以使用字符编码来表示数据类型，这是为了兼容NumPy的前身Numeric。我不推荐使用字符编码，但有时会用到。**应该优先使用dtype对象来表示数据类型，而不是事字符编码**。

数据类型|字符编码
:---: | :---:
整数 | i
无符号整数 | u
单精度浮点数 | f
双精度浮点数 | d
布尔值 | b
复数 | D
字符串 | S
unicode字符串 | U
void(空) | V

In [15]:
np.arange(7, dtype='f')

array([0., 1., 2., 3., 4., 5., 6.], dtype=float32)

### 自定义数据类型
我们有很多种自定义数据类型的方法，以浮点型为例：
* 可以使用Python中的浮点数类型：dtype(float)
* 可以使用字符编码来指定单精度浮点数类型：dtype('f')
* 还可以将两个字符作为参数传给数据类型的构造函数。此时，**第一个字符表示数据类型**，**第二个字符表示该类型在内存中占用的字节数**(2、4、8分别代表精度为16，32，64位的浮点数)：dtype（‘f8’）

### dtype类的属性
dtype类有很多有用的属性。
* 我们可以获取数据类型的字符编码：

In [16]:
t = np.dtype('Float64')
t.char

  """Entry point for launching an IPython kernel.


'd'

* type属性对应于数组元素的数据类型：

In [17]:
t.type

numpy.float64

* str属性可以给出数据类型的字符串表示，该字符串的首个字符表示字节序(endianness)， 后面如果还有字符的话，将是一个字符编码，接着一个数字表示每个数组元素存储所需的字节数。 这里，字节序是指位长为32或64的字(word)存储的顺序，包括大端序(big-endian)和小端序
(little-endian)。大端序是将最高位字节存储在最低的内存地址处，用>表示;与之相反，小端序 是将最低位字节存储在最低的内存地址处，用<表示:

In [18]:
t.str

'<f8'

## 创建自定义数据类型
自定义数据类型是一种异构数据类型，可以当做用来记录电子表格或数据库中一行数据的结 构。作为示例，我们将创建一个存储商店库存信息的数据类型。其中，我们用一个长度为40个字 符的字符串来记录商品名称，用一个32位的整数来记录商品的库存数量，最后用一个32位的单精 度浮点数来记录商品价格。下面是具体的步骤。

In [19]:
t = np.dtype([('name', np.str_, 40), ('numitems', np.int32), ('price', np.float32)])
t

dtype([('name', '<U40'), ('numitems', '<i4'), ('price', '<f4')])

In [20]:
itemz = np.array([('Meaning of life DVD', 42, 3.14), ('Butter', 13, 2.72)], dtype=t)
itemz

array([('Meaning of life DVD', 42, 3.14), ('Butter', 13, 2.72)],
      dtype=[('name', '<U40'), ('numitems', '<i4'), ('price', '<f4')])

## 一维数组的索引和切片
> * 一维数组的切片操作与Python列表的切片操作很相似。
> * 如果我们不关心某个维度的话，可以用(`:`)进行占位。
> * ndarray支持在多维数组上的切片操作。为了方便起见，我们可以用一个省略号(`...`)来表示遍历剩下的维度(剩下的维度就不进行操作了，**多个冒号可以用一个省略号代替**)。

In [22]:
b = np.arange(24).reshape(2, 3, 4)
b

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]]])

## 改变数组的维度
> * reshape,重新设计形状；
> * ravel,将完成展平的操作；
> * flatten,与ravel的功能相似，**不过flatten函数会请求分配内存来保存结果，而ravel函数只返回数组的一个视图(view)**;
> * 用元组设置维度。除了可以使用reshape函数，我们也可以直接用一个正整数元组来设置数组的维度。如：b.shape = (6,4)**这样做会直接改变所操作的数组**；
> * transpose,在线性代数中，转置矩阵是常见的操作。对于多维数组，我们也可以这样做。
> * resize,与reshape函数的功能一样，但**resize会直接修改所操作的数组**。

## 数组的组合
NumPy数组有水平组合、垂直组合和深度组合等多种组合方式，我们将使用下面函数来完成数组的组合。
> * vstack,垂直组合
> * dstack,深度组合，将相同的元组作为参数传给dstack函数，即可完成数组的深度组合。**所谓深度组合，就是将一系列数组沿着纵轴(深度)方向进行层叠组合。**`也就是在相同的位置进行组合。`
> * hstack,水平组合
> * column_stack,列组合。对于`一维数组将按列方向进行组合`，而但对于`二维数组，column_stack与hsatck的 效果相同`。
> * row_stack，行组合。对于`两个一维数组，将直接层叠起来组合成一个二维数组`。`对于二维数组，row_stack与vstack的效果是相同的`。
> * concatenate

In [23]:
a = np.arange(9).reshape(3, 3)
a

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [24]:
b = 2 * a
b

array([[ 0,  2,  4],
       [ 6,  8, 10],
       [12, 14, 16]])

In [25]:
# 下面是演示水平组合
np.hstack((a, b))

array([[ 0,  1,  2,  0,  2,  4],
       [ 3,  4,  5,  6,  8, 10],
       [ 6,  7,  8, 12, 14, 16]])

In [26]:
# 我们也可以用concatenate函数来实现同样的效果。
np.concatenate((a, b), axis=1)

array([[ 0,  1,  2,  0,  2,  4],
       [ 3,  4,  5,  6,  8, 10],
       [ 6,  7,  8, 12, 14, 16]])

In [27]:
# 下面我们将演示vstack的函数,垂直组合
np.vstack((a, b))

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 0,  2,  4],
       [ 6,  8, 10],
       [12, 14, 16]])

In [28]:
# 同样，我们将concatenate函数的axis参数设置为0即可实现相同的效果。**这也是axis参数的默认值**
np.concatenate((a, b), axis=0)

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 0,  2,  4],
       [ 6,  8, 10],
       [12, 14, 16]])

In [29]:
# 下面的代码演示了深度组合的使用
np.dstack((a, b))

array([[[ 0,  0],
        [ 1,  2],
        [ 2,  4]],

       [[ 3,  6],
        [ 4,  8],
        [ 5, 10]],

       [[ 6, 12],
        [ 7, 14],
        [ 8, 16]]])

In [30]:
oned = np.arange(2)
twice_oned = 2 * oned
np.column_stack((oned, twice_oned))

array([[0, 0],
       [1, 2]])

In [31]:
np.column_stack((a, b))

array([[ 0,  1,  2,  0,  2,  4],
       [ 3,  4,  5,  6,  8, 10],
       [ 6,  7,  8, 12, 14, 16]])

## 数组的分割
NumPy数组可以进行水平、垂直或深度分割，，它们分别为下面几个函数，我们可以将数组分割成相同大小的子数组，也可以指定原数组中需要分割的位置。
> * hsplit:水平分割。（将按水平方向进行分割，也就是水平方向画竖线。）同样的可以调用split函数并在参数中指定参数axis=1。
> * vsplit:垂直分割。（将按垂直方向进行分割，也就是垂直方向画竖线。）同样的可以调用split函数并在参数中指定参数axis=0。
> * dsplit:深度分割。（将按深度方向分割数组，感觉像是多维度的水平分割）
> * split

In [32]:
# 下面是演示hsplit，进行水平分割。
a

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [33]:
np.hsplit(a, 3)

[array([[0],
        [3],
        [6]]), array([[1],
        [4],
        [7]]), array([[2],
        [5],
        [8]])]

In [35]:
np.split(a, 3, axis=1)

[array([[0],
        [3],
        [6]]), array([[1],
        [4],
        [7]]), array([[2],
        [5],
        [8]])]

In [36]:
np.vsplit(a, 3)

[array([[0, 1, 2]]), array([[3, 4, 5]]), array([[6, 7, 8]])]

In [37]:
np.split(a, 3, axis=0)

[array([[0, 1, 2]]), array([[3, 4, 5]]), array([[6, 7, 8]])]

In [38]:
c = np.arange(27).reshape(3,3,3)
c

array([[[ 0,  1,  2],
        [ 3,  4,  5],
        [ 6,  7,  8]],

       [[ 9, 10, 11],
        [12, 13, 14],
        [15, 16, 17]],

       [[18, 19, 20],
        [21, 22, 23],
        [24, 25, 26]]])

In [39]:
np.dsplit(c, 3)

[array([[[ 0],
         [ 3],
         [ 6]],
 
        [[ 9],
         [12],
         [15]],
 
        [[18],
         [21],
         [24]]]), array([[[ 1],
         [ 4],
         [ 7]],
 
        [[10],
         [13],
         [16]],
 
        [[19],
         [22],
         [25]]]), array([[[ 2],
         [ 5],
         [ 8]],
 
        [[11],
         [14],
         [17]],
 
        [[20],
         [23],
         [26]]])]

## 数组的属性
除了shape和dtype属性以外，ndarray对象还有很多其他的属性，在下面一一列出。
* **ndim**属性(给出数组的维数，或数组轴的个数)
* **size**属性(给出数组元素的总个数)
* **itemsize**属性(给出数组中的元素在内存中所占的字节数)
* **nbytes**属性(整个数组所占的存储空间，这个属性的值其实就是`itemsize`和`size`属性值的乘积)
* **T**属性的效果和`transpose`函数一样。
* 对于一维数组，其T属性就是原数组。
* 在NumPy中，复数的虚部是用j表示的。
* **real**属性，给出复数数组的实部。如果数组中只包含实数元素，则其real属性将输出原数组。
* **imag**属性，给出复数数组的虚部。
* 如果数组中包含复数元素，则其数据类型自动变成复数型。
* `flat`属性将返回一个numpy.flatiter对象，这是获得flatter对象的唯一方式————我们无法访问`flatiter`的构造函数。**这个所谓“扁平迭代器”可以让我们像遍历一维数组一样去遍历任意的多维数组。**我们还可以用flatiter对象直接获取一个数组元素，通过不同的索引方式；也可以通过索引中使用列表来获取多个元素。**flat属性是一个可赋值的属性。对flat属性赋值将导致整个数组的元素被覆盖。**

In [41]:
b = np.arange(24).reshape(2,12)
b

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23]])

In [42]:
b.ndim

2

In [43]:
b.size

24

In [44]:
b.itemsize

8

In [45]:
b.nbytes

192

In [46]:
b.resize(6, 4)
b

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23]])

In [47]:
b.T

array([[ 0,  4,  8, 12, 16, 20],
       [ 1,  5,  9, 13, 17, 21],
       [ 2,  6, 10, 14, 18, 22],
       [ 3,  7, 11, 15, 19, 23]])

In [48]:
b

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23]])

In [49]:
b = np.array([1.j + 1, 2.j  + 3])
b

array([1.+1.j, 3.+2.j])

In [50]:
b.real

array([1., 3.])

In [51]:
b.imag

array([1., 2.])

In [52]:
b.dtype

dtype('complex128')

In [53]:
# 下面演示了flat属性
b = np.arange(4).reshape(2,2)
b

array([[0, 1],
       [2, 3]])

In [54]:
f = b.flat
f

<numpy.flatiter at 0x1033b5c00>

In [55]:
for item in f:
    print(item)

0
1
2
3


## 数组的转换
* 我们可以使用`tolist`函数将NumPy数组转换成Python列表。
* `astype`函数可以在转换数组时指定数据类型。

# 第3章常用函数
> * eye(生成单位矩阵)
> * savetxt(保存数据到文件)
> * loadtxt(读取文件，`delimiter`是分割符，`usecols`是要取的范围，`unpack`是是否分开存值)还有个参数**converters**来指定转换的方法
> * average(求平均数，`weights`表示的是权重)
> * mean(求算术平均值)
> * min(求最小值)
> * max(求最大值)
> * ptp(可以计算数组的取值范围。该函数返回的是数组元素的最大值和最小值之间的差值。)
> * median(用于帮助我们找到中位数)
> * msort(用于进行排序)
> * var(方差)
> * diff(**返回一个由相邻数组元素的差值构成的数组。这有点类似微积分中的微分。**)
> * std(计算标准差)
> * log(计算对数)
> * where(可以根据指定的条件返回所有满足条件的数组元素的索引值)
> * sqrt(除法运算)
> * zero(返回指定数量的数组)
> * take(获取指定的索引的元素)
> * argmin(返回的是数组中最小元素的索引值)
> * argmax(返回的是数组中最大元素的索引值)

In [2]:
i2 = np.eye(2)

In [3]:
print(i2)

[[1. 0.]
 [0. 1.]]


> 使用savetxt函数将数据存储到文件中，当然我们需要指定文件名以及要保存的数组。

In [4]:
np.savetxt("eye.txt", i2)

In [5]:
# 下面是演示读取CSV文件，其中的delimiter是分隔符；而usecols表示的是要使用的列的范围。而unpack为True意思就是分拆数据，分别赋到两个对象上
c, v = np.loadtxt('chapter3/data.csv', delimiter=',', usecols=(6, 7), unpack=True)
# 下面的weights参数表示权重对象
vwap = np.average(c, weights=v)
print("VWAP = ", vwap)

VWAP =  350.5895493532009


In [6]:
# mean函数是平均值的函数
print("mean = ", np.mean(c))

mean =  351.0376666666667


In [7]:
t = np.arange(len(c))
print("twap = ", np.average(c, weights=t))

twap =  352.4283218390804


In [9]:
h, l = np.loadtxt('chapter3/data.csv', delimiter=',', usecols=(4, 5), unpack=True)

In [10]:
print("highest = ", np.max(h))
print("lowest = ", np.min(l))

highest =  364.9
lowest =  333.53


In [11]:
print("Spread high price", np.ptp(h))
print("Spread low price", np.ptp(l))

Spread high price 24.859999999999957
Spread low price 26.970000000000027


In [2]:
# 下面是测试median这个求中位数的方法
c = np.loadtxt('chapter3/data.csv', delimiter=',', usecols=(6,), unpack=True)
print('median = ', np.median(c))

median =  352.055


In [13]:
sorted_close = np.msort(c)
print("sorted = ", sorted_close)

sorted =  [336.1  338.61 339.32 342.62 342.88 343.44 344.32 345.03 346.5  346.67
 348.16 349.31 350.56 351.88 351.99 352.12 352.47 353.21 354.54 355.2
 355.36 355.76 356.85 358.16 358.3  359.18 359.56 359.9  360.   363.13]


In [14]:
print('variance = ', np.var(c))

variance =  50.126517888888884


In [4]:
returns = np.diff(c) / c[:-1]

In [5]:
print("Standard deviation =", np.std(returns))

Standard deviation = 0.012922134436826306


In [6]:
logreturns = np.diff(np.log(c))

In [8]:
posretindices = np.where(returns > 0)
print("Indices with positive returns", posretindices)

Indices with positive returns (array([ 0,  1,  4,  5,  6,  7,  9, 10, 11, 12, 16, 17, 18, 19, 21, 22, 23,
       25, 28]),)


In [9]:
#  在投资学中，波动率(volatility)是对价格变动的一种度量。历史波动率可以根据历史价格数据计算得出。计算历史波动率(如年波动率或月波动率)时，需要用到对数收益率。年波动率等于对数收益率的标准差除以其均值，再除以交易日倒数的平方根，通常交易日取252天。我们用std和mean函数来计算。
annual_volatility = np.std(logreturns)/ np.mean(logreturns)
annual_volatility = annual_volatility/np.sqrt(1/252)
print(annual_volatility)

129.27478991115132


In [10]:
print("Monthly volatility", annual_volatility * np.sqrt(1/12))

Monthly volatility 37.318417377317765


In [11]:
dates, close = np.loadtxt('chapter3/data.csv', delimiter=',', usecols=(1, 6), unpack=True)

ValueError: could not convert string to float: '28-01-2011'

In [16]:
import datetime
def datestr2Num(s):
    return datetime.datetime.strptime(s, "%d-%m-%Y").date().weekday()

In [17]:
dates, close = np.loadtxt('chapter3/data.csv', delimiter=',', usecols=(1, 6), converters={1:datestr2Num}, unpack=True)

ValueError: time data "b'28-01-2011'" does not match format '%d-%m-%Y'