接下来我们将介绍数据分析中最常用的两个模块，NumPy和Pandas

# NumPy基础

NumPy（Numerical Python）是高性能科学计算和数据分析的基础包。

核心是ndarray，一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组


NumPy本身并没有提供多么高级的数据分析功能，我们一般也不用NumPy作为工具分析金融时间序列。  
但是pandas中的数据结构Series，DataFrame均是在numpy的ndarray的基础上构建的  
理解NumPy数组以及面向数组的计算将有助于使用pandas之类的工具。

我们在导入numpy模块时，一般遵循下面的命名规范

In [3]:
import numpy as np

## 创建ndarray

创建ndarray最简单的方法就是使用array函数,接受一个序列型的对象（list，tuple，set，或者其他ndarray），然后产生一个新的含有传入数据的ndarray

In [4]:
data1 = [6, 7.5, 8, 0, 1]
arr1 = np.array(data1)
arr1

array([6. , 7.5, 8. , 0. , 1. ])

如果接受的序列对象是一个嵌套序列，那么将会生成一个多维数组

In [5]:
data2 = [[1, 2, 3, 4], [5, 6, 7, 8]]
arr2 = np.array(data2)
arr2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

如果再嵌套的话，还可以生成三维，四维数组

这样的二维的数组在实际中最为常用。高于三维的数组使用较少

np.array会尝试为新建的这个数组推断出一个合适的类型，例如arr1中存在小数，类型被推断为float，arr2全为整数，存储为int


In [6]:
arr1.dtype

dtype('float64')

In [7]:
arr2.dtype

dtype('int32')

创建全0，全1数组可以使用np.zeros和np.ones函数，传入一个表示形状的元组即可

生成一维数组，可以不传入元组，直接传入一个数字，下面两种情形等价

In [8]:
np.zeros((10,))

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [9]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [10]:
np.ones((10, 3))

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

## ndarray运算

In [11]:
arr1 = np.array([[1, 2, 3, 4], [5, 6, 7, 8]])
arr2 = np.array([[1, 3, 2, 4], [5, 7, 7, 9]])

ndarray支持矩阵级运算

In [12]:
arr1 + arr2

array([[ 2,  5,  5,  8],
       [10, 13, 14, 17]])

In [13]:
arr1 - arr2

array([[ 0, -1,  1,  0],
       [ 0, -1,  0, -1]])

In [14]:
arr1 * arr2

array([[ 1,  6,  6, 16],
       [25, 42, 49, 72]])

In [15]:
arr2 / arr2

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.]])

ndarray同样支持数乘运算

In [16]:
arr1 + 10

array([[11, 12, 13, 14],
       [15, 16, 17, 18]])

In [17]:
1 / arr1 

array([[1.        , 0.5       , 0.33333333, 0.25      ],
       [0.2       , 0.16666667, 0.14285714, 0.125     ]])

不同维度的ndarray，也可以进行运算，这涉及到广播（broadcasting）

In [18]:
arr1 = np.array([[1, 2, 3, 4], [5, 6, 7, 8]])
arr2 = np.array([1, 2, 5, 6])

In [19]:
arr1

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [20]:
arr2

array([1, 2, 5, 6])

In [21]:
arr1.shape

(2, 4)

In [22]:
arr2.shape

(4,)

In [23]:
arr1 + arr2

array([[ 2,  4,  8, 10],
       [ 6,  8, 12, 14]])

广播机制比较复杂，不加以赘述

## 索引和切片

In [24]:
arr1 =  np.array([1, 2, 5, 6])

In [25]:
arr1[0]

1

In [26]:
arr1[:2]

array([1, 2])

In [27]:
arr1[:1]

array([1])

In [28]:
arr2 = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12], [13, 14, 15, 16]])

In [29]:
arr2

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12],
       [13, 14, 15, 16]])

In [30]:
arr2[0, 0]

1

In [31]:
arr2[:2, :2]

array([[1, 2],
       [5, 6]])

In [32]:
arr2[0, :2]

array([1, 2])

In [33]:
arr2[:2, 0]

array([1, 5])

In [34]:
arr2[:1, 0]

array([1])

总结一下，python没有像matlab和R那样内置的矩阵类型，但是第三方库numpy提供的ndarray能够完成类似的操作。

# Pandas基础

pandas最开始的作者是Wes Mckinney，pandas是其在AQR Capital Management任职时着手构建的。  
不过现在pandas已经由一个社区来进行维护，并不断发布新的版本，修复bug，增加新特性

Pandas是基于NumPy构建的，但是在Numpy的ndarray基础上，设计了新的数据结构（Series， DataFrame）用来更好的分析金融时间序列数据


Pandas的官方文档是最好的学习手册：http://pandas.pydata.org/pandas-docs/stable/

我们在导入pandas模块时，一般遵循下面的命名规范

In [35]:
import pandas as pd

## Series

In [36]:
ser = pd.Series([0.01, -0.01, 0.02, -0.03])

In [37]:
ser

0    0.01
1   -0.01
2    0.02
3   -0.03
dtype: float64

Series类似一维数组，不同的是除了数据以外，Series还包含一个标签（index），就是左边的 0 1 2 3

In [38]:
ser.index

RangeIndex(start=0, stop=4, step=1)

In [39]:
ser.values

array([ 0.01, -0.01,  0.02, -0.03])

当然常见的时间序列是不会以0，1，2，3这样的数字做标签的

我们可以在构建Series的时候传入index

In [40]:
ser = pd.Series([0.01, -0.01, 0.02, -0.03], index=["000001.SZ", "000002.SZ", "000003.SZ", "000004.SZ"])

In [41]:
ser

000001.SZ    0.01
000002.SZ   -0.01
000003.SZ    0.02
000004.SZ   -0.03
dtype: float64

Series最大的好处就是除了可以使用序号选取数据，还可以使用标签选取

In [42]:
ser.iloc[:2]

000001.SZ    0.01
000002.SZ   -0.01
dtype: float64

In [43]:
ser["000001.SZ"]

0.01

In [44]:
ser.loc["000001.SZ"]

0.01

也可以通过字典构造Series

In [45]:
ser2 = pd.Series({'000001.SZ': 0.03, '000003.SZ': -0.01, '000005.SZ': 0.02, '000004.SZ': -0.03})
ser2

000001.SZ    0.03
000003.SZ   -0.01
000005.SZ    0.02
000004.SZ   -0.03
dtype: float64

Series也可以进行数学运算，但是他最强大的一点就是，会
### 自动对齐相同标签的数据

In [46]:
ser + ser2

000001.SZ    0.04
000002.SZ     NaN
000003.SZ    0.01
000004.SZ   -0.06
000005.SZ     NaN
dtype: float64

这一点是numpy.ndarray, matlab中的矩阵所无法比拟的

## DataFrame

实践中二维数据会更加常见，在pandas中，二维数据使用DataFrame进行储存

三维及更高维度的数据遇见的不多，在编制多因子指数时可能会遇见，这时我们也可以使用多重索引，用二维的DataFrame表示三维的数据

构建一个DataFrame的方式很多，传入一个二维数据给DataFrame的构造函数即可

可以传递各种各样的二维格式数据给DataFrame的构造函数，总结为一点，就是二维数据格式中若带有标签的信息，就会反映在DataFrame的标签中  
如果没有的话，DataFrame会生成0， 1索引

In [47]:
pd.DataFrame({"return": {'000001.SZ': 0.03, '000003.SZ': -0.01, '000005.SZ': 0.02, '000004.SZ': -0.03}, 
              "volatility": {'000001.SZ': 0.01, '000003.SZ': -0.03, '000005.SZ': 0.02, '000004.SZ': -0.02},
              "close": {'000001.SZ': 244, '000003.SZ': 23, '000005.SZ': 25, '000004.SZ': 100}})

Unnamed: 0,return,volatility,close
000001.SZ,0.03,0.01,244
000003.SZ,-0.01,-0.03,23
000004.SZ,-0.03,-0.02,100
000005.SZ,0.02,0.02,25


In [48]:
pd.DataFrame({"return": [0.03,  -0.01,  0.02,  -0.03], 
              "volatility": [0.01, -0.03, 0.02, -0.02],
              "close": [244, 23,  25,  100]})

Unnamed: 0,return,volatility,close
0,0.03,0.01,244
1,-0.01,-0.03,23
2,0.02,0.02,25
3,-0.03,-0.02,100


In [49]:
pd.DataFrame([[ 0.03,  0.01,  244],
               [-0.01, -0.03,  23],
               [0.02,  0.02,  25],
               [-0.03, -0.02, 100]])

Unnamed: 0,0,1,2
0,0.03,0.01,244
1,-0.01,-0.03,23
2,0.02,0.02,25
3,-0.03,-0.02,100


但在实际的使用中，我们并不经常自己构建DataFrame，而是从Excel,csv或者数据库中读取数据

pandas拥有一大批方便的读取和写入的函数，基本上涵盖了我们能见到的所有存储类型，   
除了从Excel,csv或者数据库中进行读写，还支持读取sas，stata等其他软件的数据，  
使用read_excel, read_csv, read_sql可以读取Excel,csv和数据库  
使用to_excel, to_csv, to_sql可以写入Excel,csv和数据库
  

详细的pandas IO操作见下面链接：http://pandas.pydata.org/pandas-docs/stable/io.html

从指定的Excel文件中读取数据很方便，使用read_excel函数即可

In [50]:
# 后面的函数参数很多都是默认参数，实际使用的时候不需要每次都给出
df = pd.read_excel(r"C:\Users\lenovo\Desktop\py培训\data.xlsx", sheet_name="close", indexcol=0, header=0)
df

Unnamed: 0,000005.SZ,000009.SZ,000014.SZ,000017.SZ,000020.SZ,000023.SZ,000019.SZ,000022.SZ
2018-09-08,30.02,37.44,91.76,15.23,26.86,31.10,46.28,81.52
2018-09-09,30.97,38.61,96.11,15.16,28.42,32.14,48.15,81.52
2018-09-10,31.08,38.19,92.94,13.80,28.21,31.37,47.56,81.52
2018-09-11,31.71,39.02,95.84,13.70,28.76,32.38,49.12,83.13
2018-09-12,31.60,39.69,96.75,13.83,28.73,32.46,49.12,81.73
2018-09-13,32.34,39.19,100.56,14.51,29.55,33.66,48.21,81.61
2018-09-14,32.03,38.94,100.83,14.19,29.77,33.68,48.21,82.75
2018-09-15,31.92,38.44,102.92,12.89,29.60,33.23,48.21,85.53
2018-09-16,31.39,37.94,98.38,12.63,28.64,32.25,48.21,80.81
2018-09-17,30.97,37.61,96.11,12.37,28.33,32.22,48.21,81.36


DataFrame主要由三个部分构成

数据部分，本质上是一个二维ndarray

In [51]:
df.values

array([[ 30.02,  37.44,  91.76, ...,  31.1 ,  46.28,  81.52],
       [ 30.97,  38.61,  96.11, ...,  32.14,  48.15,  81.52],
       [ 31.08,  38.19,  92.94, ...,  31.37,  47.56,  81.52],
       ...,
       [ 56.15,  77.9 , 156.58, ...,  65.64,  65.08, 108.11],
       [ 58.26,  78.65, 159.93, ...,  67.76,  65.08, 108.  ],
       [ 56.78,  76.33, 164.56, ...,  69.51,  65.08, 108.  ]])

行的标签，被称为DataFrame的index

In [52]:
df.index

DatetimeIndex(['2018-09-08', '2018-09-09', '2018-09-10', '2018-09-11',
               '2018-09-12', '2018-09-13', '2018-09-14', '2018-09-15',
               '2018-09-16', '2018-09-17',
               ...
               '2019-05-16', '2019-05-17', '2019-05-18', '2019-05-19',
               '2019-05-20', '2019-05-21', '2019-05-22', '2019-05-23',
               '2019-05-24', '2019-05-25'],
              dtype='datetime64[ns]', length=260, freq=None)

列的标签，被称为DataFrame的columns

In [53]:
df.columns

Index(['000005.SZ', '000009.SZ', '000014.SZ', '000017.SZ', '000020.SZ',
       '000023.SZ', '000019.SZ', '000022.SZ'],
      dtype='object')

本质上DataFrame就是一个同时带有行标签和列标签的数组

# Index

index是Series和DataFrame的重要组成部分， Series的index，DataFrame的index和columns都是index对象

In [56]:
ser = pd.Series([1, 2, 3], index=["a", "b", "c"])

In [57]:
ser

a    1
b    2
c    3
dtype: int64

In [59]:
ser.index

Index(['a', 'b', 'c'], dtype='object')

In [None]:
index也是个类似列表的数据结构，可以切片索引

In [62]:
ser.index[:2]

Index(['a', 'b'], dtype='object')

In [71]:
ser.index[2]

'c'