# 基本数据结构介绍
## Pandas 介绍

在处理实际的金融数据时，一个条数据通常包含了多种类型的数据，例如，股票的代码是字符串，收盘价是浮点型，而成交量是整型等。

在 Python 中，`pandas`包含了高级的数据结构`Series`和`DataFrame`，使得在 Python 中处理数据变得非常方便、快速和简单。

`pandas`主要的两个数据结构是`Series`和`DataFrame`，随后两节将介绍如何由其他类型的数据结构得到这两种数据结构，或者自行创建这两种数据结构，我们先导入它们以及相关模块：

In [24]:
import numpy as np
import pandas as pd
print(pd.__version__)
from pandas import Series, DataFrame

2.2.3


## Pandas数据结构：`Series`

`Series`可以简单地被认为是一维的数组。`Series`和一维数组最主要的区别在于`Series`类型具有索引（`index`），可以和另一个编程中常见的数据结构哈希（`Hash`）联系起来。

### 创建 `Series`

创建一个`Series`的基本格式是 `s = Series(data, index=index, name=name)`

In [7]:
a = np.random.randn(5)
print("a is an array:")
print(a)
s = Series(a)
print("s is a Series:")
print(s)

a is an array:
[-0.15288904 -1.54370324 -0.13882122  0.18071673  0.14327114]
s is a Series:
0   -0.152889
1   -1.543703
2   -0.138821
3    0.180717
4    0.143271
dtype: float64


创建`Series`时添加`index`，`index`长度要和`data`的长度一致

In [8]:
s = Series(a, index=['a', 'b', 'c', 'd', 'e'])
print (s)
print (s.index)

a   -0.152889
b   -1.543703
c   -0.138821
d    0.180717
e    0.143271
dtype: float64
Index(['a', 'b', 'c', 'd', 'e'], dtype='object')


指定`Series`的名称，可用`Series.name`访问

In [9]:
s = Series(a, index=['a', 'b', 'c', 'd', 'e'], name='my_series')
print (s)
print (s.name)

a   -0.152889
b   -1.543703
c   -0.138821
d    0.180717
e    0.143271
Name: my_series, dtype: float64
my_series


`Series`还可以从字典（`dict`）创建

In [12]:
d = {'a': 0., 'b': 1, 'c': 2}
print ("d is a dict:")
print (d)
s = Series(d)
print ("s is a Series:")
print (s)

d is a dict:
{'a': 0.0, 'b': 1, 'c': 2}
s is a Series:
a    0.0
b    1.0
c    2.0
dtype: float64


使用字典创建`Series`时指定`index`的情形（`index`长度不必和字典相同）

- 数据将按`index`的顺序重新排列
- 自动为多余的`index`分配`NaN`

In [14]:
Series(d, index=['b', 'c', 'd', 'a'])

b    1.0
c    2.0
d    NaN
a    0.0
dtype: float64

### `Series`数据的访问

In [22]:
s = Series(np.random.randn(10),index=['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j'])

print(s.iloc[0]) # 过时的写法 print(s[0])
print(s.iloc[:2]) # 过时的写法 print(s[:2])
print(s.iloc[[2,0,4]]) # 过时的写法 print(s[[2,0,4]])
print(s[['e', 'i']])
print(s[s > 0.5])
print('e' in s)

-1.2138966840433532
a   -1.213897
b    0.564319
dtype: float64
c    0.387988
a   -1.213897
e   -0.232014
dtype: float64
e   -0.232014
i    1.006628
dtype: float64
b    0.564319
i    1.006628
dtype: float64
True


## Pandas数据结构：`DataFrame`

`DataFrame`的优势在于可以方便地处理不同类型的列，因此，就不要考虑如何对一个全是浮点数的`DataFrame`求逆之类的问题了，处理这种问题还是把数据存成`NumPy`的`matrix`类型比较便利一些。

### 创建`DataFrame`

`DataFrame`是一个二维的数据结构，是多个`Series`的集合体。我们先创建一个值是`Series`的字典，并转换为`DataFrame`。

In [23]:
d = {'one': Series([1., 2., 3.], index=['a', 'b', 'c']), 'two': Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])}
df = DataFrame(d)
print (df)

   one  two
a  1.0  1.0
b  2.0  2.0
c  3.0  3.0
d  NaN  4.0


In [24]:
df = DataFrame(d, index=['r', 'd', 'a'], columns=['two', 'three'])
print (df)

   two three
r  NaN   NaN
d  4.0   NaN
a  1.0   NaN


In [25]:
print ("DataFrame index:")
print (df.index)
print ("DataFrame columns:")
print (df.columns)
print ("DataFrame values:")
print (df.values)

DataFrame index:
Index(['r', 'd', 'a'], dtype='object')
DataFrame columns:
Index(['two', 'three'], dtype='object')
DataFrame values:
[[nan nan]
 [4.0 nan]
 [1.0 nan]]


`DataFrame`也可以从值是数组的字典创建，但是各个数组的长度需要相同

In [26]:
d = {'one': [1., 2., 3., 4.], 'two': [4., 3., 2., 1.]}
df = DataFrame(d, index=['a', 'b', 'c', 'd'])
print (df)


   one  two
a  1.0  4.0
b  2.0  3.0
c  3.0  2.0
d  4.0  1.0


值非数组时，没有这一限制，并且缺失值补成`NaN`

In [27]:
d= [{'a': 1.6, 'b': 2}, {'a': 3, 'b': 6, 'c': 9}]
df = DataFrame(d)
print (df)

     a  b    c
0  1.6  2  NaN
1  3.0  6  9.0


创建一个空的`DataFrame`

In [28]:
df = DataFrame()
print (df)

Empty DataFrame
Columns: []
Index: []


连接的方式创建`DataFrame`的方法十分有用，那就是使用`concat`函数基于`Series`或者`DataFrame`创建一个`DataFrame`

In [11]:
a = Series(range(5))
b = Series(np.linspace(4, 20, 5))
df = pd.concat([a, b], axis=1)
print (df)

   0     1
0  0   4.0
1  1   8.0
2  2  12.0
3  3  16.0
4  4  20.0


其中的`axis=1`表示按列进行合并，`axis=0`表示按行合并，并且，`Series`都处理成一列，所以这里如果选`axis=0`的话，将得到一个`10×1`的`DataFrame`。

下面这个例子展示了如何按行合并`DataFrame`成一个大的`DataFrame`：

In [12]:
df = DataFrame()
index = ['alpha', 'beta', 'gamma', 'delta', 'eta']
for i in range(5):
    a = DataFrame([np.linspace(i, 5*i, 5)], index=[index[i]])
    df = pd.concat([df, a], axis=0)
print (df)

         0    1     2     3     4
alpha  0.0  0.0   0.0   0.0   0.0
beta   1.0  2.0   3.0   4.0   5.0
gamma  2.0  4.0   6.0   8.0  10.0
delta  3.0  6.0   9.0  12.0  15.0
eta    4.0  8.0  12.0  16.0  20.0


### `DataFrame`数据的访问

再强调一下`DataFrame`是以列作为操作的基础的，全部操作都想象成先从`DataFrame`里取一列，再从这个`Series`取元素即可。可以用`dataframe.column_name`选取列，也可以使用`dataframe[]`操作选取列，我们可以马上发现前一种方法只能选取一列，而后一种方法可以选择多列。若`DataFrame`没有列名，`[]`可以使用非负整数，也就是“下标”选取列；若有列名，则必须使用列名选取，另外`dataframe.column_name`在没有列名的时候是无效的。

In [13]:
print(df[1])
print(type(df[1]))
df.columns = ['a', 'b', 'c', 'd', 'e']
print(df['b'])
print(type(df['b']))
print(df.b)
print(type(df.b))
print(df[['a', 'd']])
print(type(df[['a', 'd']]))

alpha    0.0
beta     2.0
gamma    4.0
delta    6.0
eta      8.0
Name: 1, dtype: float64
<class 'pandas.core.series.Series'>
alpha    0.0
beta     2.0
gamma    4.0
delta    6.0
eta      8.0
Name: b, dtype: float64
<class 'pandas.core.series.Series'>
alpha    0.0
beta     2.0
gamma    4.0
delta    6.0
eta      8.0
Name: b, dtype: float64
<class 'pandas.core.series.Series'>
         a     d
alpha  0.0   0.0
beta   1.0   4.0
gamma  2.0   8.0
delta  3.0  12.0
eta    4.0  16.0
<class 'pandas.core.frame.DataFrame'>


单独取一列出来，其数据结构显示的是`Series`，取两列及两列以上的结果仍然是`DataFrame`。访问特定的元素可以如`Series`一样使用下标或者是索引。

In [14]:
print (df['b'].iloc[2]) # 过时写法 print (df['b'][2])
print (df['b']['gamma'])

4.0
4.0


若需要选取行，可以使用`dataframe.iloc`按下标选取，或者使用`dataframe.loc`按索引选取。

In [15]:
print (df.iloc[1])
print (df.loc['beta'])

a    1.0
b    2.0
c    3.0
d    4.0
e    5.0
Name: beta, dtype: float64
a    1.0
b    2.0
c    3.0
d    4.0
e    5.0
Name: beta, dtype: float64


选取行还可以使用切片的方式或者是布尔类型的向量

In [16]:
print ("Selecting by slices:")
print (df[1:3])
bool_vec = [True, False, True, True, False]
print ("Selecting by boolean vector:")
print (df[bool_vec])

Selecting by slices:
         a    b    c    d     e
beta   1.0  2.0  3.0  4.0   5.0
gamma  2.0  4.0  6.0  8.0  10.0
Selecting by boolean vector:
         a    b    c     d     e
alpha  0.0  0.0  0.0   0.0   0.0
gamma  2.0  4.0  6.0   8.0  10.0
delta  3.0  6.0  9.0  12.0  15.0


行列组合起来选取数据

In [17]:
print (df[['b', 'd']].iloc[[1, 3]])
print (df.iloc[[1, 3]][['b', 'd']])
print (df[['b', 'd']].loc[['beta', 'delta']])
print (df.loc[['beta', 'delta']][['b', 'd']])

         b     d
beta   2.0   4.0
delta  6.0  12.0
         b     d
beta   2.0   4.0
delta  6.0  12.0
         b     d
beta   2.0   4.0
delta  6.0  12.0
         b     d
beta   2.0   4.0
delta  6.0  12.0


如果不是需要访问特定行列，而只是某个特殊位置的元素的话，`dataframe.at`和`dataframe.iat`是最快的方式，它们分别用于使用索引和下标进行访问

In [18]:
print(df.iat[2, 3])
print(df.at['gamma', 'd'])

8.0
8.0


`dataframe.ix`可以混合使用索引和下标进行访问，唯一需要注意的地方是行列内部需要一致，不可以同时使用索引和标签访问行或者列，不然的话，将会得到意外的结果：

但是报错了：
>'DataFrame' object has no attribute 'ix'

In [23]:
print(df)
print(df.loc['gamma', 'e'])                   #print (df.ix['gamma', 4])
print(df.loc[['delta', 'gamma'], ['b', 'e']])   #print (df.ix[['delta', 'gamma'], [1, 4]])
print(df.iloc[[1, 2], [1, 2]])              #print (df.ix[[1, 2], ['b', 'e']])
print (df.loc[['beta', 'gamma'], ['b', 'e']])     #print (df.ix[['beta', 2], ['b', 'e']])
print (df.iloc[[1, 2], [1, 4]])            #print (df.ix[[1, 2], ['b', 4]])

         a    b     c     d     e
alpha  0.0  0.0   0.0   0.0   0.0
beta   1.0  2.0   3.0   4.0   5.0
gamma  2.0  4.0   6.0   8.0  10.0
delta  3.0  6.0   9.0  12.0  15.0
eta    4.0  8.0  12.0  16.0  20.0
10.0
         b     e
delta  6.0  15.0
gamma  4.0  10.0
         b    c
beta   2.0  3.0
gamma  4.0  6.0
         b     e
beta   2.0   5.0
gamma  4.0  10.0
         b     e
beta   2.0   5.0
gamma  4.0  10.0


`df.ix` 会遇到如下报错：

> AttributeError: 'DataFrame' object has no attribute 'ix'

原因是在较新的 Pandas 版本中，`ix`方法已被废弃，取而代之的是`loc`和`iloc`方法。

- `loc`按标签索引，
- `iloc`按位置索引，例如`df.iloc[0]`，选择第一行

# 快速进阶

## 输出屏幕的宽度
为了看数据方便一些，我们设置一下输出屏幕的宽度

In [25]:
pd.set_option('display.width', 200)

## 数据创建的其他方式
### 日期序列

创建一个以日期为元素的`Series`，将这个日期`Series`作为索引赋给一个`DataFrame`。

In [26]:
dates = pd.date_range('20150101', periods=5)
print(dates)

DatetimeIndex(['2015-01-01', '2015-01-02', '2015-01-03', '2015-01-04', '2015-01-05'], dtype='datetime64[ns]', freq='D')


In [27]:
df = pd.DataFrame(np.random.randn(5, 4),index=dates,columns=list('ABCD'))
print(df)

                   A         B         C         D
2015-01-01  1.093369 -0.298577  1.434027  1.041859
2015-01-02 -0.586996  0.366488 -0.574469 -0.033870
2015-01-03 -0.555512  0.951337  0.104856  0.842575
2015-01-04 -0.929345 -0.116720 -1.057389 -0.257687
2015-01-05 -0.583118 -1.572169  0.768193 -0.749635


### Series创建DataFrame
只要是能转换成`Series`的对象，都可以用于创建`DataFrame`

In [29]:
df2 = pd.DataFrame({
    'A' : 1., 
    'B': pd.Timestamp('20150214'), 
    'C': pd.Series(1.6,index=list(range(4)),dtype='float64'), 
    'D' : np.array([4] * 4, dtype='int64'), 
    'E' : 'hello pandas!' 
})
print(df2)

     A          B    C  D              E
0  1.0 2015-02-14  1.6  4  hello pandas!
1  1.0 2015-02-14  1.6  4  hello pandas!
2  1.0 2015-02-14  1.6  4  hello pandas!
3  1.0 2015-02-14  1.6  4  hello pandas!


## 数据的查看

In [None]:
# todo
# 还不会使用DataAPI

stock_list = ['000001.XSHE', '000002.XSHE', '000568.XSHE', '000625.XSHE', '000768.XSHE', '600028.XSHG', '600030.XSHG', '601111.XSHG', '601390.XSHG', '601998.XSHG']
raw_data = DataAPI.MktEqudGet(secID=stock_list, beginDate='20150101', endDate='20150131', pandas='1')
df = raw_data[['secID', 'tradeDate', 'secShortName', 'openPrice', 'highestPrice', 'lowestPrice', 'closePrice', 'turnoverVol']]

NameError: name 'DataAPI' is not defined

### 基本统计信息

In [32]:
print(df.shape)
print("Head of this DataFrame:")
print(df.head())
print("Tail of this DataFrame:")
print(df.tail(3))
print("统计信息")
print(df.describe())

(5, 4)
Head of this DataFrame:
                   A         B         C         D
2015-01-01  1.093369 -0.298577  1.434027  1.041859
2015-01-02 -0.586996  0.366488 -0.574469 -0.033870
2015-01-03 -0.555512  0.951337  0.104856  0.842575
2015-01-04 -0.929345 -0.116720 -1.057389 -0.257687
2015-01-05 -0.583118 -1.572169  0.768193 -0.749635
Tail of this DataFrame:
                   A         B         C         D
2015-01-03 -0.555512  0.951337  0.104856  0.842575
2015-01-04 -0.929345 -0.116720 -1.057389 -0.257687
2015-01-05 -0.583118 -1.572169  0.768193 -0.749635
统计信息
              A         B         C         D
count  5.000000  5.000000  5.000000  5.000000
mean  -0.312321 -0.133928  0.135044  0.168649
std    0.800719  0.938637  1.001805  0.755429
min   -0.929345 -1.572169 -1.057389 -0.749635
25%   -0.586996 -0.298577 -0.574469 -0.257687
50%   -0.583118 -0.116720  0.104856 -0.033870
75%   -0.555512  0.366488  0.768193  0.842575
max    1.093369  0.951337  1.434027  1.041859


### 排序

`DataFrame`提供了两种形式的排序。一种是按行列排序，即按照索引（行名）或者列名进行排序，可调用`dataframe.sort_index`，指定`axis=0`表示按索引（行名）排序，`axis=1`表示按列名排序，并可指定升序或者降序

In [33]:
print("Order by column names, descending:")
print(df.sort_index(axis=1, ascending=False).head())

Order by column names, descending:
                   D         C         B         A
2015-01-01  1.041859  1.434027 -0.298577  1.093369
2015-01-02 -0.033870 -0.574469  0.366488 -0.586996
2015-01-03  0.842575  0.104856  0.951337 -0.555512
2015-01-04 -0.257687 -1.057389 -0.116720 -0.929345
2015-01-05 -0.749635  0.768193 -1.572169 -0.583118


第二种排序是按值排序，可指定列名和排序方式，默认的是升序排序：

In [39]:
print("Order by column value, ascending:")
print(df.sort_values('A').head())
print("Order by multiple columns value:")
df = df.sort_values(['A', 'B'], ascending=[False, True])
print(df.head())

Order by column value, ascending:
                   A         B         C         D
2015-01-04 -0.929345 -0.116720 -1.057389 -0.257687
2015-01-02 -0.586996  0.366488 -0.574469 -0.033870
2015-01-05 -0.583118 -1.572169  0.768193 -0.749635
2015-01-03 -0.555512  0.951337  0.104856  0.842575
2015-01-01  1.093369 -0.298577  1.434027  1.041859
Order by multiple columns value:
                   A         B         C         D
2015-01-01  1.093369 -0.298577  1.434027  1.041859
2015-01-03 -0.555512  0.951337  0.104856  0.842575
2015-01-05 -0.583118 -1.572169  0.768193 -0.749635
2015-01-02 -0.586996  0.366488 -0.574469 -0.033870
2015-01-04 -0.929345 -0.116720 -1.057389 -0.257687


遇到的错误：

> AttributeError: 'DataFrame' object has no attribute 'sort'

 解决方法：将'sort'改为`sort_values`

## 数据的访问和操作

### 数据的访问
使用`:`来获取部行或者全部列

In [40]:
print(df.iloc[1:4][:])

                   A         B         C         D
2015-01-03 -0.555512  0.951337  0.104856  0.842575
2015-01-05 -0.583118 -1.572169  0.768193 -0.749635
2015-01-02 -0.586996  0.366488 -0.574469 -0.033870


使用布尔类型的向量获取数据的方法，可以很方便地过滤数据

In [41]:
print(df[df.A > df.A.mean()].head())

                   A         B         C         D
2015-01-01  1.093369 -0.298577  1.434027  1.041859


`isin()`函数可方便地过滤DataFrame中的数据

In [60]:
df.iloc[0,0] = 1
df.iloc[1,0] = 2

print(df)

                   A         B         C         D
2015-01-01  1.000000  2.000000  1.434027  1.041859
2015-01-03  2.000000  0.951337  0.104856  0.842575
2015-01-05 -0.583118 -1.572169  0.768193 -0.749635
2015-01-02 -0.586996  0.366488 -0.574469 -0.033870
2015-01-04 -0.929345 -0.116720 -1.057389 -0.257687


In [61]:

print(df[df['A'].isin([1., 2.])].head())
#print(df[df['secID'].isin(['601628.XSHG', '000001.XSHE', '600030.XSHG'])].head())

              A         B         C         D
2015-01-01  1.0  2.000000  1.434027  1.041859
2015-01-03  2.0  0.951337  0.104856  0.842575


### 处理缺失数据

先制造空数据

In [63]:
df.iloc[0,0] = np.nan
df.iloc[1,0] = np.nan
print(df)

                   A         B         C         D
2015-01-01       NaN  2.000000  1.434027  1.041859
2015-01-03       NaN  0.951337  0.104856  0.842575
2015-01-05 -0.583118 -1.572169  0.768193 -0.749635
2015-01-02 -0.586996  0.366488 -0.574469 -0.033870
2015-01-04 -0.929345 -0.116720 -1.057389 -0.257687


- `dataframe.dropna()`可以按行丢弃带有nan的数据；
- 若指定`how='all'`（默认是`'any'`），则只在整行全部是nan时丢弃数据；
- 若指定`thresh`，则表示当某行数据非缺失列数超过指定数值时才保留；
- 要指定根据某列丢弃可以通过`subset`完成

In [None]:
print ("Data size before filtering:")
print (df.shape)

print ("Drop all rows that have any NaN values:")
print ("Data size after filtering:")
print (df.dropna().shape)
print (df.dropna().head(10))

print ("Drop only if all columns are NaN:")
print ("Data size after filtering:")
print (df.dropna(how='all').shape)
print (df.dropna(how='all').head(10))

print ("Drop rows who do not have at least six values that are not NaN")
print ("Data size after filtering:")
print (df.dropna(thresh=6).shape)
print (df.dropna(thresh=6).head(10))

print ("Drop only if NaN in specific column:")
print ("Data size after filtering:")
print (df.dropna(subset=['closePrice']).shape)
print (df.dropna(subset=['closePrice']).head(10))

### 数据操作

`Series`和`DataFrame`的类函数提供了一些函数：
- `mean()`、`sum()`等，指定0按列进行，指定1按行进行
- `value_counts`函数可以方便地统计频数
- `Series`可以调用`map`函数来对每个元素应用一个函数，`DataFrame`可以调用`apply`函数对每一列（行）应用一个函数，`applymap`对每个元素应用一个函数。这里面的函数可以是用户自定义的一个`lambda`函数，也可以是已有的其他函数。
- 使用`append`可以在`Series`后添加元素，以及在`DataFrame`尾部添加一行
- `concat`函数和`merge`函数进行合并
- 强大的函数是`groupby`，可以十分方便地对数据分组处理
- `drop_duplicates`可以实现去重（最新）功能，首先对数据按日期排序，再按security ID去重

In [64]:
df = raw_data[['A', 'B']]
print (df.mean(0))

NameError: name 'raw_data' is not defined

# 数据可视化

In [None]:
dat = df[df['secID'] == '600028.XSHG'].set_index('tradeDate')['closePrice']
dat.plot(title="Close Price of SINOPEC (600028) during Jan, 2015")