# 1. pandas概述


Pandas是一个功能非常强大的python数据分析工具。其主要处理的数据有：
* 有序、非有序的时间序列数据；
* 矩阵数据；
* 其他类型的统计数据集合可以转为pandas数据结构。

# 2. 基本数据结构
pandas有两个主要的数据结构：Series（一维数组），DataFrame（二维数组）。
## 2.1 Series
Series一维数组可以包含任意的数据类型（整数、浮点数、python对象等）,通过index关键字指定该数组的索引。

### 2.1.1 numpy数组创建Series

In [36]:
import pandas as pd
import numpy as np
s = pd.Series(np.random.randn(5),index=[1,2,3,4,5])
print s

1    1.023302
2   -0.156130
3   -0.272488
4    0.149976
5   -1.262701
dtype: float64


在上面的例子中，我们创建了一个Series对象，其中的数据为numpy随机数，一共5个元素，并通过下标1,2,3,4,5进行标记。
**需要注意的是，传入的index数组的长度和数据的长度需要一致。** 如果不传入index数组，则默认的index值为[0,...,len(data)-1]。

In [37]:
print s.index

Int64Index([1, 2, 3, 4, 5], dtype='int64')


通过Index方法查看该Series的索引。在上面的例子中，索引的数据类型为int64。

### 2.1.2 python字典来创建Series

In [38]:
dict = {'a':1,'b':2,'c':3,'d':4,'e':5}

In [39]:
s = pd.Series(dict)
print  s

a    1
b    2
c    3
d    4
e    5
dtype: int64


可以看到，字典中的key值作为index索引，而value作为data数组。

### 2.1.3 常量创建Series

In [32]:
pd.Series(5., index=['a', 'b', 'c'])

a    5
b    5
c    5
dtype: float64

如果data为常量，则必须设置index索引。

## 2.2 Series元素访问

可以按照numpy数组的方式，通过index数组下标进行访问：

In [5]:
data = [10,9,8]
s = pd.Series(data,index=[1,2,3])
print s

1    10
2     9
3     8
dtype: int64


通过index索引进行访问，索引为1，对应的数据为10：

In [42]:
s[1]

10

可以通过list传入索引值：

In [48]:
s[[1,2]]

1    10
2     9
dtype: int64

获取Series中，大于Series均值的数据：

In [8]:
s[s > s.mean()]

1    10
dtype: int64

## 2.4 列（Columns）选择、增加和删除

通过如下方式创建一个DataFrame：

In [9]:
pd.DataFrame.from_items([('A', [1, 2, 3]), ('B', [4, 5, 6])])

Unnamed: 0,A,B
0,1,4
1,2,5
2,3,6


通过(key, value)序列对创建DataFrame，其中的key作为列名（如果通过关键字orient='index'设置，则为行名）。

In [13]:
df = pd.DataFrame.from_items([('A', [1, 2, 3]), ('B', [4, 5, 6])],orient='index', columns=['one', 'two', 'three'])
print df

   one  two  three
A    1    2      3
B    4    5      6

[2 rows x 3 columns]


以上面创建的DataFrame为例，对于Column进行操作，得到其中的某列，通过列名进行访问：

In [14]:
df['one']

A    1
B    4
Name: one, dtype: int64

 将两列合并相加，生成第四列：

In [17]:
df['flag'] = df['one'] + df['two']
print df

   one  two  three  flag
A    1    2      3     3
B    4    5      6     9

[2 rows x 4 columns]


或者通过insert插入列，默认是最后一列，也可以指定：

In [27]:
df.insert(0,'zero',[0, 0])
df

Unnamed: 0,zero,one,two,three,flag
A,0,1,2,3,3
B,0,4,5,6,9


### 索引（Indexing）

基本的所以方法如下图所示：
<img src="files/indexing.jpg">

通过标签选择行，通过df.loc[lable]操作：

In [28]:
df.loc['A']

zero     0
one      1
two      2
three    3
flag     3
Name: A, dtype: int64

返回的行为Series，其index为DataFrame中的列名。

也可以通过整数索引，选择行：

In [29]:
df.iloc[1]

zero     0
one      4
two      5
three    6
flag     9
Name: B, dtype: int64

行数据的切片：

In [31]:
df[:2]

Unnamed: 0,zero,one,two,three,flag
A,0,1,2,3,3
B,0,4,5,6,9


对于DataFrame进行转置，行列互换：

In [32]:
df.T

Unnamed: 0,A,B
zero,0,0
one,1,4
two,2,5
three,3,6
flag,3,9


获取第一行，其列为'A'和'B'，值为0：

In [2]:
df_T = df.T
df_T.loc['zero']

NameError: name 'df' is not defined

$$c = \sqrt{a^2 + b^2}$$

In [4]:
from IPython.display import display, Math, Latex
display(Math(r'F(k) = \int_{-\infty}^{\infty} f(x) e^{2\pi i k} dx'))

<IPython.core.display.Math object>

$$S_T = S_0 \exp((r - 0.5\sigma^2) T + \sigma \sqrt{T} z)$$