pandas是一个Python第三方模块，提供快速，灵活和富有表现力的数据结构，旨在使“关系”或“标记”数据的使用既简单又直观。它旨在成为在Python中进行据分析的基础高级构建块。此外，它还有更广泛的目标，即成为任何语言中最强大，最灵活的开源数据分析/操作工具。并已朝着这个目标迈进。

pandas的两个主要数据结构Series（1维）和DataFrame（2维）可以处理金融，统计，社会科学和许多工程领域中的绝大多数数据分析案例。对于R用户，DataFrame提供R中的data.frame提供的所有功能以及更多。pandas建立在NumPy模块基础之上，旨在与许多其他第三方库完美地集成在科学计算环境中。

以下是pandas的一些强大的功能：

1.轻松处理缺失数据（NaN）  

2.大小可变性：可以轻松的向DataFrame插入和删除列，行  

3.数据带标签：数据带有标签，在计算操作中，Series，DataFrame会自动对齐数据  

4.强大，灵活的groupby操作：可对数据集执行分组操作，以便聚合和转换数据  

5.可以轻松地将其他Python和NumPy数据结构中的不规则数据转换为DataFrame对象  

6.既可基于序号，也可基于标签的切片，花式索引和布尔索引，能够非常容易的选取数据  

7.关系型数据库风格的join操作  

8.数据的pivot和unpivot操作  

9.多层次index（Multiindex），让使用二维的DataFrame表示三维及更高维度数据成为可能  

10.强大的IO工具，用于CSV，Excel，数据库，HDF5等等各种格式保存/加载数据  

11.时间序列：时间频率转换（特别擅长处理交易日非交易日），移动窗口统计，移动窗口线性回归，日期转换和滞后等。  

12.整合了matplotlib的强大作图功能，DataFrame和Series都自带了plot函数，直接可作图

我们在下面的讲解中，都使用下面的导入模块规范

In [2]:
import numpy as np
import pandas as pd

# 数据结构简介

一个要记住的基本原则：pandas中的数据结构是带标签的，数据和标签的对应关系是不会变化的。除非强行执行了这样的操作。

## Series

Series是一维的带标签的数组，能够保存任何数据类型（整数，字符串，浮点数，Python对象等）。轴标签统称为索引。创建Series的基本方法是调用Series的构造函数

这里的data可以是很多不同的数据结构，如：

一个Python dict  
一个ndarray  
标量值（如5）  

传入的index将会作为Series的index。因此，根据传入数据的不同，可分为几种情况

### From array_like

如果data是ndarray，则传入的index的长度必须与数据的长度相同。如果没有传递index，将默认创建一个整数index。\[0, ..., len(data) - 1\]

In [5]:
data = np.random.randn(5)
data

array([-1.71214544,  0.09206559, -0.04980394, -1.25384451,  0.72583567])

In [6]:
s = pd.Series(data, index=['a', 'b', 'c', 'd', 'e'])
s

a   -1.712145
b    0.092066
c   -0.049804
d   -1.253845
e    0.725836
dtype: float64

In [18]:
s.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [7]:
# 生成了默认索引
pd.Series(data)

0   -1.712145
1    0.092066
2   -0.049804
3   -1.253845
4    0.725836
dtype: float64

注意 pandas支持非唯一index。如果尝试不支持重复index的操作，则会在此时引发异常。

由于带有重复index的数据在金融时间序列分析中几乎用不到并且会有很大麻烦，除非特殊说明，我们在后面的讲解中默认index一直是唯一的

### From dict

Series也可以由dict构建而来

In [32]:
d = {'b' : 1, 'a' : 0, 'c' : 2}
pd.Series(d)

b    1
a    0
c    2
dtype: int64

可以看到，dict的键被自动转换成了Series的index

如果传入了新的index，那么Series会按照新index的顺序进行排序，没有对应的就会显示为nan

In [36]:
pd.Series(d, index=['b', 'd', 'a'])

b    1.0
d    NaN
a    0.0
dtype: float64

### From scalar value

如果data是一个标量值，则必须传入index。pandas将重复该值以匹配index的长度，生成Series。

In [37]:
pd.Series(5., index=['a', 'b', 'c', 'd', 'e'])

a    5.0
b    5.0
c    5.0
d    5.0
e    5.0
dtype: float64

## Series是array_like的

Series与一维的ndarray非常相似，并且是大多数NumPy函数的有效参数（因为大多数NumPy函数也不需要一定输入一个ndarray对象，只要求输入的数据是array_like就可以了）。  

In [8]:
s

a   -1.712145
b    0.092066
c   -0.049804
d   -1.253845
e    0.725836
dtype: float64

In [9]:
s[0]

-1.712145443581743

In [10]:
s[:3]

a   -1.712145
b    0.092066
c   -0.049804
dtype: float64

In [45]:
s.median()

0.12522326259949412

In [41]:
s[s > s.median()]

d    0.378529
e    0.583744
dtype: float64

In [11]:
s[[4, 3, 1]]

e    0.725836
d   -1.253845
b    0.092066
dtype: float64

In [12]:
np.exp(s)

a    0.180478
b    1.096437
c    0.951416
d    0.285405
e    2.066457
dtype: float64

## Series又是类似dict的

Series类似于固定大小的dict，可以通过index获取和设置值

In [13]:
s['a']

-1.712145443581743

In [14]:
s

a   -1.712145
b    0.092066
c   -0.049804
d   -1.253845
e    0.725836
dtype: float64

In [16]:
s['e'] = 12

In [18]:
s

a    -1.712145
b     0.092066
c    -0.049804
d    -1.253845
e    12.000000
dtype: float64

In [54]:
'e' in s

True

In [57]:
'f' in s

False

In [None]:
如果要选取index中没有的标签，则会引发异常：

In [61]:
s['f']

KeyError: 'f'

In [None]:
使用get方法，缺少的标签将返回None或指定的默认值

In [60]:
s.get('f')

In [59]:
s.get('f', np.nan)

nan

## 使用Series进行向量化操作和标签对齐

使用原始NumPy数组时，通常不需要使用循环进行加减。在pandas中使用Series时也是如此。Series也可以作为参数传递给大多数Numpy的函数。

In [62]:
s + s

a     0.170028
b    -1.484412
c     0.250447
d     0.757058
e    24.000000
dtype: float64

In [63]:
s * 2

a     0.170028
b    -1.484412
c     0.250447
d     0.757058
e    24.000000
dtype: float64

In [64]:
np.exp(s)

a         1.088732
b         0.476063
c         1.133401
d         1.460135
e    162754.791419
dtype: float64

Series和ndarray之间的主要区别在于Series之间的操作会
#### 根据标签自动对齐数据

因此，您可以在不考虑所涉及的Series是否具有相同index的情况下计算。

In [65]:
s[1:]

b    -0.742206
c     0.125223
d     0.378529
e    12.000000
dtype: float64

In [66]:
s[:-1]

a    0.085014
b   -0.742206
c    0.125223
d    0.378529
dtype: float64

In [67]:
s[1:] + s[:-1]

a         NaN
b   -1.484412
c    0.250447
d    0.757058
e         NaN
dtype: float64

未对齐Series之间的操作结果的index将会是两个Series的index的并集。如果在一个Series或另一个Series中找不到该标签，则结果将标记为缺失NaN。

这点相当强大，意味着在处理金融数据的适合，不必再自己对齐股票代码和时间了，pandas会自动帮助我们对齐

注意： 通常，我们选择使不同index对象之间的操作的默认结果产生index的并集，以避免信息丢失。尽管缺少数据，但index的标签通常是重要信息，保留这个标签，并用nan填充数据通常是有意义的。当然还可以选择通过dropna函数删除缺少数据的标签。

## name

Series也可以有一个name属性：

In [70]:
s = pd.Series(np.random.randn(5), name='something')

In [71]:
s

0    2.468441
1   -1.812731
2   -0.497638
3    0.916397
4    1.184701
Name: something, dtype: float64

name在许多情况下将自动分配，特别是在选取DataFrame的一列得到一个Series时，name自动分配为该列对应的columns中的标签。

您可以使用该pandas.Series.rename()方法重命名Series 。

In [78]:
s.rename("different", inplace=True)
s

0    2.468441
1   -1.812731
2   -0.497638
3    0.916397
4    1.184701
Name: different, dtype: float64

In [82]:
s2 = s.rename("different1") # 默认参数inplace = False
s2

0    2.468441
1   -1.812731
2   -0.497638
3    0.916397
4    1.184701
Name: different1, dtype: float64

## DataFrame

DataFrame是一个二维带标签数据结构，可能具有不同类型的列，这也是比较强大的地方。

您可以将其视为Excel表或SQL数据库中的表，或Series对象的字典。
DataFrame是最常用的pandas对象。

创建DataFrame的最简单方法就是使用构造函数

与Series类似，DataFrame接受许多不同类型的输入：

一个dict，元素为1D ndarray，list，dicts或Series  
二维numpy.ndarray  
一个 Series  
另一个 DataFrame

除了数据，还可以选择传递index（行标签）和columns（列标签）参数。如果传递index和/或columns，则生成的DataFrame的index和columns就是传入的index和columns。
如果未传递index和/或columns，则将默认生成。

### From dict of Series or dicts

In [93]:
data = {'one' : pd.Series([1., 2., 3.], index=['a', 'b', 'c']),
     'two' : pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])}

In [94]:
df = pd.DataFrame(data)

In [95]:
df

Unnamed: 0,one,two
a,1.0,1.0
b,2.0,2.0
c,3.0,3.0
d,,4.0


In [96]:
pd.DataFrame(data, index=['d', 'b', 'a'])

Unnamed: 0,one,two
d,,4.0
b,2.0,2.0
a,1.0,1.0


In [97]:
pd.DataFrame(data, index=['d', 'b', 'a'], columns=['two', 'three'])

Unnamed: 0,two,three
d,4.0,
b,2.0,
a,1.0,


### From dict of ndarrays / lists

In [25]:
data = {'one' : [1., 2., 3., 4.],
     'two' : [4., 3., 2., 1.]}

In [27]:
pd.DataFrame(data)

Unnamed: 0,one,two
0,1.0,4.0
1,2.0,3.0
2,3.0,2.0
3,4.0,1.0


In [101]:
pd.DataFrame(data, index=['a', 'b', 'c', 'd'])

Unnamed: 0,one,two
a,1.0,4.0
b,2.0,3.0
c,3.0,2.0
d,4.0,1.0


### From a list of dicts

In [31]:
data2 = [{'a': 1, 'b': 2}, {'a': 5, 'b': 10, 'c': 20}]

In [32]:
pd.DataFrame(data2)

Unnamed: 0,a,b,c
0,1,2,
1,5,10,20.0


In [33]:
pd.DataFrame(data2, index=['first', 'second'])

Unnamed: 0,a,b,c
first,1,2,
second,5,10,20.0


In [34]:
pd.DataFrame(data2, columns=['a', 'b'])

Unnamed: 0,a,b
0,1,2
1,5,10


### From a dict of tuples

In [35]:
 pd.DataFrame({('a', 'b'): {('A', 'B'): 1, ('A', 'C'): 2},
               ('a', 'a'): {('A', 'C'): 3, ('A', 'B'): 4},
               ('a', 'c'): {('A', 'B'): 5, ('A', 'C'): 6},
               ('b', 'a'): {('A', 'C'): 7, ('A', 'B'): 8},
               ('b', 'b'): {('A', 'D'): 9, ('A', 'B'): 10}})

Unnamed: 0_level_0,Unnamed: 1_level_0,a,a,a,b,b
Unnamed: 0_level_1,Unnamed: 1_level_1,b,a,c,a,b
A,B,1.0,4.0,5.0,8.0,10.0
A,C,2.0,3.0,6.0,7.0,
A,D,,,,,9.0


### From a Series

In [38]:
data = pd.Series(np.random.rand(5))
data

0    0.532595
1    0.337162
2    0.920888
3    0.038842
4    0.198838
dtype: float64

In [39]:
data.shape

(5,)

In [42]:
df = pd.DataFrame(data)
df

Unnamed: 0,0
0,0.532595
1,0.337162
2,0.920888
3,0.038842
4,0.198838


In [43]:
df.shape

(5, 1)

## 列的选取，增加，删除

可以将DataFrame视为类似与一个包含数个Series对象的dict。获取，增加和删除列的工作方式与类似的dict操作相同：

In [47]:
dict1 = {"a": 1, "b": 2}
dict1

{'a': 1, 'b': 2}

In [50]:
dict1["c"] = 3
dict1

{'a': 1, 'b': 2, 'c': 3}

In [51]:
del dict1["a"]

In [53]:
dict1

{'b': 2, 'c': 3}

In [58]:
df

Unnamed: 0,0
0,0.532595
1,0.337162
2,0.920888
3,0.038842
4,0.198838


In [73]:
df = pd.DataFrame(np.random.randn(5, 2), columns=["one", "two"])
df

Unnamed: 0,one,two
0,0.353729,0.517478
1,-0.02463,-0.887384
2,-0.645614,-0.466391
3,-1.836152,-1.246814
4,0.381288,-0.596871


In [74]:
df['one']

0    0.353729
1   -0.024630
2   -0.645614
3   -1.836152
4    0.381288
Name: one, dtype: float64

In [75]:
df['one'] * df['two']

0    0.183047
1    0.021857
2    0.301109
3    2.289340
4   -0.227580
dtype: float64

In [76]:
df['three'] =  df['one'] * df['two']

In [77]:
df

Unnamed: 0,one,two,three
0,0.353729,0.517478,0.183047
1,-0.02463,-0.887384,0.021857
2,-0.645614,-0.466391,0.301109
3,-1.836152,-1.246814,2.28934
4,0.381288,-0.596871,-0.22758


In [78]:
df['flag'] = df['one'] > 2

In [80]:
df

Unnamed: 0,one,two,three,flag
0,0.353729,0.517478,0.183047,False
1,-0.02463,-0.887384,0.021857,False
2,-0.645614,-0.466391,0.301109,False
3,-1.836152,-1.246814,2.28934,False
4,0.381288,-0.596871,-0.22758,False


In [90]:
df

Unnamed: 0,one,two,three,flag,bar
0,0.353729,0.517478,0.183047,False,0
1,-0.02463,-0.887384,0.021857,False,1
2,-0.645614,-0.466391,0.301109,False,2
3,-1.836152,-1.246814,2.28934,False,3
4,0.381288,-0.596871,-0.22758,False,4


列可以像dict一样删除

In [91]:
del df['two']

In [94]:
df

Unnamed: 0,one,three,flag,bar
0,0.353729,0.183047,False,0
1,-0.02463,0.021857,False,1
2,-0.645614,0.301109,False,2
3,-1.836152,2.28934,False,3
4,0.381288,-0.22758,False,4


插入标量值时，它会自然地传播以填充列

In [125]:
df['foo'] = 'bar'

In [97]:
df

Unnamed: 0,one,three,flag,bar
0,0.353729,0.183047,False,0
1,-0.02463,0.021857,False,1
2,-0.645614,0.301109,False,2
3,-1.836152,2.28934,False,3
4,0.381288,-0.22758,False,4


插入与DataFrame不具有相同索引的Series时，它将符合DataFrame的索引

In [99]:
df['one'][:2]

0    0.353729
1   -0.024630
Name: one, dtype: float64

In [100]:
df

Unnamed: 0,one,three,flag,bar
0,0.353729,0.183047,False,0
1,-0.02463,0.021857,False,1
2,-0.645614,0.301109,False,2
3,-1.836152,2.28934,False,3
4,0.381288,-0.22758,False,4


In [101]:
df['one_trunc'] = df['one'][:2]

In [102]:
df

Unnamed: 0,one,three,flag,bar,one_trunc
0,0.353729,0.183047,False,0,0.353729
1,-0.02463,0.021857,False,1,-0.02463
2,-0.645614,0.301109,False,2,
3,-1.836152,2.28934,False,3,
4,0.381288,-0.22758,False,4,


可以插入ndarrays，但它们的长度必须与DataFrame的index的长度相匹配。因为ndarray是没有标签的，pandas并不知道该给哪些标签填充nan，同理list，tuple也是一样

默认情况下，列会在末尾插入。用insert函数可在DataFrame中的特定位置插入

In [133]:
df.insert(1, 'bar', df['one'])

In [134]:
df

Unnamed: 0,one,bar,three,flag,foo,one_trunc
a,1.0,1.0,1.0,False,bar,1.0
b,2.0,2.0,4.0,False,bar,2.0
c,3.0,3.0,9.0,True,bar,
d,,,,False,bar,
