##  pandas
### 简介
* 官方链接：http://pandas.pydata.org/
* pandas = pannel data + data analysis
* 简介：Pandas是python的一个数据分析包，最初由AQR Capital Management于2008年4月开发，并于2009年底开源出来，目前由专注于Python数据包开发的PyData开发team继续开发和维护，属于PyData项目的一部分。Pandas最初被作为金融数据分析工具开发出来，因此，pandas为时间序列分析提供了很好的支持。
* 作者：Wes McKinney

### 基本功能
* 开发pandas时提出的需求
  * 具备按轴自动或显示数据对齐功能的数据结构
  * 集成时间序列功能
  * 既能处理时间序列数据也能处理非时间序列数据的数据结构
  * 数学运算和约减（比如对某个轴求和）可以根据不同的元数据（轴编号）执行
  * 灵活处理缺失数据
  * 合并及其它出现在常见数据库（例如基于SQL的）中的关系型运算

### 数据结构 
#### Series
* Series是一种类似于一维数组的对象，它由一组数据（各种NumPy数据类型）以及一组于之相关的数据标签（即索引）组成
* Series的字符串表现形式为：索引在左边，值在右边。
* 创建
* 读写
* 运算

In [1]:
import pandas as pd

In [2]:
print('用数组生成Series')
obj = pd.Series([4, 7, -5, 3])
print(obj)
print(obj.values)
print(obj.index)
print()
print('指定Series的index')
obj2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
print(obj2)
print(obj2.index)
print(obj2['a'])
obj2['d'] = 6
print(obj2[['c', 'a' ,'d']])
print(obj2[obj2 > 0])# 找出大于0的元素
print('b' in obj2)# 判断索引是否存在
print('e' in obj2)
print()
print('使用字典生成Series')
sdata = {'Ohio':45000, 'Texas':71000, 'Oregon':16000, 'Utah':5000}
obj3 = pd.Series(sdata)
print(obj3)
print()
print('使用字典生成Series，并额外指定index，不匹配部分为NaN。')
states = ['California', 'Ohio', 'Oregon', 'Texas']
obj4 = pd.Series(sdata, index=states)
print(obj4)
print()
print('Series相加，相同索引部分相加。')
print(obj4 + obj3)
print()
print('指定Series及其索引的名字')
obj4.name = 'population'
obj4.index.name = 'state'
print(obj4)
print('替换index')
obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']
print(obj)

用数组生成Series
0    4
1    7
2   -5
3    3
dtype: int64
[ 4  7 -5  3]
RangeIndex(start=0, stop=4, step=1)

指定Series的index
d    4
b    7
a   -5
c    3
dtype: int64
Index(['d', 'b', 'a', 'c'], dtype='object')
-5
c    3
a   -5
d    6
dtype: int64
d    6
b    7
c    3
dtype: int64
True
False

使用字典生成Series
Ohio      45000
Oregon    16000
Texas     71000
Utah       5000
dtype: int64

使用字典生成Series，并额外指定index，不匹配部分为NaN。
California        NaN
Ohio          45000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

Series相加，相同索引部分相加。
California         NaN
Ohio           90000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

指定Series及其索引的名字
state
California        NaN
Ohio          45000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64
替换index
Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64


#### DataFrame
* DateFrame是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值、字符串、布尔值等）
* DataFrame既有行索引也有列索引，它可以被看做有Series组成的字段（公用同一个索引）
* 可以输入给DataFrame构造器的数据
  * 二维ndarray
  * 有数组、列表或元组组成的字典
  * NumPy的结构化/记录数组
  * 由Series组成的字典
  * 由字典组成的字典
  * 字典或Series的列表
  * 由列表或元组组成的列表
  * 另一个DataFrame
  * NumPy的MaskedArray

In [None]:
print('用字典生成DataFrame,key为列的名字')
data = {'state':['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'], 
        'year':[2000, 20001, 2002, 2001, 2002]
        'pop':[1.5, 1.7, 3.6, 2.4, 2.9]}
print(pd.DataFrame(data))
print(pd.DataFrame(data, columns=['year', 'state', 'pop']))# 指定列名