##  pandas
### 简介
* 官方链接：http://pandas.pydata.org/
* pandas = pannel data + data analysis
* 简介：Pandas是python的一个数据分析包，最初由AQR Capital Management于2008年4月开发，并于2009年底开源出来，目前由专注于Python数据包开发的PyData开发team继续开发和维护，属于PyData项目的一部分。Pandas最初被作为金融数据分析工具开发出来，因此，pandas为时间序列分析提供了很好的支持。
* 作者：Wes McKinney

### 基本功能
* 开发pandas时提出的需求
  * 具备按轴自动或显示数据对齐功能的数据结构
  * 集成时间序列功能
  * 既能处理时间序列数据也能处理非时间序列数据的数据结构
  * 数学运算和约减（比如对某个轴求和）可以根据不同的元数据（轴编号）执行
  * 灵活处理缺失数据
  * 合并及其它出现在常见数据库（例如基于SQL的）中的关系型运算

### 数据结构 
#### Series
* Series是一种类似于一维数组的对象，它由一组数据（各种NumPy数据类型）以及一组于之相关的数据标签（即索引）组成
* Series的字符串表现形式为：索引在左边，值在右边。
* 创建
* 读写
* 运算

In [10]:
import pandas as pd
import numpy as np

In [11]:
print('用数组生成Series')
obj = pd.Series([4, 7, -5, 3])
print(obj)
print(obj.values)
print(obj.index)
print()
print('指定Series的index')
obj2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
print(obj2)
print(obj2.index)
print(obj2['a'])
obj2['d'] = 6
print(obj2[['c', 'a' ,'d']])
print(obj2[obj2 > 0])# 找出大于0的元素
print('b' in obj2)# 判断索引是否存在
print('e' in obj2)
print()
print('使用字典生成Series')
sdata = {'Ohio':45000, 'Texas':71000, 'Oregon':16000, 'Utah':5000}
obj3 = pd.Series(sdata)
print(obj3)
print()
print('使用字典生成Series，并额外指定index，不匹配部分为NaN。')
states = ['California', 'Ohio', 'Oregon', 'Texas']
obj4 = pd.Series(sdata, index=states)
print(obj4)
print()
print('Series相加，相同索引部分相加。')
print(obj4 + obj3)
print()
print('指定Series及其索引的名字')
obj4.name = 'population'
obj4.index.name = 'state'
print(obj4)
print('替换index')
obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']
print(obj)

用数组生成Series
0    4
1    7
2   -5
3    3
dtype: int64
[ 4  7 -5  3]
RangeIndex(start=0, stop=4, step=1)

指定Series的index
d    4
b    7
a   -5
c    3
dtype: int64
Index(['d', 'b', 'a', 'c'], dtype='object')
-5
c    3
a   -5
d    6
dtype: int64
d    6
b    7
c    3
dtype: int64
True
False

使用字典生成Series
Ohio      45000
Oregon    16000
Texas     71000
Utah       5000
dtype: int64

使用字典生成Series，并额外指定index，不匹配部分为NaN。
California        NaN
Ohio          45000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

Series相加，相同索引部分相加。
California         NaN
Ohio           90000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

指定Series及其索引的名字
state
California        NaN
Ohio          45000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64
替换index
Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64


#### DataFrame
* DateFrame是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值、字符串、布尔值等）
* DataFrame既有行索引也有列索引，它可以被看做有Series组成的字段（公用同一个索引）
* 可以输入给DataFrame构造器的数据
  * 二维ndarray
  * 有数组、列表或元组组成的字典
  * NumPy的结构化/记录数组
  * 由Series组成的字典
  * 由字典组成的字典
  * 字典或Series的列表
  * 由列表或元组组成的列表
  * 另一个DataFrame
  * NumPy的MaskedArray

In [13]:
print('用字典生成DataFrame,key为列的名字')
data = {'state':['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'], 
        'year':[2000, 20001, 2002, 2001, 2002],
        'pop':[1.5, 1.7, 3.6, 2.4, 2.9]}
print(pd.DataFrame(data))
print(pd.DataFrame(data, columns=['year', 'state', 'pop']))# 指定列名
print()
print('指定索引，在列中指定不存在的列，默认数据用NaN')
frame2 = pd.DataFrame(data, columns=['year', 'state', 'pop', 'debt'],index=['one', 'two', 'three', 'four', 'five'])
print(frame2)
print(frame2['state'])
print(frame2.year)
print(frame2.iloc('three'))
frame2['debt'] = 16.5 # 修改一整列
print(frame2)
frame2.debt = np.arange(5) # 用numpy数组修改元素
print(frame2)
print()
print('用Series指定要修改的索引及其对应的值，没有指定的默认数据用NaN')
val = pd.Series([-1.2, -1.5, -1.7], index = ['two', 'four', 'five'])
frame2['debt'] = val;
print(frame2)
print()
print('赋值给新列')
frame2['eastern'] = (frame2.state == 'Ohio') # 如果state等于Ohio为True
print(frame2)
print(frame2.columns)
print()
print('DataFrame转置')
pop = {'Nevada':{2001:2.4, 2002:2.9},'Ohio':{2000:1.5, 2001:1.7, 2002:3.6}}# 由字典组成的字典
frame3 = pd.DataFrame(pop)
print(frame3)
print(frame3.T)
print()
print('指定索引顺序，以及使用切片初始化数据')
print(pd.DataFrame(pop, index = [2001, 2002, 2003]))
pdata = {'Ohio':frame3['Ohio'][:-1], 'Nevada':frame3['Nevada'][:2]}
print(pd.DataFrame(pdata))
print()
print('指定索引和列的名称')
frame3.index.name = 'year'
frame3.columns.name = 'state'
print(frame3)
print(frame3.values)
print(frame2.values)

用字典生成DataFrame,key为列的名字
   pop   state   year
0  1.5    Ohio   2000
1  1.7    Ohio  20001
2  3.6    Ohio   2002
3  2.4  Nevada   2001
4  2.9  Nevada   2002
    year   state  pop
0   2000    Ohio  1.5
1  20001    Ohio  1.7
2   2002    Ohio  3.6
3   2001  Nevada  2.4
4   2002  Nevada  2.9

指定索引，在列中指定不存在的列，默认数据用NaN
        year   state  pop debt
one     2000    Ohio  1.5  NaN
two    20001    Ohio  1.7  NaN
three   2002    Ohio  3.6  NaN
four    2001  Nevada  2.4  NaN
five    2002  Nevada  2.9  NaN
one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
Name: state, dtype: object
one       2000
two      20001
three     2002
four      2001
five      2002
Name: year, dtype: int64
<pandas.core.indexing._iLocIndexer object at 0x0000000003E87588>
        year   state  pop  debt
one     2000    Ohio  1.5  16.5
two    20001    Ohio  1.7  16.5
three   2002    Ohio  3.6  16.5
four    2001  Nevada  2.4  16.5
five    2002  Nevada  2.9  16.5
        year   state  pop  debt
one 

#### 索引对象
* pandas的索引对象负责管理轴标签和其他元数据（比如轴名称等）。构建Series或DataFrame时，所用到的任何数组或其他序列的标签搜会被转换为一个Index。
* Index对象是不可修改的（immutable），因此用户不能对其进行修改。不可修改性非常重要，因为这样不能使Index在多个数据结构之间安全共享。

In [17]:
import sys
print('获取index')
obj = pd.Series(range(3), index = ['a', 'b', 'c'])
index = obj.index
print(index[1:])
try:
    index[1] = 'd' # index对象read only
except:
    print(sys.exc_info()[0])
print()
print('使用Index对象')
index = pd.Index(np.arange(3))
obj2 = pd.Series([1.5, -2.5, 0], index = index)
print(obj2)
print(obj2.index is index)
print()
print('判断列和索引是否存在')
pop = {'Nevada':{2001:2.4, 2002:2.9}, 'Ohio':{2000:1.5, 2001:1.7, 2002:3.6}}
frame3 = pd.DataFrame(pop)
print('Ohio' in frame3.columns)
print('2003' in frame3.index)

获取index
Index(['b', 'c'], dtype='object')
<class 'TypeError'>

使用Index对象
0    1.5
1   -2.5
2    0.0
dtype: float64
True

判断列和索引是否存在
True
False


* pandas中主要的index对象
  * index  最泛化的Index对象，将轴标签为一个由Python对象组成的NumPy数组
  * Int64Index   针对整数的特色Index
  * MultiIndex  ‘层次化’索引对象，表示单个轴上的多层索引。可以看做是由元数组成的数组。
  * DatatimeIndex   存储纳秒级时间戳
  * PeriodIndex  针对Period数据的特色Index
* Index的方法和属性
  * append
  * diff
  * intersection
  * union
  * isin
  * delete
  * drop
  * insert
  * is_monotonic
  * is_unique
  * unqiue

#### 重新索引
* 创建一个适应新索引的新对象，该Series的reindex将会根据新索引进行重排。如果某个索引值当前不存在，就引入缺失值。
* 对于时间序列这样的有序数据，重新索引时可能需要做一些插值处理。method选项即可达到此目的。

### 基本功能
#### 丢弃指定轴上的项
* 丢弃某条轴上的一个或多个项很简单，只要有一个索引数组或者列表