# pandas 入门
- 具备按轴自动或显式数据对齐的数据结构。这可以防止许多由于数据未对齐以及来自不同数据源（索引方式不同）的数据导致常见错误
- 集成时间序列功能
- 技能处理时间序列数据也能处理非时间序列数据的数据结构
- 数学运算和约简可以根据不同的元数据执行
- 灵活处理缺失数据
- 合并及其他出现在常见数据库中的关系型运算

In [2]:
from pandas import Series,DataFrame
import pandas as pd

## pandas 数据结构介绍
### Series
- series是一种类似于一维数组以及与之相关的数据标签组成。

In [5]:
obj = Series([4,7,-3,-5])

In [6]:
obj

0    4
1    7
2   -3
3   -5
dtype: int64

In [7]:
obj.values #获取值

array([ 4,  7, -3, -5], dtype=int64)

In [8]:
obj.index#获取索引

RangeIndex(start=0, stop=4, step=1)

In [9]:
obj2 = Series([4,7,-2,3],index=['a','b','c','s'])

In [10]:
obj2

a    4
b    7
c   -2
s    3
dtype: int64

In [12]:
obj2['a']

4

In [13]:
obj2 *2

a     8
b    14
c    -4
s     6
dtype: int64

In [14]:
obj2[obj2>0]

a    4
b    7
s    3
dtype: int64

In [None]:
'b' in obj2 

### pandas 的isnull 和notnull可以用于检测缺失数据

In [16]:
pd.isnull(obj2)

a    False
b    False
c    False
s    False
dtype: bool

In [17]:
pd.notnull(obj2)

a    True
b    True
c    True
s    True
dtype: bool

### Series在算数运算中会自动对齐不同索引的数据
### Series本身及其索引都有一个name属性，该属性跟pandas其他的关键功能关系非常密切。

In [23]:
obj2.name = 'population'
obj2.index.name = 'state'

In [24]:
obj2

state
a    4
b    7
c   -2
s    3
Name: population, dtype: int64

## DataFrame
**DataFrame是一个表格型数据结构，它含有一组有序的列。梅列可以是不同的值类型（数值，字符串，布尔值等）。DataFrame既有行索引也有列索引，它可以被看作是有series做成的字典。**

In [28]:
data = {'state':['ohio','ohio','sdfg','asdf','asdfaw'],
       'year':[2000,2001,2002,2003,2004],
       'pop':[1,2,3,4,3]}
frame = DataFrame(data)
frame

Unnamed: 0,pop,state,year
0,1,ohio,2000
1,2,ohio,2001
2,3,sdfg,2002
3,4,asdf,2003
4,3,asdfaw,2004


In [29]:
DataFrame(data,columns=['year','state','pop'])

Unnamed: 0,year,state,pop
0,2000,ohio,1
1,2001,ohio,2
2,2002,sdfg,3
3,2003,asdf,4
4,2004,asdfaw,3


In [30]:
frame2 = DataFrame(data,columns=['year','state','pop','debt'])

In [31]:
frame2

Unnamed: 0,year,state,pop,debt
0,2000,ohio,1,
1,2001,ohio,2,
2,2002,sdfg,3,
3,2003,asdf,4,
4,2004,asdfaw,3,


In [32]:
frame2['debt'] = 16.5

In [33]:
frame2

Unnamed: 0,year,state,pop,debt
0,2000,ohio,1,16.5
1,2001,ohio,2,16.5
2,2002,sdfg,3,16.5
3,2003,asdf,4,16.5
4,2004,asdfaw,3,16.5


In [35]:
 del frame2['debt']

In [39]:
frame2.columns

Index(['year', 'state', 'pop'], dtype='object')

## 另一种常见的数据形式是嵌套字典

### 它被解释为：外层字典的键作为列，内层键则作为索引

In [41]:
pop = {'nevada':{2001:2.4,2002:2.9},
      'ohio':{2003:3.4,2004:4.5}}

In [42]:
frame3 =DataFrame(pop)

In [43]:
frame3

Unnamed: 0,nevada,ohio
2001,2.4,
2002,2.9,
2003,,3.4
2004,,4.5


## 可以输给DataFrame构造器的数据
![mark](http://p6yio0wew.bkt.clouddn.com/blog/180517/0B1eHeeelJ.png)

## 索引对象
### pandas的索引对象负责管理轴标签和其他元数据（比如轴名称）。构建Series或者DataFrame时，所用到的任何数组或其他序列的标签都会被转换成Index。
#### index对象是不可修改的
![mark](http://p6yio0wew.bkt.clouddn.com/blog/180517/6aI76DilIb.png)

### index的方法和属性
![mark](http://p6yio0wew.bkt.clouddn.com/blog/180517/GGJD20kDA9.png)

## 基本功能
### 重新索引
#### 重新索引的插值选项
![mark](http://p6yio0wew.bkt.clouddn.com/blog/180517/kh1j0ah1g7.png)
使用columns=关键字即可重新索引列。

In [47]:
obj2.reindex(['a','c','b','s','d'],fill_value = 0)

state
a    4
c   -2
b    7
s    3
d    0
Name: population, dtype: int64

### reindex参数
![mark](http://p6yio0wew.bkt.clouddn.com/blog/180517/2e1fhi8LAF.png)

## 丢弃指定轴上的项
### drop方法返回的是一个指定轴上删除指定值的新对象。

In [48]:
obj2.drop(['a'])

state
b    7
c   -2
s    3
Name: population, dtype: int64

In [53]:
frame[:2];frame<5

Unnamed: 0,pop,state,year
0,True,True,False
1,True,True,False
2,True,True,False
3,True,True,False
4,True,True,False


In [51]:
frame[frame['pop']>2]

Unnamed: 0,pop,state,year
2,3,sdfg,2002
3,4,asdf,2003
4,3,asdfaw,2004


### DataFrame的索引选项
![mark](http://p6yio0wew.bkt.clouddn.com/blog/180517/8mg6E2DiAC.png)

## 算术运算和数据对齐

In [54]:
obj

0    4
1    7
2   -3
3   -5
dtype: int64

In [56]:
obj2+obj

a   NaN
b   NaN
c   NaN
s   NaN
0   NaN
1   NaN
2   NaN
3   NaN
dtype: float64

### 在算数方法中填充值

In [58]:
import numpy as np
df1 = DataFrame(np.arange(12).reshape((3,4)),columns = list('abcd'))
df2 = DataFrame(np.arange(20).reshape((4,5)),columns = list('abcde'))

In [59]:
df1+df2

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,
1,9.0,11.0,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


![mark](http://p6yio0wew.bkt.clouddn.com/blog/180517/bLcDbD2ihG.png)

In [61]:
df1.add(df2,fill_value= 0 )

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,4.0
1,9.0,11.0,13.0,15.0,9.0
2,18.0,20.0,22.0,24.0,14.0
3,15.0,16.0,17.0,18.0,19.0


## DataFrame和Series之间的运算
### 例子是广播功能

In [62]:
arr = np.arange(12).reshape((3,4))

In [63]:
arr-arr[0]

array([[0, 0, 0, 0],
       [4, 4, 4, 4],
       [8, 8, 8, 8]])

In [64]:
df1

Unnamed: 0,a,b,c,d
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [70]:
series = df1.ix[0]

In [71]:
series

a    0
b    1
c    2
d    3
Name: 0, dtype: int32

In [72]:
df1-series

Unnamed: 0,a,b,c,d
0,0,0,0,0
1,4,4,4,4
2,8,8,8,8


## 函数应用和映射
### numpy的ufuncs（元素级数组方法）也可用于操作pandas对象。

In [74]:
np.abs(df1)

Unnamed: 0,a,b,c,d
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [77]:
f = lambda x: x.max()-x.min()
df1.apply(f)

a    8
b    8
c    8
d    8
dtype: int64

In [78]:
def f(x):
    return Series([x.min(),x.max()],index = ['min','max'])
df1.apply(f)

Unnamed: 0,a,b,c,d
min,0,1,2,3
max,8,9,10,11


## 元素级python函数也可以不过要使用.applymap()

In [80]:
f = lambda x: '%.2f' % x
df1.applymap(f)

Unnamed: 0,a,b,c,d
0,0.0,1.0,2.0,3.0
1,4.0,5.0,6.0,7.0
2,8.0,9.0,10.0,11.0


## 排序和排名