  # Pandas

In [1]:
from numpy import nan as NA
from pandas import Series, DataFrame
import pandas as pd
import numpy as np


  ## pandas的数据结构
  要使用pandas，首先得熟悉它的两个主要数据结构：Series和DataFrame。
  ### Series
  Series是一种类似于一维数组的对象，它由一组数据（各种Numpy数据类型）以及一组与之相关的数据标签（即索引）组成。仅有一组数据即可产生最简单的Series：

In [2]:
obj = Series([4, 7, -5, 3])
obj


0    4
1    7
2   -5
3    3
dtype: int64

  Series的字符串表现形式为：索引在左边，值在右边。由于我们没有为数据指定索引，于是会自动创建一个0到N-1（N为数据的长度）的整数型索引。你可以通过Series的values和index属性获取其数组表示形式和索引对象：

In [3]:
obj.values



array([ 4,  7, -5,  3])

In [4]:
obj.index


RangeIndex(start=0, stop=4, step=1)

  通常,我们希望所创建的Series带有一个可以对各个数据点进行标记的索引 ：

In [5]:
obj2 = Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
obj2


d    4
b    7
a   -5
c    3
dtype: int64

  与普通Numpy数组相比，你可以通过索引的方式选取Series中的单个或一组值：

In [6]:
obj2['a']



-5

In [7]:
obj2['d'] = 6
obj2[['c', 'a', 'd']]


c    3
a   -5
d    6
dtype: int64

  Numpy数组运算（如根据布尔型数组进行过滤，标量乘法，应用数学函数等）都会保留索引和值之间的链接：

In [8]:
obj2



d    6
b    7
a   -5
c    3
dtype: int64

In [9]:
obj2[obj2 > 0]



d    6
b    7
c    3
dtype: int64

In [10]:
obj2 * 2



d    12
b    14
a   -10
c     6
dtype: int64

In [11]:
np.exp(obj2)


d     403.428793
b    1096.633158
a       0.006738
c      20.085537
dtype: float64

  还可以将Series看成是一个定长的有序字典,因为它是索引值到数据值的一个映射。它可以用在许多原本需要字典参数的函数中：

In [12]:
'b' in obj2



True

In [13]:
'e' in obj2


False

  如果数据被存放在一个python字典中，也可以直接通过这个字典来创建Series：

In [14]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
obj3 = Series(sdata)
obj3


Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

  如果只传入一个字典，则结果Series中的索引了就是原字典的键（有序排列）。

In [15]:
states = ['California', 'Ohio', 'Oregon', 'Texas']
obj4 = Series(sdata, index=states)
obj4


California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

  sdata中跟states索引相匹配的那三个值会被找出来并放到相应的位置上，
  但由于“Californai”所对应的sdata值找不到，所以其结果就为NaN（即“非数字”（not a number），
  在pandas中，它用于表示缺失或NA值）。pandas的isnull和notnull函数可以用来检测缺失数据：

In [16]:
pd.isnull(obj4)



California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [17]:
pd.notnull(obj4)


California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

  Series也有类似的实例方法：

In [18]:
obj4.isnull()


California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

  Series最重要的一个功能是：它在算术运算中会自动对其不同索引的数据。

In [19]:
obj3



Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [20]:
obj4



California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [21]:
obj3 + obj4


California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

  Series对象本身及其索引都有一个name属性，该属性跟pandas其他的关键功能关系非常密切：

In [22]:
obj4.name = 'population'
obj4.index.name = 'state'
obj4


state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

  Series的索引可以通过赋值的方式就地修改：

In [23]:
obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']
obj


Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

  ### DataFrame
  DataFrame是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值，字符串，布尔值等）。DataFrame既有行索引也有列索引，它可以被看做由Series组成的字典（共用同一个索引）。跟其他类似的数据结构相比，DataFrame中面向行和面向列的操作基本是平衡的，其实，DataFrame中的数据是以一个或多个二维块存放的。
  构建DataFrame的办法有很多，最常用的一种是直接传入一个由等长列表或Numpy数组组成的字典：

In [24]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9]}
frame = DataFrame(data)
frame


Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


  结果DataFrame会自动加上索引，且全部列会被有序排列：
  如果指定了列序列，则DataFrame的列就会按照指定顺序进行排列：

In [25]:
DataFrame(data, columns=['year', 'state', 'pop'])


Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9


  跟Series一样，如果传入的列在数据中找不到，就会产生NA值：

In [26]:
frame2 = DataFrame(data, columns=['year', 'state', 'pop', 'debt'], index=[
                   'one', 'two', 'three', 'four', 'five'])
frame2



Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,


In [27]:
frame2.columns


Index(['year', 'state', 'pop', 'debt'], dtype='object')

  通过类似字典标记的方式或属性的方式，可以将DataFrame的列获取为一个Series：

In [28]:
frame2['state']



one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
Name: state, dtype: object

In [29]:
frame2.year


one      2000
two      2001
three    2002
four     2001
five     2002
Name: year, dtype: int64

  返回的Series拥有原DataFrame相同的索引，且其name属性也已经被相应地设置好了。行可以通过位置或名称的方式进行获取，比如用索引字段loc：

In [30]:
frame2.loc['three']


year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

  列可以通过赋值的方式进行修改。例如：我们可以给那个空的 “ debt ” 列赋上一个标量值或一组值：

In [31]:
frame2['debt'] = 16.5
frame2



Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,16.5
two,2001,Ohio,1.7,16.5
three,2002,Ohio,3.6,16.5
four,2001,Nevada,2.4,16.5
five,2002,Nevada,2.9,16.5


In [32]:
frame2['debt'] = np.arange(5.)
frame2


Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0.0
two,2001,Ohio,1.7,1.0
three,2002,Ohio,3.6,2.0
four,2001,Nevada,2.4,3.0
five,2002,Nevada,2.9,4.0


  将列表或数组赋值给某个列时，其长度必须跟DataFrame的长度相匹配。如果赋值的是一个Series，就会精确匹配到DataFrame的索引，所有的空位都将会填上缺失值：

In [33]:
val = Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])
frame2['debt'] = val
frame2


Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7


  为不存在的列赋值会创建出一个新列。关键字del用于删除列：

In [34]:
frame2['eastern'] = frame2.state == 'Ohio'
frame2



Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,,True
two,2001,Ohio,1.7,-1.2,True
three,2002,Ohio,3.6,,True
four,2001,Nevada,2.4,-1.5,False
five,2002,Nevada,2.9,-1.7,False


In [35]:
del frame2['eastern']
frame2.columns


Index(['year', 'state', 'pop', 'debt'], dtype='object')

  另一种常见的数据形式是嵌套字典（也就是字典的字典）：

In [36]:
pop = {'Nevada': {2001: 2.4, 2002: 2.9},
       'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}


  如果将它传给DataFrame，它就会被解释为：外层字典的键作为列，内层键则作为行索引：

In [37]:
frame3 = DataFrame(pop)
frame3


Unnamed: 0,Nevada,Ohio
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


  也可以对结果进行转置

In [38]:
frame3.T


Unnamed: 0,2000,2001,2002
Nevada,,2.4,2.9
Ohio,1.5,1.7,3.6


  由Series组成的字典差不多也是一样的用法：

In [39]:
pdata = {'Ohio': frame3['Ohio'][:-1], 'Nevada': frame3['Nevada'][:2]}
DataFrame(pdata)


Unnamed: 0,Ohio,Nevada
2000,1.5,
2001,1.7,2.4


  如果设置了DataFrame的index和columns的name属性，则这些信息也会被显示出来：

In [40]:
frame3.index.name = 'year'
frame3.columns.name = 'state'
frame3


state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


  跟Series一样，values属性也会以二维ndarray的形式返回DataFrame中的数据：

In [41]:
frame3.values


array([[nan, 1.5],
       [2.4, 1.7],
       [2.9, 3.6]])

  如果DataFrame各列的数据类型不通，则值数据的数据类型就会选用能兼容所有列的数据类型：

In [42]:
frame2.values


array([[2000, 'Ohio', 1.5, nan],
       [2001, 'Ohio', 1.7, -1.2],
       [2002, 'Ohio', 3.6, nan],
       [2001, 'Nevada', 2.4, -1.5],
       [2002, 'Nevada', 2.9, -1.7]], dtype=object)

  ### 索引对象
  pandas的索引对象负责管理标签和其他元数据（比如轴名称等）。构建Series或DataFrame时，所用到的任何数组或其他序列的标签都会被转换成一个Index：

In [43]:
obj = Series(range(3), index=['a', 'b', 'c'])
index = obj.index
index


Index(['a', 'b', 'c'], dtype='object')

  Index对象是不可修改的，因此用户不能对其进行修改：

In [44]:
index[1] = 'd'


TypeError: Index does not support mutable operations

  不可修改性非常重要，因为这样才能使Index对象在多个数据结构之间安全共享：

In [45]:
index = pd.Index(np.arange(3))
obj2 = Series([1.5, -2.5, 0], index=index)
obj2.index is index


True

  ## 基本功能
  ### 重新索引
  pandas对象的一个重要方法是reindex，其作用是创建一个适应新索引的新对象。

In [46]:
obj = Series([4.5, 7.2, -5.2, 3.6], index=['d', 'b', 'a', 'c'])
obj


d    4.5
b    7.2
a   -5.2
c    3.6
dtype: float64

  调用该Series的reindex将会根据新索引进行重排。如果某个索引值当前不存在，就引入缺失值：

In [47]:
obj2 = obj.reindex(['a', 'b', 'c', 'd', 'e'])
obj2


a   -5.2
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

  对于时间序列这样的有序数据，重新索引时可能需要做一些插值处理。method选项即可达到此目的，例如使用ffill可以实现前向值填充 ：

In [48]:
obj3 = Series(['blue', 'purple', 'yellow'], index=[0, 2, 4])
obj3.reindex(range(6), method='ffill')


0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

  对于DataFrame，reindex可以修改（行）索引，列，或两个都修改。如果仅传入一个序列，则会重新索引行：

In [49]:
frame = DataFrame(np.arange(9).reshape((3, 3)), index=[
                  'a', 'c', 'd'], columns=['Ohio', 'Texas', 'California'])
frame



Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [50]:
frame2 = frame.reindex(['a', 'b', 'c', 'd'])
frame2


Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


  使用columns关键字即可重新索引列:

In [51]:
states = ['Texas', 'Utah', 'California']
frame.reindex(columns=states)



Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


In [52]:
frame.reindex(index=['a', 'b', 'c', 'd'], columns=states)


Unnamed: 0,Texas,Utah,California
a,1.0,,2.0
b,,,
c,4.0,,5.0
d,7.0,,8.0


  利用loc或iloc的标签索引功能,重新索引任务可以变得更简洁:

In [53]:
frame.loc[['a', 'b', 'c', 'd'], states]


Passing list-likes to .loc or [] with any missing label will raise
KeyError in the future, you can use .reindex() as an alternative.

See the documentation here:
https://pandas.pydata.org/pandas-docs/stable/indexing.html#deprecate-loc-reindex-listlike
  return self._getitem_tuple(key)


Unnamed: 0,Texas,Utah,California
a,1.0,,2.0
b,,,
c,4.0,,5.0
d,7.0,,8.0


  ###丢弃指定轴上的项
  丢弃某条轴上的一个或多个项很简单,只要有一个索引数组或列表即可.由于需要执行一些数据整理和集合逻辑,所以drop方法返回的是一个在执行轴上删除了指定值的新对象:

In [54]:
obj = Series(np.arange(5.), index=['a', 'b', 'c', 'd', 'e'])
new_obj = obj.drop('c')
new_obj


a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

  对于DataFrame,可以删除任意轴上的索引值:

In [55]:
data = DataFrame(np.arange(16).reshape((4, 4)), index=[
                 'Ohio', 'Colorado', 'Utah', 'New York'],
                 columns=['one', 'two', 'three', 'four'])
data.drop(['Colorado', 'Ohio'])



Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


In [56]:
data.drop('two', axis=1)


Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


  ### 索引,选取和过滤
  Series索引(obj[...])的工作方式类似于NumPy数组的索引,只不过Series的索引值不只是整数.

In [57]:
obj = Series(np.arange(4.), index=['a', 'b', 'c', 'd'])
obj



a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64

In [58]:
obj['b']



1.0

In [59]:
obj[1]



1.0

In [60]:
obj[2:4]



c    2.0
d    3.0
dtype: float64

In [61]:
obj[['b', 'a', 'd']]



b    1.0
a    0.0
d    3.0
dtype: float64

In [62]:
obj[[1, 3]]



b    1.0
d    3.0
dtype: float64

In [63]:
obj[obj < 2]


a    0.0
b    1.0
dtype: float64

  利用标签的切片运算与普通的Python切片运算不同,其末端是包含的.

In [64]:
obj['b': 'c']


b    1.0
c    2.0
dtype: float64

  设置的方式也很简单

In [65]:
obj['b': 'c'] = 5
obj


a    0.0
b    5.0
c    5.0
d    3.0
dtype: float64

  如你所见, 对DataFrame进行索引其实就是获取一个或多个列:

In [66]:
data = DataFrame(np.arange(16).reshape((4, 4)), index=[
                 'Ohio', 'Colorado', 'Utah', 'New York'],
                 columns=['one', 'two', 'three', 'four'])
data



Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [67]:
data['two']



Ohio         1
Colorado     5
Utah         9
New York    13
Name: two, dtype: int64

In [68]:
data[['three', 'one']]


Unnamed: 0,three,one
Ohio,2,0
Colorado,6,4
Utah,10,8
New York,14,12


  这种索引方式有几个特殊的情况.首先通过切片或布尔型数组选区行:

In [69]:
data[:2]



Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7


In [70]:
data[data['three'] > 5]


Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


  另一种用法是通过布尔型DataFrame,进行索引:

In [71]:
data < 5



Unnamed: 0,one,two,three,four
Ohio,True,True,True,True
Colorado,True,False,False,False
Utah,False,False,False,False
New York,False,False,False,False


In [72]:
data[data < 5] = 0
data


Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


  可以通过loc,iloc, 实现NumPy式的标记法以及轴标签从DataFrame中选取行和列的子集.

In [73]:
data.loc['Colorado', ['two', 'three']]



two      5
three    6
Name: Colorado, dtype: int64

In [74]:
data



Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [75]:
data.iloc[[2, 3], [3, 0, 1]]


Unnamed: 0,four,one,two
Utah,11,8,9
New York,15,12,13


  也就是说,对pandas对象中的数据的选取和重排方式很多.
  ### 算术运算和数据对齐
  pandas最重要的一个功能是,它可以对不同索引的对象进行算术运算.在将对象相加时,如果存在不同的索引对,则结果的索引就是该索引对的并集.

In [76]:
s1 = Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])
s1



a    7.3
c   -2.5
d    3.4
e    1.5
dtype: float64

In [77]:
s2 = Series([-2.1, 3.6, -1.5, 4, 3.1], index=['a', 'c', 'e', 'f', 'g'])
s2



a   -2.1
c    3.6
e   -1.5
f    4.0
g    3.1
dtype: float64

In [78]:
s1+s2


a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

  自动的数据对其操作在不重叠的索引处引入了NA值.缺失值会在算术运算过程中传播.
  对于DataFrame,对齐操作会同时发生在行和列上:

In [79]:
df1 = DataFrame(np.arange(9.).reshape((3, 3)), columns=list(
    'bcd'), index=['Ohio', 'Texas', 'Colorado'])
df1



Unnamed: 0,b,c,d
Ohio,0.0,1.0,2.0
Texas,3.0,4.0,5.0
Colorado,6.0,7.0,8.0


In [80]:
df2 = DataFrame(np.arange(12.).reshape((4, 3)), columns=list(
    'bde'), index=['Utah', 'Ohio', 'Texas', 'Oregon'])
df2



Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [81]:
df1+df2


Unnamed: 0,b,c,d,e
Colorado,,,,
Ohio,3.0,,6.0,
Oregon,,,,
Texas,9.0,,12.0,
Utah,,,,


  ### 在算术方法中填充值
  在对不同索引的对象进行算术运算时,你可能希望当一个对象中某个轴标签在另一个对象中找不到时填充一个特殊值.

In [82]:
df1 = DataFrame(np.arange(12.).reshape((3, 4)), columns=list('abcd'))
df1



Unnamed: 0,a,b,c,d
0,0.0,1.0,2.0,3.0
1,4.0,5.0,6.0,7.0
2,8.0,9.0,10.0,11.0


In [83]:
df2 = DataFrame(np.arange(20.).reshape((4, 5)), columns=list('abcde'))
df2



Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,4.0
1,5.0,6.0,7.0,8.0,9.0
2,10.0,11.0,12.0,13.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [84]:
df1+df2



Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,
1,9.0,11.0,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


In [85]:
df1.add(df2, fill_value=0)


Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,4.0
1,9.0,11.0,13.0,15.0,9.0
2,18.0,20.0,22.0,24.0,14.0
3,15.0,16.0,17.0,18.0,19.0


  与此类似,在到Series或DataFrame重新索引时,也可以指定一个填充值:

In [86]:
df1.reindex(columns=df2.columns, fill_value=0)


Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,0
1,4.0,5.0,6.0,7.0,0
2,8.0,9.0,10.0,11.0,0


  ### DataFrame和Series之间的运算
  跟NumPy数组一样,DataFrame和Series之间算术运算也是有明确规定的.

In [87]:
arr = np.arange(12.).reshape((3, 4))
arr



array([[ 0.,  1.,  2.,  3.],
       [ 4.,  5.,  6.,  7.],
       [ 8.,  9., 10., 11.]])

In [88]:
arr[0]



array([0., 1., 2., 3.])

In [89]:
arr-arr[0]


array([[0., 0., 0., 0.],
       [4., 4., 4., 4.],
       [8., 8., 8., 8.]])

  这就叫做广播.

In [90]:
frame = DataFrame(np.arange(12.).reshape((4, 3)), columns=list(
    'bde'), index=['Utah', 'Ohio', 'Texas', 'Oregon'])
frame



Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [91]:
series = frame.iloc[0]
series


b    0.0
d    1.0
e    2.0
Name: Utah, dtype: float64

  默认情况下,DataFrame和Series之间的算术运算会将Series的索引匹配到DataFrame的列,然后沿着行一直向下广播:

In [92]:
frame-series


Unnamed: 0,b,d,e
Utah,0.0,0.0,0.0
Ohio,3.0,3.0,3.0
Texas,6.0,6.0,6.0
Oregon,9.0,9.0,9.0


  如果某个索引值在DataFrame的列或Series的索引中找不到,则参与运算的两个对象就会被重新索引以形成并集:

In [93]:
series2 = Series(range(3), index=list('bef'))
series2



b    0
e    1
f    2
dtype: int64

In [94]:
frame+series2


Unnamed: 0,b,d,e,f
Utah,0.0,,3.0,
Ohio,3.0,,6.0,
Texas,6.0,,9.0,
Oregon,9.0,,12.0,


  如果你希望匹配行且在列上广播,则必须使用算术运算方法.

In [95]:
series3 = frame['d']
series3



Utah       1.0
Ohio       4.0
Texas      7.0
Oregon    10.0
Name: d, dtype: float64

In [96]:
frame



Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [97]:
frame.sub(series3, axis=0)


Unnamed: 0,b,d,e
Utah,-1.0,0.0,1.0
Ohio,-1.0,0.0,1.0
Texas,-1.0,0.0,1.0
Oregon,-1.0,0.0,1.0


  传入的轴号就是希望匹配的轴.
  ### 函数应用和映射
  NumPy的ufuns(元素级数组方法)也可用于操作pandas对象:

In [98]:
frame = DataFrame(np.random.randn(4, 3), columns=list(
    'bde'), index=['Utah', 'Ohio', 'Texas', 'Oregon'])
frame



Unnamed: 0,b,d,e
Utah,0.029493,0.460947,-0.222389
Ohio,0.90886,0.051879,-0.01936
Texas,0.710321,-0.454456,1.189109
Oregon,-1.593556,0.209315,1.547899


In [99]:
np.abs(frame)


Unnamed: 0,b,d,e
Utah,0.029493,0.460947,0.222389
Ohio,0.90886,0.051879,0.01936
Texas,0.710321,0.454456,1.189109
Oregon,1.593556,0.209315,1.547899


  另一个常见的操作是,将函数应用到由各列或行所形成的一维数组上.DataFrame的apply方法即可实现此功能:

In [100]:


def f(x): return x.max() - x.min()


frame.apply(f)



b    2.502416
d    0.915403
e    1.770288
dtype: float64

In [101]:
frame.apply(f, axis=1)


Utah      0.683336
Ohio      0.928220
Texas     1.643565
Oregon    3.141455
dtype: float64

  许多最为常见的数组统计功能都被实现成DataFrame的方法(如sum和mean),因此无需使用apply方法.
  除标量值外,传递给apply的函数还可以返回由多个值组成的Series:

In [102]:


def f(x):
    return Series([x.min(), x.max()], index=['min', 'max'])


frame.apply(f)


Unnamed: 0,b,d,e
min,-1.593556,-0.454456,-0.222389
max,0.90886,0.460947,1.547899


  此外,元素级的Python函数也是可以用的.假如你想得到frame中各个浮点值的格式化字符串,使用applymap即可:

In [103]:


def format(x): return '%.2f' % x


frame.applymap(format)


Unnamed: 0,b,d,e
Utah,0.03,0.46,-0.22
Ohio,0.91,0.05,-0.02
Texas,0.71,-0.45,1.19
Oregon,-1.59,0.21,1.55


  之所以叫做applymap,是因为Series有一个用于应用元素级函数的map方法:

In [104]:
frame['e'].map(format)


Utah      -0.22
Ohio      -0.02
Texas      1.19
Oregon     1.55
Name: e, dtype: object

  ### 排序和排名
  根据条件对数据集排序(sorting)也是一种重要的内置运算.要对行或列索引进行排序(按字典顺序),可使用sort_index方法,它将返回一个已排序的新对象:

In [105]:
obj = Series(range(4), index=list('dabc'))
obj



d    0
a    1
b    2
c    3
dtype: int64

In [106]:
obj.sort_index()


a    1
b    2
c    3
d    0
dtype: int64

  而对于DataFrame,则可以根据任意一个轴上的索引进行排序:

In [107]:
frame = DataFrame(np.arange(8).reshape((2, 4)), index=[
                  'three', 'one'], columns=['d', 'a', 'b', 'c'])
frame



Unnamed: 0,d,a,b,c
three,0,1,2,3
one,4,5,6,7


In [108]:
frame.sort_index()



Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [109]:
frame.sort_index(axis=1)


Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


  数据默认是按升序排序的,但也可以降序排序:

In [110]:
frame.sort_index(axis=1, ascending=False)


Unnamed: 0,d,c,b,a
three,0,3,2,1
one,4,7,6,5


  若要按值对Series进行排序,可使用其sort_values()方法:

In [111]:
obj = Series([4, 7, 3, -2])
obj



0    4
1    7
2    3
3   -2
dtype: int64

In [112]:
obj.sort_values()


3   -2
2    3
0    4
1    7
dtype: int64

  在排序时,任何缺失值默认都会被放到Series的末尾:

In [113]:
obj = Series([4, np.nan, 7, np.nan, -3, 2])
obj



0    4.0
1    NaN
2    7.0
3    NaN
4   -3.0
5    2.0
dtype: float64

In [114]:
obj.sort_values()


4   -3.0
5    2.0
0    4.0
2    7.0
1    NaN
3    NaN
dtype: float64

  在DataFrame上,你可能希望根据一个或多个列中的值进行排序.将一个或多个列的名字传递给by选项即可达到该目的:

In [115]:
frame = DataFrame({'b': [4, 7, -3, 2], 'a': [0, 1, 0, 1]})
frame



Unnamed: 0,b,a
0,4,0
1,7,1
2,-3,0
3,2,1


In [116]:
frame.sort_values(by='b')


Unnamed: 0,b,a
2,-3,0
3,2,1
0,4,0
1,7,1


  要根据多个列进行排序,传入名称的列表即可:

In [117]:
frame.sort_values(by=['a', 'b'])


Unnamed: 0,b,a
2,-3,0
0,4,0
3,2,1
1,7,1


  排名跟排序关系密切,且它会增设一个排名值(从1开始,一直到数组中有效数据的数量).它根numpy.argsort产生的间接排序索引差不多,只不过它可以根据某种规则破坏平级关系.默认情况下,rank是通过“为各组分配一个平均排名”的方式破坏平级关系的:

In [118]:
obj = Series([7, -5, 7, 4, 2, 0, 4])
obj



0    7
1   -5
2    7
3    4
4    2
5    0
6    4
dtype: int64

In [119]:
obj.rank()



0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

In [120]:
# 也可以根据值在原数据中出现的顺序给出排名:



In [120]:
obj.rank(method='first')


0    6.0
1    1.0
2    7.0
3    4.0
4    3.0
5    2.0
6    5.0
dtype: float64

  当然你也可以按降序进行排名:

In [121]:
obj.rank(ascending=False, method='max')


0    2.0
1    7.0
2    2.0
3    4.0
4    5.0
5    6.0
6    4.0
dtype: float64

  ### 带有重复值的轴索引
  前面的所有范例都有着唯一的轴标签(索引值).虽然许多pandas函数都要求标签唯一,但这并不是强制性的.

In [122]:
obj = Series(range(5), index=['a', 'a', 'b', 'b', 'c'])
obj


a    0
a    1
b    2
b    3
c    4
dtype: int64

 索引的is_unique属性可以告诉你它的值是否是唯一的:

In [123]:
obj.index.is_unique


False

 对于带有重复值的索引,数据选取的行为将会有些不同.如果某个索引对应多个值,则返回一个Series;而对应单个值的,则返回一个标量值.

In [124]:
obj['a']


a    0
a    1
dtype: int64

In [125]:
obj['c']


4

 对DataFrame的行进行索引时也是如此:

In [126]:
df = DataFrame(np.random.randn(4, 3), index=list('aabb'))
df


Unnamed: 0,0,1,2
a,-1.676241,0.51824,-0.890516
a,1.027521,0.806783,0.447045
b,0.860639,0.050643,1.108764
b,1.875952,1.774093,-0.646388


In [127]:
df.loc['b']


Unnamed: 0,0,1,2
b,0.860639,0.050643,1.108764
b,1.875952,1.774093,-0.646388


 ##汇总和计算描述统计
 pandas对象拥有一组常用的数学和统计方法.它们大部分都属于约简和汇总统计,用于从Series中提取单个值(如sum或mean)或从DataFrame的行或列中提取一个Series.跟对应的NumPy数组方法相比,它们都是基于没有缺失数据的假设而构建的.

In [128]:
df = DataFrame([[1.4, np.nan], [7.1, -4.5], [np.nan, np.nan],
                [0.75, -1.3]], index=list('abcd'), columns=['one', 'two'])
df


Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [129]:
df.sum()



one    9.25
two   -5.80
dtype: float64

In [130]:
df.sum(axis=1)


a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

 NA值会自动被排除,除非整个切片(这里指的是行或列)都是NA.通过skipna选项可以禁用该功能:

In [131]:
df.mean(axis=1, skipna=False)


a      NaN
b    1.300
c      NaN
d   -0.275
dtype: float64

 有些方法(如idxmin和idxmax)返回的是见解统计(比如达到最小值或最大值的索引):

In [132]:
df.idxmax()


one    b
two    d
dtype: object

 另一些方法则是累计型的:

In [133]:
df.cumsum()


Unnamed: 0,one,two
a,1.4,
b,8.5,-4.5
c,,
d,9.25,-5.8


 还有一种方法,它既不是约简型也不是累计型.describe就是一个例子,它用于一次性产生多个汇总统计:

In [134]:
df.describe()


Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


 对于非数据型数据,describe会产生另外一种汇总统计:

In [135]:
obj = Series(list('aabc')*4)
obj


0     a
1     a
2     b
3     c
4     a
5     a
6     b
7     c
8     a
9     a
10    b
11    c
12    a
13    a
14    b
15    c
dtype: object

In [136]:
obj.describe()


count     16
unique     3
top        a
freq       8
dtype: object

 ### 相关系数与协方差
 有些汇总统计(如相关系数和协方差)是通过参数对计算出来的
 Series的corr方法用于计算两个Series中重叠的,非NA的,按索引对齐的值的相关系数.与此类似cov用于计算协方差.
 DataFrame的corr和cov方法将以DataFrame的形式返回完整的相关系数或协方差矩阵:
 ### 唯一值,值计数以及成员资格
 还有一类方法可以从一维Series的值中抽取信息.

In [137]:
obj = Series(list('cadaabbcc'))
obj


0    c
1    a
2    d
3    a
4    a
5    b
6    b
7    c
8    c
dtype: object

 第一个函数时unique,它可以得到Series中的唯一值数组

In [138]:
uniques = obj.unique()
uniques


array(['c', 'a', 'd', 'b'], dtype=object)

 返回的唯一值是未排序的,如果需要的话,可以对结果再次进行排序(uniques.sort()).value_counts用于计算一个Series中各值出现的频率:

In [139]:
obj.value_counts()


a    3
c    3
b    2
d    1
dtype: int64

 为了便于查看,结果Series是按值频率降序排列的.value_counts还是一个顶级pandas方法,可用于任何数组或序列:

In [140]:
pd.value_counts(obj.values, sort=False)


c    3
a    3
b    2
d    1
dtype: int64

 最后是isin,它用于判断矢量化集合的成员资格,可用于选取Series中或DataFrame列中数据的子集:

In [141]:
mask = obj.isin(['b', 'c'])
mask


0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
dtype: bool

In [142]:
obj[mask]


0    c
5    b
6    b
7    c
8    c
dtype: object

 有时候,你可能希望得到DataFrame中多个相关列的一张柱状图.

In [143]:
data = DataFrame({'Qu1': [1, 3, 4, 3, 4], 'Qu2': [
                 2, 3, 1, 2, 3], 'Qu3': [1, 5, 2, 4, 4]})
data


Unnamed: 0,Qu1,Qu2,Qu3
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


 将pandas.value_counts传给该DataFrame的apply函数:

In [144]:
result = data.apply(pd.value_counts).fillna(0)
result


Unnamed: 0,Qu1,Qu2,Qu3
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


 ## 处理缺失数据
 缺失数据在大部分数据分析应用中都很常见.pandas的设计目标之一就是让确实数据的处理任务尽量轻松.
 pandas使用浮点值Nan表示浮点和非浮点数组中缺失数据.它只是一个便于被检测出来的标记而已:

In [145]:
string_data = Series(['aardvark', 'artichoke', np.nan, 'avocado'])
string_data


0     aardvark
1    artichoke
2          NaN
3      avocado
dtype: object

In [146]:
string_data.isnull()


0    False
1    False
2     True
3    False
dtype: bool

 Python内置的None值也会被当作NA处理:

In [147]:
string_data[0] = None


In [148]:
string_data.isnull()


0     True
1    False
2     True
3    False
dtype: bool

 ### 滤除缺失数据
 过滤掉缺失数据的办法有很多种,纯手工操作永远都是一个办法,但dropna可能会更实用一些.对于一个Series,dropna返回一个仅包含非空数据和索引值的Series:

In [149]:
data = Series([1, NA, 3.5, NA, 7])
data.dropna()


0    1.0
2    3.5
4    7.0
dtype: float64

 当然也可以通过布尔型索引达到这个目的:

In [150]:
data[data.notnull()]


0    1.0
2    3.5
4    7.0
dtype: float64

 而对于DataFrame对象,事情就有点复杂了,你可能希望丢弃全NA或含义NA的行或列.dropna默认丢弃任何含义缺失值的行:

In [151]:
data = DataFrame([[1., 6.5, 3.], [1., NA, NA], [NA, NA, NA], [NA, 6.5, 3.]])
cleaned = data.dropna()
data


Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


In [152]:
cleaned


Unnamed: 0,0,1,2
0,1.0,6.5,3.0


 传入how='all'将只丢弃全为NA的那些行:

In [153]:
data.dropna(how='all')


Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
3,,6.5,3.0


 要用这种方式丢弃列,只需传入axis=1即可:

In [154]:
data[4] = NA
data


Unnamed: 0,0,1,2,4
0,1.0,6.5,3.0,
1,1.0,,,
2,,,,
3,,6.5,3.0,


In [155]:
data.dropna(axis=1, how='all')


Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


 另一个滤除DataFrame行的问题涉及时间序列数据.假设你只想留下一部分观测数据,可以用thresh参数实现此目的:

In [156]:
df = DataFrame(np.random.randn(7, 3))
df.iloc[:4, 1] = NA
df.iloc[:2, 2] = NA
df


Unnamed: 0,0,1,2
0,0.980742,,
1,0.579017,,
2,0.353135,,-0.101325
3,-0.453743,,-0.187798
4,-0.746138,1.239334,0.112976
5,-1.50132,-0.136598,0.62514
6,-1.405313,1.681713,1.657106


In [157]:
df.dropna(thresh=3)



Unnamed: 0,0,1,2
4,-0.746138,1.239334,0.112976
5,-1.50132,-0.136598,0.62514
6,-1.405313,1.681713,1.657106


 ### 填充缺失数据
 你可能不想滤除缺失数据(有可能会丢弃跟它有关的其他数据),而是希望通过其他方式填补那些“空洞”.对于大多数情况而言,fillna方法是最主要的函数.通过一个常数调用fillna就会将缺失值替换为那个常数值:

In [158]:
df.fillna(0)


Unnamed: 0,0,1,2
0,0.980742,0.0,0.0
1,0.579017,0.0,0.0
2,0.353135,0.0,-0.101325
3,-0.453743,0.0,-0.187798
4,-0.746138,1.239334,0.112976
5,-1.50132,-0.136598,0.62514
6,-1.405313,1.681713,1.657106


 若是通过一个字典调用fillna,就可以实现对不同的列填充不同的值:

In [159]:
df.fillna({1: 0.5, 3: -1})


Unnamed: 0,0,1,2
0,0.980742,0.5,
1,0.579017,0.5,
2,0.353135,0.5,-0.101325
3,-0.453743,0.5,-0.187798
4,-0.746138,1.239334,0.112976
5,-1.50132,-0.136598,0.62514
6,-1.405313,1.681713,1.657106


 fillna默认会返回新对象,但也可以对现有对象进行修改:

In [160]:
_ = df.fillna(0, inplace=True)
df


Unnamed: 0,0,1,2
0,0.980742,0.0,0.0
1,0.579017,0.0,0.0
2,0.353135,0.0,-0.101325
3,-0.453743,0.0,-0.187798
4,-0.746138,1.239334,0.112976
5,-1.50132,-0.136598,0.62514
6,-1.405313,1.681713,1.657106


 对reindex有效的那些插值方法也可用于fillna:

In [161]:
df = DataFrame(np.random.randn(6, 3))
df.iloc[2:, 1] = NA
df.iloc[4:, 2] = NA
df


Unnamed: 0,0,1,2
0,0.569242,1.953634,1.078333
1,-0.710471,1.407802,0.578464
2,-1.486159,,1.968055
3,0.368072,,0.474219
4,0.210211,,
5,-0.689442,,


In [162]:
df.fillna(method='ffill')


Unnamed: 0,0,1,2
0,0.569242,1.953634,1.078333
1,-0.710471,1.407802,0.578464
2,-1.486159,1.407802,1.968055
3,0.368072,1.407802,0.474219
4,0.210211,1.407802,0.474219
5,-0.689442,1.407802,0.474219


In [163]:
df.fillna(method='ffill', limit=2)


Unnamed: 0,0,1,2
0,0.569242,1.953634,1.078333
1,-0.710471,1.407802,0.578464
2,-1.486159,1.407802,1.968055
3,0.368072,1.407802,0.474219
4,0.210211,,0.474219
5,-0.689442,,0.474219


 ## 层次化索引
 层次化索引是pandas的一项重要功能,它使你能在一个轴上拥有多个索引级别.抽象点说,它使你能以低维度的方式处理高纬度数据.

In [164]:
data = Series(np.random.randn(10), index=[
              list('aaabbbccdd'), [1, 2, 3, 1, 2, 3, 1, 2, 2, 3]])
data


a  1   -0.550391
   2    1.353194
   3   -0.983373
b  1    0.123406
   2   -1.418401
   3    0.688811
c  1   -0.783202
   2    1.032642
d  2   -0.596794
   3    0.643409
dtype: float64

 这就是带有MultiIndex索引的Series的格式化输出形式.索引之间的“间隔”表示“直接使用上面的标签”:

In [165]:
data.index


MultiIndex(levels=[['a', 'b', 'c', 'd'], [1, 2, 3]],
           codes=[[0, 0, 0, 1, 1, 1, 2, 2, 3, 3], [0, 1, 2, 0, 1, 2, 0, 1, 1, 2]])

 对于一个层次化索引的对象,选取数据子集的操作很简单:

In [166]:
data['b']


1    0.123406
2   -1.418401
3    0.688811
dtype: float64

In [167]:
data['b':'c']


b  1    0.123406
   2   -1.418401
   3    0.688811
c  1   -0.783202
   2    1.032642
dtype: float64

In [168]:
data.loc[['b', 'd']]


b  1    0.123406
   2   -1.418401
   3    0.688811
d  2   -0.596794
   3    0.643409
dtype: float64

 有时候甚至还可以在“内层”中进行选取:

In [169]:
data[:, 2]


a    1.353194
b   -1.418401
c    1.032642
d   -0.596794
dtype: float64

 层次化索引在数据重塑和基于分组的操作(如透视表生成)中扮演着重要的角色.比如说,这段数据可以通过其unstack方法被重新安排到一个DataFrame中:

In [170]:
data.unstack()


Unnamed: 0,1,2,3
a,-0.550391,1.353194,-0.983373
b,0.123406,-1.418401,0.688811
c,-0.783202,1.032642,
d,,-0.596794,0.643409


 unstack的逆运算是stack:

In [171]:
data.unstack().stack()


a  1   -0.550391
   2    1.353194
   3   -0.983373
b  1    0.123406
   2   -1.418401
   3    0.688811
c  1   -0.783202
   2    1.032642
d  2   -0.596794
   3    0.643409
dtype: float64

 对于一个DataFrame,每条轴都可以有分层索引:

In [172]:
frame = DataFrame(np.arange(12).reshape((4, 3)), index=[list('aabb'), [
                  1, 2, 1, 2]], columns=[['Ohio', 'Ohio', 'Colorado'],
                                         ['Green', 'Red', 'Green']])
frame


Unnamed: 0_level_0,Unnamed: 1_level_0,Ohio,Ohio,Colorado
Unnamed: 0_level_1,Unnamed: 1_level_1,Green,Red,Green
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


 各层都可以有名字(可以是字符串,也可以是别的Python对象).如果指定了名称,它们就会显示在控制台输出中(不要将索引名称跟轴标签混为一谈):

In [173]:
frame.index.names = ['key1', 'key2']
frame


Unnamed: 0_level_0,Unnamed: 1_level_0,Ohio,Ohio,Colorado
Unnamed: 0_level_1,Unnamed: 1_level_1,Green,Red,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


In [174]:
frame.columns.names = ['state', 'color']
frame


Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


 由于有了分部的列索引,因此可以轻松选区分组:

In [175]:
frame['Ohio']


Unnamed: 0_level_0,color,Green,Red
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,1,0,1
a,2,3,4
b,1,6,7
b,2,9,10


 可以单独创建MultiIndex然后复用.

In [176]:
pd.MultiIndex.from_arrays([['Ohio', 'Ohio', 'Colorado'], [
                          'Green', 'Red', 'Green']], names=['state', 'color'])


MultiIndex(levels=[['Colorado', 'Ohio'], ['Green', 'Red']],
           codes=[[1, 1, 0], [0, 1, 0]],
           names=['state', 'color'])

 ### 重排分级顺序
 有时,你需要重新调整某条轴上各级别的顺序,或根据指定级别上的值对数据进行排序.swaplevel接收两个级别编号或名称,并返回一个互换了级别的新对象(但数据不会发生变化):

In [177]:
frame.swaplevel('key1', 'key2')


Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key2,key1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,a,0,1,2
2,a,3,4,5
1,b,6,7,8
2,b,9,10,11


 而sort_index则根据单个级别中的值对数据进行排序(稳定的).交换级别时,常常也会用到sort_index,这样最终结果就是有序的了:

In [178]:
frame.sort_index(1)


Unnamed: 0_level_0,state,Colorado,Ohio,Ohio
Unnamed: 0_level_1,color,Green,Green,Red
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,2,0,1
a,2,5,3,4
b,1,8,6,7
b,2,11,9,10


 **注意**:在层次化索引的对象上,如果索引是按字典方式从外到内排序(即调用sort_index(0)的结果),数据选取操作的性能要好很多.
 ### 根据级别汇总统计
 许多对DataFrame和Series的描述和汇总统计都有一个level选项,它用于指定在某条轴上求和的级别.我们可以根据列或行上的级别来进行求和:

In [179]:
frame.sum(level='key2')


state,Ohio,Ohio,Colorado
color,Green,Red,Green
key2,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
1,6,8,10
2,12,14,16


In [180]:
frame.sum(level='color', axis=1)


Unnamed: 0_level_0,color,Green,Red
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,1,2,1
a,2,8,4
b,1,14,7
b,2,20,10


 这其实是利用了pandas的groupby功能.
 ### 使用DataFrame的列
 人们经常想要将DataFrame的一个或多个列当作行索引来用,或者可能希望将行索引变成DataFrame的列.

In [181]:
frame = DataFrame({'a': range(7), 'b': range(7, 0, -1),
                   'c': ['one', 'one', 'one', 'two', 'two', 'two', 'two'],
                   'd': [0, 1, 2, 0, 1, 2, 3]})
frame


Unnamed: 0,a,b,c,d
0,0,7,one,0
1,1,6,one,1
2,2,5,one,2
3,3,4,two,0
4,4,3,two,1
5,5,2,two,2
6,6,1,two,3


 DataFrame的set_index函数会将一个或多个列转换为行索引,并创建一个新的DataFrame:

In [182]:
frame2 = frame.set_index(['c', 'd'])
frame2


Unnamed: 0_level_0,Unnamed: 1_level_0,a,b
c,d,Unnamed: 2_level_1,Unnamed: 3_level_1
one,0,0,7
one,1,1,6
one,2,2,5
two,0,3,4
two,1,4,3
two,2,5,2
two,3,6,1


 默认情况下,那些列会从DataFrame中移除,但也可以将其保留下来:

In [183]:
frame.set_index(['c', 'd'], drop=False)


Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c,d
c,d,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
one,0,0,7,one,0
one,1,1,6,one,1
one,2,2,5,one,2
two,0,3,4,two,0
two,1,4,3,two,1
two,2,5,2,two,2
two,3,6,1,two,3


 reset_index的功能跟set_index刚好相反,层次化索引的级别会被转移到列里面:

In [184]:
frame2.reset_index()


Unnamed: 0,c,d,a,b
0,one,0,0,7
1,one,1,1,6
2,one,2,2,5
3,two,0,3,4
4,two,1,4,3
5,two,2,5,2
6,two,3,6,1


 ## 其他关于pandas的话题
 这里是另外一些可能用到的pandas的话题.
 ### 整数索引
 操作由整数索引的pandas对象常常会让新手抓狂,因为它们跟内置的python数据结构在索引语义上有些不同.你可能认为下面这段代码不会产生一个错误:

In [185]:
ser = Series(np.arange(3.))
ser[-1]


KeyError: -1

 在这种情况下,虽然pandas会“求助于”整数索引,但没有哪种方法能够既不引入任何bug又安全有效地解决该问题.相反一个非整数索引,就没有这样的歧义

In [186]:
ser2 = Series(np.arange(3.), index=list('abc'))
ser2[-1]


2.0

 为了保持良好的一致性,如果你的轴索引含有索引器,那么根据整数进行整数选区的操作将总是面向标签的.如果你需要可靠的,不考虑索引类型的,基于位置的索引,可以使用Series的iloc方法和Data的iloc和icol方法:

In [187]:
ser3 = Series(range(3), index=[-5, 1, 3])
ser3.iloc[2]


2

In [188]:
frame = DataFrame(np.arange(6).reshape(3, 2), index=[2, 0, 1])
frame.iloc[0]


0    0
1    1
Name: 2, dtype: int64

 ### 面板数据
 pandas有一个Panel数据结构,你可以将其看做一个三维版的DataFrame.pandas的大部分开发工作都集中在表格型数据的操作上,因为这些数据更常见,而且层次化索引也使得多数情况下没必要使用真正的N维数组.
 你可以用一个由DataFrame对象组成的字典或一个三维ndarrray来创建Panel对象:
 Panel中的每一项(类似于DataFrame的列)都是一个DataFrame.