# 9 数据汇总和组操作

In [1]:
import numpy as np
import pandas as pd

另外一点需要注意的是，如果作为group key的列中有缺失值的话，也不会出现在结果中。

# 9.1.1对组进行迭代

GroupBy对象支持迭代，能产生一个2-tuple（二元元组），包含组名和对应的数据块。考虑下面的情况：

In [3]:
df = pd.DataFrame({'key1' : ['a', 'a', 'b', 'b', 'a'],
                   'key2' : ['one', 'two', 'one', 'two', 'one'], 
                   'data1' : np.random.randn(5), 
                   'data2' : np.random.randn(5)})
df

Unnamed: 0,data1,data2,key1,key2
0,0.360072,-1.391303,a,one
1,-0.244404,0.181875,a,two
2,0.969155,0.441758,b,one
3,0.303135,1.095586,b,two
4,0.416752,-0.797456,a,one


In [4]:
for name, group in df.groupby('key1'):
    print(name)
    print(group)

a
      data1     data2 key1 key2
0  0.360072 -1.391303    a  one
1 -0.244404  0.181875    a  two
4  0.416752 -0.797456    a  one
b
      data1     data2 key1 key2
2  0.969155  0.441758    b  one
3  0.303135  1.095586    b  two


对于有多个key的情况，元组中的第一个元素会被作为另一个元组的key值（译者：可以理解为多个key的所有组合情况）：

In [5]:
for (k1, k2), group in df.groupby(['key1', 'key2']):
    print((k1, k2))
    print(group)

('a', 'one')
      data1     data2 key1 key2
0  0.360072 -1.391303    a  one
4  0.416752 -0.797456    a  one
('a', 'two')
      data1     data2 key1 key2
1 -0.244404  0.181875    a  two
('b', 'one')
      data1     data2 key1 key2
2  0.969155  0.441758    b  one
('b', 'two')
      data1     data2 key1 key2
3  0.303135  1.095586    b  two


当然，也可以对数据的一部分进行各种操作。一个便利的用法是，用一个含有数据片段（data pieces）的dict来作为单行指令(one-liner)：

In [6]:
pieces = dict(list(df.groupby('key1')))

In [7]:
pieces

{'a':       data1     data2 key1 key2
 0  0.360072 -1.391303    a  one
 1 -0.244404  0.181875    a  two
 4  0.416752 -0.797456    a  one, 'b':       data1     data2 key1 key2
 2  0.969155  0.441758    b  one
 3  0.303135  1.095586    b  two}

In [8]:
pieces['b']

Unnamed: 0,data1,data2,key1,key2
2,0.969155,0.441758,b,one
3,0.303135,1.095586,b,two


groupby默认作用于axis=0，但是我们可以指定任意的轴。例如，我们可以按dtyple来对列进行分组：

In [9]:
df.dtypes

data1    float64
data2    float64
key1      object
key2      object
dtype: object

In [10]:
grouped = df.groupby(df.dtypes, axis=1)

In [11]:
for dtype, group in grouped:
    print(dtype)
    print(group)

float64
      data1     data2
0  0.360072 -1.391303
1 -0.244404  0.181875
2  0.969155  0.441758
3  0.303135  1.095586
4  0.416752 -0.797456
object
  key1 key2
0    a  one
1    a  two
2    b  one
3    b  two
4    a  one
