# 9 数据汇总和组操作

# 2 Selecting a Column or Subset of Columns (选中一列，或列的子集)

如果一个GroupBy对象是由DataFrame创建来的，那么通过列名或一个包含列名的数组来对GroupBy对象进行索引的话，就相当于对列取子集做聚合（column subsetting for aggregation）。这句话的意思是：

```
df.groupby('key1')['data1'] 
df.groupby('key1')[['data2']]
```
上面的代码其实就是下面的语法糖（Syntactic sugar）：
```
df['data1'].groupby(df['key1']) 
df[['data2']].groupby(df['key1'])
```
> 语法糖(Syntactic sugar),是由Peter J. Landin(和图灵一样的天才人物，是他最先发现了Lambda演算，由此而创立了函数式编程)创造的一个词语，它意指那些没有给计算机语言添加新功能，而只是对人类来说更“甜蜜”的语法。语法糖往往给程序员提供了更实用的编码方式，有益于更好的编码风格，更易读。不过其并没有给语言添加什么新东西。

尤其是对于一些很大的数据集，这种用法可以聚集一部分列。例如，在处理一个数据集的时候，想要只计算data2列的平均值，并将结果返还为一个DataFrame，我们可以这样写：


In [31]:
df

Unnamed: 0,data1,data2,key1,key2
0,1.364533,0.633262,a,one
1,1.353368,0.361008,a,two
2,0.253311,-1.10794,b,one
3,-1.513444,-1.038035,b,two
4,-0.920317,2.037712,a,one


In [30]:
df.groupby(['key1', 'key2'])[['data2']].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,data2
key1,key2,Unnamed: 2_level_1
a,one,1.335487
a,two,0.361008
b,one,-1.10794
b,two,-1.038035


如果一个list或一个数组被传入，返回的对象是一个分组后的DataFrame，如果传入的只是单独一个列名，那么返回的是一个分组后的grouped：

In [32]:
s_grouped = df.groupby(['key1', 'key2'])['data2']
s_grouped

<pandas.core.groupby.SeriesGroupBy object at 0x1125309e8>

In [33]:
s_grouped.mean()

key1  key2
a     one     1.335487
      two     0.361008
b     one    -1.107940
      two    -1.038035
Name: data2, dtype: float64

# 3 Grouping with Dicts and Series（用Dicts与Series进行分组）

分组信息可以不是数组的形式。考虑下面的例子：

In [36]:
people = pd.DataFrame(np.random.randn(5, 5),
                      columns=['a', 'b', 'c', 'd', 'e'],
                      index=['Joe', 'Steve', 'Wes', 'Jim', 'Travis'])


In [38]:
people.iloc[2:3, [1, 2]] = np.nan # Add a few NA values

In [39]:
people

Unnamed: 0,a,b,c,d,e
Joe,1.358054,-0.124378,0.159913,-0.006129,-1.116065
Steve,0.926572,-0.281652,-0.586583,-0.266538,-0.216959
Wes,0.277803,,,0.820144,-0.002076
Jim,1.623214,0.109414,2.967603,0.075661,1.085864
Travis,-0.57875,1.252605,0.757412,0.352343,-1.342396


假设我们有一个组，对应多个列，而且我们想要按组把这些列的和计算出来：

In [43]:
mapping = {'a': 'red', 'b': 'red', 'c': 'blue',
           'd': 'blue', 'e': 'red', 'f': 'orange'}

现在，我们可以通过这个dict构建一个数组，然后传递给groupby，但其实我们可以直接传入dict（可以注意到key里有一个'f'，这说明即使有，没有被用到的group key，也是ok的）：

In [44]:
by_column = people.groupby(mapping, axis=1)

In [45]:
by_column.sum()

Unnamed: 0,blue,red
Joe,0.153784,0.117611
Steve,-0.853121,0.427961
Wes,0.820144,0.275727
Jim,3.043264,2.818492
Travis,1.109754,-0.668541


这种用法同样适用于series，这种情况可以看作是固定大小的映射（fixed-size mapping）:

In [46]:
map_series = pd.Series(mapping)
map_series

a       red
b       red
c      blue
d      blue
e       red
f    orange
dtype: object

In [47]:
people.groupby(map_series, axis=1).count()

Unnamed: 0,blue,red
Joe,2,3
Steve,2,3
Wes,1,2
Jim,2,3
Travis,2,3


# 4 Grouping with Functions（用函数进行分组）

比起用dict火series定义映射关系，使用python的函数是更通用的方法。任何一个作为group key的函数，在每一个index value（索引值）上都会被调用一次，函数计算的结果在返回的结果中会被用做group name。更具体一点，考虑前一个部分的DataFrame，用人的名字作为索引值。假设我们想要按照名字的长度来分组；同时我们要计算字符串的长度，使用len函数会变得非常简单：

In [48]:
people.groupby(len).sum() # len函数在每一个index（即名字）上被调用了

Unnamed: 0,a,b,c,d,e
3,3.259071,-0.014964,3.127516,0.889676,-0.032277
5,0.926572,-0.281652,-0.586583,-0.266538,-0.216959
6,-0.57875,1.252605,0.757412,0.352343,-1.342396


混合不同的函数、数组，字典或series都不成问题，因为所有对象都会被转换为数组：

In [49]:
key_list = ['one', 'one', 'one', 'two', 'two']

In [50]:
people.groupby([len, key_list]).min()

Unnamed: 0,Unnamed: 1,a,b,c,d,e
3,one,0.277803,-0.124378,0.159913,-0.006129,-1.116065
3,two,1.623214,0.109414,2.967603,0.075661,1.085864
5,one,0.926572,-0.281652,-0.586583,-0.266538,-0.216959
6,two,-0.57875,1.252605,0.757412,0.352343,-1.342396


# 5 Grouping by Index Levels （按索引层级来分组）

最后关于多层级索引数据集(hierarchically indexed dataset)，一个很方便的用时是在聚集（aggregate）的时候，使用轴索引的层级（One of the levels of an axis index）。看下面的例子：

In [55]:
columns = pd.MultiIndex.from_arrays([['US', 'US', 'US', 'JP', 'JP'], 
                                     [1, 3, 5, 1, 3]], 
                                    names=['cty', 'tenor'])
columns

MultiIndex(levels=[['JP', 'US'], [1, 3, 5]],
           labels=[[1, 1, 1, 0, 0], [0, 1, 2, 0, 1]],
           names=['cty', 'tenor'])

In [56]:
hier_df = pd.DataFrame(np.random.randn(4, 5), columns=columns)
hier_df

cty,US,US,US,JP,JP
tenor,1,3,5,1,3
0,-0.898073,0.156686,-0.151011,0.423881,0.336215
1,0.736301,0.901515,0.081655,0.450248,-0.031245
2,-1.619125,-1.041775,0.129422,1.222881,-0.71741
3,0.998536,-1.373455,1.724266,-2.084529,0.535651


要想按层级分组，传入层级的数字或者名字，通过使用level关键字：

In [57]:
hier_df.groupby(level='cty', axis=1).count()

cty,JP,US
0,2,3
1,2,3
2,2,3
3,2,3
