In [1]:
import pandas as pd
import numpy as np

# 基本用法
使用`.groupby()`可以得到一个GroupBy对象，该对象可以用于进行分离-计算-合并
## 按某一列分组
传入列名的list可以按某一列分组，将该一列相同数据分为一组

In [2]:
a = pd.DataFrame(np.arange(4*4).reshape((4,4)),columns=["a","b","c","d"])
a["group"] = ["x","x","y","y"]
a

Unnamed: 0,a,b,c,d,group
0,0,1,2,3,x
1,4,5,6,7,x
2,8,9,10,11,y
3,12,13,14,15,y


In [3]:
b = a.groupby(['group'])

In [4]:
b.mean()

Unnamed: 0_level_0,a,b,c,d
group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
x,2,3,4,5
y,10,11,12,13


以上的例子就是使用groupby方法获得按"group"这一列切开的对象，之后使用`.mean()`分别求解平均值后再聚合在一起

## 使用dict或Series分组
传入dict或Series也可以按索引完成分组，key或index为源数据索引，值为分组名称，若为层次化索引，传入`level=`确定传入的索引

In [5]:
c = a.groupby({0:"one",1:"one",2:"one",3:"two"})
c.mean()

Unnamed: 0,a,b,c,d
one,4,5,6,7
two,12,13,14,15


## 使用函数分组
传入一个函数可以完成分组。传入分组的参数是索引名称，将传出值一样的行分为一组(传出值为分组名称)。如果是层次化索引，传入`level=`确定传入的索引

In [6]:
def test_func(x):
    if x < 2:
        return "small"
    else:
        return "big"
d = a.groupby(test_func)
d.mean()

Unnamed: 0,a,b,c,d
big,10,11,12,13
small,2,3,4,5


# 使用size()获取分组数量
使用GroupBy对象的`.size()`方法可以获得每个组的行数量

In [7]:
a.groupby("group").size()

group
x    2
y    2
dtype: int64

# 迭代分组
GroupBy是一个可迭代对象，使用迭代的方法可以获得(分组名称，数据)，其中数据为原始数据的分组

In [8]:
for name,data in b:
    print(name,type(name))
    print(data,type(data))

x <class 'str'>
   a  b  c  d group
0  0  1  2  3     x
1  4  5  6  7     x <class 'pandas.core.frame.DataFrame'>
y <class 'str'>
    a   b   c   d group
2   8   9  10  11     y
3  12  13  14  15     y <class 'pandas.core.frame.DataFrame'>


# 在其他轴上分组

In [9]:
a.loc["4"] = ["c","c","d","d","y"]
a

Unnamed: 0,a,b,c,d,group
0,0,1,2,3,x
1,4,5,6,7,x
2,8,9,10,11,y
3,12,13,14,15,y
4,c,c,d,d,y


In [10]:
for i in a.groupby(a.loc["4"],axis=1):
    print(i)

('c',     a   b
0   0   1
1   4   5
2   8   9
3  12  13
4   c   c)
('d',     c   d
0   2   3
1   6   7
2  10  11
3  14  15
4   d   d)
('y',   group
0     x
1     x
2     y
3     y
4     y)


# GroupBy对象的部分索引
使用`[""]`可以选取GroupBy对象中的部分列

In [11]:
b["a"].sum()

group
x     4
y    20
Name: a, dtype: int64

In [12]:
b[["a","b"]].sum()

Unnamed: 0_level_0,a,b
group,Unnamed: 1_level_1,Unnamed: 2_level_1
x,4,6
y,20,22


# 不将用于分组的列用于索引
传入`as_index=False`即可

In [13]:
a.groupby(['group'],as_index=False).max()

Unnamed: 0,group,a,b,c,d
0,x,4.0,5.0,6.0,7.0
1,y,,,,


# 不引入原索引
传入`group_keys=False`可以不将原作为索引

In [14]:
a.groupby(['group'],group_keys=False).max()

Unnamed: 0_level_0,a,b,c,d
group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
x,4.0,5.0,6.0,7.0
y,,,,
