In [85]:
'''
      数据分组

    分组统计 - groupby功能
    
    ① 根据某些条件将数据拆分成组
    ② 对每个组独立应用函数
    ③ 将结果合并到一个数据结构中

    Dataframe在行（axis=0）或列（axis=1）上进行分组，将一个函数应用到各个分组并产生一个新值，
    然后函数执行结果被合并到最终的结果对象中。
    
    df.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, **kwargs)
'''

'\n      数据分组\n\n    分组统计 - groupby功能\n    \n    ① 根据某些条件将数据拆分成组\n    ② 对每个组独立应用函数\n    ③ 将结果合并到一个数据结构中\n\n    Dataframe在行（axis=0）或列（axis=1）上进行分组，将一个函数应用到各个分组并产生一个新值，\n    然后函数执行结果被合并到最终的结果对象中。\n    \n    df.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, **kwargs)\n'

In [86]:
import numpy as np
import pandas as pd

In [95]:

# 分组
# 通过分组后的计算，得到一个新的dataframe
# 默认axis = 0，以行来分组
# 可单个或多个（[]）列分组

df = pd.DataFrame({'A' : ['foo', 'bar', 'foo', 'bar','foo', 'bar', 'foo', 'foo'],
                   'B' : ['one', 'one', 'two', 'three', 'two', 'two', 'four', 'three'],
                   'C' : np.random.randn(8),
                   'D' : np.random.randn(8)})
print('df:',df,sep='\n')
print('----------------------------------------------------')
df_grpbyA = df.groupby('A')
print("df.groupby('A'):",df_grpbyA)  # 返回一个DataFrameGroupBy object
print('type(df_grpbyA):',type(df_grpbyA))

# 对分组独立应用函数

a = df_grpbyA.mean()  # 以A分组,算得到的DataFrame的平均值
print('对A列进行分组,并计算平均值:',a,sep='\n')  # 过滤掉了'B'列,字符串无法求平均值
print('type(a):',type(a))
print('a.columns:',a.columns)  # Index(['C', 'D'], dtype='object')  A并不是属于列
print('----------------------------------------------------')

b = df.groupby(['A','B']).mean()  # 以A,B分组,同时分,最后统计.算得到的DataFrame的平均值
print('对多个列进行分组,并计算平均值:',b,sep='\n')
print('type(b):',type(b))
print('b.columns:',b.columns)
print('----------------------------------------------------')

c = df.groupby(['A'])['D'].mean()  # 以A分组，算D的平均值
print('以A分组，算D的平均值:',c,sep='\n')
print('type(c):',type(c))  # 返回的是Series,没有columns

无参调用groupby():
    a   b   c   d
1  24  28  32  36
df:
     A      B         C         D
0  foo    one  0.602496  0.965342
1  bar    one  1.341526  0.348595
2  foo    two  0.429603  0.285039
3  bar  three  0.057443 -1.135306
4  foo    two -0.985327  2.332853
5  bar    two  0.224047 -0.416738
6  foo   four -0.383513  0.686205
7  foo  three  1.832420  0.765970
----------------------------------------------------
df.groupby('A'): <pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000026A9FC12940>
type(df_grpbyA): <class 'pandas.core.groupby.generic.DataFrameGroupBy'>
对A列进行分组,并计算平均值:
            C         D
A                      
bar  0.541005 -0.401150
foo  0.299136  1.007082
type(a): <class 'pandas.core.frame.DataFrame'>
a.columns: Index(['C', 'D'], dtype='object')
----------------------------------------------------
对多个列进行分组,并计算平均值:
                  C         D
A   B                        
bar one    1.341526  0.348595
    three  0.057443 -1.135306
    two    0.224047 -0.4167

In [88]:
#  分组的结果是可迭代对象

df = pd.DataFrame({'X' : ['A', 'B', 'A', 'B'], 
                   'Y' : [1, 4, 3, 2]})
print('df:',df,sep='\n')
x_grp = df.groupby('X')

# 生成list,每个元素以元组表示
print('对X分组,以list查看结果:',list(x_grp),sep='\n')
print('----------------------------------------------------')
for name,group in x_grp:
    print('name:',name)  # 组名
    print('group:',group,sep='\n')  # 分组后的DataFrame
    print('type(group):',type(group))
print('----------------------------------------------------')

# .get_group()提取分组后的组
print('提取分组后的A组:',x_grp.get_group('A'))
print('----------------------------------------------------')

# .groups：将分组后的groups转为dict
# 可以字典索引方法来查看groups里的元素
dic_grp = x_grp.groups  # 字典{组名->组标签}
print('dic_grp:',dic_grp)
print("dic_grp['A']:",dic_grp['A'])
print('----------------------------------------------------')

# .size()：查看分组后的长度
size_grp = x_grp.size()  # 计算组大小
print('组的大小:',size_grp,sep='\n')
print('type(size_grp):',type(size_grp))  # 类型为Series
print('----------------------------------------------------')

df:
   X  Y
0  A  1
1  B  4
2  A  3
3  B  2
对X分组,以list查看结果:
[('A',    X  Y
0  A  1
2  A  3), ('B',    X  Y
1  B  4
3  B  2)]
----------------------------------------------------
name: A
group:
   X  Y
0  A  1
2  A  3
type(group): <class 'pandas.core.frame.DataFrame'>
name: B
group:
   X  Y
1  B  4
3  B  2
type(group): <class 'pandas.core.frame.DataFrame'>
----------------------------------------------------
提取分组后的A组:    X  Y
0  A  1
2  A  3
----------------------------------------------------
dic_grp: {'A': Int64Index([0, 2], dtype='int64'), 'B': Int64Index([1, 3], dtype='int64')}
dic_grp['A']: Int64Index([0, 2], dtype='int64')
----------------------------------------------------
组的大小:
X
A    2
B    2
dtype: int64
type(size_grp): <class 'pandas.core.series.Series'>
----------------------------------------------------


In [89]:


# 按照两个列进行分组

df = pd.DataFrame({'A' : ['foo', 'bar', 'foo', 'bar','foo', 'bar', 'foo', 'foo'],
                   'B' : ['one', 'one', 'two', 'three', 'two', 'two', 'four', 'three'],
                   'C' : np.random.randn(8),
                   'D' : np.random.randn(8)})
print('df:',df,sep='\n')
# 按A,B分组
ab_grp = df.groupby(['A','B'])
dic_ab_grp = ab_grp.groups
print('dic_ab_grp:',dic_ab_grp,sep='\n')
'''
    结果:
    {('bar', 'one'): Int64Index([1], dtype='int64'),
     ('bar', 'three'): Int64Index([3], dtype='int64'), 
     ('bar', 'two'): Int64Index([5], dtype='int64'),
     ('foo', 'four'): Int64Index([6], dtype='int64'), 
     ('foo', 'one'): Int64Index([0], dtype='int64'), 
     ('foo', 'three'): Int64Index([7], dtype='int64'), 
     ('foo', 'two'): Int64Index([2, 4], dtype='int64')}
'''
print('--------------------------------------')
print("获取('foo','three')组的索引:",dic_ab_grp[('foo', 'three')])

df:
     A      B         C         D
0  foo    one  1.684745  0.282491
1  bar    one -0.709896  0.042087
2  foo    two  0.929791  0.560546
3  bar  three  0.470365 -1.380237
4  foo    two -0.276657 -0.477893
5  bar    two  0.094160 -0.565854
6  foo   four -0.128589 -1.898789
7  foo  three  0.122221  2.596233
dic_ab_grp:
{('bar', 'one'): Int64Index([1], dtype='int64'), ('bar', 'three'): Int64Index([3], dtype='int64'), ('bar', 'two'): Int64Index([5], dtype='int64'), ('foo', 'four'): Int64Index([6], dtype='int64'), ('foo', 'one'): Int64Index([0], dtype='int64'), ('foo', 'three'): Int64Index([7], dtype='int64'), ('foo', 'two'): Int64Index([2, 4], dtype='int64')}
--------------------------------------
获取('foo','three')组的索引: Int64Index([7], dtype='int64')


In [90]:
# 其他轴上的分组
df = pd.DataFrame({'data1':np.random.rand(2),
                   'data2':np.random.rand(2),
                   'key1':['a','b'],
                   'key2':['one','two']})
print('df:',df,sep='\n')
print('----------------------')
print('df.dtypes:',df.dtypes,sep='\n')
print('type(df.dtypes):',type(df.dtypes))

# 按照值类型分组
vatype_df = df.groupby(df.dtypes,axis=1)
print('按照值类型分组:')
for name, group in vatype_df:
    print('name:',name)
    print('group:',group,sep='\n')
    print('--------')

df:
      data1     data2 key1 key2
0  0.533342  0.918625    a  one
1  0.621700  0.400834    b  two
----------------------
df.dtypes:
data1    float64
data2    float64
key1      object
key2      object
dtype: object
type(df.dtypes): <class 'pandas.core.series.Series'>
按照值类型分组:
name: float64
group:
      data1     data2
0  0.533342  0.918625
1  0.621700  0.400834
--------
name: object
group:
  key1 key2
0    a  one
1    b  two
--------


In [101]:
# df通过字典分组
df = pd.DataFrame(np.arange(16).reshape(4,4),
                  columns = ['a','b','c','d'])
print('df:',df,sep='\n')
print('-------------------------------')


mapping = {'a':'one','b':'one','c':'two','d':'two','e':'three'}
grp_dic_columns = df.groupby(mapping,axis=1)
print('按字典分组(朝列的方向):',grp_dic_columns.sum(),sep='\n')
# mapping中，a、b列对应的为one，c、d列对应的为two，以字典来分组

# Series分组
print('Series分组-----------------------------')
s = pd.Series(mapping)
print('s:',s,sep='\n')
grp_series = s.groupby(s)
print('遍历分组结果-----------------------------')

for name,group in grp_series:
    print('name:',name)
    print('group:',group,sep='\n')
    print('----------')

df:
    a   b   c   d
0   0   1   2   3
1   4   5   6   7
2   8   9  10  11
3  12  13  14  15
-------------------------------
按字典分组(朝列的方向):
   one  two
0    1    5
1    9   13
2   17   21
3   25   29
Series分组-----------------------------
s:
a      one
b      one
c      two
d      two
e    three
dtype: object
遍历分组结果-----------------------------
name: one
group:
a    one
b    one
dtype: object
----------
name: three
group:
e    three
dtype: object
----------
name: two
group:
c    two
d    two
dtype: object
----------


In [97]:
# 通过函数分组

df = pd.DataFrame(np.arange(16).reshape(4,4),
                  columns = ['a','b','c','d'],
                 index = ['abc','bcd','aa','b'])
print(df,'\n')

# 按照字母长度分组,默认按行分组,index也算
print('按照字母长度分组;',df.groupby(len).sum(),sep='\n')


      a   b   c   d
abc   0   1   2   3
bcd   4   5   6   7
aa    8   9  10  11
b    12  13  14  15 

按照字母长度分组;
    a   b   c   d
1  12  13  14  15
2   8   9  10  11
3   4   6   8  10


In [105]:
# 分组计算函数方法

s = pd.Series([1, 2, 3, 10, 20, 30], index = [1, 2, 3, 1, 2, 3])
grouped = s.groupby(level=0)  # 唯一索引用.groupby(level=0)，将同一个index的分为一组
print(grouped)
print(grouped.first(),'→ first：非NaN的第一个值\n')
print(grouped.last(),'→ last：非NaN的最后一个值\n')
print(grouped.sum(),'→ sum：非NaN的和\n')
print(grouped.mean(),'→ mean：非NaN的平均值\n')
print(grouped.median(),'→ median：非NaN的算术中位数\n')
print(grouped.count(),'→ count：非NaN的值\n')
print(grouped.min(),'→ min、max：非NaN的最小值、最大值\n')
print(grouped.std(),'→ std：非NaN的标准差\n')
print(grouped.var(),'→ var：非NaN的方差\n')
print(grouped.prod(),'→ prod：非NaN的积\n')

<pandas.core.groupby.generic.SeriesGroupBy object at 0x0000026A9FC515C0>
1    1
2    2
3    3
dtype: int64 → first：非NaN的第一个值

1    10
2    20
3    30
dtype: int64 → last：非NaN的最后一个值

1    11
2    22
3    33
dtype: int64 → sum：非NaN的和

1     5.5
2    11.0
3    16.5
dtype: float64 → mean：非NaN的平均值

1     5.5
2    11.0
3    16.5
dtype: float64 → median：非NaN的算术中位数

1    2
2    2
3    2
dtype: int64 → count：非NaN的值

1    1
2    2
3    3
dtype: int64 → min、max：非NaN的最小值、最大值

1     6.363961
2    12.727922
3    19.091883
dtype: float64 → std：非NaN的标准差

1     40.5
2    162.0
3    364.5
dtype: float64 → var：非NaN的方差

1    10
2    40
3    90
dtype: int64 → prod：非NaN的积



In [117]:
# 多函数计算：agg()

df = pd.DataFrame({'a':[1,1,2,2],
                  'b':np.random.rand(4),
                  'c':np.random.rand(4),
                  'd':np.random.rand(4),})
print('df:',df,sep='\n')

# 函数写法可以用str，或者np.方法
agg_single = df.groupby('a').agg('sum')  # 也可写为:agg.(np.sum)
print('传递单个函数:',agg_single,sep='\n')
print('type(agg_single):',type(agg_single))

# 可以通过list传入多个函数
agg_lst = df.groupby('a').agg(['sum',np.mean])  # 分别求和 平均值
print('通过List传入多个函数(求和 平均值):',agg_lst,sep='\n')
print('type(agg_lst):',type(agg_lst))

# 可以通过dic传入多个函数,key的名称为columns
agg_dic = df.groupby('a')['b'].agg({'result of sum':np.sum,
                               'result of mean':np.mean})
print('通过dic传入多个函数,key的名称为columns:',agg_dic,sep='\n')
print('type(agg_dic):',type(agg_dic))

df:
   a         b         c         d
0  1  0.209741  0.222404  0.342205
1  1  0.421281  0.724667  0.398478
2  2  0.094332  0.043355  0.503155
3  2  0.850950  0.971803  0.065080
传递单个函数:
          b         c         d
a                              
1  0.631021  0.947071  0.740684
2  0.945281  1.015158  0.568234
type(agg_single): <class 'pandas.core.frame.DataFrame'>
通过List传入多个函数(求和 平均值):
          b                   c                   d          
        sum      mean       sum      mean       sum      mean
a                                                            
1  0.631021  0.315511  0.947071  0.473536  0.740684  0.370342
2  0.945281  0.472641  1.015158  0.507579  0.568234  0.284117
type(agg_lst): <class 'pandas.core.frame.DataFrame'>
通过dic传入多个函数,key的名称为columns:
   result of sum  result of mean
a                               
1       0.631021        0.315511
2       0.945281        0.472641
type(agg_dic): <class 'pandas.core.frame.DataFrame'>


is deprecated and will be removed in a future version
