# 4.3 数据分组统计

本节介绍分组统计函数groupby的各种应用。

## 3.1 分组统计groupby函数

对数据进行分组统计，主要使用DataFrame对象的groupby函数，其功能呢如下：

* （1）根据给定的条件将数据拆分成组。
* （2）每个组都可以独立应用函数（如求和函数（sum）、求平均值函数(mean）等）。
* （3）将结果合并到一个数据结构中。

groupby函数用于将数据按照一列或多列进行分组，一般与计算函数结合使用，实现数据的分组统计，语法如下：



**DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, observed=False)**

**参数如下**
* by:映射、字典或Series对象、数组、标签列表。如果by是一个函数，则对象索引的每个值调用它。如果传递了一个字典或Series对象，则使用该字典或Series对象值来确定组。如果传递了数组ndarray，则按原样使用这些值来确定组。

* axis: axis=1表示行，axis=0表示列，默认值为0。

* level: 表示索引层级，默认无。

* as_index: 布尔型，默认为True，返回以组标签为索引对象。

* sort: 对组进行排序，布尔型，默认值True

* squeeze:布尔型,默认为False，如果可能，减少返回类型的维度，否则返回一致类型。

* group_keys:布尔型，默认为True,调用apply函数时，将分组的键添加到索引以标识片段。

* 返回值： DataFrameGroupBy ,返回包含有关组的信息的groupby对象。


### 3.1.1 按照一列分组统计


In [2]:
import pandas as pd

pd.set_option('display.max_columns',500)
pd.set_option('display.width',1000)

pd.set_option('display.unicode.east_asian_width',True)
df = pd.read_csv('JD.csv',encoding='gbk')

df1 = df[['一级分类','7天点击量','订单预定']] # 抽取数据
print(df1.groupby('一级分类').sum()) # 分组统计求和

                    7天点击量  订单预定
一级分类                               
数据库                    186        15
移动开发                  261         7
编程语言与程序设计       4280       192
网页制作/Web技术          345        15


In [7]:
import pandas as pd

pd.set_option('display.max_columns',500)
pd.set_option('display.width',1000)

pd.set_option('display.unicode.east_asian_width',True)
df = pd.read_csv('JD.csv',encoding='gbk') # 注意这里，因为列标签名称有中文，必须设置encoding='gbk'

df1 = df[['二级分类','7天点击量','订单预定']] # 抽取数据
print(df1.groupby('二级分类').sum()) # 分组统计求和

              7天点击量  订单预定
二级分类                         
ASP.NET              87         2
Android             261         7
C#                  314        12
C++/C语言           724        28
HTML                188         8
JSP/JavaWeb         157         1
Java                408        16
JavaScript          100         7
Oracle               58         2
PHP                 113         1
Python             2449       132
SQL                 128        13
Visual Basic         28         0
WEB前端              57         0


### 3.1.2 按照多列分组统计

多列分组统计，以列表形式指定列

In [8]:
import pandas as pd

pd.set_option('display.max_columns',500)
pd.set_option('display.width',1000)

pd.set_option('display.unicode.east_asian_width',True)
df = pd.read_csv('JD.csv',encoding='gbk') # 注意这里，因为列标签名称有中文，必须设置encoding='gbk'

df1 = df[['一级分类','二级分类','7天点击量','订单预定']]
print(df1.groupby(['一级分类','二级分类']).sum())

                                 7天点击量  订单预定
一级分类           二级分类                         
数据库             Oracle               58         2
                   SQL                 128        13
移动开发           Android             261         7
编程语言与程序设计 ASP.NET              87         2
                   C#                  314        12
                   C++/C语言           724        28
                   JSP/JavaWeb         157         1
                   Java                408        16
                   PHP                 113         1
                   Python             2449       132
                   Visual Basic         28         0
网页制作/Web技术   HTML                188         8
                   JavaScript          100         7
                   WEB前端              57         0


### 3.1.3 分组并指定列进行数据计算



In [9]:
import pandas as pd

pd.set_option('display.max_columns',500)
pd.set_option('display.width',1000)

pd.set_option('display.unicode.east_asian_width',True)
df = pd.read_csv('JD.csv',encoding='gbk') # 注意这里，因为列标签名称有中文，必须设置encoding='gbk'

df1 = df[['二级分类','7天点击量','订单预定']]
print(df1.groupby('二级分类')['7天点击量'].sum())

二级分类
ASP.NET           87
Android          261
C#               314
C++/C语言        724
HTML             188
JSP/JavaWeb      157
Java             408
JavaScript       100
Oracle            58
PHP              113
Python          2449
SQL              128
Visual Basic      28
WEB前端           57
Name: 7天点击量, dtype: int64


In [11]:
import pandas as pd

pd.set_option('display.max_columns',500)
pd.set_option('display.width',1000)

pd.set_option('display.unicode.east_asian_width',True)
df = pd.read_csv('JD.csv',encoding='gbk') # 注意这里，因为列标签名称有中文，必须设置encoding='gbk'

df1 = df[['二级分类','7天点击量','订单预定']]
print(df1.groupby('二级分类')['订单预定'].sum())

二级分类
ASP.NET           2
Android           7
C#               12
C++/C语言        28
HTML              8
JSP/JavaWeb       1
Java             16
JavaScript        7
Oracle            2
PHP               1
Python          132
SQL              13
Visual Basic      0
WEB前端           0
Name: 订单预定, dtype: int64


## 4.3.2  分组并指定列进行数据计算

通过for循环对分组统计数据进行迭代（遍历分组数据）。

In [13]:
import pandas as pd

pd.set_option('display.max_columns',500)
pd.set_option('display.width',1000)

pd.set_option('display.unicode.east_asian_width',True)
df = pd.read_csv('JD.csv',encoding='gbk') # 注意这里，因为列标签名称有中文，必须设置encoding='gbk'

df1 = df[['一级分类','7天点击量','订单预定']]
for name,group in df1.groupby('一级分类'):
    #print(name)  #name是groupby('一级分类')的值；group是分组后的数据。如果groupby对多列进行分组，那么需要在for循环中指定多列。
    print(group)

   一级分类  7天点击量  订单预定
25   数据库         58         2
27   数据库        128        13
    一级分类  7天点击量  订单预定
10  移动开发         85         4
19  移动开发         32         1
24  移动开发         85         2
28  移动开发         59         0
              一级分类  7天点击量  订单预定
0   编程语言与程序设计         35         1
1   编程语言与程序设计         49         0
2   编程语言与程序设计         51         2
3   编程语言与程序设计         64         1
4   编程语言与程序设计         26         0
5   编程语言与程序设计         60         1
6   编程语言与程序设计        227        11
8   编程语言与程序设计        122         3
9   编程语言与程序设计        111         5
11  编程语言与程序设计        165         5
12  编程语言与程序设计        131         1
13  编程语言与程序设计        149        10
15  编程语言与程序设计       1139        79
16  编程语言与程序设计        125         1
18  编程语言与程序设计        149         4
20  编程语言与程序设计         52         1
21  编程语言与程序设计        597        25
22  编程语言与程序设计        474        15
23  编程语言与程序设计         83         3
26  编程语言与程序设计        132         8
29  编程语言与程序设计         27         2
30  编程语言与程

**name是groupby('一级分类')的值；group是分组后的数据。如果groupby对多列进行分组，那么需要在for循环中指定多列。**

In [18]:
import pandas as pd

pd.set_option('display.max_columns',500)
pd.set_option('display.width',1000)

pd.set_option('display.unicode.east_asian_width',True)
df = pd.read_csv('JD.csv',encoding='gbk') # 注意这里，因为列标签名称有中文，必须设置encoding='gbk'

df1 = df[['一级分类','二级分类','7天点击量','订单预定']]
for name,group in df1.groupby(['一级分类','二级分类']):
    print(name) 
    #print(name[1])
    print(group)

('数据库', 'Oracle')
   一级分类 二级分类  7天点击量  订单预定
25   数据库   Oracle         58         2
('数据库', 'SQL')
   一级分类 二级分类  7天点击量  订单预定
27   数据库      SQL        128        13
('移动开发', 'Android')
    一级分类 二级分类  7天点击量  订单预定
10  移动开发  Android         85         4
19  移动开发  Android         32         1
24  移动开发  Android         85         2
28  移动开发  Android         59         0
('编程语言与程序设计', 'ASP.NET')
              一级分类 二级分类  7天点击量  订单预定
0   编程语言与程序设计  ASP.NET         35         1
20  编程语言与程序设计  ASP.NET         52         1
('编程语言与程序设计', 'C#')
              一级分类 二级分类  7天点击量  订单预定
5   编程语言与程序设计       C#         60         1
8   编程语言与程序设计       C#        122         3
26  编程语言与程序设计       C#        132         8
('编程语言与程序设计', 'C++/C语言')
              一级分类   二级分类  7天点击量  订单预定
6   编程语言与程序设计  C++/C语言        227        11
9   编程语言与程序设计  C++/C语言        111         5
11  编程语言与程序设计  C++/C语言        165         5
18  编程语言与程序设计  C++/C语言        149         4
29  编程语言与程序设计  C++/C语言         27         2
31  编程语言与程序

In [19]:
import pandas as pd

pd.set_option('display.max_columns',500)
pd.set_option('display.width',1000)

pd.set_option('display.unicode.east_asian_width',True)
df = pd.read_csv('JD.csv',encoding='gbk') # 注意这里，因为列标签名称有中文，必须设置encoding='gbk'

df1 = df[['一级分类','二级分类','7天点击量','订单预定']]
for (key1,key2),group in df1.groupby(['一级分类','二级分类']):
    print(key1,key2) 
    #print(name[1])
    print(group)

数据库 Oracle
   一级分类 二级分类  7天点击量  订单预定
25   数据库   Oracle         58         2
数据库 SQL
   一级分类 二级分类  7天点击量  订单预定
27   数据库      SQL        128        13
移动开发 Android
    一级分类 二级分类  7天点击量  订单预定
10  移动开发  Android         85         4
19  移动开发  Android         32         1
24  移动开发  Android         85         2
28  移动开发  Android         59         0
编程语言与程序设计 ASP.NET
              一级分类 二级分类  7天点击量  订单预定
0   编程语言与程序设计  ASP.NET         35         1
20  编程语言与程序设计  ASP.NET         52         1
编程语言与程序设计 C#
              一级分类 二级分类  7天点击量  订单预定
5   编程语言与程序设计       C#         60         1
8   编程语言与程序设计       C#        122         3
26  编程语言与程序设计       C#        132         8
编程语言与程序设计 C++/C语言
              一级分类   二级分类  7天点击量  订单预定
6   编程语言与程序设计  C++/C语言        227        11
9   编程语言与程序设计  C++/C语言        111         5
11  编程语言与程序设计  C++/C语言        165         5
18  编程语言与程序设计  C++/C语言        149         4
29  编程语言与程序设计  C++/C语言         27         2
31  编程语言与程序设计  C++/C语言         45         1
编程语言与程序设计

### 4.3.3 对分组的某列或多列使用聚合函数(agg函数)

Python也可以实现像SQL中的分组聚合运算操作，主要通过groupby函数与agg函数实现。

In [20]:
import pandas as pd

pd.set_option('display.max_columns',500)
pd.set_option('display.width',1000)

pd.set_option('display.unicode.east_asian_width',True)
df = pd.read_csv('JD.csv',encoding='gbk') # 注意这里，因为列标签名称有中文，必须设置encoding='gbk'

df1 = df[['一级分类','二级分类','7天点击量','订单预定']]
print(df1.groupby('一级分类').agg(['sum','mean']))

                   7天点击量             订单预定      
                         sum        mean      sum  mean
一级分类                                               
数据库                   186   93.000000       15  7.50
移动开发                 261   65.250000        7  1.75
编程语言与程序设计      4280  178.333333      192  8.00
网页制作/Web技术         345  115.000000       15  5.00


In [21]:
df1 = df[['一级分类','二级分类','7天点击量','订单预定']]
print(df1.groupby(['一级分类','二级分类']).agg(['sum','mean']))

                                7天点击量             订单预定           
                                      sum        mean      sum       mean
一级分类           二级分类                                              
数据库             Oracle              58   58.000000        2   2.000000
                   SQL                128  128.000000       13  13.000000
移动开发           Android            261   65.250000        7   1.750000
编程语言与程序设计 ASP.NET             87   43.500000        2   1.000000
                   C#                 314  104.666667       12   4.000000
                   C++/C语言          724  120.666667       28   4.666667
                   JSP/JavaWeb        157   78.500000        1   0.500000
                   Java               408  102.000000       16   4.000000
                   PHP                113   56.500000        1   0.500000
                   Python            2449  612.250000      132  33.000000
                   Visual Basic        28   28.000000        0   0.00000

针对不同的列使用不同的聚合函数

In [22]:
import pandas as pd

pd.set_option('display.max_columns',500)
pd.set_option('display.width',1000)

pd.set_option('display.unicode.east_asian_width',True)
df = pd.read_csv('JD.csv',encoding='gbk') # 注意这里，因为列标签名称有中文，必须设置encoding='gbk'

df1 = df[['一级分类','二级分类','7天点击量','订单预定']]
print(df1.groupby('一级分类').agg({'7天点击量':['sum','mean'],'订单预定':['sum']}))

                   7天点击量             订单预定
                         sum        mean      sum
一级分类                                         
数据库                   186   93.000000       15
移动开发                 261   65.250000        7
编程语言与程序设计      4280  178.333333      192
网页制作/Web技术         345  115.000000       15


通过字定义函数实现分组统计

In [26]:
import pandas as pd
df = pd.read_excel('1月.xlsx')
# x 是“宝贝标题”对应的列
# value_counts函数用于Series对象中的每个值进行计数并且排序

max1 = lambda x: x.value_counts(dropna=False).index[0]

df1=df.agg({'宝贝标题':[max1],
             '买家实际支付金额':['sum','mean']})
print(df1)

                       宝贝标题  买家实际支付金额
<lambda>  C语言项目开发实战入门               NaN
mean                        NaN           81.7172
sum                         NaN         4085.8600


在输出结果中，lamba函数名称<lambda>被输出了，那么如何去掉，方法是使用__name__方法修改函数名称。

In [27]:
import pandas as pd
df = pd.read_excel('1月.xlsx')
# x 是“宝贝标题”对应的列
# value_counts函数用于Series对象中的每个值进行计数并且排序

max1 = lambda x: x.value_counts(dropna=False).index[0]
max1.__name__="购买次数"
df1=df.agg({'宝贝标题':[max1],
             '买家实际支付金额':['sum','mean']})
print(df1)

                       宝贝标题  买家实际支付金额
mean                        NaN           81.7172
sum                         NaN         4085.8600
购买次数  C语言项目开发实战入门               NaN


## 4.3.4 通过字典和series对象进行分组统计

### 4.3.4.1 通过字典进行分组统计

首先创建字典建立的对应关系，然后将字典传递给groupby函数，从而实现数据分组统计。

统计各地区的销量，业务要求： 将“北京”“上海”“广州”三个一线城市放在一起进行统计，那么首先创建一个字典将“上海出库销量”“北京出库销量”“广州出库销量”都对应“北上广”，然后使用groupby方法进行分组统计。

In [30]:
import pandas as pd

pd.set_option('display.max_columns',500)
pd.set_option('display.width',1000)

pd.set_option('display.unicode.east_asian_width',True)
df = pd.read_csv('JD2.csv',encoding='gbk') # 注意这里，因为列标签名称有中文，必须设置encoding='gbk'
df = df.set_index(['商品名称'])
dict1 ={'上海出库销量':'北上广',
       '北京出库销量':'北上广',
       '广州出库销量':'北上广',
      '成都出库销量':'成都',
        '武汉出库销量':'武汉',
        '西安出库销量':'西安'}
df1=df.groupby(dict1,axis=1).sum()
print(df1)

                                  北上广  成都  武汉  西安
商品名称                                                  
零基础学Python（全彩版）            1991   284   246   152
Python从入门到项目实践（全彩版）     798   113    92    63
Python项目开发案例集锦（全彩版）     640   115    88    57
Python编程锦囊（全彩版）             457    85    65    47
零基础学C语言（全彩版）              364    82    63    40
SQL即查即用（全彩版）                305    29    25    40
零基础学Java（全彩版）               238    48    43    29
零基础学C++（全彩版）                223    53    35    23
零基础学C#（全彩版）                 146    27    16     7
C#项目开发实战入门（全彩版）         135    18    22    12


### 4.3.4.2 通过Series对象进行分组统计

通过Series对象进行分组统计时，它与字典的方法类似。

In [31]:
import pandas as pd

pd.set_option('display.max_columns',500)
pd.set_option('display.width',1000)

pd.set_option('display.unicode.east_asian_width',True)
df = pd.read_csv('JD2.csv',encoding='gbk') # 注意这里，因为列标签名称有中文，必须设置encoding='gbk'
df = df.set_index(['商品名称'])

In [32]:
data ={'上海出库销量':'北上广',
       '北京出库销量':'北上广',
       '广州出库销量':'北上广',
      '成都出库销量':'成都',
        '武汉出库销量':'武汉',
        '西安出库销量':'西安'}
s1 = pd.Series(data)
print(s1)

上海出库销量    北上广
北京出库销量    北上广
广州出库销量    北上广
成都出库销量      成都
武汉出库销量      武汉
西安出库销量      西安
dtype: object


In [33]:
#将Series对象传递给groupby函数实现数据分组统计
df1 = df.groupby(s1,axis=1).sum()
print(df1)

                                  北上广  成都  武汉  西安
商品名称                                                  
零基础学Python（全彩版）            1991   284   246   152
Python从入门到项目实践（全彩版）     798   113    92    63
Python项目开发案例集锦（全彩版）     640   115    88    57
Python编程锦囊（全彩版）             457    85    65    47
零基础学C语言（全彩版）              364    82    63    40
SQL即查即用（全彩版）                305    29    25    40
零基础学Java（全彩版）               238    48    43    29
零基础学C++（全彩版）                223    53    35    23
零基础学C#（全彩版）                 146    27    16     7
C#项目开发实战入门（全彩版）         135    18    22    12
