## 9.1 聚集函数
&emsp;&emsp;经常需要汇总数据而不用把它们实际检索出来，为此SQL 提供了专门的聚集函数：

函数 | 说明
----|----
AVG() | 返回某列的平均值
COUNT() | 返回某列的行数
MAX() | 返回某列的最大值
MIN() | 返回某列的最小值
SUM() | 返回某列值之和

>**聚集函数（aggregate function）**：对某些行运行的函数，计算并返回一个值。

### 9.1.1 AVG()函数
&emsp;&emsp;AVG()通过对表中行数计数并计算其列值之和，求得该列的平均值。AVG()可用来返回所有列的平均值，也可以用来返回特定列或行的平均值：

In [1]:
import sqlite3 as sql 
import pandas as pd

def select_sql(query):
    conn = sql.connect('tysql.sqlite')
    cur = conn.cursor()
    df = pd.read_sql(query, con=conn)
    cur.close()
    conn.close()
    print(df)

In [2]:
# 使用AVG()返回Products 表中所有产品的平均价格
query = '''
SELECT AVG(prod_price) AS avg_price
FROM Products;
'''
select_sql(query)

   avg_price
0   6.823333


In [3]:
# 使用AVG()返回Products 表中特定供应商产品的平均价格
query = '''
SELECT AVG(prod_price) AS avg_price
FROM Products
WHERE vend_id = 'DLL01';
'''
select_sql(query)

   avg_price
0      3.865


>**注意**：AVG()只能用来确定特定数值列的平均值，而且列名必须作为函数参数给出。为了获得多个列的平均值，必须使用多个AVG()函数。

>**说明**：AVG()函数忽略列值为NULL 的行。

### 9.1.2 COUNT()函数
&emsp;&emsp;COUNT()函数进行计数。可利用COUNT()确定表中行的数目或符合特定条件的行的数目。COUNT()函数有两种使用方式：
- 使用COUNT(*)对表中行的数目进行计数，不管表列中包含的是空值（NULL）还是非空值；
- 使用COUNT(column)对特定列中具有值的行进行计数，忽略NULL 值。

In [4]:
# 返回Customers 表中顾客的总数
query = '''
SELECT COUNT(*) AS num_cust
FROM Customers;
'''
select_sql(query)

   num_cust
0         5


In [5]:
# 只对具有电子邮件地址的客户计
query = '''
SELECT COUNT(cust_email) AS num_cust
FROM Customers;
'''
select_sql(query)

   num_cust
0         3


### 9.1.3 MAX()函数
&emsp;&emsp;MAX()返回指定列中的最大值。MAX()要求指定列名：

In [6]:
# 返回Products 表中最贵物品的价格
query = '''
SELECT MAX(prod_price) AS max_price
FROM Products;
'''
select_sql(query)

   max_price
0      11.99


>**提示**：虽然MAX()一般用来找出最大的数值或日期值，但许多（并非所有）DBMS 允许将它用来返回任意列中的最大值，包括返回文本列中的最大值。在用于文本数据时，MAX()返回按该列排序后的最后一行。

>**说明**：MAX()函数忽略列值为NULL 的行。

### 9.1.4 MIN()函数
&emsp;&emsp;MIN()的功能正好与MAX()功能相反，它返回指定列的最小值。与MAX()一样，MIN()要求指定列名：

In [7]:
# 返回Products 表中最便宜物品的价格
query = '''
SELECT MIN(prod_price) AS min_price
FROM Products;
'''
select_sql(query)

   min_price
0       3.49


>**提示**：虽然MIN()一般用来找出最小的数值或日期值，但许多（并非所有）DBMS 允许将它用来返回任意列中的最小值，包括返回文本列中的最小值。在用于文本数据时，MIN()返回该列排序后最前面的行。

>**说明**：MIN()函数忽略列值为NULL 的行。

### 9.1.5 SUM()函数
&emsp;&emsp;SUM()用来返回指定列值的和（总计）：

In [8]:
# 合计每项物品的item_price*quantity，得出总的订单金额
query = '''
SELECT SUM(item_price*quantity) AS total_price
FROM OrderItems
WHERE order_num = 20005;
'''
select_sql(query)

   total_price
0       1648.0


>**提示**：如本例所示，利用标准的算术操作符，所有聚集函数都可用来执行多个列上的计算。

>**说明**：SUM()函数忽略列值为NULL 的行。

## 9.2 聚集不同值
&emsp;&emsp;以上5 个聚集函数都可以如下使用：
- 对所有行执行计算，指定ALL 参数或不指定参数（因为ALL 是默认行为）；
- 只包含不同的值，指定DISTINCT 参数。

>**提示**：ALL 参数不需要指定，因为它是默认行为。如果不指定DISTINCT，则假定为ALL。

>**说明**：Microsoft Access 在聚集函数中不支持DISTINCT，因此下面的例子不适合于Access。要在Access 得到类似的结果，需要使用子查询把DISTINCT 数据返回到外部SELECT COUNT(*)语句。

In [9]:
# 使用AVG()函数返回特定供应商提供的产品的平均价格
# 使用了DISTINCT 参数，因此平均值只考虑各个不同的价格
query = '''
SELECT AVG(DISTINCT prod_price) AS avg_price
FROM Products
WHERE vend_id = 'DLL01';
'''
select_sql(query)

   avg_price
0       4.24


>**注意**：如果指定列名，则DISTINCT 只能用于COUNT()。DISTINCT 不能用于COUNT(*)。类似地，DISTINCT 必须使用列名，不能用于计算或表达式。

>**提示**：虽然DISTINCT 从技术上可用于MIN()和MAX()，但这样做实际上没有价值。一个列中的最小值和最大值不管是否只考虑不同值，结果都是相同的。

>**说明**：除了这里介绍的DISTINCT 和ALL 参数，有的DBMS 还支持其他参数，如支持对查询结果的子集进行计算的TOP 和TOP PERCENT。为了解具体的DBMS 支持哪些参数，请参阅相应的文档。

## 9.3 组合聚集函数
&emsp;&emsp;实际上，SELECT 语句可根据需要包含多个聚集函数：

In [10]:
# 返回4 个值（Products表中物品的数目，产品价格的最高值、最低值以及平均值）。
query = '''
SELECT COUNT(*) AS num_items,
        MIN(prod_price) AS price_min,
        MAX(prod_price) AS price_max,
        AVG(prod_price) AS price_avg
FROM Products;
'''
select_sql(query)

   num_items  price_min  price_max  price_avg
0          9       3.49      11.99   6.823333


## 9.4 小结
&emsp;&emsp;本章学习了使用聚集函数来汇总数据。