## 10.1 数据分组
&emsp;&emsp;使用分组可以将数据分为多个逻辑组，对每个组进行聚集计算。

## 10.2 创建分组
&emsp;&emsp;分组是使用SELECT 语句的GROUP BY 子句建立的：

In [1]:
import sqlite3 as sql 
import pandas as pd

def select_sql(query):
    conn = sql.connect('tysql.sqlite')
    cur = conn.cursor()
    df = pd.read_sql(query, con=conn)
    cur.close()
    conn.close()
    print(df)

In [2]:
# 通过GROUP BY()检索各供应商有多少产品
query = '''
SELECT vend_id, 
        COUNT(*) AS num_prods
FROM Products
GROUP BY vend_id;
'''
select_sql(query)

  vend_id  num_prods
0   BRS01          3
1   DLL01          4
2   FNG01          2


&emsp;&emsp;在使用GROUP BY 子句前，需要知道一些重要的规定：
- GROUP BY 子句可以包含任意数目的列，因而可以对分组进行嵌套，更细致地进行数据分组；
- 如果在GROUP BY 子句中嵌套了分组，数据将在最后指定的分组上进行汇总。换句话说，在建立分组时，指定的所有列都一起计算（所以不能从个别的列取回数据）；
- GROUP BY 子句中列出的每一列都必须是检索列或有效的表达式（但不能是聚集函数），如果在SELECT 中使用表达式，则必须在GROUP BY子句中指定相同的表达式。不能使用别名；
- 大多数SQL 实现不允许GROUP BY 列带有长度可变的数据类型（如文本或备注型字段）；
- 除聚集计算语句外，SELECT 语句中的每一列都必须在GROUP BY 子句中给出；
- 如果分组列中包含具有NULL 值的行，则NULL 将作为一个分组返回，如果列中有多行NULL 值，它们将分为一组；
- GROUP BY 子句必须出现在WHERE 子句之后，ORDER BY 子句之前。

>**提示**：ALL 子句Microsoft SQL Server 等有些SQL 实现在GROUP BY 中支持可选的ALL子句。这个子句可用来返回所有分组，即使是没有匹配行的分组也返回（在此情况下，聚集将返回NULL）。具体的DBMS 是否支持ALL，请参阅相应的文档。

>**注意**：有的SQL 实现允许根据SELECT 列表中的位置指定GROUP BY 的列。例如，GROUP BY 2, 1 可表示按选择的第二个列分组，然后再按第一个列分组。虽然这种速记语法很方便，但并非所有SQL 实现都支持，并且使用它容易在编辑SQL 语句时出错。

## 10.3 过滤分组
&emsp;&emsp;除了能用GROUP BY 分组数据外，SQL 还允许通过HAVING 子句过滤分组，规定包括哪些分组，排除哪些分组。

>**提示**：HAVING 支持所有WHERE 操作符，实际上两者的句法相同，只是关键字有差别。

In [3]:
# 通过GROUP BY()检索各供应商有多少产品
# 通过HAVING 过滤COUNT(*) >= 2（两个以上订单）的那些分组
query = '''
SELECT cust_id, 
        COUNT(*) AS orders
FROM Orders
GROUP BY cust_id
HAVING COUNT(*) >= 2;
'''
select_sql(query)

      cust_id  orders
0  1000000001       2


>**说明**：这里有另一种理解方法，WHERE 在数据分组前进行过滤，HAVING 在数据分组后进行过滤。这是一个重要的区别，WHERE 排除的行不包括在分组中。这可能会改变计算值，从而影响HAVING 子句中基于这些值过滤掉的分组。

In [4]:
# 通过GROUP BY()检索各供应商有多少产品
# 返回具有两个以上产品且其价格大于等于4 的供应商
query = '''
SELECT vend_id, 
        COUNT(*) AS num_prods
FROM Products
WHERE prod_price >= 4
GROUP BY vend_id
HAVING COUNT(*) >= 2;
'''
select_sql(query)

  vend_id  num_prods
0   BRS01          3
1   FNG01          2


In [5]:
# 不使用WHERE 的情况
query = '''
SELECT vend_id, 
        COUNT(*) AS num_prods
FROM Products
GROUP BY vend_id
HAVING COUNT(*) >= 2;
'''
select_sql(query)

  vend_id  num_prods
0   BRS01          3
1   DLL01          4
2   FNG01          2


>**说明**：HAVING 与WHERE 非常类似，如果不指定GROUP BY，则大多数DBMS会同等对待它们。不过，你自己要能区分这一点。使用HAVING 时应该结合GROUP BY 子句，而WHERE 子句用于标准的行级过滤。

## 10.4 分组和排序
&emsp;&emsp;GROUP BY 和ORDER BY 经常完成相同的工作，但它们非常不同，理解这一点很重要：

>**提示**：一般在使用GROUP BY 子句时，应该也给出ORDER BY 子句。这是保证数据正确排序的唯一方法。千万不要仅依赖GROUP BY 排序数据。

In [6]:
# 检索包含三个或更多物品的订单号和订购物品的数目
# 并按订购物品的数目排序输出
query = '''
SELECT order_num, 
        COUNT(*) AS items
FROM OrderItems
GROUP BY order_num
HAVING COUNT(*) >= 3
ORDER BY items, order_num;
'''
select_sql(query)

   order_num  items
0      20006      3
1      20009      3
2      20007      5
3      20008      5


>**说明**：Microsoft Access 不允许按别名排序，因此这个例子在Access 中将失败。解决方法是用实际的计算或字段位置替换items（在ORDER BY 子句中），即ORDER BY COUNT(*), order_num 或ORDER BY 2, order_num。

## 10.5 SELECT子句顺序
子 句 | 说 明 | 是否必须使用
----|----|----
SELECT | 要返回的列或表达式 | 是
FROM | 从中检索数据的表 | 仅在从表选择数据时使用
WHERE | 行级过滤 | 否
GROUP BY | 分组说明 | 仅在按组计算聚集时使用
HAVING | 组级过滤 | 否
ORDER BY | 输出排序顺序 | 否

## 10.6 小结
&emsp;&emsp;本章学习了如何使用GROUP BY 子句对多组数据进行汇总计算，返回每个组结果，以及如何使用HAVING 子句过滤特定的组，还知道了ORDER BY和GROUP BY 之间以及WHERE 和HAVING 之间的差异。