In [1]:
# 导入包
import numpy as np
import pandas as pd

### 分组与聚合

<img src="images/group.jpg" alt="分组与聚合" style="zoom: 35%;" />

In [2]:
# 创建实验数据
data = pd.DataFrame(
    {
        "model": [
            "Oneplus Ace",
            "iPhone 13",
            "Galaxy Z Flip3",
            "iPhone 13 Pro Max",
            "Oneplus 10",
        ],
        "brand": ["Oneplus", "Apple", "Samsung", "Apple", "Oneplus"],
        "price": [2999, 5999, 5999, 8999, 5299],
    }
)
data

Unnamed: 0,model,brand,price
0,Oneplus Ace,Oneplus,2999
1,iPhone 13,Apple,5999
2,Galaxy Z Flip3,Samsung,5999
3,iPhone 13 Pro Max,Apple,8999
4,Oneplus 10,Oneplus,5299


## 一、分组(groupby)

### 1.1 分组

#### 1.1.1 按单列分组

In [4]:
# 根据你设定列标签(by=列标签)对应的元素值进行分组(split)
# 返回包含分组名(元素值)和数据块(DataFrame)的二维元组序列(DataFrameGroupBy)
groupedData = data.groupby(by="brand") #也可省略写成：groupedData = data.groupby("brand")
type(groupedData)

pandas.core.groupby.generic.DataFrameGroupBy

In [5]:
# 查看分组详情
groupedData.describe()

Unnamed: 0_level_0,price,price,price,price,price,price,price,price
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
brand,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
Apple,2.0,7499.0,2121.320344,5999.0,6749.0,7499.0,8249.0,8999.0
Oneplus,2.0,4149.0,1626.345597,2999.0,3574.0,4149.0,4724.0,5299.0
Samsung,1.0,5999.0,,5999.0,5999.0,5999.0,5999.0,5999.0


In [6]:
# 查看分组情况
groupedData.groups

{'Apple': [1, 3], 'Oneplus': [0, 4], 'Samsung': [2]}

In [7]:
# 查看分组名
groupedData.groups.keys()

dict_keys(['Apple', 'Oneplus', 'Samsung'])

#### 1.1.2 按多列分组

In [8]:
# 根据你设定列标签(by=[列标签])对应的元素值进行分组(split)
# 返回包含分组名(元素值)和数据块(DataFrame)的二维元组序列(DataFrameGroupBy)
# 分组带有层次索引
groupedData2 = data.groupby(by=["brand","model"]) #也可省略写成：groupedData = data.groupby(["brand","model"])
type(groupedData2)

pandas.core.groupby.generic.DataFrameGroupBy

In [9]:
# 查看分组情况
groupedData2.groups

{('Apple', 'iPhone 13'): [1], ('Apple', 'iPhone 13 Pro Max'): [3], ('Oneplus', 'Oneplus 10'): [4], ('Oneplus', 'Oneplus Ace'): [0], ('Samsung', 'Galaxy Z Flip3'): [2]}

In [10]:
# 查看分组名
groupedData2.groups.keys()

dict_keys([('Apple', 'iPhone 13'), ('Apple', 'iPhone 13 Pro Max'), ('Oneplus', 'Oneplus 10'), ('Oneplus', 'Oneplus Ace'), ('Samsung', 'Galaxy Z Flip3')])

In [11]:
# 查看分组详情
groupedData2.describe()

Unnamed: 0_level_0,Unnamed: 1_level_0,price,price,price,price,price,price,price,price
Unnamed: 0_level_1,Unnamed: 1_level_1,count,mean,std,min,25%,50%,75%,max
brand,model,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
Apple,iPhone 13,1.0,5999.0,,5999.0,5999.0,5999.0,5999.0,5999.0
Apple,iPhone 13 Pro Max,1.0,8999.0,,8999.0,8999.0,8999.0,8999.0,8999.0
Oneplus,Oneplus 10,1.0,5299.0,,5299.0,5299.0,5299.0,5299.0,5299.0
Oneplus,Oneplus Ace,1.0,2999.0,,2999.0,2999.0,2999.0,2999.0,2999.0
Samsung,Galaxy Z Flip3,1.0,5999.0,,5999.0,5999.0,5999.0,5999.0,5999.0


### 1.2 遍历分组内容

In [12]:
# 以一个变量接受分组
# 每个分组都是一个二维元组：
# 第一个元素是分组名（字符串）
# 第二个元素是代码块（DataFrame对象）
for group in groupedData:
    print(group)
    print("==="*3)

('Apple',                model  brand  price
1          iPhone 13  Apple   5999
3  iPhone 13 Pro Max  Apple   8999)
('Oneplus',          model    brand  price
0  Oneplus Ace  Oneplus   2999
4   Oneplus 10  Oneplus   5299)
('Samsung',             model    brand  price
2  Galaxy Z Flip3  Samsung   5999)


In [13]:
# 以两个变量接受分组
# 第一个变量是分组名（字符串）
# 第二个变量是代码块（DataFrame对象）
for name,gData in groupedData:
    print(name)
    print("---"*3)
    print(gData)
    print("==="*3)

Apple
---------
               model  brand  price
1          iPhone 13  Apple   5999
3  iPhone 13 Pro Max  Apple   8999
Oneplus
---------
         model    brand  price
0  Oneplus Ace  Oneplus   2999
4   Oneplus 10  Oneplus   5299
Samsung
---------
            model    brand  price
2  Galaxy Z Flip3  Samsung   5999


### 1.3 选取数据块

In [14]:
# 方法一
# 1. DataFrameGroupBy->list->dict
# 2. 使用字典操作来选取数据块
dict(list(groupedData))["Apple"]

Unnamed: 0,model,brand,price
1,iPhone 13,Apple,5999
3,iPhone 13 Pro Max,Apple,8999


In [15]:
# 方法二
# 使用分组对象自带的get_group函数
groupedData.get_group("Apple")

Unnamed: 0,model,brand,price
1,iPhone 13,Apple,5999
3,iPhone 13 Pro Max,Apple,8999


## 二、聚合

### 2.1 聚合函数

<img src="images/jh.jpg" alt="聚合函数" style="zoom: 35%;" />

### 2.2 常规聚合操作形式

In [16]:
# 例如：根据分组求均值（根据品牌求手机均价）
# 选中分组对象里要操作的字段（例如：price），执行聚合函数（例如：mean）
groupedData["price"].mean()

brand
Apple      7499.0
Oneplus    4149.0
Samsung    5999.0
Name: price, dtype: float64

In [17]:
# 完整形式
# 例如：根据分组求均值（根据品牌求手机均价）
# 选中分组对象里要操作的字段（例如：price），执行聚合函数（例如：mean）
# 默认情况下会一分组名为行索引
data.groupby(by="brand")["price"].mean()

brand
Apple      7499.0
Oneplus    4149.0
Samsung    5999.0
Name: price, dtype: float64

In [18]:
# 完整形式
# 例如：根据分组求均值（根据品牌求手机均价）
# 选中分组对象里要操作的字段（例如：price），执行聚合函数（例如：mean）
# 默认情况下会一分组名为行索引
data.groupby(by=["brand","model"])["price"].mean()

brand    model            
Apple    iPhone 13            5999.0
         iPhone 13 Pro Max    8999.0
Oneplus  Oneplus 10           5299.0
         Oneplus Ace          2999.0
Samsung  Galaxy Z Flip3       5999.0
Name: price, dtype: float64

In [19]:
# 手动设置不以分组名为行索引
data.groupby(by="brand", as_index=False)["price"].mean()

Unnamed: 0,brand,price
0,Apple,7499.0
1,Oneplus,4149.0
2,Samsung,5999.0


### 2.3 语法糖聚合操作形式

In [20]:
# 取出DataFrame的某一列数据（例如：price）
# 按照DataFrame的另一列数据进行分组（例如：brand）
data["price"].groupby(data["brand"]).mean()

brand
Apple      7499.0
Oneplus    4149.0
Samsung    5999.0
Name: price, dtype: float64

In [21]:
# 取出DataFrame的某一列数据（例如：price）
# 按照DataFrame的另一列数据进行分组（例如：brand和model）
data["price"].groupby([data["brand"],data["model"]]).mean()

brand    model            
Apple    iPhone 13            5999.0
         iPhone 13 Pro Max    8999.0
Oneplus  Oneplus 10           5299.0
         Oneplus Ace          2999.0
Samsung  Galaxy Z Flip3       5999.0
Name: price, dtype: float64

### 2.4 自定义聚合函数

In [22]:
# 例：计算每个手机品牌的差
# 自定义函数（例：求差值）
def diff(x):
    return x.max() - x.min()
# 应用自定义函数聚合
data.groupby(by="brand")["price"].aggregate(diff)

brand
Apple      3000
Oneplus    2300
Samsung       0
Name: price, dtype: int64

In [23]:
# 例：计算每个手机品牌的差
# 应用自定义函数聚合(lanmbda实现)
data.groupby(by="brand")["price"].aggregate(lambda x: x.max()-x.min())

brand
Apple      3000
Oneplus    2300
Samsung       0
Name: price, dtype: int64