### 1.7 数据分组与聚合

数据分组与聚合操作主要用于对数据进行分组，并对每个分组执行汇总操作。Pandas提供了非常强大的分组与聚合功能，使得数据分析变得非常方便。

#### 1.7.1 数据分组

数据分组是将数据按某些条件分成若干组。常用的分组方法是`groupby`。

In [1]:
import pandas as pd

# 创建示例DataFrame
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Alice', 'Eve'],
    'Age': [24, 27, 22, 32, 24, 28],
    'City': ['New York', 'San Francisco', 'Los Angeles', 'Chicago', 'New York', 'Chicago'],
    'Salary': [50000, 60000, 70000, 80000, 50000, 90000]
}
df = pd.DataFrame(data)

# 按城市分组
grouped = df.groupby('City')

# 显示每个分组的数据
for name, group in grouped:
    print(f"City: {name}")
    print(group)

City: Chicago
    Name  Age     City  Salary
3  David   32  Chicago   80000
5    Eve   28  Chicago   90000
City: Los Angeles
      Name  Age         City  Salary
2  Charlie   22  Los Angeles   70000
City: New York
    Name  Age      City  Salary
0  Alice   24  New York   50000
4  Alice   24  New York   50000
City: San Francisco
  Name  Age           City  Salary
1  Bob   27  San Francisco   60000


#### 1.7.2 数据聚合

聚合操作是对每个分组执行汇总操作，如求和、均值、计数等。常用的聚合方法有`sum`、`mean`、`count`等。

In [2]:
# 按城市分组并求和
grouped_sum = grouped.sum()
print("按城市分组并求和:")
print(grouped_sum)

# 按城市分组并计数
grouped_count = grouped.count()
print("按城市分组并计数:")
print(grouped_count)

按城市分组并求和:
                     Name  Age  Salary
City                                  
Chicago          DavidEve   60  170000
Los Angeles       Charlie   22   70000
New York       AliceAlice   48  100000
San Francisco         Bob   27   60000
按城市分组并计数:
               Name  Age  Salary
City                            
Chicago           2    2       2
Los Angeles       1    1       1
New York          2    2       2
San Francisco     1    1       1


#### 1.7.3 多重聚合

可以对每个分组执行多个聚合操作，使用`agg`方法。

In [3]:
# 按城市分组并执行多个聚合操作
grouped_agg = grouped.agg({'Age': ['mean', 'max'], 'Salary': ['sum', 'mean']})
print("按城市分组并执行多个聚合操作:")
print(grouped_agg)

按城市分组并执行多个聚合操作:
                Age      Salary         
               mean max     sum     mean
City                                    
Chicago        30.0  32  170000  85000.0
Los Angeles    22.0  22   70000  70000.0
New York       24.0  24  100000  50000.0
San Francisco  27.0  27   60000  60000.0


#### 1.7.4 透视表

透视表是一个数据处理工具，用于根据特定的索引和列汇总数据。Pandas中的`pivot_table`方法可以非常方便地创建透视表。

In [4]:
# 创建透视表
pivot_table = pd.pivot_table(df, values='Salary', index='City', columns='Name', aggfunc='mean')
print("透视表:")
print(pivot_table)

透视表:
Name             Alice      Bob  Charlie    David      Eve
City                                                      
Chicago            NaN      NaN      NaN  80000.0  90000.0
Los Angeles        NaN      NaN  70000.0      NaN      NaN
New York       50000.0      NaN      NaN      NaN      NaN
San Francisco      NaN  60000.0      NaN      NaN      NaN


#### 示例代码

下面是一个综合示例，展示了如何使用Pandas进行数据分组与聚合。

In [5]:
import pandas as pd

# 创建示例DataFrame
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Alice', 'Eve'],
    'Age': [24, 27, 22, 32, 24, 28],
    'City': ['New York', 'San Francisco', 'Los Angeles', 'Chicago', 'New York', 'Chicago'],
    'Salary': [50000, 60000, 70000, 80000, 50000, 90000]
}
df = pd.DataFrame(data)

print("原始数据:")
print(df)

# 按城市分组
grouped = df.groupby('City')

# 显示每个分组的数据
print("\n分组数据:")
for name, group in grouped:
    print(f"City: {name}")
    print(group)

# 按城市分组并求和
grouped_sum = grouped.sum()
print("\n按城市分组并求和:")
print(grouped_sum)

# 按城市分组并计数
grouped_count = grouped.count()
print("\n按城市分组并计数:")
print(grouped_count)

# 按城市分组并执行多个聚合操作
grouped_agg = grouped.agg({'Age': ['mean', 'max'], 'Salary': ['sum', 'mean']})
print("\n按城市分组并执行多个聚合操作:")
print(grouped_agg)

# 创建透视表
pivot_table = pd.pivot_table(df, values='Salary', index='City', columns='Name', aggfunc='mean')
print("\n透视表:")
print(pivot_table)

原始数据:
      Name  Age           City  Salary
0    Alice   24       New York   50000
1      Bob   27  San Francisco   60000
2  Charlie   22    Los Angeles   70000
3    David   32        Chicago   80000
4    Alice   24       New York   50000
5      Eve   28        Chicago   90000

分组数据:
City: Chicago
    Name  Age     City  Salary
3  David   32  Chicago   80000
5    Eve   28  Chicago   90000
City: Los Angeles
      Name  Age         City  Salary
2  Charlie   22  Los Angeles   70000
City: New York
    Name  Age      City  Salary
0  Alice   24  New York   50000
4  Alice   24  New York   50000
City: San Francisco
  Name  Age           City  Salary
1  Bob   27  San Francisco   60000

按城市分组并求和:
                     Name  Age  Salary
City                                  
Chicago          DavidEve   60  170000
Los Angeles       Charlie   22   70000
New York       AliceAlice   48  100000
San Francisco         Bob   27   60000

按城市分组并计数:
               Name  Age  Salary
City                     

通过这些详细的步骤和示例，你可以对数据进行全面的分组与聚合，以提取有意义的统计信息。