---
title: "如何计算汇总统计"
format:
  html:
   code-fold: false
   code-tools: true
jupyter: python3
---

# 如何计算汇总统计


<video controls style="width: 100%;">
  <source src="http://szmspython.oss-cn-hangzhou.aliyuncs.com/%E5%91%A8%E4%B8%80%E7%8E%AF%E5%A2%83%E6%90%AD%E5%BB%BA%26%E5%9F%BA%E7%A1%80%E8%AF%AD%E6%B3%95/%E5%A4%8F%E4%BB%A4%E8%90%A5%E7%AC%AC%E4%BA%8C%E5%91%A8/%E5%91%A8%E4%B8%89%E8%A7%86%E9%A2%91.mp4" type="video/mp4">
</video>

<style>
video {
  max-width: 100%;
  height: auto;
  
}
</style>

### 常用的汇总统计操作

#### `describe()` 方法

describe() 是 Pandas 中一个常用的基础操作，用于生成关于关于数据的基本描述统计信息。

使用 describe() 方法，你可以获得以下统计信息：

计数（count）：非缺失值的数量。

均值（mean）：平均值。

标准差（std）：标准差衡量数据的离散程度。

最小值（min）和最大值（max）：数据列的最小和最大值。

四分位数（25%，50%，75%）：数据的四个百分位数，用于描述数据的分布。

示例代码：

In [4]:
import pandas as pd

data = {'Value': [10, 20, 15, 25, 30, 5, 12]}
df = pd.DataFrame(data)

summary_stats = df['Value'].describe()
print(summary_stats)


count     7.000000
mean     16.714286
std       8.788521
min       5.000000
25%      11.000000
50%      15.000000
75%      22.500000
max      30.000000
Name: Value, dtype: float64


#### 平均值、中位数、标准差、方差

在 Pandas 中，我们也可以使用单独的函数来计算特定统计量，如平均值、中位数、标准差等，而非获取数据的所有统计信息，其方法如下：

- `.mean()` 方法：计算数值型列的平均值
- `.median()` 方法：计算数值型列的中位数
- `.std()` 方法：计算数值型列的标准差
- `var()`方法：计算数值型列的方差

In [6]:
# 计算数值型列的平均值
mean_value = df['Value'].mean()
# 计算数值型列的中位数
median_value = df['Value'].median()
# 计算数值型列的标准差
std_deviation = df['Value'].std()
# 计算数值型列的方差
variance = df['Value'].var()

print("Mean:", mean_value)
print("Median:", median_value)
print("Standard Deviation:", std_deviation)
print("Variance", variance)


Mean: 16.714285714285715
Median: 15.0
Standard Deviation: 8.788520651286838
Var Deviation 77.23809523809523


#### 最大值、最小值、总和

要单独查看数据列的最大值、最小值、总和，我们可以使用如下函数：

- `min()`方法：计算数值型列的最小值
- `max()`方法：计算数值型列的最大值
- `sum()`方法：计算数值型列的总和

In [None]:
total_sum = df['Value'].sum()
minimum_value = df['Value'].min()
maximum_value = df['Value'].max()

print("Total Sum:", total_sum)
print("Minimum Value:", minimum_value)
print("Maximum Value:", maximum_value)


#### 分位数

通过 `quantile()` 函数，我们可以计算任意分位数。

In [7]:
quantile_25 = df['Value'].quantile(0.25)
quantile_75 = df['Value'].quantile(0.75)

print("25th Percentile:", quantile_25)
print("75th Percentile:", quantile_75)


25th Percentile: 11.0
75th Percentile: 22.5


通过查看数值型列的汇总统计，可以快速了解数据的整体分布和统计特征，有助于进行数据分析和洞察。

### groupby()的用法

在 Pandas 数据处理中，groupby() 是一项关键操作，广泛用于数据分析、摘要统计以及数据处理等领域。借助 groupby()，我们能够便捷地将数据按照指定列的值进行分类分组，然后对每个分组进行聚合分析。

通过 groupby() 方法，我们可以根据单个或多个列的值对数据进行智能分组，然后运用聚合函数来生成汇总结果。以下是基本用法的示例：

In [3]:
import pandas as pd

# 创建一个示例DataFrame
data = {'Category': ['A', 'B', 'A', 'B', 'A', 'A', 'B'],
        'Value': [10, 20, 15, 25, 30, 5, 12]}
df = pd.DataFrame(data)

# 按照 Category 列进行分组，并计算每个分组的平均值
grouped = df.groupby('Category')
grouped_mean = grouped.mean()

print(grouped_mean)


          Value
Category       
A          15.0
B          19.0


`groupby()` 通常与其他汇总、统计、聚合函数一起使用，例如 sum()、mean()、max()、min() 等。


In [4]:
# 对分组计算总和、平均值、最大值、最小值
grouped_sum = grouped['Value'].sum()
grouped_mean = grouped['Value'].mean()
grouped_max = grouped['Value'].max()
grouped_min = grouped['Value'].min()

print(grouped_sum)
print(grouped_mean)
print(grouped_max)
print(grouped_min)


Category
A    60
B    57
Name: Value, dtype: int64
Category
A    15.0
B    19.0
Name: Value, dtype: float64
Category
A    30
B    25
Name: Value, dtype: int64
Category
A     5
B    12
Name: Value, dtype: int64


另外，我们还可以根据多列的值来分组，只需要在 `groupby()` 方法中传递一个包含列名的列表即可。

In [1]:
import pandas as pd

# 创建一个示例DataFrame
data = {'Category': ['A', 'B', 'A', 'B', 'A', 'A', 'B'],
        'Subcategory': ['X', 'Y', 'X', 'Y', 'X', 'Y', 'X'],
        'Value': [10, 20, 15, 25, 30, 5, 12]}
df = pd.DataFrame(data)

# 按照 Category 和 Subcategory 列进行分组，并计算每个分组的平均值
grouped = df.groupby(['Category', 'Subcategory'])
grouped_mean = grouped.mean()

print(grouped_mean)


                          Value
Category Subcategory           
A        X            18.333333
         Y             5.000000
B        X            12.000000
         Y            22.500000


在使用 `groupby()` 时，我们除了可以使用 Pandas 内置的聚合函数对分组数据进行操作，还可以自定义聚合函数来实现我们需要的功能。

In [3]:
# 自定义聚合函数，计算最大值和最小值之差
def custom_agg(x):
    return x.max() - x.min()

grouped_custom = df.groupby('Category')['Value'].agg(custom_agg)

print(grouped_custom)


Category
A    25
B    13
Name: Value, dtype: int64


### size和count

在Pandas中，`size`和`count`是用于计算分组数据的两个方法，常常与`groupby`一起使用。它们可以提供关于每个分组的计数信息，但在计算方式和返回结果上有一些区别。

**size方法：**

- `size`方法用于计算每个分组中的元素数量，包括缺失值。
- 返回的结果是一个Series，其索引是分组键，值是每个分组中的元素数量。
- `size`方法不考虑缺失值，即使某个分组中存在缺失值，它也会将其计算为有效元素。

**count方法：**

- `count`方法用于计算每个分组中非缺失值的数量。
- 返回的结果是一个Series，其索引是分组键，值是每个分组中的非缺失值的数量。
- `count`方法排除了缺失值，只计算非缺失值的数量。

::: {.callout-note}
**`isna()` 方法**
如果要检测数据中缺失值的数量，可以使用 `isna()` 方法，该方法会返回一个布尔值的 DataFrame，用于指示每个元素是否为缺失值（True表示缺失值，False表示非缺失值）。这个方法通常用于数据清洗、预处理以及数据的初步探索。通常情况下，这个方法可以与 `sum()` 方法一起使用，以达到检测缺失值数量的目的。

你可以尝试下面的代码，试试看如何统计缺失值的数量。

```
import pandas as pd

# 创建一个包含缺失值的DataFrame
data = {'A': [1, 2, None, 4],
        'B': [None, 5, 6, 7],
        'C': [10, 20, 30, 40]}
df = pd.DataFrame(data)

# 使用.isna().sum()统计每列的缺失值数量
missing_values_count = df.isna().sum()

print(missing_values_count)

```
:::

示例，演示如何使用`size`和`count`方法结合`groupby`对数据进行计数：

In [None]:
import pandas as pd

# 创建一个示例DataFrame
data = {'Group': ['A', 'A', 'B', 'B', 'B'],
        'Value': [1, 2, 3, None, 5]}
df = pd.DataFrame(data)

# 使用groupby和size计算每个分组的元素数量
size_result = df.groupby('Group').size()

# 使用groupby和count计算每个分组的非缺失值数量
count_result = df.groupby('Group').count()

print("Size结果:")
print(size_result)
print("\nCount结果:")
print(count_result)

在上述示例中，我们创建了一个DataFrame，并使用`Group`列进行分组。然后，我们分别使用`size`和`count`方法对分组后的数据进行计数。可以看到，`size`方法返回了每个分组的元素数量，而`count`方法返回了每个分组的非缺失值数量。在分组B中，有一个缺失值，因此`size`方法返回3，而`count`方法返回2。

这两个方法的使用可以根据具体需求来选择。如果需要考虑缺失值并计算所有元素的数量，可以使用`size`方法；如果只关心非缺失值的数量，可以使用`count`方法。

# 如何重塑表格布局

### sort的用法

在Pandas中，`sort_values`和`sort_index`是用于对DataFrame或Series进行排序的两个常用方法。

 `sort_values`方法：

   - `sort_values`方法用于按照指定的列或多个列的值对DataFrame或Series进行排序。

   - 可以通过`by`参数指定要排序的列或多个列，以列表形式提供。

   - 可以使用`ascending`参数来控制排序的升序或降序，默认为`True`（升序）。

   - 可以使用`inplace`参数来指定是否原地修改DataFrame或Series，默认为`False`，即返回排序后的副本。

   - 示例：

In [None]:
import pandas as pd

df = pd.DataFrame({'A': [3, 2, 1], 'B': [1, 3, 2]})
sorted_df = df.sort_values(by='A', ascending=True)

 - 上述代码将按照'A'列的值对DataFrame `df` 进行升序排序，并将结果存储在`sorted_df`中。

 `sort_index`方法：

   - `sort_index`方法用于根据索引对DataFrame或Series进行排序。

   - 可以使用`axis`参数指定要排序的轴，`axis=0`表示按行索引排序，`axis=1`表示按列索引排序。

   - 可以使用`ascending`参数来控制排序的升序或降序，默认为`True`（升序）。

   - 可以使用`inplace`参数来指定是否原地修改DataFrame或Series，默认为`False`，即返回排序后的副本。

   - 示例：

In [None]:
import pandas as pd

df = pd.DataFrame({'A': [3, 2, 1], 'B': [1, 3, 2]}, index=[2, 1, 3])
sorted_df = df.sort_index(axis=0, ascending=True)

 - 上述代码将按照行索引对DataFrame `df` 进行升序排序，并将结果存储在`sorted_df`中。

排序操作可以根据具体需求来选择使用`sort_values`还是`sort_index`。如果希望根据列的值进行排序，使用`sort_values`方法；如果希望根据索引进行排序，使用`sort_index`方法。



----------------------------------------------------------------

在Pandas中，可以使用不同的方法来重新塑造（reshape）表格布局，以满足特定的数据分析和处理需求。以下是一些常用的重塑表格布局的方法：

### pivot()方法

`pivot()`方法：用于将长格式（long format）的数据转换为宽格式（wide format），根据指定的列创建新的列，并使用列值进行填充。

示例，展示如何使用`pivot()`方法将数据从长格式转换为宽格式：

In [None]:
import pandas as pd

# 创建示例DataFrame
data = {'Name': ['John', 'John', 'Emma', 'Emma', 'Alex', 'Alex'],
        'Subject': ['Math', 'Science', 'Math', 'Science', 'Math', 'Science'],
        'Score': [85, 92, 78, 88, 90, 85]}
df = pd.DataFrame(data)

# 使用pivot方法重塑表格布局
pivot_df = df.pivot(index='Name', columns='Subject', values='Score')
pivot_df

### melt()方法

在Pandas中，`melt()`是一个用于将宽格式（wide format）的数据转换为长格式（long format）的方法。它将数据从列中展开成为更长的格式，使得数据更适合进行分析和可视化。

`melt()`方法的语法如下：

```python
DataFrame.melt(id_vars=None, value_vars=None, var_name=None, value_name='value', col_level=None)
```

参数说明：

- `id_vars`：可选参数，指定要保留的列名，不进行展开操作。
- `value_vars`：可选参数，指定要进行展开操作的列名。如果未指定，则默认展开所有未指定为`id_vars`的列。
- `var_name`：可选参数，指定展开后的列名的名称。
- `value_name`：可选参数，指定展开后的值的列名的名称，默认为`value`。
- `col_level`：可选参数，用于多层索引列的级别。

下面是一个示例，演示如何使用`melt()`方法将宽格式的数据转换为长格式：

In [None]:
import pandas as pd

# 创建一个示例DataFrame
data = {
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Math': [90, 80, 70],
    'Science': [95, 85, 75],
    'History': [92, 82, 72]
}
df = pd.DataFrame(data)

# 使用melt()方法进行数据转换
melted_df = df.melt(id_vars='Name', value_vars=['Math', 'Science', 'History'], var_name='Subject', value_name='Score')

print("原始DataFrame:")
print(df)
print("\n转换后的DataFrame:")
melted_df

### stack()方法

`stack()`方法：

在Pandas中，`stack()`是一个用于对DataFrame进行堆叠操作的方法。它将列标签（Column labels）转换为行索引（Row index），将数据从宽格式转换为长格式，从而生成一个更紧凑的DataFrame。

`stack()`方法的语法如下：

```python
DataFrame.stack(level=-1, dropna=True)
```

参数说明：

- `level`：可选参数，用于多层索引列的级别。默认值为`-1`，表示堆叠所有列。
- `dropna`：可选参数，指定是否删除包含缺失值的行，默认为`True`。

示例：

In [None]:
import pandas as pd

# 创建一个示例DataFrame
data = {
    'Name': ['Alice', 'Bob'],
    'Math': [90, 80],
    'Science': [95, 85],
    'History': [92, 82]
}
df = pd.DataFrame(data)

# 使用stack()方法进行堆叠操作
stacked_df = df.set_index('Name').stack().reset_index()

print("原始DataFrame:")
print(df)
print("\n堆叠后的DataFrame:")
stacked_df

### unstack()方法

在Pandas中，`unstack()`是用于将表格中的行索引转换为列索引，将数据从长格式转换为宽格式。

`unstack()`方法的语法如下：

```python
DataFrame.unstack(level=-1, fill_value=None)
```

参数说明：

- `level`：可选参数，用于指定要展开的层次化索引的级别。默认值为`-1`，表示展开最内层索引。
- `fill_value`：可选参数，用于指定填充缺失值的值。

示例：

In [None]:
import pandas as pd

# 创建一个示例DataFrame
data = {
    'Name': ['Alice', 'Bob'],
    'Subject': ['Math', 'Science'],
    'Score': [90, 80]
}
df = pd.DataFrame(data)

# 将DataFrame进行设置层次化索引
indexed_df = df.set_index(['Name', 'Subject'])

# 使用unstack()方法进行展开操作
unstacked_df = indexed_df.unstack()

print("原始DataFrame:")
print(df)
print("\n展开后的DataFrame:")
unstacked_df

在上述示例中，原始数据包含学生的姓名、科目和分数。通过使用`pivot()`方法，将姓名作为行索引，科目作为列索引，并将分数填充到相应的单元格中，得到了以学生姓名为行、科目为列的宽格式表格布局。

> **长、宽格式转换与转置的区别**
> 
> 在Python中，长格式（Long Format）和宽格式（Wide Format）是数据集的两种常见表示方式，通常用于数据分析和处理。这两种格式在转换和转置时有一些区别。
> 
> **长格式（Long Format）**：
> 
> - 长格式也称为“堆叠”或“纵向”格式，它将数据以多行的形式呈现，每一行表示一个观察值，每一列包含一个变量。
> - 长格式通常用于处理时间序列数据或实验数据，其中每个实验单位可以有多个测量值。
> - 在长格式中，通常会有一个或多个列用于标识不同的变量，以及一个列用于存储对应的值。
> - 适用于需要对数据进行聚合、分组和透视的操作。
> 
> **长格式表格示例**
>
>
> | 城市 | 月份 | 温度 |
> | ---- | ---- | ---- |
> | 北京 | 1月  | 0°C  |
> | 北京 | 2月  | 3°C  |
> | 北京 | 3月  | 10°C |
> | 上海 | 1月  | 5°C  |
> | 上海 | 2月  | 8°C  |
> | 上海 | 3月  | 15°C |
> 
> 
> **宽格式（Wide Format）**：
> 
> - 宽格式也称为“透视”或“横向”格式，它将数据以多列的形式呈现，每一行表示一个观察值，每一列包含一个变量。
> 
> - 宽格式通常用于简化数据结构，将不同的变量作为独立的列存储，方便直观地查看变量之间的关系。
> 
> - 在宽格式中，每列可能代表不同的变量，每行可能代表不同的观察值。
>
> - 适用于需要直接查看变量之间关系的情况。
> 
> **宽格式表格示例：**
>
> 
> | 城市 | 1月  | 2月  | 3月  |
> | ---- | ---- | ---- | ---- |
> | 北京 | 0°C  | 3°C  | 10°C |
> | 上海 | 5°C  | 8°C  | 15°C |
> 
> 
> **转换与转置的区别**：
> 
> - **转换**：指的是将数据从一种格式转换为另一种格式，通常涉及重新组> 织数据以满足特定的分析或可视化需求。例如，从长格式转换为宽格式，或> 者从宽格式转换为长格式。
> 
> - **转置**：指的是在数据集中对行和列进行互换。对于二维数据，转置就> 是将行变为列，列变为行。转置不涉及数据的重新排列，只是改变了数据的> 布局。
> 
> 对上面的宽表格进行专职操作，得到如下表：
> 
> **转置表格示例：**
>
> 
> | 城市 | 北京 | 上海 |
> | ---- | ---- | ---- |
> | 1月  | 0°C  | 5°C  |
> | 2月  | 3°C  | 8°C  |
> | 3月  | 10°C | 15°C |
>
> 
> 在Python中，你可以使用不同的库和工具来进行长、宽格式之间的转换和转> 置操作。例如，Pandas库提供了丰富的功能来处理和转换数据集的不同格> > 式。使用`melt()`函数可以将宽格式转换为长格式，而使用`pivot()`函数可> 以将长格式转换为宽格式。至于转置，你可以使用Numpy库的`transpose()
> 函数或者Pandas库的`.T`属性来实现。
> 
> 总之，长、宽格式之间的转换和转置操作取决于你的数据分析需求以及数据集的结构。

# 如何合并多个表中的数据

在Pandas中，可以使用不同的方法来合并（merge）多个表中的数据。以下是一些常用的合并数据的方法：

### concat()方法

在Pandas中，`concat()`是一个用于沿指定轴（行或列）将多个DataFrame对象进行合并的方法。它可以将多个DataFrame对象按照指定的方式进行连接，并返回一个合并后的DataFrame。以下是关于`concat()`方法的解释和示例说明：

`concat()`方法的语法如下：

```python
pd.concat(objs, axis=0, join='outer', ignore_index=False)
```

参数说明：

- `objs`：要合并的DataFrame对象列表或字典。
- `axis`：可选参数，指定合并的轴。默认为`0`，表示按行合并；`1`表示按列合并。
- `join`：可选参数，指定连接的方式。默认为`'outer'`，表示按照并集进行连接；`'inner'`表示按照交集进行连接。
- `ignore_index`：可选参数，指定是否忽略合并后的索引。默认为`False`，表示保留原始索引。

示例：

In [None]:
import pandas as pd

# 创建示例DataFrame
df1 = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
df2 = pd.DataFrame({'A': [7, 8, 9], 'B': [10, 11, 12]})

# 使用concat()方法进行合并操作
merged_df = pd.concat([df1, df2])

print("合并后的DataFrame:")
merged_df

### merge()方法

在Pandas中，`merge()`是一个用于合并（或连接）多个DataFrame对象的方法。它基于指定的键（或多个键）将多个DataFrame按照指定的方式进行连接，并返回一个合并后的DataFrame。

`merge()`方法的语法如下：

```python
pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=True)
```

参数说明：

- `left`：左侧的DataFrame对象。
- `right`：右侧的DataFrame对象。
- `how`：可选参数，指定连接方式。默认为`'inner'`，表示按照键的交集进行连接；`'outer'`表示按照键的并集进行连接；`'left'`表示按照左侧DataFrame的键进行连接；`'right'`表示按照右侧DataFrame的键进行连接。
- `on`：可选参数，用于指定连接的键。可以是一个列名的字符串，或多个列名组成的列表。
- `left_on`：可选参数，用于指定左侧DataFrame连接键的列名或列名列表。
- `right_on`：可选参数，用于指定右侧DataFrame连接键的列名或列名列表。
- `left_index`：可选参数，指定是否使用左侧DataFrame的索引作为连接键。
- `right_index`：可选参数，指定是否使用右侧DataFrame的索引作为连接键。
- `sort`：可选参数，指定是否按照连接键进行排序。

示例：

In [None]:
import pandas as pd

# 创建示例DataFrame
df1 = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6], 'Key': ['K1', 'K2', 'K3']})
df2 = pd.DataFrame({'C': [7, 8, 9], 'D': [10, 11, 12], 'Key': ['K2', 'K3', 'K4']})

# 使用merge()方法进行合并操作
merged_df = pd.merge(df1, df2, on='Key')

print("合并后的DataFrame:")
merged_df

### join()方法

在Pandas中，`join()`是一个用于基于索引或列之间的关系将两个DataFrame对象进行连接的方法。它类似于SQL中的JOIN操作，可以根据指定的连接键将两个DataFrame进行合并，并返回一个合并后的DataFrame。

`join()`方法的语法如下：

```python
DataFrame.join(other, on=None, how='left', lsuffix='', rsuffix='', sort=False)
```

参数说明：

- `other`：要连接的另一个DataFrame对象。
- `on`：可选参数，用于指定连接键。可以是一个列名的字符串，或多个列名组成的列表。如果未指定，则根据索引进行连接。
- `how`：可选参数，指定连接方式。默认为`'left'`，表示按照左侧DataFrame的索引或列进行连接；`'right'`表示按照右侧DataFrame的索引或列进行连接；`'inner'`表示按照两个DataFrame共有的索引或列进行连接；`'outer'`表示按照两个DataFrame的并集进行连接。
- `lsuffix`：可选参数，用于处理连接时重叠列名的后缀（左侧DataFrame）。
- `rsuffix`：可选参数，用于处理连接时重叠列名的后缀（右侧DataFrame）。
- `sort`：可选参数，指定是否按照连接键进行排序。

示例：

In [None]:
import pandas as pd

# 创建示例DataFrame
df1 = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]}, index=['K1', 'K2', 'K3'])
df2 = pd.DataFrame({'C': [7, 8, 9], 'D': [10, 11, 12]}, index=['K2', 'K3', 'K4'])

# 使用join()方法进行连接操作
joined_df = df1.join(df2)

print("连接后的DataFrame:")
joined_df

### 补充：T（Transpose）转置

在Pandas中，T（Transpose）是一个用于转置数据的方法。转置操作会将DataFrame或Series的行和列进行交换，从而生成一个新的转置后的数据结构。以下是关于Pandas中的T转置的一些知识点：

1. DataFrame的转置： 转置DataFrame时，行索引将会变成转置前的列索引，列索引将会变成转置前的行索引。可以使用`T`方法来执行转置操作，例如：

In [None]:
import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
transposed_df = df.T

上述代码将创建一个DataFrame `df`，然后使用`T`方法将其转置，结果将会存储在`transposed_df`中。

2. Series的转置： 转置一个Series对象会生成一个具有单一列的DataFrame，行索引将会保持不变，而列索引将会变为转置前的索引值。可以使用`T`方法对Series进行转置，例如：

In [None]:
import pandas as pd

series = pd.Series([1, 2, 3, 4], index=['A', 'B', 'C', 'D'])
transposed_series = series.T

上述代码将创建一个Series `series`，然后使用`T`方法将其转置，结果将会存储在`transposed_series`中。

3. 转置对数据结构的影响： 转置操作不会改变原始数据结构，而是生成一个新的转置后的数据结构。原始数据结构保持不变，只是行和列的排列顺序发生了变化。

4. 转置的应用： 转置操作常用于需要改变数据结构的情况，例如在数据分析和处理过程中，可以使用转置来更改数据的布局以满足特定的分析需求。

需要注意的是，转置操作可能会导致数据结构的变化，因此在进行转置操作之后，索引和列名可能需要进行调整以适应新的结构。