# 1 stack()和unstack()

## 1.1 df.stack()

将DataFrame的列名转化为行索引，适用于宽表转长表，分组分析、数据清洗

## 1.2 df.unstack()

将DataFrame的行索引转化为列名，适用于长表转宽表，适用于多级索引，汇总操作

## 1.3 示例

In [26]:
import pandas as pd

data = pd.DataFrame(
    {
        '地区':['北京','上海','深圳','杭州'],
        '1月':[1200,1400,1250,1200],
        '2月':[1500,1600,2455,9980],
    }
)
data

Unnamed: 0,地区,1月,2月
0,北京,1200,1500
1,上海,1400,1600
2,深圳,1250,2455
3,杭州,1200,9980


In [27]:
# 将地区转换为行索引，再将月份转换为行索引
data_long = data.set_index('地区').stack()
# 将地区重新变成列
data_long = data_long.reset_index()
# 重命名
data_long.columns = ['地区','月份','销售额']
data_long

Unnamed: 0,地区,月份,销售额
0,北京,1月,1200
1,北京,2月,1500
2,上海,1月,1400
3,上海,2月,1600
4,深圳,1月,1250
5,深圳,2月,2455
6,杭州,1月,1200
7,杭州,2月,9980


In [33]:
# 长表转换为宽表
# 设置二级索引
data_wide = data_long.set_index(['地区','月份'])
data_wide

Unnamed: 0_level_0,Unnamed: 1_level_0,销售额
地区,月份,Unnamed: 2_level_1
北京,1月,1200
北京,2月,1500
上海,1月,1400
上海,2月,1600
深圳,1月,1250
深圳,2月,2455
杭州,1月,1200
杭州,2月,9980


In [34]:
# 转宽表，行索引转化为列名称，此时列名称是二级名称
data_wide = data_wide.unstack()
data_wide

Unnamed: 0_level_0,销售额,销售额
月份,1月,2月
地区,Unnamed: 1_level_2,Unnamed: 2_level_2
上海,1400,1600
北京,1200,1500
杭州,1200,9980
深圳,1250,2455


In [35]:
# 重置索引,把地区从行索引变成列
data_wide.reset_index(inplace=True)
data_wide

Unnamed: 0_level_0,地区,销售额,销售额
月份,Unnamed: 1_level_1,1月,2月
0,上海,1400,1600
1,北京,1200,1500
2,杭州,1200,9980
3,深圳,1250,2455


In [37]:
data_wide.columns = ['地区','1月','2月']
data_wide

Unnamed: 0,地区,1月,2月
0,上海,1400,1600
1,北京,1200,1500
2,杭州,1200,9980
3,深圳,1250,2455


## 1.4 总结

长表转宽表
- 先将要转化的列提出为索引set_index
- 使用unstack方法，内层行索引转化为列名，此时列名是多层的
- 重置行索引reset_index
- 重命名列名 df.columns

宽表转长表
- 无关的列转为行索引
- df.stack方法，列名转化为索引，此时是多层行索引
- 重置行索引
- 重命名列