In [1]:
import pandas as pd
import numpy as np
from pandas.api.types import CategoricalDtype

In [2]:
# 读取数据集
df = pd.read_excel('./示例文件.xlsx',sheet_name='data')
df.head()

Unnamed: 0,门店编号,全年销售额,门店类型
0,1,696,普通店
1,2,830,旗舰店
2,3,941,旗舰店
3,4,860,普通店
4,5,609,商超店


In [3]:
# 方法一
# 自定义列表
category_df = pd.read_excel('./示例文件.xlsx',sheet_name='list',header=None)
category_list = category_df[0].tolist()
category_list

['旗舰店', 'SPM店', '商超店', '普通店', '街边店']

In [4]:
# 按 门店类型 升序排序
df['门店类型'] = df['门店类型'].astype('category')
df['门店类型'].cat.set_categories(category_list, inplace=True)
df.sort_values(by=['门店类型','门店编号'])

Unnamed: 0,门店编号,全年销售额,门店类型
1,2,830,旗舰店
2,3,941,旗舰店
9,10,314,旗舰店
15,16,480,旗舰店
23,24,619,旗舰店
...,...,...,...
199,200,791,街边店
200,201,502,街边店
214,215,689,街边店
215,216,938,街边店


In [5]:
# 方法二
# 自定义列表
sort_mapping = category_df[0].reset_index().set_index(0)
sort_mapping

Unnamed: 0_level_0,index
0,Unnamed: 1_level_1
旗舰店,0
SPM店,1
商超店,2
普通店,3
街边店,4


In [6]:
# 添加辅助列
df['辅助列'] = df['门店类型'].map(sort_mapping['index'])
df

Unnamed: 0,门店编号,全年销售额,门店类型,辅助列
0,1,696,普通店,3
1,2,830,旗舰店,0
2,3,941,旗舰店,0
3,4,860,普通店,3
4,5,609,商超店,2
...,...,...,...,...
215,216,938,街边店,4
216,217,753,商超店,2
217,218,109,普通店,3
218,219,455,街边店,4


In [7]:
# 按 门店类型 升序排序
df.sort_values(by=['辅助列','门店编号'])

Unnamed: 0,门店编号,全年销售额,门店类型,辅助列
1,2,830,旗舰店,0
2,3,941,旗舰店,0
9,10,314,旗舰店,0
15,16,480,旗舰店,0
23,24,619,旗舰店,0
...,...,...,...,...
199,200,791,街边店,4
200,201,502,街边店,4
214,215,689,街边店,4
215,216,938,街边店,4


In [8]:
# 方法三
# 使用 CategoricalDtype
cat_size_order = CategoricalDtype(
    category_list, 
    ordered=True
)

df['门店类型_2'] = df['门店类型'].astype(cat_size_order)
df['门店类型_2']

0      普通店
1      旗舰店
2      旗舰店
3      普通店
4      商超店
      ... 
215    街边店
216    商超店
217    普通店
218    街边店
219    商超店
Name: 门店类型_2, Length: 220, dtype: category
Categories (5, object): ['旗舰店' < 'SPM店' < '商超店' < '普通店' < '街边店']

In [9]:
# 按 门店类型 升序排序
df.sort_values(by=['门店类型_2','门店编号'])

Unnamed: 0,门店编号,全年销售额,门店类型,辅助列,门店类型_2
1,2,830,旗舰店,0,旗舰店
2,3,941,旗舰店,0,旗舰店
9,10,314,旗舰店,0,旗舰店
15,16,480,旗舰店,0,旗舰店
23,24,619,旗舰店,0,旗舰店
...,...,...,...,...,...
199,200,791,街边店,4,街边店
200,201,502,街边店,4,街边店
214,215,689,街边店,4,街边店
215,216,938,街边店,4,街边店


In [10]:
# 也可以生成 辅助列
df['辅助列_2'] = df['门店类型_2'].cat.codes
df

Unnamed: 0,门店编号,全年销售额,门店类型,辅助列,门店类型_2,辅助列_2
0,1,696,普通店,3,普通店,3
1,2,830,旗舰店,0,旗舰店,0
2,3,941,旗舰店,0,旗舰店,0
3,4,860,普通店,3,普通店,3
4,5,609,商超店,2,商超店,2
...,...,...,...,...,...,...
215,216,938,街边店,4,街边店,4
216,217,753,商超店,2,商超店,2
217,218,109,普通店,3,普通店,3
218,219,455,街边店,4,街边店,4


In [11]:
# 查看一下数据表的信息
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 220 entries, 0 to 219
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype   
---  ------  --------------  -----   
 0   门店编号    220 non-null    int64   
 1   全年销售额   220 non-null    int64   
 2   门店类型    220 non-null    category
 3   辅助列     220 non-null    category
 4   门店类型_2  220 non-null    category
 5   辅助列_2   220 non-null    int8    
dtypes: category(3), int64(2), int8(1)
memory usage: 5.0 KB
