In [1]:
# 导入必要的库
import pandas as pd
import numpy as np

# 读取全国销售订单数量表数据
sales_df = pd.read_excel('全国销售订单数量表.xlsx')

# 查看数据的基本信息
sales_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8500 entries, 0 to 8499
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   年月      8500 non-null   int64  
 1   地区代码    8500 non-null   object 
 2   店铺代码    8500 non-null   object 
 3   全部订单数   8500 non-null   int64  
 4   会员订单数   5252 non-null   float64
dtypes: float64(1), int64(2), object(2)
memory usage: 332.2+ KB


会员订单数有缺失值，只有5,252个非空值，约38%的数据缺失

In [3]:
# 查看数据的前几行
sales_df.head()

Unnamed: 0,年月,地区代码,店铺代码,全部订单数,会员订单数
0,201801,GBL6030,DPX077,130,7.0
1,201801,GBL6030,DPX078,277,19.0
2,201801,GBL6030,DPX079,163,1.0
3,201801,GBL6030,DPX08X,154,5.0
4,201801,GBL6030,DPX082,276,14.0


In [4]:
# 查看数值列的基本统计信息
sales_df.describe()

Unnamed: 0,年月,全部订单数,会员订单数
count,8500.0,8500.0,5252.0
mean,201813.970353,190.558941,26.645468
std,25.67467,123.534133,39.748629
min,201801.0,1.0,1.0
25%,201804.0,112.0,3.0
50%,201807.0,163.5,11.0
75%,201810.0,235.0,33.0
max,201901.0,1197.0,355.0


In [5]:
# 查看年月的分布
print("年月分布:")
year_month_counts = sales_df['年月'].value_counts().sort_index()
print(year_month_counts)

# 查看地区代码分布
print("\n地区代码分布(前10个):")
print(sales_df['地区代码'].value_counts().head(10))

# 查看店铺数量
print("\n不同店铺的数量:", sales_df['店铺代码'].nunique())

年月分布:
年月
201801    647
201802    645
201803    647
201804    656
201805    652
201806    656
201807    645
201808    645
201809    656
201810    656
201811    659
201812    666
201901    670
Name: count, dtype: int64

地区代码分布(前10个):
地区代码
GBL6070    1299
GBL6030     953
GBL6130     864
GBL6080     763
GBL6090     745
GBL6040     570
GBL6140     544
GBL6110     498
GBL6020     459
GBL6010     446
Name: count, dtype: int64

不同店铺的数量: 734


In [6]:
# 1.将年月列转换为日期格式
sales_df['年月_日期'] = pd.to_datetime(sales_df['年月'].astype(str), format='%Y%m')

# 提取年和月作为单独的列，便于后续分析
sales_df['年'] = sales_df['年月_日期'].dt.year
sales_df['月'] = sales_df['年月_日期'].dt.month

# 查看转换后的前几行
sales_df[['年月', '年月_日期', '年', '月']].head()

Unnamed: 0,年月,年月_日期,年,月
0,201801,2018-01-01,2018,1
1,201801,2018-01-01,2018,1
2,201801,2018-01-01,2018,1
3,201801,2018-01-01,2018,1
4,201801,2018-01-01,2018,1


In [7]:

# 2. 确保地区代码和店铺代码为字符串类型
sales_df['地区代码'] = sales_df['地区代码'].astype(str)
sales_df['店铺代码'] = sales_df['店铺代码'].astype(str)

# 3. 确保全部订单数为整数类型
sales_df['全部订单数'] = sales_df['全部订单数'].astype(int)

# 4. 保持会员订单数为浮点数类型（因为有缺失值）

# 5. 检查转换后的数据类型
print("转换后的数据类型:")
print(sales_df.dtypes)

# 6. 创建一个整洁的数据集，保留必要的列
clean_sales_df = sales_df[['年月', '年月_日期', '年', '月', '地区代码', '店铺代码', '全部订单数', '会员订单数']]

# 查看清洗后的数据
clean_sales_df.head()

转换后的数据类型:
年月                int64
地区代码             object
店铺代码             object
全部订单数             int64
会员订单数           float64
年月_日期    datetime64[ns]
年                 int32
月                 int32
dtype: object


Unnamed: 0,年月,年月_日期,年,月,地区代码,店铺代码,全部订单数,会员订单数
0,201801,2018-01-01,2018,1,GBL6030,DPX077,130,7.0
1,201801,2018-01-01,2018,1,GBL6030,DPX078,277,19.0
2,201801,2018-01-01,2018,1,GBL6030,DPX079,163,1.0
3,201801,2018-01-01,2018,1,GBL6030,DPX08X,154,5.0
4,201801,2018-01-01,2018,1,GBL6030,DPX082,276,14.0


In [8]:
# 删除原始年月列，保留更有用的年月_日期、年和月列
final_sales_df = clean_sales_df.drop(columns=['年月'])

# 查看最终数据
print("最终数据结构:")
print(final_sales_df.columns)
final_sales_df.head()

最终数据结构:
Index(['年月_日期', '年', '月', '地区代码', '店铺代码', '全部订单数', '会员订单数'], dtype='object')


Unnamed: 0,年月_日期,年,月,地区代码,店铺代码,全部订单数,会员订单数
0,2018-01-01,2018,1,GBL6030,DPX077,130,7.0
1,2018-01-01,2018,1,GBL6030,DPX078,277,19.0
2,2018-01-01,2018,1,GBL6030,DPX079,163,1.0
3,2018-01-01,2018,1,GBL6030,DPX08X,154,5.0
4,2018-01-01,2018,1,GBL6030,DPX082,276,14.0


In [None]:
# 导出最终清洗后的数据
final_sales_df.to_excel('全国销售订单数量表_清洗后.xlsx', index=False)

# 确认导出完成
print("已成功导出清洗后的全国销售订单数量表")