In [2]:
# 导入必要的库
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# 设置matplotlib中文显示
import matplotlib
matplotlib.rcParams['font.sans-serif'] = ['SimHei']  # 指定默认字体
matplotlib.rcParams['axes.unicode_minus'] = False    # 解决保存图像负号'-'显示为方块的问题

In [3]:
# 读取Excel文件
df = pd.read_excel('会员消费报表.xlsx')

# 查看数据的基本信息
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 203437 entries, 0 to 203436
Data columns (total 10 columns):
 #   Column  Non-Null Count   Dtype  
---  ------  --------------   -----  
 0   卡号      203437 non-null  object 
 1   订单日期    203437 non-null  object 
 2   订单号     203437 non-null  object 
 3   订单类型    203437 non-null  object 
 4   店铺代码    203437 non-null  object 
 5   款号      203437 non-null  object 
 6   尺码      203437 non-null  int64  
 7   消费数量    203437 non-null  int64  
 8   消费金额    203437 non-null  float64
 9   当前积分    203437 non-null  int64  
dtypes: float64(1), int64(3), object(6)
memory usage: 15.5+ MB


In [4]:
# 查看数据的前几行
df.head()

Unnamed: 0,卡号,订单日期,订单号,订单类型,店铺代码,款号,尺码,消费数量,消费金额,当前积分
0,HS340766JAF6,2018-11-30,ODLOX6BXX8X2BXBBBBX,下单,DPX60X,BLA267Q3X13AQM,230,1,1200.0,800
1,BL6093039999465603590,2018-11-30,ODODOXF77X8X2BXBBBB2,下单,DPX377,BLA2651QX14AQC,240,1,1332.0,2531
2,BL6093909593939600407,2018-11-30,ROX8XXFBBBB6BB,退单,DPS00X,TMA27727X5QAQM,240,-1,-112.5,328
3,BL6093036096030709394,2018-11-30,ROX8XXFBBBB6X7,退单,DPS00X,TMA67621X5QBQTM,230,-1,-60.0,1038
4,BL6093993066943700650,2018-11-30,ODLOX6BFX8XXFBBBBBX,下单,DPX603,BLA26663X52AQTM,235,1,1200.0,800


In [5]:
# 查看数据的基本统计信息
df.describe()

Unnamed: 0,尺码,消费数量,消费金额,当前积分
count,203437.0,203437.0,203437.0,203437.0
mean,232.850022,0.85017,732.85644,1327.703171
std,8.026011,0.566018,592.032177,2762.209128
min,215.0,-15.0,-17769.825,-440.0
25%,230.0,1.0,598.5,335.0
50%,235.0,1.0,750.0,661.0
75%,240.0,1.0,973.5,1250.0
max,265.0,50.0,17769.825,63192.0


In [6]:
# 检查每列的缺失值数量
missing_values = df.isnull().sum()
print("每列的缺失值数量:")
print(missing_values)

# 计算缺失值的百分比
missing_percentage = (missing_values / len(df)) * 100
print("\n缺失值百分比:")
print(missing_percentage)

每列的缺失值数量:
卡号      0
订单日期    0
订单号     0
订单类型    0
店铺代码    0
款号      0
尺码      0
消费数量    0
消费金额    0
当前积分    0
dtype: int64

缺失值百分比:
卡号      0.0
订单日期    0.0
订单号     0.0
订单类型    0.0
店铺代码    0.0
款号      0.0
尺码      0.0
消费数量    0.0
消费金额    0.0
当前积分    0.0
dtype: float64


In [7]:
# 检查是否有重复行
duplicate_rows = df.duplicated().sum()
print(f"重复行数: {duplicate_rows}")

# 检查订单号是否有重复(可能同一订单有多件商品)
duplicate_orders = df['订单号'].duplicated().sum()
print(f"重复订单号数: {duplicate_orders}")

重复行数: 54
重复订单号数: 39619


In [None]:
# 移除完全重复的行
df_clean = df.drop_duplicates()
print(f"移除重复行前的行数: {len(df)}")
print(f"移除重复行后的行数: {len(df_clean)}")
print(f"移除的重复行数: {len(df) - len(df_clean)}")

# 继续使用干净的数据框
df = df_clean

In [9]:
# 查看订单类型的分布
print("\n订单类型分布:")
print(df['订单类型'].value_counts())

# 查看尺码的分布
print("\n尺码分布:")
print(df['尺码'].value_counts())

# 检查异常值：查看极端的消费金额
print("\n最高消费金额的5条记录:")
print(df.nlargest(5, '消费金额')[['订单号', '订单类型', '款号', '消费金额']])

print("\n最低消费金额的5条记录:")
print(df.nsmallest(5, '消费金额')[['订单号', '订单类型', '款号', '消费金额']])


订单类型分布:
订单类型
下单    187849
退单     15588
Name: count, dtype: int64

尺码分布:
尺码
235    47565
230    46303
240    34001
225    27588
245    20302
220    17460
215     5585
250     4504
255       59
260       51
265       19
Name: count, dtype: int64

最高消费金额的5条记录:
                     订单号 订单类型               款号       消费金额
6749  265565X52BF582M9M9   下单   BLA265Q3X15AQC  17769.825
6669  2658M79B68MMXF6B26   下单   TMA27527X52AQC  13706.070
6695  2MFX52BB7F6B5X759F   下单   BLA26716X65A1C  13412.880
6701  2MFX52BB7F6B5X759F   下单  TMA757QQX51AQTM  11915.625
6728  266X782MF56BFF2FF7   下单   BLA26716X65AQC  11219.100

最低消费金额的5条记录:
                 订单号 订单类型               款号       消费金额
5956  ROX8XXX2BBB89M   退单   BLA265Q3X15AQC -17769.825
5955  ROX8XXX2BB6269   退单   TMA27527X52AQC -13706.070
5954  ROX8XXX2BBFF78   退单   BLA26716X65A1C -13412.880
5957  ROX8XXX2BBFF8B   退单  TMA757QQX51AQTM -11915.625
6054  ROX8XXX2BB2M86   退单   BLA26716X65AQC -11219.100


In [10]:
# 转换所有列的数据类型

# 1. 将日期列转换为datetime类型
df['订单日期'] = pd.to_datetime(df['订单日期'], errors='coerce')

# 2. 确保数值列是正确的类型
# 尺码、消费数量和当前积分已经是int64类型
# 消费金额已经是float64类型

# 3. 确保文本列是字符串类型(虽然object类型通常就是字符串，但为确保一致性)
text_columns = ['卡号', '订单号', '订单类型', '店铺代码', '款号']
for col in text_columns:
    df[col] = df[col].astype(str)

# 检查转换后的数据类型
print("转换后的数据类型:")
print(df.dtypes)

# 检查是否有无效日期
invalid_dates = df['订单日期'].isnull().sum()
print(f"\n无效日期数量: {invalid_dates}")

转换后的数据类型:
卡号              object
订单日期    datetime64[ns]
订单号             object
订单类型            object
店铺代码            object
款号              object
尺码               int64
消费数量             int64
消费金额           float64
当前积分             int64
dtype: object

无效日期数量: 0
