In [1]:
import pandas as pd
import matplotlib.pyplot as plt

In [2]:
# 设置图片清晰度
plt.rcParams['figure.dpi'] = 300

In [3]:
# 加载用户数据
df_user = pd.read_csv('JD_user_data.csv')

In [4]:
# 按照是否为 plus 用户分组计算平均购买能力
grouped = df_user.groupby('plus')

In [5]:
# 计算 purchase_power 的平均水平和分布比例，忽略 -1 的数据
purchase_power_avg = {}
purchase_power_distribution = {}
for plus_value, group in grouped:
    filtered_group = group[group['purchase_power'] != -1]
    purchase_power_avg[plus_value] = filtered_group['purchase_power'].mean()
    purchase_power_distribution[plus_value] = filtered_group['purchase_power'].value_counts(normalize=True) * 100
print('\npurchase_power 的平均水平：')
for plus_value, avg in purchase_power_avg.items():
    print(f'plus 值为 {plus_value} 的用户：', avg)
print('\npurchase_power 的分布比例：')
for plus_value, dist in purchase_power_distribution.items():
    print(f'plus 值为 {plus_value} 的用户：')
    print(dist)



purchase_power 的平均水平：
plus 值为 0 的用户： 2.3815221823957415
plus 值为 1 的用户： 2.064233236754967

purchase_power 的分布比例：
plus 值为 0 的用户：
purchase_power
2    60.803231
3    32.756684
4     3.875570
1     2.512288
5     0.052228
Name: proportion, dtype: float64
plus 值为 1 的用户：
purchase_power
2    89.632916
3     8.175962
1     2.046254
4     0.140987
5     0.003880
Name: proportion, dtype: float64


In [6]:
# 计算 gender 的分布比例
gender_distribution = {}
for plus_value, group in grouped:
    gender_distribution[plus_value] = group['gender'].value_counts(normalize=True) * 100
print('gender 的分布比例：')
for plus_value, dist in gender_distribution.items():
    print(f'plus 值为 {plus_value} 的用户：')
    print(dist)

gender 的分布比例：
plus 值为 0 的用户：
gender
F    66.004857
M    19.673595
U    14.321548
Name: proportion, dtype: float64
plus 值为 1 的用户：
gender
F    54.959484
M    40.817234
U     4.223282
Name: proportion, dtype: float64


In [7]:
# 计算 gender 的分布比例
gender_distribution = {}
for plus_value, group in grouped:
    filtered_group = group[group['gender'] != 'U']
    gender_distribution[plus_value] = filtered_group['gender'].value_counts(normalize=True) * 100
print('gender 的分布比例：')
for plus_value, dist in gender_distribution.items():
    print(f'plus 值为 {plus_value} 的用户：')
    print(dist)


gender 的分布比例：
plus 值为 0 的用户：
gender
F    77.037873
M    22.962127
Name: proportion, dtype: float64
plus 值为 1 的用户：
gender
F    57.382927
M    42.617073
Name: proportion, dtype: float64


In [8]:
# 计算 marital_status 的分布比例
marital_status_distribution = {}
for plus_value, group in grouped:
    filtered_group = group[group['marital_status'] != 'U']
    marital_status_distribution[plus_value] = filtered_group['marital_status'].value_counts(normalize=True) * 100
print('\nmarital_status 的分布比例：')
for plus_value, dist in marital_status_distribution.items():
    print(f'plus 值为 {plus_value} 的用户：')
    print(dist)


marital_status 的分布比例：
plus 值为 0 的用户：
marital_status
S    53.747186
M    46.252814
Name: proportion, dtype: float64
plus 值为 1 的用户：
marital_status
M    66.328047
S    33.671953
Name: proportion, dtype: float64


In [9]:
# 计算 education 的平均水平和分布比例
education_avg = {}
education_distribution = {}
for plus_value, group in grouped:
    filtered_group = group[group['education'] != -1]
    education_avg[plus_value] = filtered_group['education'].mean()
    education_distribution[plus_value] = filtered_group['education'].value_counts(normalize=True) * 100
print('\neducation 的平均水平：')
for plus_value, avg in education_avg.items():
    print(f'plus 值为 {plus_value} 的用户：', avg)
print('\neducation 的分布比例：')
for plus_value, dist in education_distribution.items():
    print(f'plus 值为 {plus_value} 的用户：')
    print(dist)


education 的平均水平：
plus 值为 0 的用户： 2.7598502122610906
plus 值为 1 的用户： 3.2716735307068667

education 的分布比例：
plus 值为 0 的用户：
education
3    64.096546
2    25.619636
4     7.390764
1     2.893054
Name: proportion, dtype: float64
plus 值为 1 的用户：
education
3    58.318440
4    34.655632
2     6.563577
1     0.462351
Name: proportion, dtype: float64


In [10]:
# 计算 city_level 的分布比例
city_level_distribution = {}
for plus_value, group in grouped:
    filtered_group = group[group['city_level'] != -1]
    city_level_distribution[plus_value] = filtered_group['city_level'].value_counts(normalize=True) * 100
print('\ncity_level 的分布比例：')
for plus_value, dist in city_level_distribution.items():
    print(f'plus 值为 {plus_value} 的用户：')
    print(dist)


city_level 的分布比例：
plus 值为 0 的用户：
city_level
2    37.434043
1    23.778626
3    19.446565
4    17.668073
5     1.672693
Name: proportion, dtype: float64
plus 值为 1 的用户：
city_level
2    36.809110
1    35.414466
3    15.295042
4    11.291196
5     1.190186
Name: proportion, dtype: float64


In [11]:
# 加载新上传的订单数据
df_order = pd.read_csv('JD_order_data.csv')

# 合并数据，根据 user_ID 匹配 plus 类型
merged_df = pd.merge(df_order, df_user[['user_ID', 'plus']], on='user_ID')


In [12]:
merged_df = pd.merge(df_order, df_user[['user_ID', 'plus']], on='user_ID')
# 计算单笔成交金额
merged_df['transaction_amount'] = merged_df['final_unit_price'] * merged_df['quantity']

# 按照 plus 类型分组统计购买次数、购买产品总量和总成交金额
grouped = merged_df.groupby('plus').agg(
    购买次数=('order_ID', 'count'),
    购买产品总量=('quantity', 'sum'),
    总成交金额=('transaction_amount', 'sum')
).reset_index()

# 计算平均每笔交易金额，保留两位小数
grouped['平均每笔交易金额'] = (grouped['总成交金额'] / grouped['购买次数']).round(2)

print(grouped)

   plus    购买次数  购买产品总量        总成交金额  平均每笔交易金额
0     0  449314  539806  35962845.98     80.04
1     1  100675  129349   9575684.81     95.11


In [13]:
merged_df = pd.merge(df_order, df_user[['user_ID', 'plus']], on='user_ID')
# 计算每个用户在一个月内的购买频率
user_purchase_frequency = merged_df.groupby(['plus', 'user_ID'])['order_ID'].count().reset_index(
    name='购买频率')

# 计算普通用户和 plus 用户的平均购买频率
average_purchase_frequency = user_purchase_frequency.groupby('plus')['购买频率'].mean()
print('普通用户和 plus 用户的平均购买频率：')
print(average_purchase_frequency)

普通用户和 plus 用户的平均购买频率：
plus
0    1.199248
1    1.254767
Name: 购买频率, dtype: float64


In [14]:
# 定义分组区间
bins = [0, 1, 3, 5, float('inf')]
labels = ['0 - 1', '1 - 3', '3 - 5','> 5']

# 对购买频率进行分组
user_purchase_frequency['频率区间'] = pd.cut(user_purchase_frequency['购买频率'], bins=bins, labels=labels)

# 计算不同 plus 类型在各区间内的客户数量
grouped = user_purchase_frequency.groupby(['plus', '频率区间'])['user_ID'].count().reset_index(
    name='客户数量')

# 计算不同 plus 类型的总客户数量
total_customers_per_plus = grouped.groupby('plus')['客户数量'].sum()

# 计算各区间内客户数量的比例，并保留两位小数
def calculate_percentage(row):
    return f"{(row['客户数量'] / total_customers_per_plus[row['plus']]) * 100:.2f}%"

grouped['比例'] = grouped.apply(calculate_percentage, axis=1)

print(grouped)


   plus   频率区间    客户数量      比例
0     0  0 - 1  322172  85.99%
1     0  1 - 3   48431  12.93%
2     0  3 - 5    3222   0.86%
3     0    > 5     838   0.22%
4     1  0 - 1   65876  82.10%
5     1  1 - 3   13188  16.44%
6     1  3 - 5     842   1.05%
7     1    > 5     328   0.41%


  grouped = user_purchase_frequency.groupby(['plus', '频率区间'])['user_ID'].count().reset_index(


In [15]:
# 合并数据，根据 user_ID 匹配 plus 类型
merged_df = pd.merge(df_order, df_user[['user_ID', 'plus']], on='user_ID')

# 记录过滤前的数据行数
total_rows_before_filter = len(merged_df)
print(total_rows_before_filter)

# 过滤掉 promise 为 '-' 的数据
merged_df = merged_df[merged_df['promise'] != '-']

# 记录过滤后的的数据行数
total_rows_after_filter = len(merged_df)
print(total_rows_after_filter)

# 计算被过滤掉的数据条数
filtered_rows = total_rows_before_filter - total_rows_after_filter
print(f"被过滤掉的数据条数为: {filtered_rows}")

# 将 promise 列转换为数值类型
merged_df['promise'] = pd.to_numeric(merged_df['promise'])

# 计算不同用户类型的平均承诺发货时间
average_promise = merged_df.groupby('plus')['promise'].mean()

# 计算不同用户类型下每个 promise 值的订单数量
promise_counts = merged_df.groupby(['plus', 'promise']).size().reset_index(name='数量')

# 计算不同用户类型的总订单数量
total_orders_per_plus = merged_df.groupby('plus').size()

# 计算每个 promise 值在对应用户类型中的比例
promise_counts['比例'] = promise_counts.apply(lambda row: row['数量'] / total_orders_per_plus[row['plus']], axis=1)

print("不同用户类型的平均承诺发货时间：")
print(average_promise)
print("\n不同用户类型下各承诺发货时间值的分布比例：")
print(promise_counts)
    

549989
341406
被过滤掉的数据条数为: 208583
不同用户类型的平均承诺发货时间：
plus
0    2.028016
1    1.737303
Name: promise, dtype: float64

不同用户类型下各承诺发货时间值的分布比例：
    plus  promise      数量        比例
0      0        1  115173  0.437167
1      0        2   86238  0.327337
2      0        3   27484  0.104322
3      0        4   19957  0.075752
4      0        5    8632  0.032765
5      0        6    2665  0.010116
6      0        7    1224  0.004646
7      0        8    2080  0.007895
8      1        1   42336  0.543096
9      1        2   23752  0.304696
10     1        3    5692  0.073018
11     1        4    3925  0.050351
12     1        5    1422  0.018242
13     1        6     374  0.004798
14     1        7     158  0.002027
15     1        8     294  0.003772


In [16]:
# 合并数据，根据 user_ID 匹配 plus 类型
merged_df = pd.merge(df_order, df_user[['user_ID', 'plus']], on='user_ID')
merged_df['transaction_amount'] = merged_df['final_unit_price'] * merged_df['quantity']
# 计算不同用户类型购买不同 type 商品的数量
type_quantity = merged_df.groupby(['plus', 'type'])['quantity'].sum().reset_index()

# 计算不同用户类型购买商品的总数量
total_quantity_per_plus = merged_df.groupby('plus')['quantity'].sum()

# 计算不同用户类型购买不同 type 商品数量的占比
type_quantity['数量占比'] = type_quantity.apply(lambda row: row['quantity'] / total_quantity_per_plus[row['plus']], axis=1)

# 计算不同用户类型购买不同 type 商品的金额
type_amount = merged_df.groupby(['plus', 'type'])['transaction_amount'].sum().reset_index()

# 计算不同用户类型购买商品的总金额
total_amount_per_plus = merged_df.groupby('plus')['transaction_amount'].sum()

# 计算不同用户类型购买不同 type 商品金额的占比
type_amount['金额占比'] = type_amount.apply(lambda row: row['transaction_amount'] / total_amount_per_plus[row['plus']], axis=1)

print("\n不同用户类型购买不同 type 商品的数量占比：")
print(type_quantity)
print("\n不同用户类型购买不同 type 商品的金额占比：")
print(type_amount)


不同用户类型购买不同 type 商品的数量占比：
   plus  type  quantity      数量占比
0     0     1    249412  0.462040
1     0     2    290394  0.537960
2     1     1     89546  0.692282
3     1     2     39803  0.307718

不同用户类型购买不同 type 商品的金额占比：
   plus  type  transaction_amount      金额占比
0     0     1         20195823.01  0.561575
1     0     2         15767022.97  0.438425
2     1     1          7263572.78  0.758543
3     1     2          2312112.03  0.241457


In [17]:
# 计算折扣差值总和和原始价格总和 数值越高则代表消费折扣品的比例越大，折扣敏感度越高
merged_df['price_difference'] = merged_df['original_unit_price'] - merged_df['final_unit_price']
price_difference_sum = merged_df.groupby('plus')['price_difference'].sum()
original_price_sum = merged_df.groupby('plus')['original_unit_price'].sum()

# 计算折扣敏感度
discount_sensitivity = price_difference_sum / original_price_sum

print("\n普通用户和 plus 用户的折扣敏感度：")
print(discount_sensitivity)
total_rows_after_filter = len(merged_df)
#print(total_rows_after_filter)


普通用户和 plus 用户的折扣敏感度：
plus
0    0.297034
1    0.329050
dtype: float64


In [18]:
# 确保 order_time 列是 datetime 类型，指定正确的格式
merged_df['order_time'] = pd.to_datetime(merged_df['order_time'], format='ISO8601')

# 定义函数判断时间段
def get_time_period(hour):
    if 6 <= hour < 12:
        return '早上'
    elif 12 <= hour < 14:
        return '中午'
    elif 14 <= hour < 18:
        return '下午'
    else:
        return '晚上'

# 从 order_time 中提取小时信息
merged_df['hour'] = merged_df['order_time'].dt.hour

# 添加新列表示时间段
merged_df['time_period'] = merged_df['hour'].apply(get_time_period)

# 计算不同用户类型在不同时间段下单的数量
time_period_count = merged_df.groupby(['plus', 'time_period']).size().reset_index(name='下单数量')

# 计算不同用户类型的总下单数量
total_orders_per_plus = merged_df.groupby('plus').size()

# 计算不同用户类型在不同时间段下单的比例
time_period_count['下单比例'] = time_period_count.apply(lambda row: row['下单数量'] / total_orders_per_plus[row['plus']], axis=1)

print("\n不同用户类型在不同时间段下单的比例：")
print(time_period_count)
    


不同用户类型在不同时间段下单的比例：
   plus time_period    下单数量      下单比例
0     0          下午  110254  0.245383
1     0          中午   56967  0.126787
2     0          早上  114336  0.254468
3     0          晚上  167757  0.373363
4     1          下午   21282  0.211393
5     1          中午   11208  0.111329
6     1          早上   26758  0.265786
7     1          晚上   41427  0.411492


In [19]:
# 统计普通用户和plus用户下单产品中，有gift和没gift的订单数量
gift_count = merged_df.groupby(['plus', 'gift_item']).size().reset_index(name='订单数量')
gift_count['是否有赠品'] = gift_count['gift_item'].map({1: '有赠品', 0: '无赠品'})

# 计算不同用户类型下有赠品和无赠品订单的比例
gift_count['订单比例'] = gift_count.apply(lambda row: row['订单数量'] / total_orders_per_plus[row['plus']], axis=1)

# 调整列的顺序
gift_count = gift_count[['plus', '是否有赠品', '订单数量', '订单比例']]

print("\n不同用户类型下单产品中有赠品和无赠品的订单数量和比例：")
print(gift_count)


不同用户类型下单产品中有赠品和无赠品的订单数量和比例：
   plus 是否有赠品    订单数量      订单比例
0     0   无赠品  369137  0.821557
1     0   有赠品   80177  0.178443
2     1   无赠品   86246  0.856677
3     1   有赠品   14429  0.143323
