某电商公司有一份销售数据文件（sales_data.csv），包含以下列：
订单编号、下单日期、商品编号、商品名称、单价、数量、客户编号、客户地区。使用 pandas 完成以下任务：
1.读取数据文件，检查数据是否存在缺失值，如果有缺失值，统计每列缺失值的数量。
2.按照客户地区对销售数据进行分组，计算每个地区的总销售额（单价×数量），并找出销售额最高的前5个地区。
3.筛选出2023年第四季度（假设下单日期格式为 'YYYY-MM-DD'）的订单数据，计算每个商品的平均销售单价和销售总量，然后找出平均销售单价高于100且销售总量超过500的商品信息。

In [None]:
# 1.读取数据文件，检查数据是否存在缺失值，如果有缺失值，统计每列缺失值的数量。
import pandas as pd
data = pd.read_csv('sales_data.csv', index_col=0)
display(data.isnull().sum())

下单日期     2
商品编号     1
商品名称     0
单价      13
数量       3
客户编号     0
客户地区     3
dtype: int64

In [None]:
# 2.按照客户地区对销售数据进行分组，计算每个地区的总销售额（单价×数量），并找出销售额最高的前3个地区
df = pd.read_csv('sales_data.csv')
# 按照客户地区对销售数据进行分组，计算每个地区的总销售额（单价×数量）
df['销售额'] = df['单价'] * df['数量']
result = df.groupby('客户地区').sum()['销售额']
print(result)
# 找出销售额最高的前3个地区
top3 = result.nlargest(3)
print("销售额最高的前3个地区如下:\n", top3)


客户地区
Central    2573146.00
East       2282942.09
North      2353764.14
South      2287221.87
West       2761096.62
Name: 销售额, dtype: float64
销售额最高的前3个地区如下:
 客户地区
West       2761096.62
Central    2573146.00
North      2353764.14
Name: 销售额, dtype: float64


In [17]:
# 3.筛选出2023年第四季度（假设下单日期格式为 'YYYY-MM-DD'）的订单数据，计算每个商品的平均销售单价和销售总量，
# 然后找出平均销售单价高于300且销售总量超过50的商品信息。
df = pd.read_csv("sales_data.csv", index_col=0)
import datetime
# 转换数据类型
data['下单日期'] = pd.to_datetime(data['下单日期'])
# 筛选出第四季度的数据
start_date = pd.Timestamp(datetime.datetime(2023, 10, 1))
end_date = pd.Timestamp(datetime.datetime(2023, 12, 31))
q4_df = data[(data['下单日期'] >= start_date) & (data['下单日期'] <= end_date)]
# 计算每个商品的平均销售单价和销售总量
grouped_df = q4_df.groupby('商品编号').agg(平均销售单价=('单价', 'mean'), 销售总量=('数量', 'sum')).reset_index()
print('第四季度的每个商品的平均销售单价和销售总量如下：')
print(grouped_df)
# 筛选出平均销售单价高于100且销售总量超过500的商品
high_value_products = grouped_df[(grouped_df['平均销售单价'] > 300) & (grouped_df['销售总量'] > 50)]
print('平均销售单价大于300且销售总量超过50的商品信息如下：')
print(high_value_products)



第四季度的每个商品的平均销售单价和销售总量如下：
             商品编号  平均销售单价  销售总量
0    PRODUCT_1017  460.41  98.0
1    PRODUCT_1062  405.83  35.0
2    PRODUCT_1107  285.27  72.0
3    PRODUCT_1113  344.90  58.0
4    PRODUCT_1276  117.29   0.0
..            ...     ...   ...
109  PRODUCT_9704  263.67  15.0
110  PRODUCT_9752  349.62  68.0
111  PRODUCT_9762  232.19  66.0
112  PRODUCT_9784   15.96  56.0
113  PRODUCT_9823  170.01  70.0

[114 rows x 3 columns]
平均销售单价大于300且销售总量超过50的商品信息如下：
             商品编号  平均销售单价  销售总量
0    PRODUCT_1017  460.41  98.0
3    PRODUCT_1113  344.90  58.0
18   PRODUCT_2369  332.53  58.0
24   PRODUCT_3018  340.44  52.0
36   PRODUCT_3888  350.72  80.0
37   PRODUCT_4182  460.08  86.0
39   PRODUCT_4271  453.29  57.0
53   PRODUCT_5339  483.11  89.0
58   PRODUCT_5591  359.24  90.0
71   PRODUCT_6651  382.23  72.0
77   PRODUCT_6975  309.14  56.0
78   PRODUCT_7088  449.82  69.0
81   PRODUCT_7222  351.23  70.0
84   PRODUCT_7383  460.12  64.0
85   PRODUCT_7428  345.36  85.0
88   PRODUCT_7601  371.93 