In [None]:
import pandas         # 导入pandas库，它就像一个超级强大的Excel工具，用来处理表格数据非常方便。
import numpy as np    # 导入numpy库，它主要用于进行数值计算，特别是在处理数组（例如一堆数字）时效率很高。
import matplotlib.pyplot as plt # 导入matplotlib.pyplot库，这个库是用来画图的，比如折线图、柱状图等，让数据可视化。

# 1. 数据采集
# 从本地文件中读取数据  2分
data =  pandas.read_csv('user_behavior_data.csv') # 使用pandas的read_csv函数，读取名为 'user_behavior_data.csv' 的文件。
                                                   # 这就相当于我们打开这个CSV文件，把里面的内容读取到一个叫做 'data' 的表格（DataFrame）里。
print("数据采集完成，已加载到DataFrame中")        # 打印一条消息，确认数据已经加载成功。

# 打印数据的前5条记录  2分
print(data.head()) # 使用DataFrame的 .head() 方法来查看数据表格的前5行。这能帮助我们快速了解数据的结构和内容。

# 2. 数据清洗与预处理
# 处理缺失值（删除）  2分
data = data.dropna() # 使用DataFrame的 .dropna() 方法来删除包含任何缺失值（NaN）的行。
                     # 这意味着如果一行数据中有一个或多个单元格是空的，那么整行都会被删除。
                     # 将处理后的结果重新赋值给 'data'，覆盖原始数据。

# 数据类型转换
data['Age'] = data['Age'].astype(int)   # Age数据类型转换为int 2分
# data['Age']：选取 'Age'（年龄）这一列。
# .astype(int)：将这一列的数据类型转换为整数（integer）。
# 这样做通常是为了确保年龄是整数，并且可以进行整数运算，或者为后续分析做准备。

data['PurchaseAmount'] = data['PurchaseAmount'].astype(float) # PurchaseAmount数据类型转换为float  2分
# data['PurchaseAmount']：选取 'PurchaseAmount'（购买金额）这一列。
# .astype(float)：将这一列的数据类型转换为浮点数（float）。
# 购买金额通常包含小数，所以转换为浮点数是合理的。

data['ReviewScore'] = data['ReviewScore'].astype(int)   # ReviewScore数据类型转换为int 2分
# data['ReviewScore']：选取 'ReviewScore'（评价分数）这一列。
# .astype(int)：将这一列的数据类型转换为整数。
# 如果评价分数是整数（例如1到5分），那么转换为整数类型是合适的。

# 处理异常值  2分
data = data[(data['Age'].between(18, 70)) & 
            # 这行代码结合了多个条件来筛选出“合理”数据，删除异常值。
            # 首先看第一个条件：(data['Age'].between(18, 70))
            # data['Age'].between(18, 70)：检查 'Age' 列的每个值是否在18到70之间（包含18和70）。
            # 只有年龄在这个合理范围内的行才会被初步选中。
            (data['PurchaseAmount'] > 0) & 
            # 接着看第二个条件：(data['PurchaseAmount'] > 0)
            # data['PurchaseAmount'] > 0：检查 'PurchaseAmount'（购买金额）是否大于0。
            # 购买金额为0或负数通常被视为异常值。
            (data['ReviewScore'].between(1, 5))]
            # 最后看第三个条件：(data['ReviewScore'].between(1, 5))
            # data['ReviewScore'].between(1, 5)：检查 'ReviewScore'（评价分数）是否在1到5之间。
            # 评价分数超出这个范围（例如0分、6分）通常被视为异常值。
            # ( ... ) & ( ... ) & ( ... )：这三个条件之间用 '&' (逻辑“与”) 连接。
            # 这意味着只有当一行数据同时满足所有三个条件时，才会被保留下来。
            # 'data =' 重新赋值给 'data'，从而删除了不符合这些合理性条件的行（即异常值）。

# 数据标准化
data['PurchaseAmount'] = (data['PurchaseAmount'] - data['PurchaseAmount'].mean()) / data['PurchaseAmount'].std()  # PurchaseAmount数据标准化 2分
# 数据标准化是一种常用的数据预处理技术，它将数据缩放到一个统一的范围或分布，通常是为了消除不同特征之间的量纲影响。
# data['PurchaseAmount'].mean()：计算 'PurchaseAmount' 列所有值的平均数。
# data['PurchaseAmount'].std()：计算 'PurchaseAmount' 列所有值的标准差。
# (data['PurchaseAmount'] - data['PurchaseAmount'].mean()) / data['PurchaseAmount'].std()：
# 这是最常见的标准化方法之一，叫做 Z-score 标准化。
# 对于每个值，它会减去该列的平均值，然后除以该列的标准差。
# 结果是，新的 'PurchaseAmount' 列中的数据将服从标准正态分布（平均值为0，标准差为1），方便模型处理。

data['ReviewScore'] = (data['ReviewScore'] - data['ReviewScore'].mean()) /  data['ReviewScore'].std()        # ReviewScore数据标准化 2分
# 这一行与上面一行类似，对 'ReviewScore'（评价分数）列进行 Z-score 标准化。
# 同样，它将 'ReviewScore' 列的每个值减去该列的平均值，然后除以该列的标准差。

# 保存清洗后的数据  1分
data.to_csv('cleaned_user_behavior_data.csv', index=False)
# data.to_csv(...)：这是pandas用来将DataFrame保存为CSV文件的方法。
# 'cleaned_user_behavior_data.csv'：指定新保存的文件的名字，表示这是清洗后的数据。
# index=False：这个参数很重要，它表示在保存CSV文件时，不要把DataFrame的索引（左边默认从0开始的数字序号）也写入到CSV文件中。
# 如果不设置这个参数，CSV文件里会多一列无用的索引号。
print("数据清洗完成，已保存为 'cleaned_user_behavior_data.csv'") # 打印一条消息，告诉用户数据已经清洗完成并保存。

# 3. 数据统计
# 统计每个购买类别的用户数 2分
purchase_category_counts = data['PurchaseCategory'].value_counts()
# data['PurchaseCategory']：选取 'PurchaseCategory'（购买类别）这一列。
# .value_counts()：这个方法会统计该列中每个唯一值（即每个购买类别）出现的次数。
# 例如，如果 'PurchaseCategory' 列有 'Electronics'、'Books'、'Electronics'，结果会是 'Electronics': 2, 'Books': 1。
# 这样，'purchase_category_counts' 变量就存储了一个系列，显示了每个购买类别有多少用户。
print("每个购买类别的用户数:\n", purchase_category_counts) # 打印标题和统计结果。

# 统计不同性别的平均购买金额 2分
gender_purchase_amount_mean = data.groupby('Gender')['PurchaseAmount'].mean()
# data.groupby('Gender')：将 'data' 表格按照 'Gender'（性别）这一列进行分组。
# ['PurchaseAmount']：在每个性别分组内部，我们只关心 'PurchaseAmount'（购买金额）这一列。
# .mean()：计算每个性别分组中 'PurchaseAmount' 的平均值。
# 例如，会计算出男性用户的平均购买金额和女性用户的平均购买金额。
print("不同性别的平均购买金额:\n", gender_purchase_amount_mean) # 打印标题和统计结果。

# 统计不同年龄段的用户数 2分
bins = [18, 26, 36, 46, 56, 66, np.inf]
# bins：定义了一个列表，用于划分年龄段的边界。
# [18, 26, 36, 46, 56, 66, np.inf] 意味着年龄段将切割为：[18, 26), [26, 36), ..., [56, 66), [66, 无限大)。
# np.inf 代表正无穷大，用于包含所有大于66岁的年龄。

labels = ['18-25', '26-35', '36-45', '46-55', '56-65', '65+']
# labels：定义了一个列表，为上面划分的每个年龄段提供一个易读的标签。
# 标签的数量要比 bins 的数量少1，因为 N 个边界划分为 N-1 个区间。

data['AgeGroup'] = pandas.cut(data['Age'],bins=bins,labels=labels,right=False)
# data['AgeGroup']：在 'data' 表格中新建一个名为 'AgeGroup'（年龄组）的列。
# pandas.cut(data['Age'], ...)：这是pandas的 `cut` 函数，用于将连续的数值数据（这里是 'Age' 列）划分到离散的区间（即年龄段）中。
# bins=bins：使用我们之前定义的 'bins' 作为划分年龄段的边界。
# labels=labels：使用我们之前定义的 'labels' 给每个年龄段命名。
# right=False：这个参数表示区间是“左闭右开”的。
# 例如，[18, 26) 表示年龄大于等于18岁且小于26岁。

age_group_counts = data['AgeGroup'].value_counts().sort_index()
# data['AgeGroup'].value_counts()：统计新创建的 'AgeGroup' 列中每个年龄组的用户数量。
# .sort_index()：对统计结果按照年龄组的名称（索引）进行排序，这样输出结果会按照年龄段的顺序显示，更清晰。
print("不同年龄段的用户数:\n", age_group_counts) # 打印标题和统计结果。
