In [None]:
import pandas as pd         # 导入pandas库，它就像一个超级强大的Excel工具，用来处理表格数据非常方便。
import numpy as np          # 导入numpy库，它主要用于进行数值计算，特别是在处理数组（例如一堆数字）时效率很高。
import matplotlib.pyplot as plt # 导入matplotlib.pyplot库，这个库是用来画图的，比如折线图、柱状图等，让数据可视化。

# 1. 数据采集
# 从本地文件中读取数据  2分
data = pd.read_csv('vehicle_traffic_data.csv') # 使用pandas的read_csv函数，读取名为 'vehicle_traffic_data.csv' 的文件。
                                               # 这就相当于我们打开这个CSV文件，把里面的内容读取到一个叫做 'data' 的表格（DataFrame）里。
print("数据采集完成，已加载到DataFrame中")    # 打印一条消息，确认数据已经加载成功。

# 打印数据的前5条记录 2分
print(data.head())                             # 使用DataFrame的 .head() 方法来查看数据表格的前5行。这能帮助我们快速了解数据的结构和内容。

# 2. 数据清洗与预处理
# 处理缺失值（删除）  2分
data = data.dropna() # 使用DataFrame的 .dropna() 方法来删除包含任何缺失值（NaN）的行。
                     # 这意味着如果一行数据中有一个或多个单元格是空的，那么整行都会被删除。
                     # 将处理后的结果重新赋值给 'data'，覆盖原始数据，确保数据完整性。

# 数据类型转换
data['Age'] = data['Age'].astype(int)       # Age数据类型转换为int 1分
# data['Age']：选取 'Age'（年龄）这一列。
# .astype(int)：将这一列的数据类型转换为整数（integer）。
# 这样做通常是为了确保年龄是整数，并且符合年龄的实际表示。

data['Speed'] = data['Speed'].astype(float)     # Speed数据类型转换为float 1分
# data['Speed']：选取 'Speed'（车速）这一列。
# .astype(float)：将这一列的数据类型转换为浮点数（float）。
# 车速可能包含小数，例如60.5 km/h，所以转换为浮点数是合适的。

data['TravelDistance'] = data['TravelDistance'].astype(float)     # TravelDistance数据类型转换为float 1分
# data['TravelDistance']：选取 'TravelDistance'（行驶距离）这一列。
# .astype(float)：将这一列的数据类型转换为浮点数。
# 行驶距离也可能包含小数，所以转换为浮点数是合适的。

data['TravelTime'] = data['TravelTime'].astype(float)     # TravelTime数据类型转换为float 1分
# data['TravelTime']：选取 'TravelTime'（行驶时间）这一列。
# .astype(float)：将这一列的数据类型转换为浮点数。
# 行驶时间也可能包含小数，例如0.5小时，所以转换为浮点数是合适的。

# 处理异常值  2分
data = data[(data['Age'].between(18, 70))  &
            # 这行代码结合了多个条件来筛选出“合理”数据，删除异常值。
            # 首先看第一个条件：(data['Age'].between(18, 70))
            # data['Age'].between(18, 70)：检查 'Age' 列的每个值是否在18到70之间（包含18和70）。
            # 只有驾驶员年龄在这个合理范围内的行才会被初步选中。
            (data['Speed'].between(0, 200)) &
            # 接着看第二个条件：(data['Speed'].between(0, 200))
            # data['Speed'].between(0, 200)：检查 'Speed'（车速）是否在0到200之间。
            # 0表示停驻或静止，200 km/h可以认为是高速行驶的合理上限，超出则可能是异常值。
            (data['TravelDistance'].between(1, 1000)) &
            # 然后看第三个条件：(data['TravelDistance'].between(1, 1000))
            # data['TravelDistance'].between(1, 1000)：检查 'TravelDistance'（行驶距离）是否在1到1000之间。
            # 1 km作为最小行驶距离很合理，1000 km在一次普通行驶中是比较高的上限，超出可能是异常。
            (data['TravelTime'].between(1, 1440))]
            # 最后看第四个条件：(data['TravelTime'].between(1, 1440))
            # data['TravelTime'].between(1, 1440)：检查 'TravelTime'（行驶时间）是否在1到1440之间。
            # 1分钟作为最小行驶时间合理，1440分钟（24小时）作为单次行驶时间上限，超出可能是异常。
            # ( ... ) & ( ... ) & ( ... ) & ( ... )：这四个条件之间用 '&' (逻辑“与”) 连接。
            # 这意味着只有当一行数据同时满足所有四个条件时，才会被保留下来。
            # 'data =' 重新赋值给 'data'，从而删除了不符合这些合理性条件的行（即异常值）。

# 保存清洗后的数据  1分
data.to_csv('cleaned_vehicle_traffic_data.csv', index=False)
# data.to_csv(...)：这是pandas用来将DataFrame保存为CSV文件的方法。
# 'cleaned_vehicle_traffic_data.csv'：指定新保存的文件的名字，表示这是清洗后的数据。
# index=False：这个参数很重要，它表示在保存CSV文件时，不要把DataFrame的索引（左边默认从0开始的数字序号）也写入到CSV文件中。
# 如果不设置这个参数，CSV文件里会多一列无用的索引号。
print("数据清洗完成，已保存为 'cleaned_vehicle_data.csv'") # 打印一条消息，告诉用户数据已经清洗完成并保存。

# 3. 数据合理性审核
# 审核字段合理性 1分
unreasonable_data = data[~((data['Age'].between(18, 70)) &
                           (data['Speed'].between(0, 200)) &
                           (data['TravelDistance'].between(1, 1000)) &
                           (data['TravelTime'].between(1, 1440)))]
# 这行代码与上面“处理异常值”的代码非常相似，但是前面多了一个波浪号（~）。
# ~：在Python中，波浪号表示逻辑“非”。
# 它的作用是把一个 True/False 系列的结果反转过来。
# 也就是说，如果 `(...)` 内部的条件是 True（表示数据合理），那么 `~(...)` 就会变成 False。
# 如果 `(...)` 内部的条件是 False（表示数据不合理），那么 `~(...)` 就会变成 True。
# data[...]：用这个反转后的 True/False 系列来筛选 'data' 表格。
# 这样，'unreasonable_data' 变量就会包含所有 **不满足** 那些合理性条件（即“不合理”）的数据行。
# 这一步是为了再次确认经过清洗后，是否还有不合理的数据（理论上应该没有，用来做验证）。
print("不合理的数据:\n", unreasonable_data) # 打印标题和筛选出来的“不合理数据”。如果清洗得当，这里应该打印出一个空的DataFrame。

# 4. 数据统计
# 统计每种交通事件的发生次数  2分
traffic_event_counts = data['TrafficEvent'].value_counts()
# data['TrafficEvent']：选取 'TrafficEvent'（交通事件）这一列。
# .value_counts()：这个方法会统计该列中每个唯一值（即每种交通事件）出现的次数。
# 例如，如果 'TrafficEvent' 列有 'Accident'、'Congestion'、'Accident'，结果会是 'Accident': 2, 'Congestion': 1。
# 这样，'traffic_event_counts' 变量就存储了一个系列，显示了不同交通事件的发生次数。
print("每种交通事件的发生次数:\n", traffic_event_counts) # 打印标题和统计结果。

# 统计不同性别的平均车速、行驶距离和行驶时间  2分
gender_stats = data.groupby('Gender').agg({'Speed':'mean','TravelDistance':'mean','TravelTime':'mean'})
# data.groupby('Gender')：将 'data' 表格按照 'Gender'（性别）这一列进行分组。
# .agg(...)：'agg' 是 'aggregate' 的缩写，意思是“聚合”。
# 这里传入了一个字典：`{'Speed':'mean','TravelDistance':'mean','TravelTime':'mean'}`。
# 它的作用是在每个性别分组内部，对 'Speed'、'TravelDistance'、'TravelTime' 这三列分别计算它们的平均值（'mean'）。
# 这样，'gender_stats' 就会存储一个表格，显示男性和女性驾驶员的平均车速、平均行驶距离和平均行驶时间。
print("不同性别的平均车速、行驶距离和行驶时间:\n", gender_stats) # 打印标题和统计结果。

# 统计不同年龄段的驾驶员数  5分
age_bins = [18, 26, 36, 46, 56, 66, np.inf]
# age_bins：定义了一个列表，用于划分年龄段的边界。
# [18, 26, 36, 46, 56, 66, np.inf] 意味着年龄段将切割为：[18, 26), [26, 36), ..., [56, 66), [66, 无限大)。
# np.inf 代表正无穷大，用于包含所有大于66岁的年龄。

age_labels = ['18-25', '26-35', '36-45', '46-55', '56-65', '65+']
# age_labels：定义了一个列表，为上面划分的每个年龄段提供一个易读的标签。
# 标签的数量要比 bins 的数量少1，因为 N 个边界划分为 N-1 个区间。

data['AgeGroup'] = pd.cut(data['Age'],bins=age_bins,labels=age_labels, right=False)
# data['AgeGroup']：在 'data' 表格中新建一个名为 'AgeGroup'（年龄组）的列。
# pd.cut(data['Age'], ...)：这是pandas的 `cut` 函数，用于将连续的数值数据（这里是 'Age' 列）划分到离散的区间（即年龄段）中。
# bins=age_bins：使用我们之前定义的 'age_bins' 作为划分年龄段的边界。
# labels=age_labels：使用我们之前定义的 'age_labels' 给每个年龄段命名。
# right=False：这个参数表示区间是“左闭右开”的。
# 例如，[18, 26) 表示年龄大于等于18岁且小于26岁。

age_group_counts = data['AgeGroup'].value_counts()
# data['AgeGroup'].value_counts()：统计新创建的 'AgeGroup' 列中每个年龄组的用户数量。
# 默认情况下，`value_counts()` 会按计数从大到小排序。
print("不同年龄段的驾驶员数:\n", age_group_counts) # 打印标题和统计结果。
