In [3]:
# 天数计算与车辆数据比对分析
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# 读取车辆数据和轨迹数据

tagStr = '2025032521295025_100'
vehicle_data = pd.read_csv(tagStr+'_VehicleData.csv')
trace_data = pd.read_csv('./'+tagStr+'_TraceData/Day1.csv')

# 按照vehicleData.ipynb的处理方式计算天数
vehicle_data['InDay'] = vehicle_data['In Time'] // 57600 + 1

# 计算第1天的车辆数据
day1_vehicle_data = vehicle_data[vehicle_data['InDay'] == 1]

# 提取两个数据集中的唯一车辆ID
trace_vehicles = set(trace_data['Vehicle ID'].unique())
vehicle_vehicles = set(day1_vehicle_data['Vehicle ID'].unique())

# 计算统计信息
common_vehicles = trace_vehicles.intersection(vehicle_vehicles)
only_in_trace = trace_vehicles - vehicle_vehicles
only_in_vehicle = vehicle_vehicles - trace_vehicles

# 输出比对结果
print(f"轨迹数据中的车辆数: {len(trace_vehicles)}")
print(f"第1天车辆数据中的车辆数: {len(vehicle_vehicles)}")
print(f"两个数据集共有的车辆数: {len(common_vehicles)}")
print(f"仅在轨迹数据中出现的车辆数: {len(only_in_trace)}")
print(f"仅在车辆数据中出现的车辆数: {len(only_in_vehicle)}")

# 计算匹配率
trace_match_percent = len(common_vehicles) / len(trace_vehicles) * 100 if len(trace_vehicles) > 0 else 0
vehicle_match_percent = len(common_vehicles) / len(vehicle_vehicles) * 100 if len(vehicle_vehicles) > 0 else 0
print(f"轨迹数据中车辆与车辆数据匹配率: {trace_match_percent:.2f}%")
print(f"车辆数据中车辆与轨迹数据匹配率: {vehicle_match_percent:.2f}%")

# 检查车辆数据中出现次数少于3次的车辆ID
vehicle_id_counts = trace_data['Vehicle ID'].value_counts()
rare_vehicles = vehicle_id_counts[vehicle_id_counts < 2]
print(f"\n轨迹数据中出现少于2次的车辆数: {len(rare_vehicles)}")

轨迹数据中的车辆数: 54707
第1天车辆数据中的车辆数: 54707
两个数据集共有的车辆数: 54707
仅在轨迹数据中出现的车辆数: 0
仅在车辆数据中出现的车辆数: 0
轨迹数据中车辆与车辆数据匹配率: 100.00%
车辆数据中车辆与轨迹数据匹配率: 100.00%

轨迹数据中出现少于2次的车辆数: 26
