In [1]:
# 天数计算与车辆数据比对分析
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# 读取车辆数据和轨迹数据

tagStr = '2025032518122425_100'
vehicle_data = pd.read_csv(tagStr+'_VehicleData.csv')
trace_data = pd.read_csv('./'+tagStr+'_TraceData/day_1.csv')

# 按照vehicleData.ipynb的处理方式计算天数
vehicle_data['InDay'] = vehicle_data['In Time'] // 57600 + 1

# 计算第1天的车辆数据
day1_vehicle_data = vehicle_data[vehicle_data['InDay'] == 1]

# 提取两个数据集中的唯一车辆ID
trace_vehicles = set(trace_data['VehicleID'].unique())
vehicle_vehicles = set(day1_vehicle_data['Vehicle ID'].unique())

# 计算统计信息
common_vehicles = trace_vehicles.intersection(vehicle_vehicles)
only_in_trace = trace_vehicles - vehicle_vehicles
only_in_vehicle = vehicle_vehicles - trace_vehicles

# 输出比对结果
print(f"轨迹数据中的车辆数: {len(trace_vehicles)}")
print(f"第1天车辆数据中的车辆数: {len(vehicle_vehicles)}")
print(f"两个数据集共有的车辆数: {len(common_vehicles)}")
print(f"仅在轨迹数据中出现的车辆数: {len(only_in_trace)}")
print(f"仅在车辆数据中出现的车辆数: {len(only_in_vehicle)}")

# 计算匹配率
trace_match_percent = len(common_vehicles) / len(trace_vehicles) * 100 if len(trace_vehicles) > 0 else 0
vehicle_match_percent = len(common_vehicles) / len(vehicle_vehicles) * 100 if len(vehicle_vehicles) > 0 else 0
print(f"轨迹数据中车辆与车辆数据匹配率: {trace_match_percent:.2f}%")
print(f"车辆数据中车辆与轨迹数据匹配率: {vehicle_match_percent:.2f}%")

# 检查车辆数据中出现次数少于3次的车辆ID
vehicle_id_counts = trace_data['VehicleID'].value_counts()
rare_vehicles = vehicle_id_counts[vehicle_id_counts < 3]
print(f"\n轨迹数据中出现少于3次的车辆数: {len(rare_vehicles)}")

轨迹数据中的车辆数: 54078
第1天车辆数据中的车辆数: 55618
两个数据集共有的车辆数: 54078
仅在轨迹数据中出现的车辆数: 0
仅在车辆数据中出现的车辆数: 1540
轨迹数据中车辆与车辆数据匹配率: 100.00%
车辆数据中车辆与轨迹数据匹配率: 97.23%

轨迹数据中出现少于3次的车辆数: 649


In [3]:
# 对每个VehicleID进行计数
vehicle_counts = trace_data['VehicleID'].value_counts()

# 筛选出只有1-2条数据的VehicleID
rare_vehicles = vehicle_counts[vehicle_counts <= 1]

# 显示只有1-2条数据的VehicleID及其数量
print(f"共有 {len(rare_vehicles)} 个VehicleID只有1条数据")
#print(rare_vehicles)

# 显示这些稀有VehicleID的所有数据
rare_data = trace_data[trace_data['VehicleID'].isin(rare_vehicles.index)]
rare_data.head()

共有 529 个VehicleID只有1条数据


Unnamed: 0,VehicleID,Time,PosID
2172490,55511,57094,7658
2173149,54072,53358,123
2173240,48936,44750,296
2173724,52635,50072,177
2173850,52982,50933,7960
