In [7]:
# 模块导入
import pandas as pd
from multiprocessing import Process, Queue,Lock
from concurrent.futures import ProcessPoolExecutor

from geopy.distance import geodesic
import time

In [8]:
# 读入txt 每一行的数据形如:1,30.624806,104.136604,1,2014/8/3 21:18:46
# 1:出租车ID 2:维度 3:经度 4:载客情况(1为有,0为无) 5:时间
# 读入txt文件，将每个出租车的数据分别存入一个csv文件中
file_path="all_txt_data\\20140803_train.txt"
column_names=['taxi_id','latitude','longitude','passenger','time']
# 读入txt文件1
df=pd.read_csv(file_path,sep=',',header=None,names=column_names)

# 数据预处理
将GPS轨迹数据转为空驶、载客的一段段轨迹数据，包括起始点、终止点、起止时间、终止时间、载客状态和轨迹长度

存储在`trip_df`中

In [9]:
# 提取出taxi_id为0\1\2\3的数据
df_selected = df[df['taxi_id']<=100].copy() # 测试用
# df_selected = df
# 把time列形如:2014/8/3 06:00:53的数据转换成易于处理的形式
df_selected['time']=pd.to_datetime(df_selected['time'],format='%Y/%m/%d %H:%M:%S')
# 增加一列time_s,表示以秒为单位的时间
df_selected['time_s']=df_selected['time'].dt.hour*3600+df_selected['time'].dt.minute*60+df_selected['time'].dt.second
# 以taxi_id为第一关键字，以time为第二关键字，对数据进行排序
df_selected=df_selected.sort_values(by=['taxi_id','time_s'])
# 删除time列
df_selected=df_selected.drop(['time'],axis=1)
# passenger改为bool型
df_selected['passenger']=df_selected['passenger'].astype('bool')
# 把int64型的数据转换成int32型，减少内存占用
df_selected['taxi_id']=df_selected['taxi_id'].astype('int16') # taxi_id不超过15000，可以用int16
df_selected['time_s']=df_selected['time_s'].astype('int32')
# 把float64型的数据转换成float32型，减少内存占用
df_selected['longitude']=df_selected['longitude'].astype('float32')
df_selected['latitude']=df_selected['latitude'].astype('float32')
# 直接以dataframe的形式保存
df_selected.to_pickle('df_selected.pkl')
# 打印出每一列的数据类型以及各自占用的内存大小
print(df_selected.info(memory_usage='deep'))

<class 'pandas.core.frame.DataFrame'>
Int64Index: 362636 entries, 1261 to 361084
Data columns (total 5 columns):
 #   Column     Non-Null Count   Dtype  
---  ------     --------------   -----  
 0   taxi_id    362636 non-null  int16  
 1   latitude   362636 non-null  float32
 2   longitude  362636 non-null  float32
 3   passenger  362636 non-null  bool   
 4   time_s     362636 non-null  int32  
dtypes: bool(1), float32(2), int16(1), int32(1)
memory usage: 8.0 MB
None


这里开始保存了df_selected，去concur.py里跑（由于多进程的某些原因，需要在main函数里跑）

下面这个块只是为了分析测试，不用管

In [10]:
# 每辆车的GPS数据采取的时间间隔最长和最短值
time_interval_min = df_selected.groupby('taxi_id')['time_s'].diff().min()
time_interval_max = df_selected.groupby('taxi_id')['time_s'].diff().max()
print('time_interval_min:',time_interval_min)
print('time_interval_max:',time_interval_max)

# 车辆总数
taxi_num = df_selected['taxi_id'].unique().shape[0]
print('taxi_num:',taxi_num)

# 找出每辆车 时间间隔为time_interval_min的数据
df_test = df_selected.groupby('taxi_id').apply(lambda x:x[x['time_s'].diff()==time_interval_min])
print(df_test)
# 找出每辆车 时间间隔为time_interval_max的数据
df_test = df_selected.groupby('taxi_id').apply(lambda x:x[x['time_s'].diff()==time_interval_max])
print(df_test)

time_interval_min: 0.0
time_interval_max: 9360.0
taxi_num: 100
                taxi_id   latitude   longitude  passenger  time_s
taxi_id                                                          
12      38555        12  30.597746  103.958145      False   31653
        39934        12  30.659048  104.077415      False   50052
28      81475        28  30.632174  104.137566      False   50245
        81439        28  30.629587  104.136360      False   50276
76      268963       76  30.647436  104.133156       True   52179
        269466       76  30.666437  104.137047      False   66679
86      308781       86  30.627325  104.138382      False   50216
                taxi_id  latitude   longitude  passenger  time_s
taxi_id                                                         
36      108972       36  30.65279  104.063126      False   45921


跑完concur.py，下面进行一些筛除

In [24]:
trip_df = pd.read_pickle('trip_df.pkl')

In [25]:
# 检查有无路径长为0的轨迹
print(len(trip_df[trip_df['distance'] == 0]))
# 删除这些路径长为0的轨迹
trip_df = trip_df[trip_df['distance'] != 0]
print(len(trip_df[trip_df['distance'] == 0]))

35
0


In [26]:
# 检查有无行程时间为0的轨迹
print(len(trip_df[trip_df['start_time'] == trip_df['end_time']]))
# 删除这些行程时间为0的轨迹
trip_df = trip_df[trip_df['start_time'] != trip_df['end_time']]
print(len(trip_df[trip_df['start_time'] == trip_df['end_time']]))

217
0
