在这个教程中，你将会学到如何使用python的pandas包对出租车GPS数据进行数据清洗，识别出行OD

出租车原始GPS数据(在data-sample文件夹下，原始数据集的抽样500辆车的数据)

In [2]:
import pandas as pd

In [17]:
data = pd.read_csv(r'data-sample/TaxiData-Sample', header=None)  # 读取数据

数据的格式：

VehicleNum —— 车牌  
Stime —— 时间  
Lng —— 经度  
Lat —— 纬度  
OpenStatus —— 是否有乘客(0没乘客，1有乘客)  
Speed —— 速度  

In [18]:
data.columns = ['VehicleNum', 'Stime', 'Lng', 'Lat', 'OpenStatus', 'Speed']  # 给数据命名列

In [19]:
# 显示数据的前5行
data.head(5)

Unnamed: 0,VehicleNum,Stime,Lng,Lat,OpenStatus,Speed
0,22271,22:54:04,114.167,22.718399,0,0
1,22271,18:26:26,114.190598,22.6478,0,4
2,22271,18:35:18,114.201401,22.6497,0,0
3,22271,16:02:46,114.233498,22.725901,0,24
4,22271,21:41:17,114.233597,22.7209,0,19


# 基础的数据操作
## DataFrame和Series

- 当我们读一个数据的时候，我们读进来的就是DataFrame格式的数据表，而一个DataFrame中的每一列，则为一个Series，也就是说，DataFrame由多个Series组成

In [6]:
type(data) 

pandas.core.frame.DataFrame

- 如果我们想取DataFrame的某一列，想得到的是Series，那么直接用以下代码

In [8]:
data['Lng']

0          114.167000
1          114.190598
2          114.201401
3          114.233498
4          114.233597
              ...    
1601302    114.160149
1601303    114.164551
1601304    114.168015
1601305    114.168015
1601306    114.170647
Name: Lng, Length: 1601307, dtype: float64

- 如果我们想取DataFrame的某一列或者某几列，想得到的是DataFrame，那么直接用以下代码

In [9]:
data[['Lng', 'Lat']]

Unnamed: 0,Lng,Lat
0,114.167000,22.718399
1,114.190598,22.647800
2,114.201401,22.649700
3,114.233498,22.725901
4,114.233597,22.720900
...,...,...
1601302,114.160149,22.606934
1601303,114.164551,22.605118
1601304,114.168015,22.606083
1601305,114.168015,22.606083


- 得到车牌照为22271的所有数据

In [13]:
data['VehicleNum'] == 22271

0           True
1           True
2           True
3           True
4           True
           ...  
1601302    False
1601303    False
1601304    False
1601305    False
1601306    False
Name: VehicleNum, Length: 1601307, dtype: bool

In [12]:
data[data['VehicleNum'] == 22271]

Unnamed: 0,VehicleNum,Stime,Lng,Lat,OpenStatus,Speed
0,22271,22:54:04,114.167000,22.718399,0,0
1,22271,18:26:26,114.190598,22.647800,0,4
2,22271,18:35:18,114.201401,22.649700,0,0
3,22271,16:02:46,114.233498,22.725901,0,24
4,22271,21:41:17,114.233597,22.720900,0,19
...,...,...,...,...,...,...
1432,22271,11:31:09,114.279404,22.739000,0,0
1433,22271,11:33:09,114.279404,22.739000,0,0
1434,22271,10:43:56,114.279503,22.739000,0,0
1435,22271,10:51:48,114.279503,22.739201,0,0


- 删除车牌照为22271的所有数据

In [16]:
data[-(data['VehicleNum'] == 22271)]

Unnamed: 0,VehicleNum,Stime,Lng,Lat,OpenStatus,Speed
1437,35807,01:53:46,113.809898,22.626801,0,0
1438,35807,01:43:46,113.813301,22.623600,0,0
1439,35807,01:14:15,113.847000,22.594700,0,41
1440,35807,02:01:41,113.852501,22.625700,0,22
1441,35807,01:01:59,113.897003,22.551901,0,42
...,...,...,...,...,...,...
1601302,23873,20:20:03,114.160149,22.606934,0,0
1601303,23873,20:15:13,114.164551,22.605118,1,48
1601304,23873,20:16:23,114.168015,22.606083,0,0
1601305,23873,20:16:43,114.168015,22.606083,0,0


- 获取列'Stime',注意，**此操作不会影响到data，你在操作后必须将得到的表重新赋值给data才有影响**

In [20]:
data[['Stime']].head(5)

Unnamed: 0,Stime
0,22:54:04
1,18:26:26
2,18:35:18
3,16:02:46
4,21:41:17


- 定义列'Speed1'为Speed列的两倍,注意，**此操作会影响到data**

In [22]:
data['Speed1'] = data['Speed'] * 2
# 或者
# data.loc[:, 'Speed1'] = data['Speed'] * 2

data.head(5)

Unnamed: 0,VehicleNum,Stime,Lng,Lat,OpenStatus,Speed,Speed1
0,22271,22:54:04,114.167,22.718399,0,0,0
1,22271,18:26:26,114.190598,22.6478,0,4,8
2,22271,18:35:18,114.201401,22.6497,0,0,0
3,22271,16:02:46,114.233498,22.725901,0,24,48
4,22271,21:41:17,114.233597,22.7209,0,19,38


- 删除列'Speed1',axis=1表示对列进行删除。注意，**将得到的表重新赋值给data才有影响**

In [23]:
data = data.drop(['Speed1'], axis=1)
data.head(5)

Unnamed: 0,VehicleNum,Stime,Lng,Lat,OpenStatus,Speed
0,22271,22:54:04,114.167,22.718399,0,0
1,22271,18:26:26,114.190598,22.6478,0,4
2,22271,18:35:18,114.201401,22.6497,0,0
3,22271,16:02:46,114.233498,22.725901,0,24
4,22271,21:41:17,114.233597,22.7209,0,19


- 获取Stime列的第4行数据

In [24]:
data['Stime'].iloc[3]

'16:02:46'

loc[]基于标签索引选取数据<br>
.iloc[]基于整数索引选取数据

# 数据清洗

1. 首先，我们将数据按车牌、时间排序，特别要注意，data排序后需要再赋值给data，否则没作用将数据排序，并把排序后的数据赋值给原来的数据

In [26]:
data = data.sort_values(by=['VehicleNum', 'Stime'])
data.head(5)

Unnamed: 0,VehicleNum,Stime,Lng,Lat,OpenStatus,Speed
39,22271,00:00:49,114.266502,22.728201,0,0
397,22271,00:01:48,114.266502,22.728201,0,0
1413,22271,00:02:47,114.266502,22.728201,0,0
244,22271,00:03:46,114.266502,22.728201,0,0
247,22271,00:04:45,114.268898,22.7295,0,11


我们现在要做的是，用出租车GPS数据识别OD：

数据按车牌、时间排序后，正常情况下的OpenStatus是这样的：

|OpenStatus | <br>
|0||<br>
|0||<br>
|0||<br>
|0||<br>
|0||<br>
|1|     ←此时乘客上车了|<br>
|1||<br>
|1||<br>
|1||<br>
|1||<br>
|1||<br>
|1||<br>
|0|     ←此时乘客下车了|<br>
|0||<br>
|0||<br>
|0||<br>

但是，也会有时候有数据异常出现，比如：

|OpenStatus |<br>
|0||<br>
|0||<br>
|0||<br>
|0||<br>
|0||<br>
|1|←异常|<br>
|0||<br>
|0||<br>
|0||<br>
|0||<br>

或者

|OpenStatus | <br>
|1||<br>
|1||<br>
|1||<br>
|1||<br>
|1||<br>
|0|←异常|<br>
|1||<br>
|1||<br>
|1||<br>
|1||<br>

因此我们要判断的是，如果：<br>
后一位和前一位相等，但是后一位与中间一位不等，那么中间一位的数据就要删除（前一条数据，中间一条数据，后一条数据的车牌必须相等）

3. 把上述异常数据清洗出来
用到的条件是：<br>
(1)后一位和前一位相等<br>
(2)但是后一位与中间一位不等<br>
(3)前一条数据，后一条数据的车牌相等<br>
(4)中间一条数据，后一条数据的车牌相等

In [27]:
len(data)

1601307

In [28]:
data = data[-((data['OpenStatus'].shift(-1) == data['OpenStatus'].shift()) &
              (data['OpenStatus'].shift(-1) != data['OpenStatus']) &
              (data['VehicleNum'].shift(-1) == data['VehicleNum'].shift()) &
              (data['VehicleNum'].shift(-1) == data['VehicleNum']))]

In [29]:
len(data)

1598866

# 生成OD数据
1. 乘客上下车的状态变化识别

接下来，我们把下一条数据的信息放到前一条数据上，这样子，就能很方便的比较这条数据和下条数据的差异
在字段名加个1，代表后面一条数据的值
另外我们定义StatusChange为下一条数据的OpenStatus减去这一条数据的OpenStatus，这样就会出现：

|OpenStatus|OpenStatus1|StatusChange||<br>
|----------|-----------|------------||<br>
|----0-----|-----0-----|-----0------||<br>
|----0-----|-----0-----|-----0------||<br>
|----0-----|-----0-----|-----0------||<br>
|----0-----|-----1-----|-----1------| ←此时乘客上车了|<br>
|----1-----|-----1-----|-----0------| ←此时乘客上车了|<br>
|----1-----|-----1-----|-----0------||<br>
|----1-----|-----1-----|-----0------||<br>
|----1-----|-----1-----|-----0------||<br>
|----1-----|-----1-----|-----0------||<br>
|----1-----|-----1-----|-----0------||<br>
|----1-----|-----1-----|-----0------||<br>
|----1-----|-----1-----|-----0------||<br>
|----1-----|-----1-----|-----0------||<br>
|----1-----|-----0-----|------1-----| ←此时乘客下车了|<br>
|----0-----|-----0-----|-----0------| ←此时乘客下车了|<br>
|----0-----|-----0-----|-----0------||<br>
|----0-----|-----0-----|-----0------||<br>
|----0-----|-----0-----|-----0------||<br>
 

In [30]:
data.loc[:, 'OpenStatus1'] = data['OpenStatus'].shift(-1)
data.loc[:, 'VehicleNum1'] = data['VehicleNum'].shift(-1)

In [31]:
data.loc[:, 'StatusChange'] = data['OpenStatus1'] - data['OpenStatus']

2. 将上下车状态整理为OD

这里，我只想保留StatusChange字段为1或者-1的数据，因此要把这些数据筛出来<br>
不过，还得加一个条件，就是这条数据和下一条数据的车辆ID必须是相同的

In [32]:
data = data[((data['StatusChange'] == 1) | (data['StatusChange'] == -1))
            & (data['VehicleNum'] == data['VehicleNum1'])]

In [33]:
# data数据只保留一些我们需要的字段
data = data[['VehicleNum', 'Stime', 'Lng', 'Lat', 'StatusChange']]
data.head(5)

Unnamed: 0,VehicleNum,Stime,Lng,Lat,StatusChange
1548741,22334,00:00:52,114.11113,22.57675,-1.0
1548351,22334,00:07:44,114.080498,22.554182,1.0
1549620,22334,00:17:58,114.084915,22.54085,-1.0
1547182,22334,00:18:56,114.084915,22.54085,1.0
1547627,22334,00:44:47,114.056236,22.633383,-1.0


3. 生成OD记录

我们现在就得到了乘客哪里上车，哪里下车。<br>
而我们想要得到的OD数据形式是，每一行记录包括了信息：车辆ID，上车时间，上车地点，下车时间，下车地点<br>
这样一行数据就是一个OD<br>

In [34]:
data = data.rename(columns={'Lng': 'SLng', 'Lat': 'SLat'})
data['ELng'] = data['SLng'].shift(-1)
data['ELat'] = data['SLat'].shift(-1)
data['Etime'] = data['Stime'].shift(-1)
data = data[data['StatusChange'] == 1]
data = data.drop('StatusChange', axis=1)

In [35]:
# ########## 保存
data.to_csv(r'data-sample\TaxiOD-Sample.csv', index=None)