在这个教程中，你将会学到如何使用python的pandas包对出租车GPS数据进行数据清洗，识别出行OD

<div class="alert alert-info"><h2>提供的基础数据是：</h2><p>    数据：<br>  
    1.出租车原始GPS数据(在data-sample文件夹下，原始数据集的抽样500辆车的数据)</p></div>

[pandas包的简介](https://baike.baidu.com/item/pandas/17209606?fr=aladdin)

# 读取数据

首先，读取出租车数据

In [2]:
import pandas as pd
#读取数据
data = pd.read_csv(r'data-sample/TaxiData-Sample',header = None)
#给数据命名列
data.columns = ['VehicleNum', 'Stime', 'Lng', 'Lat', 'OpenStatus', 'Speed']

In [3]:
#显示数据的前5行
data.head(5)

Unnamed: 0,VehicleNum,Stime,Lng,Lat,OpenStatus,Speed
0,22271,22:54:04,114.167,22.718399,0,0
1,22271,18:26:26,114.190598,22.6478,0,4
2,22271,18:35:18,114.201401,22.6497,0,0
3,22271,16:02:46,114.233498,22.725901,0,24
4,22271,21:41:17,114.233597,22.7209,0,19


数据的格式：

>VehicleNum —— 车牌  
Stime —— 时间  
Lng —— 经度  
Lat —— 纬度  
OpenStatus —— 是否有乘客(0没乘客，1有乘客)  
Speed —— 速度  

# 基础的数据操作

## DataFrame和Series

DataFrame和Series

   > 当我们读一个数据的时候，我们读进来的就是DataFrame格式的数据表，而一个DataFrame中的每一列，则为一个Series  
    也就是说，DataFrame由多个Series组成


In [87]:
type(data)

pandas.core.frame.DataFrame

如果我们想取DataFrame的某一列，想得到的是Series，那么直接用以下代码

   > data[列名]

In [88]:
type(data['Lng'])

pandas.core.series.Series

如果我们想取DataFrame的某一列或者某几列，想得到的是DataFrame，那么直接用以下代码

> data2[[列名,列名]]

In [89]:
type(data[['Lng']])

pandas.core.frame.DataFrame

## 数据的筛选

数据的筛选:

    在筛选数据的时候，我们一般用data[条件]的格式
    其中的条件，是对data每一行数据的true和false布尔变量的Series

    例如，我们想得到车牌照为22271的所有数据
    首先我们要获得一个布尔变量的Series，这个Series对应的是data的每一行，如果车牌照为"粤B4H2K8"则为true，不是则为false
    这样子的Series很容易获得，只需要
    data['VehicleNum']==22271

In [90]:
(data['VehicleNum']==22271).head(5)

0    True
1    True
2    True
3    True
4    True
Name: VehicleNum, dtype: bool

In [92]:
#得到车牌照为22271的所有数据
data[data['VehicleNum']==22271].head(5)

Unnamed: 0,VehicleNum,Stime,Lng,Lat,OpenStatus,Speed
0,22271,22:54:04,114.167,22.718399,0,0
1,22271,18:26:26,114.190598,22.6478,0,4
2,22271,18:35:18,114.201401,22.6497,0,0
3,22271,16:02:46,114.233498,22.725901,0,24
4,22271,21:41:17,114.233597,22.7209,0,19


如果我们想要对data删去所有牌照为22271的数据，所需要的操作也很简单：
    
> data[-(条件)]
    
注意，如果你不想要奇奇怪怪的bug出现，请按照我上面给的格式来筛选数据，建议不要用data.drop()来删数据，，data.drop()只在你想删除某一列的时候用

In [93]:
#删除车牌照为22271的所有数据
data[-(data['VehicleNum']==22271)].head(5)

Unnamed: 0,VehicleNum,Stime,Lng,Lat,OpenStatus,Speed
1437,35807,01:53:46,113.809898,22.626801,0,0
1438,35807,01:43:46,113.813301,22.6236,0,0
1439,35807,01:14:15,113.847,22.5947,0,41
1440,35807,02:01:41,113.852501,22.6257,0,22
1441,35807,01:01:59,113.897003,22.551901,0,42


## 获取/删除/定义DataFrame的某一列

In [94]:
#获取列'Stime',注意，此操作不会影响到data，你在操作后必须将得到的表重新赋值给data才有影响
data[['Stime']].head(5)

Unnamed: 0,Stime
0,22:54:04
1,18:26:26
2,18:35:18
3,16:02:46
4,21:41:17


In [95]:
#定义列'Speed1'为Speed列的两倍,注意，此操作会影响到data
data['Speed1']=data['Speed']*2
#或者
data.loc[:,'Speed1']=data['Speed']*2

data.head(5)

Unnamed: 0,VehicleNum,Stime,Lng,Lat,OpenStatus,Speed,Speed1
0,22271,22:54:04,114.167,22.718399,0,0,0
1,22271,18:26:26,114.190598,22.6478,0,4,8
2,22271,18:35:18,114.201401,22.6497,0,0,0
3,22271,16:02:46,114.233498,22.725901,0,24,48
4,22271,21:41:17,114.233597,22.7209,0,19,38


In [96]:
#删除列'Stime',注意，此操作不会影响到data，你在操作后必须将得到的表重新赋值给data才有影响
data.drop(['Stime'],axis=1).head(5)

Unnamed: 0,VehicleNum,Lng,Lat,OpenStatus,Speed,Speed1
0,22271,114.167,22.718399,0,0,0
1,22271,114.190598,22.6478,0,4,8
2,22271,114.201401,22.6497,0,0,0
3,22271,114.233498,22.725901,0,24,48
4,22271,114.233597,22.7209,0,19,38


In [97]:
#删除列'Stime',注意，此操作不会影响到data，你在操作后必须将得到的表重新赋值给data才有影响
#axis=1表示的是，对列进行删除，如果axis=0，则是对行删除，但是建议不用这个功能对行删除
data = data.drop(['Speed1'],axis=1)
data.head(5)

Unnamed: 0,VehicleNum,Stime,Lng,Lat,OpenStatus,Speed
0,22271,22:54:04,114.167,22.718399,0,0
1,22271,18:26:26,114.190598,22.6478,0,4
2,22271,18:35:18,114.201401,22.6497,0,0
3,22271,16:02:46,114.233498,22.725901,0,24
4,22271,21:41:17,114.233597,22.7209,0,19


## 获取某一列某一行的数据

在获取某行某列的数据时，记得一定要用iloc(按表目前排列的顺序取)，不能用loc(按index取)  
因为很多时候我们做完筛选、排序等操作，表就不是按index来排列，用loc取列就会取错列，或者直接报错（没有这个index）

In [98]:
#获取Stime列的第4行数据
data['Stime'].iloc[3]

'16:02:46'

# 数据清洗

首先，我们将数据按车牌、时间排序，特别要注意，data排序后需要再赋值给data，否则没作用

In [99]:
# 将数据排序,并把排序后的数据赋值给原来的数据
data = data.sort_values(by = ['VehicleNum','Stime'])
data.head(5)

Unnamed: 0,VehicleNum,Stime,Lng,Lat,OpenStatus,Speed
39,22271,00:00:49,114.266502,22.728201,0,0
397,22271,00:01:48,114.266502,22.728201,0,0
1413,22271,00:02:47,114.266502,22.728201,0,0
244,22271,00:03:46,114.266502,22.728201,0,0
247,22271,00:04:45,114.268898,22.7295,0,11


我们现在要做的是，用出租车GPS数据识别OD：
数据按车牌、时间排序后，正常情况下的OpenStatus是这样的：

|OpenStatus |  |
| :-----------: |-----------|
|0||
|0||
|0||
|0||
|0||
|1|←此时乘客上车了|
|1||
|1||
|1||
|1||
|1||
|1||
|0|     ←此时乘客下车了|
|0||
|0||
|0||

但是，也会有时候有数据异常出现，比如：

|OpenStatus |  |
| ----------- |-----------|
|0||
|0||
|0||
|0||
|0||
|1|←异常|
|0||
|0||
|0||
|0||

或者

|OpenStatus |  |
| ----------- |-----------|
|1||
|1||
|1||
|1||
|1||
|0|←异常|
|1||
|1||
|1||
|1||

前后都是0，突然有一条数据变成1，或者前后都是1，突然变成0。这种异常情况我们是要排除的

在pandas的数据处理过程中，我们筛掉不要的数据用下面的方法是最好的

   > data[条件]是保留符合条件的数据  
    data[-(条件)]是删除符合条件的数据

    Series的shift()函数能够将数据按顺序后移一位
    Series的shift(-1)函数能够将数据按顺序前移一位
    因此我们要判断的是，如果：
    后一位和前一位相等，但是后一位与中间一位不等，那么中间一位的数据就要删除（前一条数据，中间一条数据，后一条数据的车牌必须相等）
    
所以，我们立马开始筛选，把异常数据删除：

In [100]:
#筛选前的数据量
len(data)

1601307

In [101]:
###############################你需要在下面写代码##################################
#这里，把上述异常数据清洗出来
#用到的条件是：
#1.后一位和前一位相等
#2.但是后一位与中间一位不等
#3.前一条数据，后一条数据的车牌相等
#4.中间一条数据，后一条数据的车牌相等

#各条件之间的交集可以用
#data[(条件1)&(条件2)]
#各条件之间的并集可以用
#data[(条件1)|(条件2)]


#data = 


###################################################################################

In [102]:
###############################     答    案    ##################################
data = data[-((data['OpenStatus'].shift(-1) == data['OpenStatus'].shift())&
(data['OpenStatus'].shift(-1) != data['OpenStatus'])&
(data['VehicleNum'].shift(-1) == data['VehicleNum'].shift())&
(data['VehicleNum'].shift(-1) == data['VehicleNum']))]

###################################################################################

In [103]:
#如果你代码对的话，筛选完了data的数据量应该是
len(data)

1598866

# 识别OD

## 乘客上下车的状态变化识别

In [104]:
data.head(5)

Unnamed: 0,VehicleNum,Stime,Lng,Lat,OpenStatus,Speed
39,22271,00:00:49,114.266502,22.728201,0,0
397,22271,00:01:48,114.266502,22.728201,0,0
1413,22271,00:02:47,114.266502,22.728201,0,0
244,22271,00:03:46,114.266502,22.728201,0,0
247,22271,00:04:45,114.268898,22.7295,0,11


接下来，我们把下一条数据的信息放到前一条数据上，这样子，就能很方便的比较这条数据和下条数据的差异

在字段名加个1，代表后面一条数据的值

另外我们定义StatusChange为下一条数据的OpenStatus减去这一条数据的OpenStatus，这样就会出现：




|OpenStatus     |   OpenStatus1    |  StatusChange||
| ----------- |-----------|||
|0          |       0    |             0||
|0          |       0    |             0||
|0         |        0    |             0||
|0          |       1    |             1 |    ←此时乘客上车了|
|1          |       1    |             0  |   ←此时乘客上车了|
|1          |       1    |             0||
|1          |       1    |             0||
|1          |       1    |             0||
|1          |       1    |             0||
|1          |       1    |             0||
|1          |       1    |             0||
|1          |       1    |             0||
|1          |       1    |             0||
|1          |       0    |             -1|    ←此时乘客下车了|
|0          |       0    |             0  |  ←此时乘客下车了|
|0          |       0    |             0||
|0          |       0    |             0||
|0          |       0    |             0||

注意到，乘客上车和下车都有两条数据，一般我们认为这两条数据的位置和时间非常接近，都可以认为是下车或者上车的地点

In [105]:
###############################你需要在下面写代码##################################
#让这几个字段的下一条数据赋值给新的字段，在字段名加个1，代表后面一条数据的值
#data.loc[:,'OpenStatus1'] = 
#data.loc[:,'VehicleNum1'] = 
#data.loc[:,'Lng1'] = 
#data.loc[:,'Lat1'] = 
#data.loc[:,'Stime1'] = 

#data.loc[:,'StatusChange'] = 


###################################################################################

In [106]:
###############################     答    案    ##################################
#让这几个字段的下一条数据赋值给新的字段，在字段名加个1，代表后面一条数据的值
data.loc[:,'OpenStatus1'] = data['OpenStatus'].shift(-1)
data.loc[:,'VehicleNum1'] = data['VehicleNum'].shift(-1)
data.loc[:,'Lng1'] = data['Lng'].shift(-1)
data.loc[:,'Lat1'] = data['Lat'].shift(-1)
data.loc[:,'Stime1'] = data['Stime'].shift(-1)

data.loc[:,'StatusChange'] = data['OpenStatus1']-data['OpenStatus']


###################################################################################
data.head(5)

Unnamed: 0,VehicleNum,Stime,Lng,Lat,OpenStatus,Speed,OpenStatus1,VehicleNum1,Lng1,Lat1,Stime1,StatusChange
39,22271,00:00:49,114.266502,22.728201,0,0,0.0,22271.0,114.266502,22.728201,00:01:48,0.0
397,22271,00:01:48,114.266502,22.728201,0,0,0.0,22271.0,114.266502,22.728201,00:02:47,0.0
1413,22271,00:02:47,114.266502,22.728201,0,0,0.0,22271.0,114.266502,22.728201,00:03:46,0.0
244,22271,00:03:46,114.266502,22.728201,0,0,0.0,22271.0,114.268898,22.7295,00:04:45,0.0
247,22271,00:04:45,114.268898,22.7295,0,11,0.0,22271.0,114.272003,22.731199,00:05:44,0.0


## 将上下车状态整理为OD

    这里，我只想保留StatusChange字段为1或者-1的数据，因此要把这些数据筛出来
    不过，还得加一个条件，就是这条数据和下一条数据的车辆ID必须是相同的

In [107]:
###############################你需要在下面写代码##################################
#两个条件：
#1.StatusChange字段为1或者-1
#2.这条数据和下一条数据的车辆ID必须是相同的
#data=

###################################################################################

In [108]:
###############################     答    案    ##################################
data = data[((data['StatusChange'] == 1)|(data['StatusChange'] == -1))
&(data['VehicleNum'] == data['VehicleNum1'])]

###################################################################################
data.head(5)

Unnamed: 0,VehicleNum,Stime,Lng,Lat,OpenStatus,Speed,OpenStatus1,VehicleNum1,Lng1,Lat1,Stime1,StatusChange
1548741,22334,00:00:52,114.11113,22.57675,1,13,0.0,22334.0,114.11113,22.57675,00:01:04,-1.0
1548351,22334,00:07:44,114.080498,22.554182,0,11,1.0,22334.0,114.080498,22.554182,00:07:57,1.0
1549620,22334,00:17:58,114.084915,22.54085,1,2,0.0,22334.0,114.084915,22.54085,00:18:16,-1.0
1547182,22334,00:18:56,114.084915,22.54085,0,0,1.0,22334.0,114.084915,22.54085,00:19:05,1.0
1547627,22334,00:44:47,114.056236,22.633383,1,3,0.0,22334.0,114.056236,22.633383,00:44:52,-1.0


In [109]:
#data数据只保留一些我们需要的字段
data = data[['VehicleNum','Stime','Lng','Lat','StatusChange']]
data.head(5)

Unnamed: 0,VehicleNum,Stime,Lng,Lat,StatusChange
1548741,22334,00:00:52,114.11113,22.57675,-1.0
1548351,22334,00:07:44,114.080498,22.554182,1.0
1549620,22334,00:17:58,114.084915,22.54085,-1.0
1547182,22334,00:18:56,114.084915,22.54085,1.0
1547627,22334,00:44:47,114.056236,22.633383,-1.0


    我们现在就得到了乘客哪里上车，哪里下车。
    而我们想要得到的OD数据形式是，每一行记录包括了信息：车辆ID，上车时间，上车地点，下车时间，下车地点
    这样一行数据就是一个OD
    所以，接下来的操作就是。。。

In [111]:
###############################你需要在下面写代码##################################




###################################################################################
data.head(5)

Unnamed: 0,VehicleNum,Stime,SLng,SLat,ELng,ELat,Etime
1548351,22334,00:07:44,114.080498,22.554182,114.084915,22.54085,00:17:58
1547182,22334,00:18:56,114.084915,22.54085,114.056236,22.633383,00:44:47
1547511,22334,02:38:35,114.091637,22.5432,114.093498,22.554382,02:46:52
1547789,22334,03:58:46,114.038818,22.553232,114.052299,22.604366,04:13:57
1547764,22334,06:30:11,114.03125,22.51955,114.067886,22.521299,06:41:19


In [110]:
###############################     答    案    ##################################
data = data.rename(columns = {'Lng':'SLng','Lat':'SLat'})
data['ELng'] = data['SLng'].shift(-1)
data['ELat'] = data['SLat'].shift(-1)
data['Etime'] = data['Stime'].shift(-1)
data = data[data['StatusChange'] == 1]
data = data.drop('StatusChange',axis = 1)
###################################################################################

    大功告成！接下来就是保存  
    数据文件夹下有一个TaxiOD.csv文件是我用1.7GB的全部数据计算的OD

In [45]:
data.to_csv(r'data-sample\TaxiOD-Sample.csv',index = None)