数据来源：data-sample文件夹下，原始数据集的抽样500辆车的数据

## 1.读取数据

In [40]:
import pandas as pd
#读取数据
data = pd.read_csv(r'data-sample/TaxiData-Sample',header = None)
#给数据命名列
data.columns = ['VehicleNum', 'Stime', 'Lng', 'Lat', 'OpenStatus', 'Speed']

In [23]:
#显示数据的前5行
data.head(5)

Unnamed: 0,VehicleNum,Stime,Lng,Lat,OpenStatus,Speed
0,22271,22:54:04,114.167,22.718399,0,0
1,22271,18:26:26,114.190598,22.6478,0,4
2,22271,18:35:18,114.201401,22.6497,0,0
3,22271,16:02:46,114.233498,22.725901,0,24
4,22271,21:41:17,114.233597,22.7209,0,19


数据的格式：

VehicleNum —— 车牌  
Stime —— 时间  
Lng —— 经度  
Lat —— 纬度  
OpenStatus —— 是否有乘客(0没乘客，1有乘客)  
Speed —— 速度  

## 2.数据的基本操作

### 2.1DataFrame和Series
当我们读一个数据的时候，我们读进来的就是DataFrame格式的数据表，而一个DataFrame中的每一列，则为一个Series
也就是说，DataFrame由多个Series组成

In [5]:
type(data)

pandas.core.frame.DataFrame

如果我们想取DataFrame的某一列，想得到的是Series，那么直接用以下代码:

`data[列名]`

In [6]:
data['Lng']

0          114.167000
1          114.190598
2          114.201401
3          114.233498
4          114.233597
              ...    
1601302    114.160149
1601303    114.164551
1601304    114.168015
1601305    114.168015
1601306    114.170647
Name: Lng, Length: 1601307, dtype: float64

如果我们想取DataFrame的某一列或者某几列，想得到的是DataFrame，那么直接用以下代码

`data2[[列名,列名]]`

In [7]:
data[['Lng','Lat']]

Unnamed: 0,Lng,Lat
0,114.167000,22.718399
1,114.190598,22.647800
2,114.201401,22.649700
3,114.233498,22.725901
4,114.233597,22.720900
...,...,...
1601302,114.160149,22.606934
1601303,114.164551,22.605118
1601304,114.168015,22.606083
1601305,114.168015,22.606083


### 2.2数据的筛选

在筛选数据的时候，我们一般用data[条件]的格式  
其中的条件，是对data每一行数据的true和false布尔变量的Series  
例如，我们想得到车牌照为22271的所有数据  

In [3]:
#得到车牌照为22271的所有数据
data[data['VehicleNum']==22271].head(5)

Unnamed: 0,VehicleNum,Stime,Lng,Lat,OpenStatus,Speed
0,22271,22:54:04,114.167,22.718399,0,0
1,22271,18:26:26,114.190598,22.6478,0,4
2,22271,18:35:18,114.201401,22.6497,0,0
3,22271,16:02:46,114.233498,22.725901,0,24
4,22271,21:41:17,114.233597,22.7209,0,19


如果我们想要对data删去所有牌照为22271的数据，所需要的操作也很简单：  

`data[-(条件)]`  

不要用data.drop()来删数据，，data.drop()只在你想删除某一列的时候用

In [41]:
#删除车牌照为22271的所有数据
data1=data
data1=data1[-(data1['VehicleNum']==22271)]  #注意一定再对data1赋值后删除才生效


In [42]:
#验证是否被删除
data1[data1['VehicleNum']==22271]

Unnamed: 0,VehicleNum,Stime,Lng,Lat,OpenStatus,Speed


### 2.3获取/删除/定义DataFrame的某一列

In [43]:
#获取列'Stime',注意，此操作不会影响到data，你在操作后必须将得到的表重新赋值给data才有影响
data[['Stime']].head(5)

Unnamed: 0,Stime
0,22:54:04
1,18:26:26
2,18:35:18
3,16:02:46
4,21:41:17


In [44]:
#定义列'Speed1'为Speed列的两倍,注意，此操作会影响到data
data['Speed1']=data['Speed']*2
#或者
data.loc[:,'Speed1']=data['Speed']*2

data.head(5)

Unnamed: 0,VehicleNum,Stime,Lng,Lat,OpenStatus,Speed,Speed1
0,22271,22:54:04,114.167,22.718399,0,0,0
1,22271,18:26:26,114.190598,22.6478,0,4,8
2,22271,18:35:18,114.201401,22.6497,0,0,0
3,22271,16:02:46,114.233498,22.725901,0,24,48
4,22271,21:41:17,114.233597,22.7209,0,19,38


In [45]:
#删除列'Stime',注意，此操作不会影响到data，你在操作后必须将得到的表重新赋值给data才有影响
data.drop(['Stime'],axis=1).head(5)

Unnamed: 0,VehicleNum,Lng,Lat,OpenStatus,Speed,Speed1
0,22271,114.167,22.718399,0,0,0
1,22271,114.190598,22.6478,0,4,8
2,22271,114.201401,22.6497,0,0,0
3,22271,114.233498,22.725901,0,24,48
4,22271,114.233597,22.7209,0,19,38


In [46]:
#删除列'Stime',注意，此操作不会影响到data，你在操作后必须将得到的表重新赋值给data才有影响
#axis=1表示的是，对列进行删除，如果axis=0，则是对行删除，但是建议不用这个功能对行删除
data = data.drop(['Speed1'],axis=1)
data.head(5)

Unnamed: 0,VehicleNum,Stime,Lng,Lat,OpenStatus,Speed
0,22271,22:54:04,114.167,22.718399,0,0
1,22271,18:26:26,114.190598,22.6478,0,4
2,22271,18:35:18,114.201401,22.6497,0,0
3,22271,16:02:46,114.233498,22.725901,0,24
4,22271,21:41:17,114.233597,22.7209,0,19


### 2.4获取某一列某一行的数据
在获取某行某列的数据时，记得一定要用iloc(按表目前排列的顺序取)，不能用loc(按index取)
因为很多时候我们做完筛选、排序等操作，表就不是按index来排列，用loc取列就会取错列，或者直接报错（没有这个index）

In [47]:
#获取Stime列的第4行数据
data['Stime'].iloc[3]

'16:02:46'

## 3.数据清洗  
首先，我们将数据按车牌、时间排序，特别要注意，data排序后需要再赋值给data，否则没作用

In [48]:
# 将数据排序,并把排序后的数据赋值给原来的数据
data = data.sort_values(by = ['VehicleNum','Stime'])
data.head(5)

Unnamed: 0,VehicleNum,Stime,Lng,Lat,OpenStatus,Speed
39,22271,00:00:49,114.266502,22.728201,0,0
397,22271,00:01:48,114.266502,22.728201,0,0
1413,22271,00:02:47,114.266502,22.728201,0,0
244,22271,00:03:46,114.266502,22.728201,0,0
247,22271,00:04:45,114.268898,22.7295,0,11


对于出租车GPS数据，OpenStatus表示出租车状态，  
前后都是0，突然有一条数据变成1，或者前后都是1，突然变成0。这种异常情况我们是要排除的

在pandas的数据处理过程中，我们筛掉不要的数据用下面的方法是最好的

`data[条件]是保留符合条件的数据`
`data[-(条件)]是删除符合条件的数据`

Series的shift()函数能够将数据按顺序后移一位
Series的shift(-1)函数能够将数据按顺序前移一位
因此我们要判断的是，如果：
后一位和前一位相等，但是后一位与中间一位不等，那么中间一位的数据就要删除（前一条数据，中间一条数据，后一条数据的车牌必须相等）

In [49]:
#筛选前的数据量
len(data)

1601307

In [50]:
data = data[
-((data['OpenStatus'].shift(-1) == data['OpenStatus'].shift())&(data['OpenStatus'].shift(-1) != data['OpenStatus'])&
(data['VehicleNum'].shift(-1) == data['VehicleNum'].shift())&(data['VehicleNum'].shift(-1) == data['VehicleNum']))]

In [51]:
#如果你代码对的话，筛选完了data的数据量应该是
len(data)

1598866