特情数据的处理

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import matplotlib.ticker as ticker

from datetime import datetime

from IPython.display import display

%matplotlib inline

sns.set(font="simhei")

## 读取数据

读取原始数据，原始文件名是中文，手动改成了英文。

In [84]:
train_s = pd.read_excel('input/train/raw/special-case-201505-201705.xlsx')

display(train_s.head())
train_s.info()

Unnamed: 0,特情机场,收集时间,开始时间,结束时间,特情内容
0,csx,2015-04-30 19:52:45Z,2015-05-01 12:00:00Z,2015-05-01 16:00:00Z,长沙机场航班延误黄色预警提示：预计明日（5月1日）12:00-16:00长沙黄花机场受雷雨天...
1,wuh,2015-05-01 08:13:39Z,2015-05-01 08:00:00Z,2015-05-01 12:00:00Z,目前，8时-12时雷雨，期间进出港航班可能受到影响。
2,khn,2015-05-01 08:14:18Z,2015-05-01 14:00:00Z,2015-05-01 17:00:00Z,预计，14时-17时小雷雨，期间进出港航班可能受到影响。
3,swa,2015-05-01 08:24:28Z,2015-05-01 13:00:00Z,2015-05-01 17:00:00Z,预计，13时-17时雷雨，期间进出港航班可能受到影响。
4,zha,2015-05-01 08:24:56Z,2015-05-01 13:00:00Z,2015-05-01 17:00:00Z,预计，13时-17时雷雨，期间进出港航班可能受到影响。


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15880 entries, 0 to 15879
Data columns (total 5 columns):
特情机场    15877 non-null object
收集时间    15869 non-null object
开始时间    15869 non-null object
结束时间    15862 non-null object
特情内容    15868 non-null object
dtypes: object(5)
memory usage: 620.4+ KB


## 简单处理

名称转换、Airport大写

In [85]:
train_s.columns = ['Airport', 'CTime', 'STime', 'ETime', 'Content']
train_s['Airport'] = train_s['Airport'].str.upper()
train_s.head()

Unnamed: 0,Airport,CTime,STime,ETime,Content
0,CSX,2015-04-30 19:52:45Z,2015-05-01 12:00:00Z,2015-05-01 16:00:00Z,长沙机场航班延误黄色预警提示：预计明日（5月1日）12:00-16:00长沙黄花机场受雷雨天...
1,WUH,2015-05-01 08:13:39Z,2015-05-01 08:00:00Z,2015-05-01 12:00:00Z,目前，8时-12时雷雨，期间进出港航班可能受到影响。
2,KHN,2015-05-01 08:14:18Z,2015-05-01 14:00:00Z,2015-05-01 17:00:00Z,预计，14时-17时小雷雨，期间进出港航班可能受到影响。
3,SWA,2015-05-01 08:24:28Z,2015-05-01 13:00:00Z,2015-05-01 17:00:00Z,预计，13时-17时雷雨，期间进出港航班可能受到影响。
4,ZHA,2015-05-01 08:24:56Z,2015-05-01 13:00:00Z,2015-05-01 17:00:00Z,预计，13时-17时雷雨，期间进出港航班可能受到影响。


## 空值处理

Airport为null的情况

In [86]:
train_s[train_s['Airport'].isnull()]

Unnamed: 0,Airport,CTime,STime,ETime,Content
5045,,,,,
5047,,,,,
6995,,,,,


可以看到，Airport为Null的时候的数据没有任何意义，可以直接丢弃。

In [87]:
train_s.dropna(axis=0, how='all', inplace=True)
train_s.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 15877 entries, 0 to 15879
Data columns (total 5 columns):
Airport    15877 non-null object
CTime      15869 non-null object
STime      15869 non-null object
ETime      15862 non-null object
Content    15868 non-null object
dtypes: object(5)
memory usage: 744.2+ KB


CTime为Null的情况

In [88]:
train_s[train_s['CTime'].isnull()]

Unnamed: 0,Airport,CTime,STime,ETime,Content
3279,，期间进出港航班可能受到影响。,,,,
3988,期间进出港航班可能受到影响。,,,,
5046,2、尽量搭乘地铁前往机场，地铁三号线北延线可直通航站楼；,,,,
5048,3、需自驾前往机场的旅客，如遇塞车请避开机场高速，绕行106国道来机场；此外，也可经广花...,,,,
6042,旅客接收到的格式将是：,,,,
6043,1、特别提醒，明天[城市名][特情]，对您乘坐的13日[出发地]至[目的地]的[航班号]可能...,,,,
6044,2、特别提醒，今天[城市名][特情]，对您乘坐的[出发地]至[目的地]的[航班号]可能会有影响。,,,,
6996,据悉，摆渡车辆为循环行驶，运作时间为03：00--24：00.到达旅客可在8号门乘坐车辆（公...,,,,


明显也是错误数据，直接丢弃

In [89]:
train_s.dropna(axis=0, thresh=4, inplace=True)
train_s.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 15869 entries, 0 to 15879
Data columns (total 5 columns):
Airport    15869 non-null object
CTime      15869 non-null object
STime      15869 non-null object
ETime      15862 non-null object
Content    15868 non-null object
dtypes: object(5)
memory usage: 743.9+ KB


ETime位Null的情况

In [90]:
train_s[train_s['ETime'].isnull()]

Unnamed: 0,Airport,CTime,STime,ETime,Content
1036,YNT,2015-06-13 19:32:07Z,2015-06-13 20:00:00Z,,6月13日，预计20-24时有雷雨，期间进出港航班可能会受影响。
8058,CTU,2016-08-04 18:25:26Z,2016-08-04 19:00:00Z,,成都终端区航班延误黄色预警提示：8月4日，成都终端区19:00-24:00受雷雨天气影响，通...
8538,LZO,2016-08-21 21:26:25Z,2016-08-21 21:00:00Z,,目前泸州机场有雷，期间进出港航班可能会受到影响。
8808,LXA,2016-09-06 22:48:46Z,2016-09-06 23:00:00Z,,目前，拉萨机场有雷，期间进出港航班可能会受到影响。
11917,CTU,2016-12-15 21:39:43Z,2016-12-16 06:00:00Z,,成都机场延误预警：受低能见度天气影响预期影响，12月16日06:00-09:00成都机场通行...
12347,TGO,2016-12-22 19:07:24Z,2016-12-22 19:00:00Z,,目前，通辽机场有小雪，期间进出港航班可能会受到影响。
13733,LLB,2017-01-19 00:28:00Z,2017-01-19 00:01:00Z,,目前，荔波机场能见度低，期间进出港航班可能会受到影响。


部分在Content里面有时间范围的描述，这些我们人工补上ETime。其他的都是“目前”类型的特情，我们默认特情持续1小时。

In [91]:
train_s.loc[1036, 'ETime'] = '2015-06-14 00:00:00Z'
train_s.loc[8058, 'ETime'] = '2016-08-05 00:00:00Z'
train_s.loc[11917, 'ETime'] = '2016-12-16 09:00:00Z'

train_s.loc[8538, 'ETime'] = '2016-08-21 22:00:00Z'
train_s.loc[8808, 'ETime'] = '2016-09-07 00:00:00Z'
train_s.loc[12347, 'ETime'] = '2016-12-22 20:00:00Z'
train_s.loc[13733, 'ETime'] = '2017-01-19 01:00:00Z'

train_s.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 15869 entries, 0 to 15879
Data columns (total 5 columns):
Airport    15869 non-null object
CTime      15869 non-null object
STime      15869 non-null object
ETime      15869 non-null object
Content    15868 non-null object
dtypes: object(5)
memory usage: 1.4+ MB


Content为Null的情况

In [92]:
train_s[train_s['Content'].isnull()]

Unnamed: 0,Airport,CTime,STime,ETime,Content
3246,HGH,2015-12-03 10:31:29Z,2015-12-03 10:17:00Z,2015-12-03 11:00:00Z,


看不出具体内容，暂时保留吧

## 时间探索

时间后面带Z表示是世界标准时间

尝试将时间转出unix时间戳

In [93]:
train_s['CTimeStamp'] = pd.to_datetime(train_s['CTime']).astype(np.int64) // 10 ** 9
train_s['STimeStamp'] = pd.to_datetime(train_s['STime']).astype(np.int64) // 10 ** 9
train_s['ETimeStamp'] = pd.to_datetime(train_s['ETime']).astype(np.int64) // 10 ** 9
display(train_s.head())
train_s.info()

Unnamed: 0,Airport,CTime,STime,ETime,Content,CTimeStamp,STimeStamp,ETimeStamp
0,CSX,2015-04-30 19:52:45Z,2015-05-01 12:00:00Z,2015-05-01 16:00:00Z,长沙机场航班延误黄色预警提示：预计明日（5月1日）12:00-16:00长沙黄花机场受雷雨天...,1430423565,1430481600,1430496000
1,WUH,2015-05-01 08:13:39Z,2015-05-01 08:00:00Z,2015-05-01 12:00:00Z,目前，8时-12时雷雨，期间进出港航班可能受到影响。,1430468019,1430467200,1430481600
2,KHN,2015-05-01 08:14:18Z,2015-05-01 14:00:00Z,2015-05-01 17:00:00Z,预计，14时-17时小雷雨，期间进出港航班可能受到影响。,1430468058,1430488800,1430499600
3,SWA,2015-05-01 08:24:28Z,2015-05-01 13:00:00Z,2015-05-01 17:00:00Z,预计，13时-17时雷雨，期间进出港航班可能受到影响。,1430468668,1430485200,1430499600
4,ZHA,2015-05-01 08:24:56Z,2015-05-01 13:00:00Z,2015-05-01 17:00:00Z,预计，13时-17时雷雨，期间进出港航班可能受到影响。,1430468696,1430485200,1430499600


<class 'pandas.core.frame.DataFrame'>
Int64Index: 15869 entries, 0 to 15879
Data columns (total 8 columns):
Airport       15869 non-null object
CTime         15869 non-null object
STime         15869 non-null object
ETime         15869 non-null object
Content       15868 non-null object
CTimeStamp    15869 non-null int64
STimeStamp    15869 non-null int64
ETimeStamp    15869 non-null int64
dtypes: int64(3), object(5)
memory usage: 1.7+ MB


尝试将unix时间戳再转回去

In [94]:
s = pd.to_datetime(train_s['CTimeStamp'], unit='s')
display(pd.DataFrame({'CTimeStamp': s, 'CTime':train_s['CTime']}).head())

Unnamed: 0,CTime,CTimeStamp
0,2015-04-30 19:52:45Z,2015-04-30 19:52:45
1,2015-05-01 08:13:39Z,2015-05-01 08:13:39
2,2015-05-01 08:14:18Z,2015-05-01 08:14:18
3,2015-05-01 08:24:28Z,2015-05-01 08:24:28
4,2015-05-01 08:24:56Z,2015-05-01 08:24:56


可以看到上面两种互转是ok的，值得注意的是，这里的时间都是标准时间。

时间戳1430423565拿到站长之家上转成北京时间为“2015/5/1 3:52:45”，而我们这里是“2015-04-30 19:52:45”。

注意到有时候Content里面已经说明了特情属于“目前”，但STime却小于CTime，后续处理过程中可能会区分特情属于“目前”还是“预计”，到时候除了CTime与STime的比较外，还需注意Content里面的内容。

In [95]:
train_s[(train_s['CTimeStamp'] < train_s['STimeStamp']) & train_s['Content'].str.match('目前')]


Unnamed: 0,Airport,CTime,STime,ETime,Content,CTimeStamp,STimeStamp,ETimeStamp
49,TPE,2015-05-02 21:38:33Z,2015-05-02 21:40:00Z,2015-05-02 22:40:00Z,目前，台北桃园机场受天气影响，机场较大面积延误，期间航班可能会受到影响。,1430602713,1430602800,1430606400
50,HLD,2015-05-02 21:39:33Z,2015-05-02 21:40:00Z,2015-05-02 23:00:00Z,目前，海拉尔机场雷雨天气，期间航班可能会受到影响。,1430602773,1430602800,1430607600
52,JJN,2015-05-02 22:46:39Z,2015-05-02 23:00:00Z,2015-05-03 03:00:00Z,目前，机场雷雨天气，预计持续到3日3时，期间航班可能会受到影响。,1430606799,1430607600,1430622000
105,HAK,2015-05-05 20:53:38Z,2015-05-05 21:00:00Z,2015-05-05 22:00:00Z,目前，海口机场雷雨天气，期间进出港航班可能会受影响。,1430859218,1430859600,1430863200
106,CAN,2015-05-05 20:54:38Z,2015-05-05 21:00:00Z,2015-05-05 23:00:00Z,目前，广州机场受雷雨天气影响，机场较大面积延误，期间进出港航班可能会受影响。,1430859278,1430859600,1430866800
130,XIY,2015-05-06 18:24:33Z,2015-05-06 18:30:00Z,2015-05-06 19:30:00Z,目前机场受雷雨影响，已出现部分航班延误，预计19:30后天气会有所好转,1430936673,1430937000,1430940600
131,CAN,2015-05-06 18:26:36Z,2015-05-06 18:30:00Z,2015-05-06 20:00:00Z,目前机场受雷雨影响，已出现大面积航班延误，预计20:00后天气会有所好转,1430936796,1430937000,1430942400
520,TPE,2015-05-22 22:53:06Z,2015-05-22 23:00:00Z,2015-05-22 23:59:00Z,目前，机场大面积航班延误，期间进出港航班可能受到影响。,1432335186,1432335600,1432339140
544,ZUH,2015-05-24 15:57:37Z,2015-05-24 16:00:00Z,2015-05-24 17:00:00Z,目前，机场受雷天气影响，已有航班备降。,1432483057,1432483200,1432486800
1446,WNZ,2015-07-10 11:47:11Z,2015-07-10 12:30:00Z,2015-07-10 18:00:00Z,目前，机场受到台风影响，已有进出港航班取消，部分取消班次不补班。旅客朋友及时关注，合理安排您...,1436528831,1436531400,1436551200


## 保存

In [96]:
train_s.to_csv('input/train/special-case.csv', index=False, encoding='utf-8')