# 数据处理

# 导入包

In [1]:
import pandas as pd
import numpy as np
import datetime

# 导入数据和总览

In [17]:
inputfile = '../datasets/data.csv'
outputfile = '../datasets/data_processed.csv'

In [18]:
data = pd.read_csv(inputfile,parse_dates=['time_stamp'])

In [39]:
df = data.copy()

In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 229137 entries, 0 to 229136
Data columns (total 3 columns):
time_stamp       229137 non-null datetime64[ns]
loc_id           229137 non-null int64
num_of_people    229137 non-null int64
dtypes: datetime64[ns](1), int64(2)
memory usage: 5.2 MB


# 缺失值填充

## 1. 构造空结构
* 1/2月份数据异常严重，暂去掉

In [40]:
cols = ['time_stamp','loc_id']
dt_range = pd.date_range('2017-03-01 00','2017-10-31 23',freq='H')
blank = pd.DataFrame(columns=cols)
locID = np.arange(1,34)
for dt in dt_range:
    p = pd.DataFrame({'time_stamp':dt,'loc_id':locID},columns=cols)
    blank = blank.append(p)

In [41]:
# 去掉1月和2月
df = df[(df.time_stamp>='2017-03-01')]

In [54]:
print("缺失数据大小为：%s"%(blank.shape[0]-df.shape[0]))

缺失数据大小为：10187


## 2. 填充缺失值
* 用同一地点上一时刻的非空值人数
* 0

In [55]:
mergedata = blank.merge(df,how='outer')

In [56]:
mergedata.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 194040 entries, 0 to 194039
Data columns (total 3 columns):
time_stamp       194040 non-null datetime64[ns]
loc_id           194040 non-null object
num_of_people    183853 non-null float64
dtypes: datetime64[ns](1), float64(1), object(1)
memory usage: 5.9+ MB


In [57]:
mergedata.to_csv('../datasets/data_null.csv',index=False)

In [45]:
mergedata.sort_values(by=['loc_id','time_stamp'],inplace=True)

In [None]:
# 去掉国庆
mergedata = mergedata[(mergedata.time_stamp<'2017-10-01')|(mergedata.time_stamp>='2017-10-09')]

In [46]:
mergedata.fillna(method='ffill',inplace=True)
mergedata.fillna(0,inplace=True)

In [31]:
mergedata.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 194040 entries, 0 to 194039
Data columns (total 3 columns):
time_stamp       194040 non-null datetime64[ns]
loc_id           194040 non-null int64
num_of_people    194040 non-null float64
dtypes: datetime64[ns](1), float64(1), int64(1)
memory usage: 5.9 MB


In [128]:
# 去掉1月
# mergedata = mergedata[(mergedata.time_stamp>='2017-03')]

In [47]:
mergedata.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 194040 entries, 0 to 194039
Data columns (total 3 columns):
time_stamp       194040 non-null datetime64[ns]
loc_id           194040 non-null int64
num_of_people    194040 non-null float64
dtypes: datetime64[ns](1), float64(1), int64(1)
memory usage: 5.9 MB


In [49]:
mergedata.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 187704 entries, 0 to 194039
Data columns (total 3 columns):
time_stamp       187704 non-null datetime64[ns]
loc_id           187704 non-null int64
num_of_people    187704 non-null float64
dtypes: datetime64[ns](1), float64(1), int64(1)
memory usage: 5.7 MB


# 异常值处理
* 分位数0.1以下和0.9以上认为是异常值

In [50]:
mergedata_copy = mergedata.copy()

In [51]:
res = data_outliers_processing(mergedata_copy)

处理前最小值：0.0，最大值：1448.0
处理后最小值：39.0，最大值：917.0
处理前最小值：1.0，最大值：2006.0


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  self.obj[item] = s


处理后最小值：81.0，最大值：1148.0
处理前最小值：1.0，最大值：3143.0
处理后最小值：7.0，最大值：2096.0
处理前最小值：1.0，最大值：1383.0
处理后最小值：12.0，最大值：942.0
处理前最小值：1.0，最大值：1320.0
处理后最小值：30.0，最大值：842.0
处理前最小值：1.0，最大值：1788.0
处理后最小值：11.0，最大值：1161.0
处理前最小值：1.0，最大值：617.0
处理后最小值：12.0，最大值：479.0
处理前最小值：1.0，最大值：8382.0
处理后最小值：10.0，最大值：6008.0
处理前最小值：1.0，最大值：794.0
处理后最小值：10.0，最大值：455.0
处理前最小值：1.0，最大值：6630.0
处理后最小值：4.0，最大值：3578.0
处理前最小值：1.0，最大值：2145.0
处理后最小值：33.0，最大值：1050.0
处理前最小值：1.0，最大值：9939.0
处理后最小值：9.0，最大值：6348.0
处理前最小值：1.0，最大值：931.0
处理后最小值：3.0，最大值：615.0
处理前最小值：1.0，最大值：1193.0
处理后最小值：3.0，最大值：746.0
处理前最小值：1.0，最大值：2626.0
处理后最小值：4.0，最大值：956.0
处理前最小值：1.0，最大值：2033.0
处理后最小值：3.0，最大值：1062.0
处理前最小值：1.0，最大值：1901.0
处理后最小值：21.0，最大值：1375.0
处理前最小值：1.0，最大值：1522.0
处理后最小值：70.0，最大值：904.0
处理前最小值：2.0，最大值：1941.0
处理后最小值：30.0，最大值：927.0
处理前最小值：2.0，最大值：2852.0
处理后最小值：8.0，最大值：2002.0
处理前最小值：2.0，最大值：1611.0
处理后最小值：30.0，最大值：1127.0
处理前最小值：1.0，最大值：1080.0
处理后最小值：1.0，最大值：636.0
处理前最小值：1.0，最大值：1445.0
处理后最小值：40.0，最大值：737.0
处理前最小值：1.0，最大值：2999.0
处理后最小值：1.0，最大值：1405.0
处理前最小值：2.0，

In [52]:
res.head()

Unnamed: 0,time_stamp,loc_id,num_of_people
0,2017-03-01 00:00:00,1,39.0
33,2017-03-01 01:00:00,1,39.0
66,2017-03-01 02:00:00,1,54.0
99,2017-03-01 03:00:00,1,456.0
132,2017-03-01 04:00:00,1,470.0


# 导出数据

In [53]:
mergedata.to_csv(outputfile,index=False)

# 公共函数

In [36]:
def data_outliers_processing(data):
    res = [None]*33
    df = data.copy()
    df.sort_values(by=['loc_id','time_stamp'],inplace=True)
    for i in range(33):
        res[i] = df.loc[df.loc_id == i+1]
    train = pd.DataFrame()
    for tmp in res:
        print("处理前最小值：%s，最大值：%s"%(tmp.num_of_people.quantile(0),tmp.num_of_people.quantile(1)))
        minimum = tmp.num_of_people.quantile(0.02)
        maximum = tmp.num_of_people.quantile(0.99)
        tmp.loc[tmp.num_of_people<minimum,'num_of_people'] = int(minimum)
        tmp.loc[tmp.num_of_people>maximum] = int(maximum)
        print("处理后最小值：%s，最大值：%s"%(tmp.num_of_people.quantile(0),tmp.num_of_people.quantile(1)))
        train = train.append(tmp)
    return train