# 数据处理
* 数据来源：../datasets/data.csv
* 代码内容：处理数据的缺失值和异常值，保存为数据处理后的csv文件

# 导入包

In [1]:
import pandas as pd
import numpy as np
import datetime

# 导入数据和总览

In [23]:
inputfile = '../datasets/data.csv'
inputfile_nov = '../datasets/data_nov.csv' # 11月份数据
outputfile = '../datasets/data_processed.csv'

In [24]:
data = pd.read_csv(inputfile,parse_dates=['time_stamp'])
data_nov = pd.read_csv(inputfile_nov,parse_dates=['time_stamp'])

In [25]:
data = data.append(data_nov)

In [26]:
df = data.copy()

In [27]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 252013 entries, 0 to 22875
Data columns (total 3 columns):
time_stamp       252013 non-null datetime64[ns]
loc_id           252013 non-null int64
num_of_people    252013 non-null int64
dtypes: datetime64[ns](1), int64(2)
memory usage: 7.7 MB


# 缺失值填充

## 1. 构造空结构

In [28]:
cols = ['time_stamp','loc_id']
dt_range = pd.date_range('2017-01-01 00','2017-11-30 23',freq='H')
blank = pd.DataFrame(columns=cols)
locID = np.arange(1,34)
for dt in dt_range:
    p = pd.DataFrame({'time_stamp':dt,'loc_id':locID},columns=cols)
    blank = blank.append(p)

In [29]:
blank.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 264528 entries, 0 to 32
Data columns (total 2 columns):
time_stamp    264528 non-null datetime64[ns]
loc_id        264528 non-null object
dtypes: datetime64[ns](1), object(1)
memory usage: 6.1+ MB


In [30]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 252013 entries, 0 to 22875
Data columns (total 3 columns):
time_stamp       252013 non-null datetime64[ns]
loc_id           252013 non-null int64
num_of_people    252013 non-null int64
dtypes: datetime64[ns](1), int64(2)
memory usage: 7.7 MB


In [31]:
print("缺失数据大小为：%s"%(blank.shape[0]-df.shape[0]))

缺失数据大小为：12515


## 2. 填充缺失值
* 用同一地点上一时刻的非空值人数

In [44]:
# 与完整的空结构合并
mergedata = blank.merge(df,how='outer')

In [45]:
mergedata.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 264528 entries, 0 to 264527
Data columns (total 3 columns):
time_stamp       264528 non-null datetime64[ns]
loc_id           264528 non-null object
num_of_people    252013 non-null float64
dtypes: datetime64[ns](1), float64(1), object(1)
memory usage: 8.1+ MB


In [47]:
# 缺失值填充
# mergedata.fillna(method='ffill',inplace=True)
mergedata.fillna(-1,inplace=True)
%time mergedata = week_fullNa(mergedata)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  if __name__ == '__main__':


Wall time: 14min 47s


In [37]:
# 检验缺失值
mergedata[mergedata.num_of_people == -1]

Unnamed: 0,time_stamp,loc_id,num_of_people


In [39]:
mergedata.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 264528 entries, 0 to 264527
Data columns (total 3 columns):
time_stamp       264528 non-null datetime64[ns]
loc_id           264528 non-null int64
num_of_people    264528 non-null float64
dtypes: datetime64[ns](1), float64(1), int64(1)
memory usage: 18.1 MB


# 异常值处理
* 分位数0.1以下和0.9以上认为是异常值

In [20]:
mergedata_copy = mergedata.copy()

In [21]:
res = data_outliers_processing(mergedata_copy)

处理前最小值：1.0，最大值：2396.0
处理后最小值：50.0，最大值：1294.0
处理前最小值：1.0，最大值：3641.0


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  self.obj[item] = s


处理后最小值：87.0，最大值：1267.0
处理前最小值：1.0，最大值：3143.0
处理后最小值：9.0，最大值：2209.0
处理前最小值：-1.0，最大值：2275.0
处理后最小值：14.0，最大值：1126.0
处理前最小值：1.0，最大值：3641.0
处理后最小值：44.0，最大值：1024.0
处理前最小值：-1.0，最大值：2504.0
处理后最小值：13.0，最大值：1455.0
处理前最小值：-1.0，最大值：2179.0
处理后最小值：14.0，最大值：740.0
处理前最小值：1.0，最大值：9464.0
处理后最小值：13.0，最大值：6753.0
处理前最小值：-1.0，最大值：3619.0
处理后最小值：12.0，最大值：841.0
处理前最小值：1.0，最大值：7747.0
处理后最小值：5.0，最大值：4318.0
处理前最小值：1.0，最大值：5309.0
处理后最小值：36.0，最大值：1397.0
处理前最小值：1.0，最大值：11878.0
处理后最小值：10.0，最大值：7269.0
处理前最小值：1.0，最大值：3476.0
处理后最小值：4.0，最大值：846.0
处理前最小值：1.0，最大值：5309.0
处理后最小值：4.0，最大值：963.0
处理前最小值：1.0，最大值：5896.0
处理后最小值：5.0，最大值：1247.0
处理前最小值：1.0，最大值：3233.0
处理后最小值：3.0，最大值：1147.0
处理前最小值：1.0，最大值：3863.0
处理后最小值：23.0，最大值：1598.0
处理前最小值：1.0，最大值：5896.0
处理后最小值：94.0，最大值：1094.0
处理前最小值：1.0，最大值：3233.0
处理后最小值：36.0，最大值：993.0
处理前最小值：1.0，最大值：3863.0
处理后最小值：9.0，最大值：2169.0
处理前最小值：1.0，最大值：3912.0
处理后最小值：31.0，最大值：1274.0
处理前最小值：1.0，最大值：3233.0
处理后最小值：1.0，最大值：721.0
处理前最小值：1.0，最大值：3863.0
处理后最小值：42.0，最大值：945.0
处理前最小值：1.0，最大值：3912.0
处理后最小值：1.0，最大值：1553.

# 导出数据

In [23]:
res.to_csv(outputfile,index=False)

# 公共函数

In [48]:
def week_fullNa(mergedata1):
    mergedata=mergedata1.copy()
    for i in range(len(mergedata)):
        if i<5544:
            if mergedata.num_of_people[i]==-1:
                mergedata.num_of_people[i]=mergedata.num_of_people[i+5544]
        else:
            if mergedata.num_of_people[i]==-1:
                mergedata.num_of_people[i]=mergedata.num_of_people[i-5544]
    return mergedata

In [8]:
def data_outliers_processing(data):
    res = [None]*33
    df = data.copy()
    df.sort_values(by=['loc_id','time_stamp'],inplace=True)
    for i in range(33):
        res[i] = df.loc[df.loc_id == i+1]
    train = pd.DataFrame()
    for tmp in res:
        print("处理前最小值：%s，最大值：%s"%(tmp.num_of_people.quantile(0),tmp.num_of_people.quantile(1)))
        minimum = tmp.num_of_people.quantile(0.02)
        maximum = tmp.num_of_people.quantile(0.99)
        tmp.loc[tmp.num_of_people<minimum,'num_of_people'] = int(minimum)
        tmp.loc[tmp.num_of_people>maximum] = int(maximum)
        print("处理后最小值：%s，最大值：%s"%(tmp.num_of_people.quantile(0),tmp.num_of_people.quantile(1)))
        train = train.append(tmp)
    return train