# 实验介绍
## 实验背景
根据用户的用水行为，识别出用户的洗浴行为。厂商可对热水器进行优化改进。对不同客户群提供个性化产品、改进产品智能化和制定相应营销策略。
本实验的精彩之处在于如何对原始数据进行时间序列化处理，来构造模型数据。

## 实验目标

1） 根据热水器采集到的数据，划分一次完整用水事件。
2） 在划分好的一次完整的用水事件中，识别出洗浴事件。

在本次实验中，我们使用到的原始数据集如下图：
（插图）
我们将根据水流量和停顿时间间隔划分为不同大小的时间区间，每个区间是一次可理解的一次完整用水事件。并从其中识别出属于洗浴的事件。

## 实验步骤

实验步骤如下：
（插图）
1） 对热水用户的历史用水数据进行选择性抽取，构建专家样本。 
2） 对步骤1形成的数据集进行数据探索与预处理。包括探索用水时间时间间隔的分布，规约冗余属性、识别用水数据的缺失值，并对缺失值进行处理，根据建模的需要进行属性构造等。 
3） 在步骤2的建模样数据基础上，建立洗浴事件识别模型，对洗浴事件识别模型进行分析评价。 
4） 对步骤3形成的模型结果应用并对洗浴事件划分进行优化。 
5） 调用洗浴时间识别模型，对实时监控的热水器流水数据进行洗浴时间自动识别。

# 数据处理
## 数据抽取

由于数据量比较大，对原始数据采用无放回随机抽样200家用户2014.1.1——2014.12.31的用水记录建模。抽取后的数据总共包括12个属性：热水器编码、发生时间、开关状态、加热中、保温中、有无水流、实际温度、热水量、水流量、节能模式、加热剩余时间、当前设置温度。

## 数据探索分析

对于抽取后的数据，我们需要对两次水流量不为0的用水记录的时间间隔进行统计分析。用水停顿时间间隔定义为一条水流量不为0的流水记录同下一条水流量不为0的流水记录之间的时间间隔。通过分析用户用水停顿时间间隔的规律性，从而设定划分一次完整用水事件的时间间隔阈值。


In [82]:
import pandas as pd

filepath = '../data/original_data.xls'

data = pd.read_excel(filepath,encoding='utf-8')

data[u'发生时间'] = pd.to_datetime(data[u'发生时间'],format='%Y%m%d%H%M%S')
data = data[data[u'水流量'] > 0]
#d = data[u'发生时间'].diff()
timediff = (data[u'发生时间'].diff().dt.seconds/60).astype(float)

d = pd.DataFrame(timediff)

d.loc[((d[u"发生时间"]>0)&(d[u"发生时间"]<0.1)),'0-0.1']=1
d.loc[((d[u"发生时间"]>=0.1)&(d[u"发生时间"]<0.2)),'0.1-0.2']=1
d.loc[((d[u"发生时间"]>=0.2)&(d[u"发生时间"]<0.3)),'0.2-0.3']=1
d.loc[((d[u"发生时间"]>=0.3)&(d[u"发生时间"]<0.5)),'0.3-0.5']=1
d.loc[((d[u"发生时间"]>=0.5)&(d[u"发生时间"]<1)),'0.5-1']=1
d.loc[((d[u"发生时间"]>=1)&(d[u"发生时间"]<2)),'1-2']=1
d.loc[((d[u"发生时间"]>=2)&(d[u"发生时间"]<3)),'2-3']=1
d.loc[((d[u"发生时间"]>=3)&(d[u"发生时间"]<4)),'3-4']=1
d.loc[((d[u"发生时间"]>=4)&(d[u"发生时间"]<5)),'4-5']=1
d.loc[((d[u"发生时间"]>=5)&(d[u"发生时间"]<6)),'5-6']=1
d.loc[((d[u"发生时间"]>=6)&(d[u"发生时间"]<7)),'6-7']=1
d.loc[((d[u"发生时间"]>=7)&(d[u"发生时间"]<8)),'7-8']=1
d.loc[((d[u"发生时间"]>=8)&(d[u"发生时间"]<9)),'8-9']=1
d.loc[((d[u"发生时间"]>=9)&(d[u"发生时间"]<10)),'9-10']=1
d.loc[((d[u"发生时间"]>=10)&(d[u"发生时间"]<11)),'10-11']=1
d.loc[((d[u"发生时间"]>=11)&(d[u"发生时间"]<12)),'11-12']=1
d.loc[((d[u"发生时间"]>=12)&(d[u"发生时间"]<13)),'12-13']=1
d.loc[(d[u"发生时间"]>=13),'13']=1



d = pd.DataFrame(d.sum()).T
d.iloc[:,1:].apply(lambda x:x/data.shape[0]*100)
#hist绘制直方图，对每一列显示单独一个直方图

d.to_excel('../tmp/frequency_count.xls')

通过对数据的操作，我们可以看出停顿时间间隔在0-0.3分钟的频率很高，结合日常经验可以判断该间隔应归为一次用水时间中的停顿；停顿时间间隔为6-13分钟的频率较低，分析其为两次用水事件之间的停顿间隔。两次用水事件的停顿时间间隔分布在3-7分钟。

## 数据预处理

观察我们的数据可知，依旧存在数据的普遍问题，缺失值处理，与实验目标无关的属性等。本实验我们针对这些情况相应地应用了缺失值处理、数据规约和属性构造等方法。

### 数据规约

属性规约：将与判定用户洗浴行为无关的属性去除。剩余9个属性:发生时间、开关状态、加热中、保温中、实际温度、热水量、水流量、加热剩余时间、当前设置温度 
数值规约：数据中，“开关机状态”为“关”，且水流量为0时，此时热水器不处于工作状态，数据记录可以丢弃。

In [103]:
data = pd.read_excel(filepath,encoding='utf-8')

data[u'发生时间'] = pd.to_datetime(data[u'发生时间'],format='%Y%m%d%H%M%S')

index1 = data[u'开关机状态'] != '关'
index2 = data[u'水流量'].astype(int) != 0
reduct_data = data[index1 | index2].copy()
reduct_data = reduct_data[[u'发生时间',u'开关机状态',u'加热中',u'保温中',u'实际温度',u'热水量',u'水流量',u'加热剩余时间',u'当前设置温度']]


reduct_data.to_excel('../tmp/water_data.xls',index=False)

### 数据变换

由于本实验的挖掘目标是对用户行为中的洗浴事件进行识别，这就需要从用户的各种用水事件（洗漱，洗菜，刷碗和洗澡等）中识别出洗浴事件。首先则是要先识别出一次完整的用水事件。
一次完整的用水事件是根据水流量和停顿时间间隔的阈值来划分的。根据上节对用户用水时间间隔的规律分析，将阈值暂定为4。

1）划分一次完整的用水事件
水流量不为0，表示用户正在用水；水流量为0，表示用户用水停顿或者停止用水。
如果水流量为0的状态超过阈值T，则从该段水流量为0的状态向前寻找最后一条水流量不为0的用水记录作为上次用水事件的结束；向后寻找水流量不为0的用水记录作为下次用水事件的开始。

划分步骤： 
1 读取数据，识别第一条用水记录不为0的数据记录为R1，按顺序识别下一条水流量不为0的记录为R2； 
2 若gap_i > T，则R_i+1与R_i之间的记录不能划分到同一次用水事件中，将R_i+1作为新的读取数据记录的开始； 若gap_i < T，则R_i+1与R_i之间的记录划分到同一次用水事件中，并将接下来水流量不为0的数据记录为R_i+2 
3 循环执行步骤2，直到数据读取完毕，结束事件划分

In [118]:
threshold = pd.Timedelta(minutes = 4)
data = pd.read_excel('../tmp/water_data.xls',encoding = 'utf-8')
data[u'发生时间'] = pd.to_datetime(data[u'发生时间'],format='%Y%m%d%H%M%S')
data = data[data[u'水流量'] > 0]

d = data[u'发生时间'].diff() > threshold
data[u'事件编号'] = d.cumsum() + 1

data.to_excel('../tmp/divideAction.xls',index=False)


172


2)用水事件阈值寻优模型

在上一节中，我们将时间间隔的阈值设为4。但这只是我们对数据简单统计分析后得到的结果。本节就阈值来更新寻找最优的阈值。
由于地域问题，人们对热水器的使用习惯不同；根据季节变化和时间的不同，对热水器的使用也有相应的变化。

使用不同的阈值，会得到不同的划分事件结果数：


In [8]:
%matplotlib
def findsum(threshold):
    d = data[u'发生时间'].diff() > threshold
    #data[u'事件编号'] = d.cumsum() + 1
    #return data[u'事件编号'].tolist()[-1]
    return d.sum() + 1

dt = [pd.Timedelta(minutes = i/100) for i in range(100,900,25)]
h = pd.DataFrame(dt,columns = [u'阈值'])
h[u'事件数'] = h[u'阈值'].apply(findsum)

import matplotlib.pyplot as plt
#显示中文
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

plt.plot(np.arange(1,9,0.25), h[u'事件数'])
plt.xlabel(u'阈值')
plt.ylabel(u'事件数')
plt.show()

Using matplotlib backend: Qt5Agg


从阈值与事件数的关系图可以看出，在某段阈值范围内，下降趋势明显，说明在该段阈值范围内，用户的停顿习惯比较集中。在阈值4-5之间，曲线的斜率趋于稳定，说明这段时间内用户的停顿习惯趋于稳定。所以取平缓的时间段中的开始时间作为阈值，既不会将短的用水事件合并，又不会将长的用水事件拆开。

接下来，我们使用python对用户的用水数据划分阈值进行寻优。寻优区间在1分钟-9分钟。
在寻优过程中，以曲线的斜率为指标。即寻找所有阈值中斜率指标最小的阈值。此处使用一个专家阈值5。如果该阈值的斜率指标小于5，则取该阈值作为用水事件划分的阈值；如果该阈值的斜率指标不小于5，则阈值取默认值4分钟。


In [15]:
#-*- coding:utf-8 -*-
import numpy as np
import pandas as pd

inpath = '../tmp/water_data.xls'

n = 4 #此处使用每个点后的4个点来计算该点的斜率指标

threshold = pd.Timedelta(minutes = 5) #专家阈值

data = pd.read_excel(inpath,encoding='utf-8')
data[u'发生时间'] = pd.to_datetime(data[u'发生时间'],format='%Y%m%d%H%M%S')
data = data[data[u'水流量'] > 0]

def event_sum(ts):
    d = data[u'发生时间'].diff() > ts
    return d.sum() + 1

dt = [pd.Timedelta(minutes = i) for i in np.arange(1,9,0.25)]
h = pd.DataFrame(dt,columns = [u'阈值'])
h[u'事件数'] = h[u'阈值'].apply(event_sum)
h[u'斜率'] = h[u'事件数'].diff()/0.25 #计算每两个相邻点对应的斜率
#h[u'斜率指标'] = pd.rolling_mean(h[u'斜率'].abs(),n) #使用后n个的斜率绝对值平均作为斜率指标
h[u'斜率指标'] = h[u'斜率'].abs().rolling(n).mean()

ts = h[u'阈值'][h[u'斜率指标'].idxmin() - n]
#idxmin返回最小值的Index,由于rolling_mean()自动计算前n个斜率的绝对值平均值，所以结果要平移（-n）

if ts > threshold:
    ts = pd.Timedelta(minutes = 4)
    
print(ts)

0 days 00:04:00


根据我们的寻优代码，得到该段时间用水事件划分的最优阈值为4分钟。
3）属性构造
根据我们的研究目标，设定4类指标：时长指标、频率指标、用水量化指标、用水波动指标。
（插图）
4）筛选出“候选洗浴事件”

从已经划分好的用水事件中识别出洗浴事件 
首先用3个比较宽松的条件筛选掉那些非常短暂的用水事件，这3个条件是“或”的关系。
    1.一次用水事件的总用水量（纯热水）小于y升 
    2.用水时长小于100秒（用水时间，不包括停顿） 
    3.总用水时长小于120秒（事件开始到结束） 
    
（插图）
对于Y的取值，此处我们基于热量守恒建立了标准热水量换算模型的计算公式。
根据公式来计算用水事件在不同实际用水温度下的标准热水使用量。

### 数据清洗

在用水状态记录缺失的的情况下，填充一条状态记录使水流量为0，发生时间加2秒，其余属性状态不变。


## 模型建立
在本实验中，由于数据并未给出数据标签。无法对模型进行训练。
此处我们使用一部分已经标注好的数据来对模型进行训练
（插图）

根据用户提供的用水日志，将其中洗浴事件的数据状态记录作为训练样本训练多层神经网络。
使用“候选洗浴事件”的11个属性作为网络的输入，训练BP网络时给定的输出是1与0。1代表是洗浴事件，0则不是。这个判断是用户提供的。

训练神经网络时，对神经网络的参数进行了寻优。
发现含二个隐层的神经网络训练效果较好，其中二个隐层的隐节点数分别为17、10时训练的效果较好。

In [6]:
# -*- coding: utf-8 -*-
import pandas as pd

inputfile1 = '../data/train_neural_network_data.xls'
inputfile2 = '../data/test_neural_network_data.xls'
testoutputfile = '../tmp/test_output_data.xls'

data_train = pd.read_excel(inputfile1)
data_test = pd.read_excel(inputfile2)

x_train = data_train.iloc[:, 5:17].values
y_train = data_train.iloc[:, 4].values
x_test = data_test.iloc[:, 5:17].values
y_test = data_test.iloc[:, 4].values

from keras.models import Sequential
from keras.layers.core import Dense, Dropout

model = Sequential()
model.add(Dense(17,activation='relu',input_dim=11))
model.add(Dropout(0.2))
model.add(Dense(10,activation='relu'))
model.add(Dropout(0.2))
model.add(Dense(1,activation='sigmoid'))

#model.compile(loss='binary_crossentropy', optimizer='adam', class_mode='binary')
model.compile(loss='binary_crossentropy', optimizer='adam',metrics=['accuracy'])
model.fit(x_train, y_train, epochs=500, batch_size=1,verbose=2) #82.14%

model.save_weights('../tmp/net.model')

r=pd.DataFrame(model.predict_classes(x_test),columns=[u'预测结果'])
pd.concat([data_test.iloc[:,:5],r],axis=1).to_excel(testoutputfile)
model.predict(x_test)

from keras.utils.vis_utils import plot_model
import os
os.environ["PATH"] += os.pathsep + 'C:/Program Files (x86)/Graphviz2.38/bin/'
#https://blog.csdn.net/chadian3912/article/details/81976956
plot_model(model, to_file='model.png', show_shapes=True)

Epoch 1/500
 - 1s - loss: 11.5761 - acc: 0.2143
Epoch 2/500
 - 0s - loss: 12.6517 - acc: 0.2143
Epoch 3/500
 - 0s - loss: 10.0179 - acc: 0.3571
Epoch 4/500
 - 0s - loss: 12.6470 - acc: 0.2143
Epoch 5/500
 - 0s - loss: 11.4780 - acc: 0.2500
Epoch 6/500
 - 0s - loss: 10.8206 - acc: 0.3214
Epoch 7/500
 - 0s - loss: 10.9677 - acc: 0.2857
Epoch 8/500
 - 0s - loss: 7.5402 - acc: 0.5000
Epoch 9/500
 - 0s - loss: 9.1730 - acc: 0.4286
Epoch 10/500
 - 0s - loss: 10.3566 - acc: 0.3571
Epoch 11/500
 - 0s - loss: 9.7734 - acc: 0.3929
Epoch 12/500
 - 0s - loss: 10.3032 - acc: 0.3571
Epoch 13/500
 - 0s - loss: 10.7067 - acc: 0.2857
Epoch 14/500
 - 0s - loss: 10.3554 - acc: 0.3571
Epoch 15/500
 - 0s - loss: 8.0590 - acc: 0.5000
Epoch 16/500
 - 0s - loss: 9.7860 - acc: 0.3929
Epoch 17/500
 - 0s - loss: 11.0426 - acc: 0.2857
Epoch 18/500
 - 0s - loss: 10.0608 - acc: 0.3571
Epoch 19/500
 - 0s - loss: 9.2041 - acc: 0.4286
Epoch 20/500
 - 0s - loss: 10.7114 - acc: 0.3214
Epoch 21/500
 - 0s - loss: 10.8160 

Epoch 171/500
 - 0s - loss: 3.4162 - acc: 0.7857
Epoch 172/500
 - 0s - loss: 3.4162 - acc: 0.7857
Epoch 173/500
 - 0s - loss: 3.8224 - acc: 0.7500
Epoch 174/500
 - 0s - loss: 3.4162 - acc: 0.7857
Epoch 175/500
 - 0s - loss: 3.4162 - acc: 0.7857
Epoch 176/500
 - 0s - loss: 3.4162 - acc: 0.7857
Epoch 177/500
 - 0s - loss: 3.4162 - acc: 0.7857
Epoch 178/500
 - 0s - loss: 2.6054 - acc: 0.8214
Epoch 179/500
 - 0s - loss: 3.0857 - acc: 0.7857
Epoch 180/500
 - 0s - loss: 3.4162 - acc: 0.7857
Epoch 181/500
 - 0s - loss: 3.7238 - acc: 0.7500
Epoch 182/500
 - 0s - loss: 2.8469 - acc: 0.8214
Epoch 183/500
 - 0s - loss: 2.8511 - acc: 0.8214
Epoch 184/500
 - 0s - loss: 3.4376 - acc: 0.7857
Epoch 185/500
 - 0s - loss: 3.4162 - acc: 0.7857
Epoch 186/500
 - 0s - loss: 3.4162 - acc: 0.7857
Epoch 187/500
 - 0s - loss: 3.0988 - acc: 0.7857
Epoch 188/500
 - 0s - loss: 3.8687 - acc: 0.7500
Epoch 189/500
 - 0s - loss: 3.4162 - acc: 0.7857
Epoch 190/500
 - 0s - loss: 3.2040 - acc: 0.7857
Epoch 191/500
 - 0s 

Epoch 339/500
 - 0s - loss: 2.4402 - acc: 0.8214
Epoch 340/500
 - 0s - loss: 3.4392 - acc: 0.7857
Epoch 341/500
 - 0s - loss: 3.0825 - acc: 0.7857
Epoch 342/500
 - 0s - loss: 3.3246 - acc: 0.7857
Epoch 343/500
 - 0s - loss: 3.4596 - acc: 0.7857
Epoch 344/500
 - 0s - loss: 3.4380 - acc: 0.7857
Epoch 345/500
 - 0s - loss: 3.0632 - acc: 0.7857
Epoch 346/500
 - 0s - loss: 2.8469 - acc: 0.8214
Epoch 347/500
 - 0s - loss: 2.5832 - acc: 0.8214
Epoch 348/500
 - 0s - loss: 3.3369 - acc: 0.7857
Epoch 349/500
 - 0s - loss: 2.0490 - acc: 0.8571
Epoch 350/500
 - 0s - loss: 2.2775 - acc: 0.8571
Epoch 351/500
 - 0s - loss: 3.4225 - acc: 0.7857
Epoch 352/500
 - 0s - loss: 3.3228 - acc: 0.7500
Epoch 353/500
 - 0s - loss: 3.1245 - acc: 0.7857
Epoch 354/500
 - 0s - loss: 3.2068 - acc: 0.7857
Epoch 355/500
 - 0s - loss: 2.8947 - acc: 0.7500
Epoch 356/500
 - 0s - loss: 2.8509 - acc: 0.7857
Epoch 357/500
 - 0s - loss: 3.4354 - acc: 0.7857
Epoch 358/500
 - 0s - loss: 2.8747 - acc: 0.7857
Epoch 359/500
 - 0s 

### 模型评价
根据该热水器用户提供的用水日志来判断事件是否为洗浴与多层神经网络模型识别结果的比较。由于我们的实验数据量较小，总共21条检测数据，准确识别了18条。模型对洗浴事件的识别准确率为85%左右。
## 实验总结

本实验基于实时监控的智能热水器的用户使用数据，重点介绍了数据挖掘中的数据预处理的数据清洗、数据规约、数据变换等方法，以及数据预处理在实际案例中 的应用，并建立了热水器的洗浴事件识别的神经网络模型。