# 家用电器用户行为分析与事件识别

# 挖掘目标

- 根据热水器采集到的数据，划分一次完整的用水事件
- 在划分好的一次完整的用水事件中，识别出洗浴事件

## 分析方法与过程

**步骤**
- 对热水用户的历史数据进行选择性抽取，构建专家样本
- 数据探索和预处理，对用水样本数据建立用水事件时间间隔识别模型和划分一次完整用水事件模型，再在一次完整用水事件划分结果的基础上，剔除短暂用水事件，缩小识别范围
- 建立洗浴事件识别模型，对模型进行分析评价
- 应用模型，并对洗浴事件划分进行优化
- 调用洗浴事件识别模型，对实时监控的热水器流水数据进行洗浴事件自动识别

### 数据抽取

只能热水器在状态发生改变或者水流量非零时，每两秒会采集一条数据，数据总量非常巨大。

本案例对原始数据采用无放回随机抽样的方法抽取200家热水器用户从2014年1月1日到2014年12月31日的用水记录作为原始建模数据

### 数据探索分析

为了探索用户真实用水停顿时间间隔的分布情况，统计用户用水停顿时间并作频率分布直方图。

发现停顿时间间隔为0-0.3分钟的频率很高，为一次用水之间的停顿；停顿时间间隔为6-13分钟的频率很低，分析为两次用水之间的间隔。

### 数据预处理

**属性规约**
- 因为要对用户的一般规律进行挖掘分析，所以“热水器编号”可以去除；
- 热水器采集的数据中，“有无水流”可以用“水流量”反映，“有无水流”可以去除；
- “节能模式”都为“关”，可以去除；

**数值规约**
- 当热水器“开关机状态”为“关”且水流量为0时，说明热水器不处于工作状态，这些记录可以删除掉

**数据变换**

- 本案例的目标是对热水器用户的洗浴事件进行识别，这就需要从原始数据中识别出哪些状态是一个完整的用水事件，从而再识别出用水事件中的洗浴事件；
- 一次完整的用水事件是根据水流量和停顿时间间隔的阈值去划分的，所以本案例还建立了阈值寻优模型；
- 为了提高在大量的一次完整用水事件中寻找洗浴事件的效率，本案例建立了筛选规则提出可以明显判定不是洗浴的事件

In [32]:
# 划分用水事件
import pandas as pd

threshold = pd.Timedelta(value=4, unit='m')
inputfile = './data/data_10/water_heater.xls'
outputfile = './data/data_10/dividedsequence.xls'

data = pd.read_excel(inputfile)
data['发生时间'] = data['发生时间'].astype(object)
data['发生时间'] = pd.to_datetime(data['发生时间'], format='%Y%m%d%H%M%S')
data = data[data['水流量'] > 0]
data['事件编号'] = (data['发生时间'].diff() > threshold).cumsum() + 1

data.to_excel(outputfile)