# 第五章實訓

## 實訓一 插補用戶用電量數據缺失值

- 需求說明
>
>missing_data.csv表中存放了用戶A.B.C的用電量數據
>
>存在缺失值,需進行缺失值差補才能進行下一步分析

- 實現步驟
  1. 讀取missing_data.csv表中的數據
  2. 查詢缺失值所在位置
  3. 使用Scipy庫中interpolate模塊中的lagrange進行拉格朗日插值
  4. 查看數據中是否存在缺失值,不存在則說明插值成功

In [2]:
#導入數據庫
import numpy as np
import pandas as pd
import scipy.interpolate as itp

In [6]:
#讀取missing_data.csv
md=pd.read_excel('./missing_data.xls',header=None)

In [7]:
#查詢缺失值所在位置
print('每個特徵缺失的位置為:\n',md.isnull())

每個特徵缺失的位置為:
         0      1      2
0   False  False  False
1   False  False  False
2   False  False  False
3   False   True  False
4   False  False   True
5    True  False  False
6   False  False  False
7   False  False   True
8   False  False  False
9   False  False  False
10  False   True   True
11  False  False  False
12   True  False  False
13  False  False  False
14  False  False  False
15  False  False  False
16  False  False   True
17  False  False  False
18  False  False  False
19  False   True  False
20  False   True  False


In [8]:
#進行拉格朗日插值

#定義函數
def polyinterp_columns(s,n,k=5): #s為列,n為缺值位置,k為取前後5個數據
    y = s[list(range(n-k, n)) + list(range(n+1, n+1+k))] #取數並轉換為列表
    y = y[y.notnull()] #剔除空值
    return itp.lagrange(y.index,list(y))(n)

#判斷元素是否為空並插值
for i in md.columns:
    for j in range(len(md)):
        if (md[i].isnull())[j]:
            md[i][j]=polyinterp_columns(md[i],j)

In [9]:
print('進行拉格朗日插值後的缺失位置為:\n',md.isnull())

進行拉格朗日插值後的缺失位置為:
         0      1      2
0   False  False  False
1   False  False  False
2   False  False  False
3   False  False  False
4   False  False  False
5   False  False  False
6   False  False  False
7   False  False  False
8   False  False  False
9   False  False  False
10  False  False  False
11  False  False  False
12  False  False  False
13  False  False  False
14  False  False  False
15  False  False  False
16  False  False  False
17  False  False  False
18  False  False  False
19  False  False  False
20  False  False  False


## 實訓二 合併線損.用電量趨勢與線路告警數據

- 需求說明
>
>線路線損數據.線路用電量趨勢下降數據和線路告警數據是識別用戶竊漏電與否的3個重要特徵
>
>需要對由線路編號(ID)和時間(Date)兩個鍵值構成的主鍵進行合併
>

- 實現步驟
  1. 讀取ele_loss.csv與alarm.csv表
  2. 查看兩表形狀
  3. 以ID和Date兩個鍵值作為主鍵進行內連接
  4. 查看合併後的數據

In [10]:
#導入數據
eleloss=pd.read_csv('./ele_loss.csv',encoding='gbk')
alarm=pd.read_csv('./alarm.csv',encoding='gbk')

In [12]:
#觀察兩表之列
print('線損用電量趨勢表的列為:',eleloss.columns)
print('告警表的列為:',alarm.columns)

線損用電量趨勢表的列為: Index(['ID', 'date', 'ele', 'loss'], dtype='object')
告警表的列為: Index(['ID', 'date', 'alarm'], dtype='object')


In [14]:
#觀察兩表形狀
print('線損用電量趨勢表的形狀為:',eleloss.shape)
print('告警表的形狀為:',alarm.shape)

線損用電量趨勢表的形狀為: (49, 4)
告警表的形狀為: (25, 3)


In [17]:
#合併兩表
eleDetail=pd.merge(eleloss,alarm,on=['ID','date'],how='inner')

In [22]:
#查看數據
print('合併後的數據為:\n',eleDetail)

合併後的數據為:
          ID       date    ele      loss    alarm
0  21261001   2010/9/3  858.0  0.151048    电流不平衡
1  21261001   2010/9/6  883.5  0.162778  C相电流过负荷
2  21261001  2010/9/16  915.5  0.162028  C相电流过负荷
3  21261001  2010/9/16  915.5  0.162028  C相电流过负荷
4  21261001  2010/9/17  961.0  0.166650  A相电流过负荷
5  21261001  2010/9/17  961.0  0.166650    电流不平衡


## 實訓三 標準化建模專家樣本數據

- 需求說明
>
>兌現路線損特徵.線路用電量趨勢下降特徵.線路告警特徵進行標準化
>

- 實現步驟
  1. 讀取model.xls數據
  2. 定義標準差標準化函數
  3. 使用函數分別對3列數據進行標準化
  4. 查看標準化後的數據

In [23]:
#導入數據
model=pd.read_excel('./model.xls')

In [24]:
#查看dataframe的columns
print(model.columns)

Index(['电量趋势下降指标', '线损指标', '告警类指标', '是否窃漏电'], dtype='object')


In [25]:
#定義標準差標準化函數
def StandardScaler(data):
    data=(data-data.mean())/data.std()
    return data

In [33]:
#切出五列的數據
modelslice=model.iloc[:5,:]
#引用函數
transdata=StandardScaler(modelslice)

In [34]:
print(transdata)

   电量趋势下降指标      线损指标     告警类指标     是否窃漏电
0 -0.148047  0.730297 -0.121716  0.730297
1 -0.148047 -1.095445  1.704026  0.730297
2 -0.888280  0.730297 -0.121716  0.730297
3  1.702536 -1.095445 -0.730297 -1.095445
4 -0.518163  0.730297 -0.730297 -1.095445
