In [1]:
#============================<Coding 구성>=======================================
# [Local Function #1]: SAMPE calculation module
# [Local Function #2]: AR_data_set calculation module
# [Local Function #3]: AR_day_set calculation module
# [Local Function #4]: linear_prediction calculation module
# [Local Function #5]: Random forest module
# [Local Function #6]: DNN module

# [Main function]
# [Section #1]: Data loading section
# [Section #2]: Data generation for training set
# [Section #3]: Anormaly detection using AR model 
# [Section #4]: data prediction for hour profile
# [Section #5]: data prediction for day profile
# [Section #6]: data prediction for month profile
#=============================================================================

import pandas as pd             #데이터 전처리
import numpy as np              #데이터 전처리
import os
from sklearn.ensemble import RandomForestRegressor
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers


In [2]:
#%% Local function <SAMPE calculation module>
#------------------------------------------------------------------------------
# [Input]
# <A> : Real data.
# <F> : Forecasting data.
#------------------------------------------------------------------------------ 
#------------------------------------------------------------------------------
# [Output]
# smape result.
#------------------------------------------------------------------------------ 

def smape(A, F):
    return 100/len(A) * np.sum(2 * np.abs(F - A) / (np.abs(A) + np.abs(F)))

In [None]:
#%% Local function <_data_set calculation module>
# 시간 데이터 예측을 위한 데이터 셋 추출 함수.
# test.csv 파일 내에 전력 데이터를 요일 타입을 고려하여 분류함.
# 전날 데이터를 학습하여 다음날을 예측하는 방식을 사용하며, 요일 타입은 2가지로 
# 분류함. 월~금은 Workday, 토~일은 weekend    
#------------------------------------------------------------------------------
# [Input]
# <Data> : test.csv.
# <place_id>: power meter ID.
# <prev_type>: 예측 전 날의 데이터 타입(<1>:Workday <2>:Weekend)
# <Curr_type>: 예측 날의 데이터 타입(<1>:Workday <2>:Weekend)  
#------------------------------------------------------------------------------ 
#------------------------------------------------------------------------------
# [Output]
# <TrainAR>: 예측 전날의 data set [day x time]
# <TestAR>: 예측 날의 data set [day x time]
#------------------------------------------------------------------------------ 
def AR_data_set(Data, place_id, prev_type, Curr_type):
    
    # Mon: 0 ~ Sun:6

    TrainAR = []; TestAR = []
    len_bad = 20  # 하루 내 NaN의 개수 기준, (24-len_bad)보다 많으면 그 날은 제거 
    Power = Data[place_id].iloc  # test.csv에서 특정 id의 전력 데이터   
    Date = Data[place_id].index  # test.csv에서 특정 id의 날짜 데이터 
    prev_aloc = [0]*24;  curr_aloc = [0]*24  # pre-allocation
    
    for ii in range(24,len(Date)):
        
        
        if (Date[ii].hour == 0) & (ii &gt;48) & (np.sum(curr_aloc)!=24*curr_aloc[1])& (np.sum(prev_aloc)!=24*prev_aloc[1]):
            prev_idx = 0;  curr_idx = 0      # bad data idx
            
            for kk in range(0,24):
                if prev_aloc[kk]&gt;-20:        # check the bad data.
                    prev_idx =prev_idx+1     
                else:                        # interpolate the bad data.
                    # bad data일 경우, 앞뒤로 20개의 포인트를 가져와서 
                    # interpolation 진행.
                    temp = np.zeros([1,41])
                    for qq in range(0,41):
                        temp[0,qq] = Power[(ii-24)-(24-kk)-20+qq]
                    
                    temp_temp = pd.DataFrame(data = temp)

                    temp = temp_temp.interpolate('spline',order =1)
                    temp = temp.values
                    prev_aloc[kk] = temp[0,20]
                    

            for kk in range(0,24):
                if curr_aloc[kk]&gt;-20:       # check the bad data.
                    curr_idx =curr_idx+1
                else:
                    # bad data일 경우, 앞뒤로 20개의 포인트를 가져와서 
                    # interpolation 진행.
                    temp = np.zeros([1,41])
                    for qq in range(0,41):
                        temp[0,qq] = Power[(ii)-(24-kk)-20+qq]
                    temp_temp = pd.DataFrame(data = temp)
                    
                    temp = temp_temp.interpolate('spline',order =1)
                    temp = temp.values
                    curr_aloc[kk] = temp[0,20]

            # bad data가 특정 개수 이상이면, data set에 추가하지 않는다.  
            if (prev_idx&gt;len_bad)&(curr_idx&gt;len_bad):
                TrainAR.append(prev_aloc)
                TestAR.append(curr_aloc)
                        
        # 0시에 하루 데이터 초기화.                     
        if Date[ii].hour == 0:
            prev_aloc = [0]*24
            curr_aloc = [0]*24
        
        # 요일 데이터 확인.
        prev_day = Date[ii-24].weekday()
        curr_day = Date[ii].weekday()
        
        # 요일 데이터 타입 분류
        # Workday(1) = day type&lt;5(월~금)
        # Workday(2) = day type&gt;4(토~일)
        if ((prev_type ==1)&(prev_day&lt;5))&((Curr_type ==2)&(curr_day&gt;4)):           
            prev_aloc[Date[ii-24].hour] = Power[ii-24]
            curr_aloc[Date[ii].hour] = Power[ii]
        
        if ((prev_type ==1)&(prev_day&lt;5))&((Curr_type ==1)&(curr_day&lt;5)):           
            prev_aloc[Date[ii-24].hour] = Power[ii-24]
            curr_aloc[Date[ii].hour] = Power[ii]
            
        if ((prev_type ==2)&(prev_day&gt;4))&((Curr_type ==2)&(curr_day&gt;4)):           
            prev_aloc[Date[ii-24].hour] = Power[ii-24]
            curr_aloc[Date[ii].hour] = Power[ii]
            
        if ((prev_type ==2)&(prev_day&gt;4))&((Curr_type ==1)&(curr_day&lt;5)):           
            prev_aloc[Date[ii-24].hour] = Power[ii-24]
            curr_aloc[Date[ii].hour] = Power[ii]
                
    TrainAR = np.array(TrainAR)
    TestAR = np.array(TestAR)
    return TrainAR, TestAR