# 가설

모든 가설의 비교 대상은 과거 전력량 데이터로만 실시간 예측을 했을 때 이다

1. 기상청 데이터 중 지상에서 관측된 데이터를 활용해 예측한다면 유의미한 결과가 나올 것이다
    - 전력 사용량만 예측하는 단변량과 수집한 데이터를 통합해 모델링
2. 지상관측데이터 중 일상 생활에 영향을 주는 기상 데이터는 전력 사용량 예측에 도움이 될 것이다
    - 기온, 강수량, 적설 등

# 꼭 해야 할 것

1. 정규화
2. 가설설정 및 검증

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# 한글 폰트 설정
plt.rc('font', family='Malgun Gothic')
plt.rcParams['axes.unicode_minus'] = False
plt.rcParams['agg.path.chunksize'] = 10000

from tqdm import tqdm

import warnings
warnings.filterwarnings('ignore')

In [2]:
# 결측치 확인
def missing_per(df):
    missing_percentages = df.isnull().mean() * 100
    missing_percentages_df = pd.DataFrame({'결측치 비율(%)': missing_percentages})
    
    return missing_percentages_df

# 80% 이상 결측치 컬럼 삭제
def delete_nan_over_80(df):
    threshold = 0.8
    missing_percentages = df.isnull().mean()
    columns_to_drop = missing_percentages[missing_percentages >= threshold].index
    df = df.drop(columns=columns_to_drop)
    return df

# 스타일링 함수
def highlight_cells(value):
    if value >= 80 :  # 특정 값 이상인 경우
        return 'background-color: yellow'
    else:
        return ''
    
# , 제거 함수
def remove_comma(value):
    if isinstance(value, str):
        return value.replace(',', '')
    else:
        return value

# 기준일시 기준 데이터 분포도 확인
def value_confirm(df):
    for column in tqdm(df.columns):
        df[column].plot(figsize=(15,6))
        plt.title(f'{column}_Plot')
        plt.show()
        
        missing_percentages = round(df[column].isnull().mean() * 100, 2)
        print('결측치 비율(%) : ', missing_percentages)
        print()
        print(df[column].value_counts())
        print()
        print(df[column].describe())
        print('='*30)

# nan값 처리 후 4사분위 값 비교
def compare_describe(df1, df2):
    for column in tqdm(df1.columns):
        d1 = df1[[column]].describe()
        d2 = df2[[column]].describe()

        res = pd.concat([d1, d2], axis=1)
        display(res)
        
        df1[column].plot(figsize=(15,6))
        plt.title(f'{column}_Plot_before')
        plt.show()
        missing_percentages = round(df1[column].isnull().mean() * 100, 2)
        print('결측치 비율(%) : ', missing_percentages)
        print()
        
        df2[column].plot(figsize=(15,6))
        plt.title(f'{column}_Plot_after')
        plt.show()
        missing_percentages = round(df2[column].isnull().mean() * 100, 2)
        print('결측치 비율(%) : ', missing_percentages)
        print()
        print('='*30)

# 특정 값 이상인 데이터를 평균 값으로 대체하는 함수
def replace_above_threshold(df, column_name, threshold):
    condition = df[column_name] <= threshold
    selected_data = df.loc[condition, column_name]
    mean_value = selected_data.mean()
    df.loc[condition, column_name] = mean_value
    return df

# Time

In [None]:
# 문자열 데이터 drop

time.drop(columns = ['운형(운형약어)'], inplace=True)

In [None]:
# 여러 지역의 데이터를 평균으로 환산

time = time.reset_index().groupby('기준일시').mean()

In [None]:
time

In [None]:
# 결측치 비율 확인, 80% 이상 노란색

display(missing_per(time).style.applymap(highlight_cells))

In [None]:
value_confirm(time)

In [None]:
'''
=====
Time Data

전처리 방향(v1) : 의미상 유의미해 보이고, 결측치가 적은 컬럼은 최대한 살려보기

* QC플래그 : 품질검사 정보 0(정상), 1(오류), 9(결측)
=====

'기온(°C)' : 
    - 결측값이 0.05비율로 있고 기온은 이전 값과 크게 다르지 않다고 판단하여 결측치는 이전 값으로 채움
'기온 QC플래그' : 기온측정의 품질검사 데이터
    - 9(Nan)로 측정된 4000개의 데이터와 약 40% 결측치가 있지만, 
    - 시계열 데이터 특성상 일자를 40%나 제거하면 유의미한 추세나 예측이 어렵다고 판단
    - 전부 0으로 (정상 데이터로) 판단하고 진행
    
'강수량(mm)' : 
    - 결측치가 약 91%이지만, 비가 안온 날 것이라 판단하고 0으로 채우고 진행
'강수량 QC플래그' : 강수량 품질검사 데이터
    - 9(Nan)으로 측정된 데이터개 약 150만개에 결측치가 77% 이지만, 
    - 강수량 데이터와 마찬가지로 비가 안온 날 이라 가정하고 진행
    
'풍속(m/s)' : 
    - 결측치가 적어서 사용 가능해 보임
    - 특정 시기에 튀는 부분이 보이기 때문에, 단순히 근처 값을 활용하기 보다
    - 해당 시기 3일전의 평균값으로 채워서 진행
'풍속 QC플래그' : 풍속 품질검사 데이터
    - 결측치가 약 40%이고, 9(Nan)값이 약 5000개 이지만,
    - 50% 이상 정상 데이터라 풍속 데이터도 활용하는 것으로 진행
    - 2019년 부터 0(정상)값이 없는데, 
    - 앞 7년간 패턴으로 봤을 때 결측치들이 0의 값일 수 있다는 판단
    
'풍향(16방위)' : 풍향은 국제적으로 동서남북 4방위를 2번 더 나눈 16방위로 측정
    - 결측치 비율이 0.23% 로 적기 때문에 가장 값이 많은 0으로 채우고 진행
'풍향 QC플래그' : 풍향 품질검사 데이터
    - 풍속 QC플래그와 마찬가지로 19년도 데이터부터 0(정상)값이 측정이 안됐지만,
    - 이전 7년의 패턴과 비슷한 비율로 생각하고 정상데이터라 판단하여 진행
    
'습도(%)' : 
    - 결측치가 적고, 특정 패턴이 없는 것으로 판단되어 평균값으로 채우고 진행
'습도 QC플래그' : 습도 품질검사 데이터
    - 19년 하반기부터 0(정상)값이 측정되지 않았지만, 앞과 비슷한 패턴이라 판단하고 
    - 습도 값도 활용하는 것으로 진행

    '증기압(hPa)' : 대기의 전체 압력 중에서 그 대기에 함유되어 있는 수증기가 갖고 있는 분압
        - 특정한 패턴이 보이지 않고, 결측치가 0.09%로 적기 때문에
        - 평균값으로 결측치를 채우고 진행
        
    '이슬점온도(°C)' : 이슬이 형성되는 온도
        - 특정한 패턴이 보이지 않고, 결측치가 0.11%로 적기 때문에
        - 평균값으로 결측치를 채우고 진행
        
'현지기압(hPa)' : 해당 지역의 기압
    - 결측치가 적고, 패턴이 보이는 듯 하지만 정확하지 않기 때문에
    - 평균 값으로 채우고 진행
'현지기압 QC플래그' : 현지기압 품질검사 데이터
    - 앞선 QC플래그 처럼 결측치 비율이 약 40%대 이지만, 
    - 19년도 말 부터 1(비정상), 9(Nan)값은 측정됐지만 0(정상)값이 측정되지 않았으므로
    - 결측치를 정상 값으로 판단하고 현지기압 데이터도 활용
    
'해면기압(hPa)' : 정해진 장소의 평균 해수면 높이에서의 기압
    - 결측치가 적기 때문에, 평균값으로 채워서 진행
'해면기압 QC플래그' : 해면기압 품질검사 데이터
    - 앞선 현지기압 QC플래그와 마찬가지의 비율을 갖고 있기 때문에
    - 해면기압도 활용

'일조(hr)' : 태양의 직사광이 지표면에 비친 시간
    - 0과 1의 데이터가 가장 많고 이상치 처럼 보이는 데이터가 있음
    - 결측치가 45%로 꽤 많은 편이지만 
    - 0과 1 사이 평균값에서 크게 벗어나지 않을 것이라 가정하고 진행
    - 12년도 중순 ~ 13년도 초에만 관측되는 1 이상의 데이터는 이상치로 가정하고
    - 1로 변형하여 진행
'일조 QC플래그' : 일조 품질검사 데이터
    - 결측치가 22%이지만 9(Nan) 값이 0(정상) 값 보다 많은 것으로 보아
    - 데이터의 정보를 확신할 수 없음
    - 일조 데이터는 제거하는 것이 좋아보임

'일사(MJ/m2)' : 태양으로부터 지구를 향해 방사되는 에너지, 태양 복사 에너지
    - 결측치가 76%로 많은 편이고 14년 하반기 및 가끔 결측치로 판단되는 값이 보임
    - 결측치가 많아 어떤 값으로 채울지 고민됨
'일사 QC플래그' : 일사 품질검사 데이터
    - QC플래그 값 역시 9(Nan)으로 측정된 데이터가 70%이상이며, 19년 하반기 이후
    - 0(정상)값이 측정되지는 않았지만 일사 데이터를 적극적으로 활용하기는 어려워 보임

    '적설(cm)' : 
        - 절설 데이터는 활용해보면 좋을 것 같아, 결측치는 눈이 오지 않은 것으로 판단하고
        - 0으로 처리하여 사용
    '3시간신적설(cm)' : 3시간 동안 새로 쌓인 눈
        - 결측치가 너무 많아 활용하기 어려움
    '전운량(10분위)' : 전층에 있는 구름의 분포량
        - 운량의 경우 목측으로 진행하기 때문에, 사람마다 판단하는 기준이 다를 것이라 생각되므로
        - 활용하지 않는 것이 좋아 보임
    '중하층운량(10분위)' : 중층과 하층에 있는 구름의 분포량
        - 중하층운량도 마찬가지로 목측으로 진행하기 때문에
        - 객관적인 판단이 어려울 듯 하여 활용하지 않는 것이 좋아보임
    '운형(운형약어)' : 구름의 모양
        - 154가지의 카테고리 데이터로써 활용하기 어려워 보임
    '최저운고(100m )' : 구름의 최저 고도
        - 결측치가 70%로 많은 편이며, 16년도 중순 시점을 전후로 값의 전반적인 차이가 보임
        - 16년도 전후로 평균치가 달라졌는지는 아직 확인할 수 없으며
        - 운고에 대한 지식이 없어 바로 활용하기는 어려워 보임
    '시정(10m)' : 가시 거리
        - 가시거리 10m로 측정된 데이터 인데, 데이터들의 의미를 정확히 파악할 수 없어
        - 현재는 사용하지 않는 것이 좋아 보임
    '지면상태(지면상태코드)' : 
        - 결측치가 97%이고, 지면 상태에 대한 코드는 활용하지 않는것이 좋아 보임
    '현상번호(국내식)' : 
        - 결측치가 91%이고, 국내 현상 번호는 463개의 카테고리 데이터로 판단되어
        - 활용하지 않는것이 좋아 보임
    
'지면온도(°C)' : 
    - 결측치가 0.11%로 적은 편
    - 평균치로 결측치 처리 후 활용
'지면온도 QC플래그' : 지면온도 품질검사 데이터
    - 결측치가 39% 이지만, 측정된 값 중 0(정상) 데이터가 많은 비율을 차지하므로
    - 지면온도 데이터는 활용 해볼 수 있다고 판단됨

    '5cm 지중온도(°C)' : 땅 속 5cm 온도
        - 결측치가 약 70%로 많은 편이지만, 
        - 온도 데이터 이기 때문에 급변하지는 않을 것이라 판단됨
        - 이전 값들의 평균으로 결측치 처리 후 활용해 볼만 함
    '10cm 지중온도(°C)' : 땅 속 10cm 온도
        - 5cm 지중온도 처럼 결측치가 꽤 있지만
        - 그래프 상 이상치로 보이는 값들은 따로 처리한 다음,
        - 특정 시점 이전 값들의 평균으로 결측치 처리 후 활용
    '20cm 지중온도(°C)' : 땅 속 20cm 온도
        - 마찬가지로 결측치가 꽤 있지만
        - 그래프 상 이상치로 보이는 이상치들을 처리한 다음,
        - 특정 시점 이전 값들의 평균으로 결측치 처리 후 활용
    '30cm 지중온도(°C)' : 땅 속 30cm 온도
        - 30cm 지중온도 데이터 또한 마찬가지로 결측치가 꽤 있지만
        - 그래프 상 이상치로 보이는 이상치들을 10,20cm 데이터보다는 적어 보임,
        - 특정 시점 이전 값들의 평균으로 결측치 처리 후 활용

'''

In [None]:
# EDA 후 drop 할 컬럼 정리

time_drop = ['기온 QC플래그', '강수량 QC플래그', '풍속 QC플래그', '풍향 QC플래그',
            '습도 QC플래그', '현지기압 QC플래그', '해면기압 QC플래그',
            '일조(hr)', '일조 QC플래그', '일사(MJ/m2)', '일사 QC플래그', '3시간신적설(cm)',
            '전운량(10분위)', '중하층운량(10분위)', '최저운고(100m )', '시정(10m)',
            '지면상태(지면상태코드)', '현상번호(국내식)', '지면온도 QC플래그']

time.drop(columns = time_drop, axis=1, inplace=True)

In [None]:
time_drop2 = ['기온 QC플래그', '강수량 QC플래그', '풍속 QC플래그', '풍향 QC플래그',
            '습도 QC플래그', '현지기압 QC플래그', '해면기압 QC플래그',
            '일조 QC플래그', '일사 QC플래그', '지면온도 QC플래그',
              '3시간신적설(cm)','지면상태(지면상태코드)', '현상번호(국내식)']

In [None]:
lgbm_test.drop(columns=time_drop, axis=1, inplace=True)

In [None]:
lgbm_test

In [None]:
lgbm_test.to_csv('lgbm_test.csv')

In [None]:
time

## 결측치 채우기

### 0, 통계값

In [None]:
# 이전 값, Nan 값이 포함된 데이터의 평균으로 결측치를 처리한 결과 확인

time_fill = time.copy()

time_fill['기온(°C)'].fillna(method='ffill', inplace=True)
time_fill['강수량(mm)'].fillna(0, inplace=True)
time_fill['풍속(m/s)'].fillna(time.groupby(time.index)['풍속(m/s)'].transform('mean'), inplace=True)
time_fill['풍향(16방위)'].fillna(0, inplace=True)
time_fill['습도(%)'].fillna(time.groupby(time.index)['습도(%)'].transform('mean'), inplace=True)
time_fill['증기압(hPa)'].fillna(time.groupby(time.index)['증기압(hPa)'].transform('mean'), inplace=True)
time_fill['이슬점온도(°C)'].fillna(time.groupby(time.index)['이슬점온도(°C)'].transform('mean'), inplace=True)
time_fill['현지기압(hPa)'].fillna(time.groupby(time.index)['현지기압(hPa)'].transform('mean'), inplace=True)
time_fill['해면기압(hPa)'].fillna(time.groupby(time.index)['해면기압(hPa)'].transform('mean'), inplace=True)
time_fill['적설(cm)'].fillna(0, inplace=True)
time_fill['지면온도(°C)'].fillna(time.groupby(time.index)['지면온도(°C)'].transform('mean'), inplace=True)
time_fill['5cm 지중온도(°C)'].fillna(time.groupby(time.index)['5cm 지중온도(°C)'].transform('mean'), inplace=True)
time_fill['10cm 지중온도(°C)'].fillna(time.groupby(time.index)['10cm 지중온도(°C)'].transform('mean'), inplace=True)
time_fill['20cm 지중온도(°C)'].fillna(time.groupby(time.index)['20cm 지중온도(°C)'].transform('mean'), inplace=True)
time_fill['30cm 지중온도(°C)'].fillna(time.groupby(time.index)['30cm 지중온도(°C)'].transform('mean'), inplace=True)

compare_describe(time, time_fill)

### 선형 보간

In [None]:
# 선형 보간을 활용해 결측치를 처리한 결과 확인

time_linear_interpolate = time.copy()

time_linear_interpolate = time_linear_interpolate.interpolate()

compare_describe(time, time_linear_interpolate)


### ARIMA

In [None]:
# 결측치를 ARIMA 모델을 활용하여 채우는 함수

import statsmodels.api as sm

def fill_missing_values_arima(data):
    for column in tqdm(data.columns):
        # 결측치가 있는 인덱스 확인
        missing_indices = data[data[column].isnull()].index

        # ARIMA 모델에 입력할 데이터 생성
        values = data[column].values
        filled_values = values.copy()

        for index in missing_indices:
            # 결측치 이전의 관측값 인덱스 범위
            start_index = max(index - 5, 0)
            end_index = index

            # 결측치 이전의 관측값 데이터 추출
            history = values[start_index:end_index]

            # ARIMA 모델 학습 및 예측
            model = sm.tsa.ARIMA(history, order=(1, 0, 0))
            model_fit = model.fit()
            predicted_value = model_fit.forecast()[0]

            # 예측된 값을 결측치에 대입
            filled_values[index] = predicted_value

        # 결측치가 채워진 시계열 데이터 반환
        filled_data = data.copy()
        filled_data[column] = filled_values
        
    return filled_data


In [None]:
# 결측치를 ARIMA 모델을 활용하여 채우기

time_arima_fill = time.copy()
time_arima_fill['강수량(mm)'].fillna(0, inplace=True)
time_arima_fill['적설(cm)'].fillna(0, inplace=True)

time_arima_fill.index = pd.to_datetime(time_arima_fill.index)
time_arima_fill.reset_index(inplace=True)

time_arima_fill = fill_missing_values_arima(time_arima_fill)

In [None]:
compare_describe(time_fill, time_arima_fill.set_index('기준일시'))

### LSTM

In [None]:
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense


In [None]:
from tensorflow.python.client import device_lib

print(device_lib.list_local_devices())

In [None]:
# GPU 환경 설정

physical_devices = tf.config.list_physical_devices('GPU')
tf.config.experimental.set_memory_growth(physical_devices[0], True)

In [None]:

def fill_missing_values_lstm(df):
    for column in tqdm(df.columns):
        missing_indexes = df[df[column].isnull()].index
        
        for idx in missing_indexes:
            # LSTM 모델 학습 데이터 준비
            X_train = df.loc[:idx-1, column].values
            y_train = df.loc[1:idx, column].values

            # LSTM 모델 구성
            model = Sequential()
            model.add(LSTM(10, input_shape=(1, 1)))
            model.add(Dense(1))
            model.compile(optimizer='adam', loss='mse')

            # LSTM 모델 학습
            X_train = X_train.reshape((X_train.shape[0], 1, 1))
            model.fit(X_train, y_train, epochs=100, verbose=0)

            # 결측치 예측
            X_test = np.array([[df.loc[idx-1, column]]])
            X_test = X_test.reshape((1, 1, 1))
            y_pred = model.predict(X_test)

            # 결측치 채우기
            df.loc[idx, column] = y_pred[0][0]
        
    return df


In [None]:
time_lstm_fill = time.copy()
time_lstm_fill['강수량(mm)'].fillna(0, inplace=True)
time_lstm_fill['적설(cm)'].fillna(0, inplace=True)

time_lstm_fill.index = pd.to_datetime(time_lstm_fill.index)
time_lstm_fill.reset_index(inplace=True)

time_lstm_fill = fill_missing_values_lstm(time_lstm_fill)

In [None]:
display(time_arima_fill)
display(missing_per(time_arima_fill).style.applymap(highlight_cells))

In [None]:
value_confirm(time_arima_fill)

# Data Concat

In [None]:
merged_df = pd.merge(elec, time_fill, on='기준일시', how='left')

In [None]:
display(missing_per(merged_df).style.applymap(highlight_cells))

In [None]:
# 선형 보간으로 결측치 채우기

merged_linear_interpolate = merged_df.copy()

merged_linear_interpolate = merged_linear_interpolate.interpolate()

compare_describe(merged_df, merged_linear_interpolate)

In [None]:
merged_lstm_fill = merged_df.copy()

merged_lstm_fill.index = pd.to_datetime(merged_lstm_fill.index)
merged_lstm_fill.reset_index(inplace=True)

merged_lstm_fill = fill_missing_values_lstm(merged_lstm_fill)

In [None]:
display(missing_per(merged_linear_interpolate).style.applymap(highlight_cells))

In [None]:
# 첫 번째 컬럼 맨 뒤로

df = merged_linear_interpolate.copy()

columns = df.columns.tolist()  # 열 이름을 리스트로 변환
columns.append(columns.pop(0))  # 첫 번째 열 이름을 맨 뒤로 이동
df = df.reindex(columns=columns)  # 열 순서 재조정

In [None]:
df

In [None]:
df.to_csv('ver1.csv')

# ML 용 test data 만들기

In [None]:
lgbm_test = pd.read_csv(path + '/lgbm_test_data.csv', sep=',', index_col=0,  encoding='cp949') 
test = pd.read_csv(path + '/test_data.csv', sep=',', index_col=0)

In [None]:
lgbm_test = lgbm_test.set_index(['일시'])
lgbm_test.drop(['지점명', '운형(운형약어)'], axis=1, inplace=True)
lgbm_test = lgbm_test.rename_axis('기준일시')
# lgbm_test = lgbm_test.reset_index().groupby('기준일시').mean()

In [None]:
lgbm_test.to_csv('ML_test_data.csv')

In [None]:
lgbm_test

In [None]:
# 결측치를 ARIMA 모델을 활용하여 채우기

lgbm_test_fill = lgbm_test.copy()
lgbm_test_fill['강수량(mm)'].fillna(0, inplace=True)
lgbm_test_fill['적설(cm)'].fillna(0, inplace=True)

lgbm_test_fill.index = pd.to_datetime(lgbm_test_fill.index)
lgbm_test_fill.reset_index(inplace=True)

lgbm_test_fill = fill_missing_values_arima(lgbm_test_fill)

In [None]:
compare_describe(lgbm_test, lgbm_test_fill.set_index('기준일시'))

In [None]:
test.index = pd.to_datetime(test.index)

In [None]:
# 최종 5분 데이터로 만들기

lgbm_test_merge = pd.merge(test, lgbm_test_fill, on='기준일시', how='left')
lgbm_test_merge.set_index('기준일시', inplace=True)

In [None]:
# 시간별로 있는 데이터를 선형 보간 방법으로 5분 데이터 채우기

ML_merged_linear_interpolate = lgbm_test_merge.copy()

ML_merged_linear_interpolate = ML_merged_linear_interpolate.interpolate()

compare_describe(lgbm_test_merge, ML_merged_linear_interpolate)

In [None]:
ML_merged_linear_interpolate

In [None]:
df = ML_merged_linear_interpolate.copy()

columns = df.columns.tolist()  # 열 이름을 리스트로 변환
columns.append(columns.pop(0))  # 첫 번째 열 이름을 맨 뒤로 이동
df = df.reindex(columns=columns)  # 열 순서 재조정

In [None]:
df = df.rename(columns={'현재수요(MW)' : 'pred'})
df['pred'] = 0
df

In [None]:
df.to_csv('lgbm_test_v1.csv')

In [None]:
time.dropna()

# Baseline

## VAR

In [None]:
from statsmodels.tsa.vector_ar.var_model import VAR

In [None]:
ml_test = pd.read_csv(path + '/ML_test_data.csv', sep=',', index_col=0)
test = pd.read_csv(path + '/test_data.csv', sep=',', index_col=0)

In [None]:
time_drop = ['기온 QC플래그', '강수량 QC플래그', '풍속 QC플래그', '풍향 QC플래그',
            '습도 QC플래그', '현지기압 QC플래그', '해면기압 QC플래그',
            '일조(hr)', '일조 QC플래그', '일사(MJ/m2)', '일사 QC플래그', '3시간신적설(cm)',
            '전운량(10분위)', '중하층운량(10분위)', '최저운고(100m )', '시정(10m)',
            '지면상태(지면상태코드)', '현상번호(국내식)', '지면온도 QC플래그']

time_drop2 = ['기온 QC플래그', '강수량 QC플래그', '풍속 QC플래그', '풍향 QC플래그',
            '습도 QC플래그', '현지기압 QC플래그', '해면기압 QC플래그',
            '일조 QC플래그', '일사 QC플래그', '지면온도 QC플래그',
              '3시간신적설(cm)','지면상태(지면상태코드)', '현상번호(국내식)']

select = ['기온(°C)']

In [None]:
time.columns

# 전력량만 예측 (비교 기준점)

https://colab.research.google.com/drive/1dCtKyvVeeedi5zJdVlO858ERc8o7xkYq#scrollTo=UZU0-1s-pso_

In [7]:
path = 'G:/내 드라이브/취업/Contest/2307_PublicData/data'

In [4]:
def result_graph(actual, predicted):
    
    MAPE = np.mean(np.abs((actual - predicted) / actual)) * 100

    # MAPE 계산
    mape = [abs((a - p) / a) * 100 for a, p in zip(actual, predicted)]
    
    print('MAPE : ', MAPE)

    # 그래프 크기 설정
    fig = plt.figure(figsize=(8, 4))

    # 그래프 그리기
    plt.plot(mape)
    plt.xlabel('Data Point')
    plt.ylabel('MAPE (%)')
    plt.title('MAPE Ratio')
    plt.show()
    
    fig = plt.figure(figsize=(8, 4))
    plt.plot(actual, label='actual')
    plt.plot(predicted, label='pred')
    plt.title('Actual & Predict')
    plt.legend()
    plt.show()

#시간 변수와 요일 변수
def minute(x):
    return x.minute
def weekday(x):
    return x.weekday()
def quarter(x):
    return x.quarter

In [25]:
time = pd.read_csv(path + '/ground_time_9246057.csv', sep=',', index_col=0)
# day = pd.read_csv(path + '/groud_day_4089.csv', sep=',', index_col=0)

ParserError: Error tokenizing data. C error: Calling read(nbytes) on source failed. Try engine='python'.

In [8]:
ml_test = pd.read_csv(path + '/ML_test_data.csv', sep=',', index_col=0) # 추가 변수

In [10]:
test_y = pd.read_csv(path + '/test_data.csv', sep=',', index_col=0) # test y
elec = pd.read_csv(path + '/5minute_demand_y_(12.06~).csv', sep=',', index_col=0) # 종속 변수, 전력 사용량

In [None]:
print(missing_per(time))
print(missing_per(ml_test))

In [None]:
# 결측치 90% 이상 drop

drop = ['적설(cm)','강수량(mm)', '3시간신적설(cm)','지면상태(지면상태코드)', '운형(운형약어)'
        '현상번호(국내식)', '기온 QC플래그','강수량 QC플래그','풍속 QC플래그', '풍향 QC플래그',  '습도 QC플래그', 
        '현지기압 QC플래그', '해면기압 QC플래그', '일조 QC플래그', '일사 QC플래그']


time.drop(columns = drop, inplace=True)
ml_test.drop(columns = drop, inplace=True)

In [None]:
print(time.mean())
print(ml_test.mean())

In [None]:
# 기상 정보 null -> mean, no group 

# train
time_train = time.fillna(time.mean()).copy()
# 기존 데이터랑 합하기
time_train = pd.merge(time_train, elec, left_index=True, right_index=True, how='right')
time_train = time_train.fillna(time_train.mean())

In [None]:
# test
time_test = ml_test.fillna(ml_test.mean()).copy()
# 기존 데이터랑 합하기
time_test = pd.merge(time_test, test_y, left_index=True, right_index=True, how='right')
time_test = time_test.fillna(time_test.mean())

In [None]:
# 기상 정보 null -> mean, group 

# train
time_train = time.fillna(time.mean()).copy()
# 기존 데이터랑 합하기
time_train = pd.merge(time_train, elec, left_index=True, right_index=True, how='right')
time_train = time_train.fillna(time_train.mean())
# groupby
time_train = time_train.reset_index().groupby('기준일시').mean()


# test
time_test = ml_test.fillna(ml_test.mean()).copy()
# 기존 데이터랑 합하기
time_test = pd.merge(time_test, test_y, left_index=True, right_index=True, how='right')
time_test = time_test.fillna(time_test.mean())
time_test = time_test.reset_index().groupby('기준일시').mean()

In [21]:
ss = ml_test.reset_index().groupby('기준일시').mean()
# ss = ss.fillna(ss.mean())
ss

Unnamed: 0_level_0,기온(°C),기온 QC플래그,강수량(mm),강수량 QC플래그,풍속(m/s),풍속 QC플래그,풍향(16방위),풍향 QC플래그,습도(%),습도 QC플래그,...,최저운고(100m ),시정(10m),지면상태(지면상태코드),현상번호(국내식),지면온도(°C),지면온도 QC플래그,5cm 지중온도(°C),10cm 지중온도(°C),20cm 지중온도(°C),30cm 지중온도(°C)
기준일시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
2023-03-13 00:00,1.540000,,0.4875,9.0,4.997895,,288.842105,,45.505263,,...,13.625000,3808.073684,,3.666667,0.937895,,6.017241,7.651724,9.251724,9.768966
2023-03-13 01:00,1.068421,,,9.0,4.723158,,284.947368,,43.357895,,...,15.297872,3933.797872,,501.000000,0.427368,,5.444828,7.217241,8.979310,9.617241
2023-03-13 02:00,0.686316,,,9.0,4.297895,,285.263158,,41.863158,,...,17.193548,3883.478723,,5.000000,0.075789,,5.037931,6.817241,8.734483,9.472414
2023-03-13 03:00,0.346316,,1.4250,,3.932632,,286.000000,,40.800000,,...,10.777778,3834.789474,,5.000000,-0.278947,,4.668966,6.468966,8.458621,9.320690
2023-03-13 04:00,-0.026316,,,9.0,3.500000,,273.263158,,40.368421,,...,24.000000,3866.315789,,22.500000,-0.638947,,4.351724,6.141379,8.206897,9.148276
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2023-03-19 19:00,10.875789,,,,1.647368,,212.736842,,45.989474,,...,34.600000,1922.478261,,67015.833333,9.264211,,12.558621,12.579310,11.379310,10.237931
2023-03-19 20:00,9.151579,,,,1.197895,,170.947368,,52.631579,,...,48.000000,1673.304348,,32.666667,7.334737,,11.417241,11.937931,11.337931,10.362069
2023-03-19 21:00,7.706316,,,,1.071579,,152.736842,,58.294737,,...,27.000000,1556.276596,,916.888889,6.031579,,10.468966,11.313793,11.196552,10.444828
2023-03-19 22:00,6.527368,,,,0.894737,,120.736842,,62.094737,,...,34.000000,1490.139785,,239.111111,4.961053,,9.734483,10.758621,11.003448,10.468966


In [24]:
ss.columns

Index(['기온(°C)', '기온 QC플래그', '강수량(mm)', '강수량 QC플래그', '풍속(m/s)', '풍속 QC플래그',
       '풍향(16방위)', '풍향 QC플래그', '습도(%)', '습도 QC플래그', '증기압(hPa)', '이슬점온도(°C)',
       '현지기압(hPa)', '현지기압 QC플래그', '해면기압(hPa)', '해면기압 QC플래그', '일조(hr)',
       '일조 QC플래그', '일사(MJ/m2)', '일사 QC플래그', '적설(cm)', '3시간신적설(cm)',
       '전운량(10분위)', '중하층운량(10분위)', '최저운고(100m )', '시정(10m)', '지면상태(지면상태코드)',
       '현상번호(국내식)', '지면온도(°C)', '지면온도 QC플래그', '5cm 지중온도(°C)', '10cm 지중온도(°C)',
       '20cm 지중온도(°C)', '30cm 지중온도(°C)'],
      dtype='object')

In [22]:
missing_per(ss)

Unnamed: 0,결측치 비율(%)
기온(°C),0.0
기온 QC플래그,97.02381
강수량(mm),89.285714
강수량 QC플래그,35.119048
풍속(m/s),0.0
풍속 QC플래그,100.0
풍향(16방위),0.0
풍향 QC플래그,100.0
습도(%),0.0
습도 QC플래그,52.97619


In [17]:
ss

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001C58845F8E0>

In [None]:
# 기상 정보 null -> mean, no group 



In [None]:
# 기상 정보 null -> mean, group 



In [None]:
time_train

In [None]:
X = time_train.drop('현재수요(MW)', axis=1)
y = time_train['현재수요(MW)']

X_test = time_test.drop('현재수요(MW)', axis=1)
y_test = time_test['현재수요(MW)']

In [None]:
# 표준화 정규화 input data

from sklearn.preprocessing import StandardScaler

# Create a StandardScaler instance
scaler = StandardScaler()

# Standardize
X = pd.DataFrame(scaler.fit_transform(X), columns=X.columns)
X_test = pd.DataFrame(scaler.fit_transform(X_test), columns=X_test.columns)

# Create a MinMaxScaler instance
scaler2 = MinMaxScaler()

# Normalize the DataFrame
X = pd.DataFrame(scaler2.fit_transform(X), columns=X.columns)
X_test = pd.DataFrame(scaler2.fit_transform(X_test), columns=X_test.columns)


In [None]:
X_train, X_valid, y_train, y_valid = train_test_split(X, y, 
                                                      test_size=0.2,
                                                      shuffle = False,
                                                      random_state=48)

In [None]:
print(X_train.shape)
print(X_test.shape)
print(y_train.shape)
print(y_test.shape)

----

In [None]:
# 5분 단위

elec.reset_index(inplace=True)
elec['기준일시'] = pd.to_datetime(elec['기준일시'])
elec = elec.dropna()
elec = elec.set_index('기준일시')

In [None]:
# 1시간 단위 (5분 단위 -> 1시간 평균)

elec.reset_index(inplace=True)
elec['기준일시'] = pd.to_datetime(elec['기준일시'])
elec = elec.set_index('기준일시')
elec = elec.resample('1H').mean()
elec = elec.dropna()

test_y.reset_index(inplace=True)
test_y['기준일시'] = pd.to_datetime(test_y['기준일시'])
test_y = test_y.set_index('기준일시')
test_y = test_y.resample('1H').mean()
test_y = test_y.dropna()

In [None]:
# 1시간 단위 + 선형 보간 (5분)
# elec, test_y

## y
elec.reset_index(inplace=True)
elec['기준일시'] = pd.to_datetime(elec['기준일시'])
elec['현재수요(MW)'] = elec['현재수요(MW)'].interpolate(method='values')
elec = elec.set_index('기준일시')

## test
test_y.reset_index(inplace=True)
test_y['기준일시'] = pd.to_datetime(test_y['기준일시'])
test_y = test_y.set_idex('기준일시')
test_y = test_y.resample('1H').mean()

start_date = '2023-03-13 00:00:00'
end_date = '2023-03-19 23:55:00'

index = pd.date_range(start=start_date, end=end_date, freq='5min')
sample = pd.DataFrame(index=index, columns=['sample'])
# sample.rename(columns = {'index' : '기준일시'}, inplace=True)
sample.index.name = '기준일시'
test_y = pd.merge(sample, test_y, left_index=True, right_index=True, how='left').drop(columns = 'sample')
test_y = test_y.interpolate(method='values')

In [None]:
# train time series 변경

train = elec.reset_index().copy()
train['minute'] = train['기준일시'].apply(lambda x : minute(x))
train['weekday'] = train['기준일시'].apply(lambda x : weekday(x))
train['quarter'] = train['기준일시'].apply(lambda x : quarter(x))
train.drop('기준일시', axis=1, inplace=True)


# test time series 변경

test = test_y.reset_index().copy()
test['기준일시'] = pd.to_datetime(test['기준일시'])
test['minute'] = test['기준일시'].apply(lambda x : minute(x))
test['weekday'] = test['기준일시'].apply(lambda x : weekday(x))
test['quarter'] = test['기준일시'].apply(lambda x : quarter(x))
test.drop('기준일시', axis=1, inplace=True)

In [None]:
X = train.drop('현재수요(MW)', axis=1)
y = train['현재수요(MW)']

X_test = test.drop('현재수요(MW)', axis=1)
y_test = test['현재수요(MW)']

In [None]:
X_train, X_valid, y_train, y_valid = train_test_split(X, y, 
                                                      test_size=0.2, 
                                                      random_state=48)

## Linear Regression

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

In [None]:
lr = LinearRegression()

# 모델 학습
lr.fit(X_train, y_train)

In [None]:
X_test

In [None]:
pred = lr.predict(X_test)
pred

In [None]:
result_graph(y_test, pred)

----

## lgbm

In [None]:
from lightgbm import LGBMRegressor
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import make_scorer  # loss function 커스터마이징


In [None]:
# 파라미터 설정, 모델생성 함수
def get_best_params(model, params):
    grid_model = GridSearchCV(
        model,
        param_grid = params,  # 파라미터
        cv = 5,  # Kfold : 5
        scoring= SMAPE)  #loss function

    grid_model.fit(X_train, y_train, eval_set = [(X_train, y_train), (X_valid, y_valid)], verbose=100)
    scr = grid_model.best_score_
    print(f'{model.__class__.__name__} 최적 score 값 {scr}')
    return grid_model.best_estimator_

def smape(true, pred):
    true = np.array(true)  # np.array로 바꿔야 에러 없음
    pred = np.array(pred)
    return np.mean((np.abs(true-pred))/(np.abs(true) + np.abs(pred)))  # *2 , *100은 상수이므로 생략
SMAPE = make_scorer(smape, greater_is_better=False)  # smape 값이 작아져야하므로 False


In [None]:
params = {'n_estimators' : [30, 100, 200, 500],
          'learning_rate' : [0.01, 0.1],
          'objective' : ['regression'],
          'boosting_type' : ['gbdt'],
          'max_depth' : [1, 3, 5], # 나무의 깊이
          'subsample' : [0.5, 1]
         }

In [None]:
params_f = {'n_estimators' : 200,
          'learning_rate' : 0.01,
          'objective' : 'regression',
          'boosting_type' : 'gbdt',
          'max_depth' : 5, # 나무의 깊이
          'subsample' : 0.5}

In [None]:
model = LGBMRegressor(**params_f)

-----

In [None]:
# best model grid search

best_lgbm = get_best_params(model, params_f)
best_lgbm

In [None]:
pred = best_lgbm.predict(X_test)

---

In [None]:
lgb_fit = model.fit(X_train, y_train, eval_set=[(X_train, y_train), (X_valid, y_valid)], verbose=100)

In [None]:
pred = lgb_fit.predict(X_test)
pred

In [None]:
print(y_test.shape)
print(pred.shape)

In [None]:
result_graph(y_test, pred)

## xgboost

In [None]:
from xgboost import XGBRegressor

In [None]:
params = {
    'n_estimators': 100,
    'learning_rate': 0.3, 
    'num_leaves': 10,
    'metric': ['mae', 'mse'],
    'verbose': -1,
}

In [None]:
xgb_reg = XGBRegressor(**params)

xgb_reg.fit(X_train, y_train, eval_set=[(X_train, y_train), (X_valid, y_valid)],
            early_stopping_rounds=300, verbose=False)

In [None]:
pred = xgb_reg.predict(X_test)

In [None]:
result_graph(y_test, pred)

## ARIMA

In [None]:
from pmdarima import auto_arima
from statsmodels.tsa.arima.model import ARIMA
import pmdarima as pm
import statsmodels.api as sm

In [None]:
print(X_train.shape)
print(X_test.shape)
print(y_train.shape)
print(y_test.shape)

In [None]:
y_train

In [None]:
# auto arima

model = ARIMA(elec, order=(2,0,2))
# model = pm.auto_arima(y_train, 
#                       max_p=3, p = 2, 
#                       d = 0, 
#                       max_q=3, q = 2, 
#                       seasonal = True, 
#                       trace = True,
#                       error_action='ignore',  
#                       suppress_warnings=True, 
#                       stepwise=False)

In [None]:
# 학습

model_fit = model.fit()

In [None]:
# 예측

forecast = model_fit.predict(1, 2016) # 5분 2016 # 1시간 168
pred = forecast.values

In [None]:
# y_test = confirm_pred['현재수요(MW)']
# pred = confirm_pred['pred']

result_graph(y_test, pred)

----

In [None]:
# 예측값과 실제값 비교
# y값만 있기 때문에 5분 단위

start_date = '2023-03-13 00:00:00'
end_date = '2023-03-19 23:55:00'

index = pd.date_range(start=start_date, end=end_date, freq='5min')
pred_df = pd.DataFrame(pred, index = index, columns=['pred'])

test.index = pd.to_datetime(test.index)
confirm_pred = pd.merge(test, pred_df, left_index=True, right_index=True, how='left')
confirm_pred

In [None]:
y_test = confirm_pred['현재수요(MW)']
y_pred = confirm_pred['pred']

result_graph(y_test, y_pred)

In [None]:
model_fit(y_pred)
# y_pred.append()

# 모델 저장

In [None]:
# model 저장

import joblib
joblib.dump(best_lgbm, './lgbm.pkl')

In [None]:
loaded_model = joblib.load('./arima.pkl')

# 가설 검증

모든 가설의 비교 대상은 과거 전력량 데이터로만 실시간 예측을 했을 때 이다

1. 기상청 데이터 중 지상에서 관측된 데이터를 활용해 예측한다면 유의미한 결과가 나올 것이다
    - 전력 사용량만 예측하는 단변량과 수집한 데이터를 통합해 모델링
2. 지상관측데이터 중 일상 생활에 영향을 주는 기상 데이터는 전력 사용량 예측에 도움이 될 것이다
    - 기온, 강수량, 적설 등

## 1번

In [None]:
time = time[['기온(°C)']]
# time.reset_index(inplace=True)
time = time.groupby('기준일시')['기온(°C)'].mean().reset_index()
time.set_index('기준일시', inplace=True)
time

In [None]:
merged_y = pd.merge(elec, time, on='기준일시', how='right')
merged_y.dropna(inplace=True)
merged_y

In [None]:
train_data = merged_y.copy()

# Fit the VAR model
model = VAR(train_data)
model_fit = model.fit()

# Make predictions
lag_order = model_fit.k_ar

pred = []
for i in model_fit.forecast(train_data.values[-lag_order:], steps=144):
    pred.append(i[0])

In [None]:
pred

In [None]:
# 예측값과 실제값 비교

start_date = '2023-03-13 00:00:00'
end_date = '2023-03-19 23:00:00'

index = pd.date_range(start=start_date, end=end_date, freq='H')
pred_df = pd.DataFrame(pred, index = index, columns=['pred'])

In [None]:
# 5분단위로 측정된 y값을 1시간 단위로 예측한 df와 합쳐서 MAPE 확인
# 5분 단위인 2016개를, 1시간 단위인 144개로 merge 해서 비교

test.index = pd.to_datetime(test.index)
confirm_pred = pd.merge(test, pred_df, left_index=True, right_index=True, how='right')
confirm_pred

In [None]:
y_test = confirm_pred['현재수요(MW)']
y_pred = confirm_pred['pred']

result_graph(y_test, y_pred)

In [None]:
result_graph(y_test, y_pred)

In [None]:
time.drop(columns = time_drop2, axis=1, inplace=True)
time.drop(columns = ['운형(운형약어)'], inplace=True)
time['강수량(mm)'].fillna(0, inplace=True)
time['적설(cm)'].fillna(0, inplace=True)
time.dropna(inplace=True)

test.drop(columns = time_drop2, axis=1, inplace=True)