전력사용량 예측 경진대회

# Business Understand

**평가 기준**

|항목|심사기준|점수|
|---|---|---|
|데이터|타당한 데이터 분석 기법 및 기준을 통해 분석했는가?|10|
|시각화|의도를 직관적으로 전달하는 시각화인가? |10|
|코드 품질|코드의 오류 없이 간결한 코드를 작성하였는가? |5|
|분석 방법|문제 해결을 위한 논리적인 구조가 명확한가? |10|
|성능|코드를 통해 전력산출량을 정확히 예측할 수 있는가? |30|
|관점|다른 사람이 생각하지 못한 새로운 관점을 제시하였는가? |10|
|인사이트|전력 융합신서비스 발굴 및 비즈니스 모델 개발 활용에 도움이 될 인사이트를 발굴하였는가? |25|

**논리성의 성능은 참가자가 게재한 코드의 구현 성능을 기준으로 함**

**평가 산식: SMAPE**
- Symmetric Mean Absolute Percentage Error
- MAPE의 경우  Actual 값이 0이거나 작은 경우 MAPE값이 지나치게 커지는 문제 발생
- SMAPE는 이를 개선

In [48]:
from IPython.display import Image
Image(url='https://wikimedia.org/api/rest_v1/media/math/render/svg/d1bfa1853da325fa525c67f48939e9131aad5700',
      width=300,
     )

In [50]:
Image(url='https://wikimedia.org/api/rest_v1/media/math/render/svg/9d7003eba8a7ffe2379cd5c232adf78daa3d1edf',
      width=300,
     )

In [35]:
def MAE(true, pred): # Mean Absolute Error
    '''
    true: np.array 
    pred: np.array
    '''
    return np.mean(np.abs(true-pred))

def MAPE(true, pred): # Mean Absolute Percentage Error
    '''
    true: np.array 
    pred: np.array
    '''
    return np.mean(np.abs((true-pred)/true))

def SMAPE(true, pred): # Symmetric Mean Absolute Percentage Error
    '''
    true: np.array 
    pred: np.array
    '''
    return np.mean((np.abs(true-pred))/(np.abs(true) + np.abs(pred))) #100은 상수이므로 이번 코드에서는 제외

TRUE_UNDER = np.array([10, 20, 30, 40, 50])
PRED_OVER = np.array([30, 40, 50, 60, 70])
TRUE_OVER = np.array([30, 40, 50, 60, 70])
PRED_UNDER = np.array([10, 20, 30, 40, 50])


print('평균 오차가 20일 때 실제값과 예측값의 대소 관계에 따른 MAE, MAPE 비교 \n')

print('실제값이 예측값 보다 작을 때 (예측값이 과대추정)')
print('MAE:', MAE(TRUE_UNDER, PRED_OVER))
print('MAPE:', MAPE(TRUE_UNDER, PRED_OVER))
print('SMAPE:', SMAPE(TRUE_UNDER, PRED_OVER))


print('\n실제값이 예측값 보다 클 때 (예측값이 과소추정)')
print('MAE:', MAE(TRUE_OVER, PRED_UNDER))
print('MAPE:', MAPE(TRUE_OVER, PRED_UNDER))
print('SMAPE:', SMAPE(TRUE_OVER, PRED_UNDER))

평균 오차가 20일 때 실제값과 예측값의 대소 관계에 따른 MAE, MAPE 비교 

실제값이 예측값 보다 작을 때 (예측값이 과대추정)
MAE: 20.0
MAPE: 0.9133333333333333
SMAPE: 0.29

실제값이 예측값 보다 클 때 (예측값이 과소추정)
MAE: 20.0
MAPE: 0.4371428571428571
SMAPE: 0.29


하지만 **SMAPE는 분모에 예측값 y^i이 들어가서 y^i에 의존적인 특성**을 지니고 있습니다. 예측값이 과소추정할 때 분모가 더 작아지므로 계산되는 오차가 커지는 현상이 발생합니다. 아래 코드를 통해 확인해보겠습니다.

In [38]:
TRUE2 = np.array([40, 50, 60, 70, 80])
PRED2_UNDER = np.array([20, 30, 40, 50, 60])
PRED2_OVER = np.array([60, 70, 80, 90, 100])

print('평균 오차가 20일 때 과소추정, 과대추정에 따른 MAE, SMAPE 비교 \n')

print('과대추정 시')
print('MAE:', MAE(TRUE2, PRED2_OVER))
print('MAPE:', MAPE(TRUE2, PRED2_OVER))
print('SMAPE:', SMAPE(TRUE2, PRED2_OVER))

print('\n과소추정 시')
print('MAE:', MAE(TRUE2, PRED2_UNDER))
print('MAPE:', MAPE(TRUE2, PRED2_UNDER))
print('SMAPE:', SMAPE(TRUE2, PRED2_UNDER))

평균 오차가 20일 때 과소추정, 과대추정에 따른 MAE, SMAPE 비교 

과대추정 시
MAE: 20.0
MAPE: 0.3538095238095238
SMAPE: 0.14912698412698414

과소추정 시
MAE: 20.0
MAPE: 0.3538095238095238
SMAPE: 0.21857142857142856


**외부 데이터 및 사전 학습 모델**
- 평가 데이터 셋 이전 기간 **(2020년 8월 25일 전)** 의 외부 데이터 사용 가능
- 공공 데이터 및 법적 제약이 없는 외부 데이터 허용
- 사전학습 모델의 경우 사전학습에 사용된 데이터를 명시

# Data Understanding

**train.csv:**
- 60개 건물들의 2020년 6월 1일부터 2020년 8월 24일까지의 데이터
- 1시간 단위로 제공
- 전력사용량(kWh) 포함
- shape: (122400, 10)

**test.csv:**
- 60개 건물들의 2020년 8월 25일부터 2020년 8월 31일까지의 데이터
- 3시간 단위로 제공(강수량의 경우 6시간 단위로 제공, 예보데이터)
- 전력사용량(kWh) 미포함
- shape: (10080, 9)

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [3]:
PATH = r'C:\Users\Wyatt\wyatt37\data\energy'

In [18]:
train = pd.read_csv(PATH + '\\train.csv', encoding='cp949')
train

Unnamed: 0,num,date_time,전력사용량(kWh),기온(°C),풍속(m/s),습도(%),강수량(mm),일조(hr),비전기냉방설비운영,태양광보유
0,1,2020-06-01 00,8179.056,17.6,2.5,92.0,0.8,0.0,0.0,0.0
1,1,2020-06-01 01,8135.640,17.7,2.9,91.0,0.3,0.0,0.0,0.0
2,1,2020-06-01 02,8107.128,17.5,3.2,91.0,0.0,0.0,0.0,0.0
3,1,2020-06-01 03,8048.808,17.1,3.2,91.0,0.0,0.0,0.0,0.0
4,1,2020-06-01 04,8043.624,17.0,3.3,92.0,0.0,0.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...
122395,60,2020-08-24 19,4114.368,27.8,2.3,68.0,0.0,0.7,1.0,1.0
122396,60,2020-08-24 20,3975.696,27.3,1.2,71.0,0.0,0.0,1.0,1.0
122397,60,2020-08-24 21,3572.208,27.3,1.8,71.0,0.0,0.0,1.0,1.0
122398,60,2020-08-24 22,3299.184,27.1,1.8,74.0,0.0,0.0,1.0,1.0


In [19]:
test = pd.read_csv(PATH + '\\test.csv', encoding='cp949')
test

Unnamed: 0,num,date_time,기온(°C),풍속(m/s),습도(%),"강수량(mm, 6시간)","일조(hr, 3시간)",비전기냉방설비운영,태양광보유
0,1,2020-08-25 00,27.8,1.5,74.0,0.0,0.0,,
1,1,2020-08-25 01,,,,,,,
2,1,2020-08-25 02,,,,,,,
3,1,2020-08-25 03,27.3,1.1,78.0,,0.0,,
4,1,2020-08-25 04,,,,,,,
...,...,...,...,...,...,...,...,...,...
10075,60,2020-08-31 19,,,,,,,
10076,60,2020-08-31 20,,,,,,,
10077,60,2020-08-31 21,27.9,4.1,68.0,,0.0,1.0,1.0
10078,60,2020-08-31 22,,,,,,,


In [20]:
sub = pd.read_csv(PATH + '\\sample_submission.csv', encoding='cp949')
sub

Unnamed: 0,num_date_time,answer
0,1 2020-08-25 00,0
1,1 2020-08-25 01,0
2,1 2020-08-25 02,0
3,1 2020-08-25 03,0
4,1 2020-08-25 04,0
...,...,...
10075,60 2020-08-31 19,0
10076,60 2020-08-31 20,0
10077,60 2020-08-31 21,0
10078,60 2020-08-31 22,0


In [28]:
train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 122400 entries, 0 to 122399
Data columns (total 10 columns):
 #   Column      Non-Null Count   Dtype  
---  ------      --------------   -----  
 0   num         122400 non-null  int64  
 1   date_time   122400 non-null  object 
 2   전력사용량(kWh)  122400 non-null  float64
 3   기온(°C)      122400 non-null  float64
 4   풍속(m/s)     122400 non-null  float64
 5   습도(%)       122400 non-null  float64
 6   강수량(mm)     122400 non-null  float64
 7   일조(hr)      122400 non-null  float64
 8   비전기냉방설비운영   122400 non-null  float64
 9   태양광보유       122400 non-null  float64
dtypes: float64(8), int64(1), object(1)
memory usage: 9.3+ MB


In [29]:
test.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10080 entries, 0 to 10079
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   num           10080 non-null  int64  
 1   date_time     10080 non-null  object 
 2   기온(°C)        3360 non-null   float64
 3   풍속(m/s)       3360 non-null   float64
 4   습도(%)         3360 non-null   float64
 5   강수량(mm, 6시간)  1680 non-null   float64
 6   일조(hr, 3시간)   3360 non-null   float64
 7   비전기냉방설비운영     2296 non-null   float64
 8   태양광보유         1624 non-null   float64
dtypes: float64(7), int64(1), object(1)
memory usage: 708.9+ KB


In [None]:
train_col = ['num', 'date_time', 'temp', 'wind', 'humid', 'rain', 'sunny', 'cooler', '']

In [30]:
test.head(10)

Unnamed: 0,num,date_time,기온(°C),풍속(m/s),습도(%),"강수량(mm, 6시간)","일조(hr, 3시간)",비전기냉방설비운영,태양광보유
0,1,2020-08-25 00,27.8,1.5,74.0,0.0,0.0,,
1,1,2020-08-25 01,,,,,,,
2,1,2020-08-25 02,,,,,,,
3,1,2020-08-25 03,27.3,1.1,78.0,,0.0,,
4,1,2020-08-25 04,,,,,,,
5,1,2020-08-25 05,,,,,,,
6,1,2020-08-25 06,26.1,1.3,83.0,0.0,0.0,,
7,1,2020-08-25 07,,,,,,,
8,1,2020-08-25 08,,,,,,,
9,1,2020-08-25 09,28.8,1.2,77.0,,1.1,,


In [32]:
sub

Unnamed: 0,num_date_time,answer
0,1 2020-08-25 00,0
1,1 2020-08-25 01,0
2,1 2020-08-25 02,0
3,1 2020-08-25 03,0
4,1 2020-08-25 04,0
...,...,...
10075,60 2020-08-31 19,0
10076,60 2020-08-31 20,0
10077,60 2020-08-31 21,0
10078,60 2020-08-31 22,0
