# 빌딩 전력 소모량 예측

여러분들의 분석 스킬과 머신러닝 스킬을 활용하여 빌딩의 전력 소모량을 예측하는 모델을 만들어 주세요!

Q : 여름에 고층 빌딩을 식히는 데 비용이 얼마나 드나요?
A : 많이 듭니다! 그리고 돈 뿐만 아니라 환경 영향도 있습니다.

건물 효율성을 개선하여 비용과 배출량을 줄이기 위해 상당한 투자가 이루어지고 있습니다. 문제는 개선이 효과적이었을까요?

건물 소유주는 전력을 사용한 만큼 청구서를 발행하는데,전력 계량기가 특정 건물 유형에서는 작동하지 않아 전력 사용량 측정에도 어려움을 겪고 있습니다.재의 추정 방법은 단편화되어 있으며 확장 성이 좋지 않습니다. 일부는 특정 미터 유형을 가정하거나 다른 건물 유형에서 작동하지 않습니다.

이 대회에서는 냉수, 전기, 온수 및 증기 계량기 분야에서 건물 에너지 사용량의 정확한 모델을 개발하게됩니다. 데이터는 3 년 동안 1,000 개 이상의 건물에서 가져온 것입니다. 이러한 에너지 절약 투자에 대한 더 나은 추정을 통해 대규모 투자자와 금융 기관은 건물 효율성 향상을 위해 이 분야에 투자 할 가능성이 높아질 것입니다.


## 데이터 설명

**데이터 설명**
- `building_id`-건물 ID 코드
- `meter`-측정기 ID 코드
    - {0 : 전기, 1 : 냉수, 2 : 증기, 3 : 온수}
- `timestamp`-측정이 수행 된 시기
- `primary_use`-미국 EnergyStar 속성 유형 정의를 기반으로하는 건물의 기본 활동 범주 표시기
- `square_feet`-건물의 전체 바닥 면적
- `year_built`-개관 연도
- `floor_count`-건물의 층 수
- `site_id` - 위치 ID 코드 
- `air_temperature`-기온 섭씨
- `cloud_coverage`-구름으로 덮인 하늘 부분 (Oktas 기준)
- `dew_ temperature`-이슬점 온도 섭씨
- `precip_depth_1_hr`- 0 mm, Trace(거의 안 내림), 5 mm, 8 mm
- `sea_level_pressure`-밀리바 or 헥토파스칼
- `wind_direction`-나침반 방향 (0-360)
- `wind_speed`-초당 미터
- `meter_reading`-Target 변수. 
    - kWh (또는 이에 상응하는) 단위의 에너지 소비량

<br/>
<br/>
<br/>
<br/>

## 모듈 import 

In [None]:
!pip install pycaret

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

from pycaret.regression import *

  defaults = yaml.load(f)


<br/>
<br/>
<br/>
<br/>

## 데이터 로드

In [2]:
# dataset 폴더의 ep_cat_data.csv 파일을 로드하세요.
df = pd.read_csv("./ep_cat_data (1).csv")
df.head()

Unnamed: 0,building_id,meter,timestamp,meter_reading,site_id,primary_use,square_feet,year_built,floor_count,air_temperature,cloud_coverage,dew_temperature,precip_depth_1_hr,sea_level_pressure,wind_direction,wind_speed
0,597,Electricity,2016-01-01 12:00:00,71.0,4,Public services,189425,1994.0,4.0,5.0,Clear,-9.4,0 mm,1020.6,0.0,0.0
1,620,Electricity,2016-01-01 12:00:00,1122.88,4,Education,220703,2011.0,9.0,5.0,Clear,-9.4,0 mm,1020.6,0.0,0.0
2,631,Electricity,2016-01-01 12:00:00,8.685,4,Education,23533,1906.0,3.0,5.0,Clear,-9.4,0 mm,1020.6,0.0,0.0
3,641,Electricity,2016-01-01 12:00:00,393.528,4,Education,109588,1994.0,8.0,5.0,Clear,-9.4,0 mm,1020.6,0.0,0.0
4,575,Electricity,2016-01-01 18:00:00,25.625,4,Technology/science,33167,1963.0,4.0,7.2,Few,-7.2,0 mm,1022.5,120.0,2.6


<br/>
<br/>
<br/>
<br/>

## pycaret

In [12]:
# setup 함수를 사용하여 데이터를 설정하세요.
df_setup = setup(data = df, target = 'meter_reading', session_id=2008)

Unnamed: 0,Description,Value
0,session_id,2008
1,Target,meter_reading
2,Original Data,"(22514, 16)"
3,Missing Values,True
4,Numeric Features,9
5,Categorical Features,5
6,Ordinal Features,False
7,High Cardinality Features,False
8,High Cardinality Method,
9,Transformed Train Set,"(15759, 71)"


In [14]:
# compare_models 함수를 사용하여 모델 별 성능을 비교하세요.
# n_select = 5 옵션을 설정하여 상위 5개 모델을 top5에 저장하세요.
top5 = compare_models(n_select=5, sort = "R2")

Unnamed: 0,Model,MAE,MSE,RMSE,R2,RMSLE,MAPE,TT (Sec)
lightgbm,Light Gradient Boosting Machine,19.1846,1215.783,34.7321,0.985,0.4831,1.1937,0.235
et,Extra Trees Regressor,17.0111,1421.22,37.514,0.9824,0.243,0.2802,13.52
rf,Random Forest Regressor,18.523,1452.335,37.9463,0.9821,0.2575,0.3062,12.705
knn,K Neighbors Regressor,26.036,2464.331,49.5346,0.9696,0.3386,0.362,0.224
dt,Decision Tree Regressor,23.8071,2807.739,52.8336,0.9653,0.3459,0.3538,0.215
gbr,Gradient Boosting Regressor,34.8144,2988.112,54.6022,0.9631,0.6922,2.0609,2.533
ada,AdaBoost Regressor,78.641,11009.16,104.6989,0.8637,1.4502,17.0161,0.989
br,Bayesian Ridge,126.9442,38141.65,195.2102,0.5302,1.4969,14.1501,0.108
ridge,Ridge Regression,127.5169,38145.2,195.221,0.5301,1.5038,14.3161,0.045
lr,Linear Regression,128.2004,38286.11,195.5684,0.5286,1.514,14.554,0.077


In [None]:
# 시간 관계상 실행 x
# tune_model 함수를 사용하여 top5의 네번째 모델의 하이퍼파라미터를 튜닝하세요.

# top5[3] = tune_model(top5[3])

IntProgress(value=0, description='Processing: ', max=7)

Unnamed: 0,MAE,MSE,RMSE,R2,RMSLE,MAPE


Fitting 10 folds for each of 10 candidates, totalling 100 fits


[Parallel(n_jobs=-1)]: Using backend LokyBackend with 8 concurrent workers.
[Parallel(n_jobs=-1)]: Done  34 tasks      | elapsed:    9.5s


In [16]:
# finalize_model 함수를 사용하여 top5의 첫 번째 모델을 최종 모델로 설정하세요.
final_model = finalize_model(top5[0])

In [17]:
# predict_model 함수를 사용하여 df의 마지막 100개의 데이터를 예측하세요.
# 모델은 final_model로 설정
prediction = predict_model(final_model, data = df.iloc[-100:])
prediction

Unnamed: 0,Model,MAE,MSE,RMSE,R2,RMSLE,MAPE
0,Light Gradient Boosting Machine,15.903,424.6381,20.6067,0.9456,0.3838,0.2711


Unnamed: 0,building_id,meter,timestamp,meter_reading,site_id,primary_use,square_feet,year_built,floor_count,air_temperature,cloud_coverage,dew_temperature,precip_depth_1_hr,sea_level_pressure,wind_direction,wind_speed,Label
22414,608,Electricity,2016-02-10 09:00:00,95.2500,4,Entertainment/public assembly,124197,1927.0,3.0,12.2,Clear,10.0,0 mm,1022.8,230.0,2.1,86.684384
22415,619,Electricity,2016-02-10 09:00:00,204.4800,4,Education,68146,1948.0,6.0,12.2,Clear,10.0,0 mm,1022.8,230.0,2.1,182.181273
22416,630,Electricity,2016-02-10 09:00:00,72.5000,4,Education,93420,1948.0,5.0,12.2,Clear,10.0,0 mm,1022.8,230.0,2.1,71.926840
22417,651,Electricity,2016-02-10 09:00:00,49.8900,4,Parking,306140,2007.0,5.0,12.2,Clear,10.0,0 mm,1022.8,230.0,2.1,47.934685
22418,574,Electricity,2016-02-10 21:00:00,22.0538,4,Education,56343,1905.0,4.0,18.9,Scattered,9.4,0 mm,1023.2,280.0,3.6,46.181849
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
22509,574,Electricity,2016-03-01 12:00:00,88.1530,4,Education,56343,1905.0,4.0,11.7,Clear,7.8,0 mm,1018.6,60.0,1.5,69.786031
22510,584,Electricity,2016-03-01 12:00:00,230.4480,4,Education,137806,1967.0,8.0,11.7,Clear,7.8,0 mm,1018.6,60.0,1.5,233.438406
22511,596,Electricity,2016-03-01 12:00:00,16.5000,4,Education,18474,1923.0,4.0,11.7,Clear,7.8,0 mm,1018.6,60.0,1.5,20.749162
22512,608,Electricity,2016-03-01 12:00:00,97.2500,4,Entertainment/public assembly,124197,1927.0,3.0,11.7,Clear,7.8,0 mm,1018.6,60.0,1.5,94.106011
