In [2]:
import pandas as pd
import numpy as np
import time

from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import mean_squared_error

from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor 
from sklearn.ensemble import RandomForestRegressor   # 앙상블(의사결정트리 확장판)
from sklearn.ensemble import GradientBoostingRegressor

import xgboost as xgb
import lightgbm as lgb

In [3]:
train = pd.read_csv("../CSV/train_data.csv")
test = pd.read_csv("../CSV/pred_test.csv")

print("train shape : {}, test shape : {}".format(train.shape, test.shape))

train shape : (368088, 12), test shape : (15120, 12)


In [4]:
train.head(3)

Unnamed: 0,연월일,시간,일시,year,month,day,hour,weekday,구분,구분_int,공급량,기온(°C)
0,2013-01-01,1,2013-01-01 00:00:00,2013,1,1,0,1,A,0,2497.129,-8.3
1,2013-01-01,2,2013-01-01 01:00:00,2013,1,1,1,1,A,0,2363.265,-8.5
2,2013-01-01,3,2013-01-01 02:00:00,2013,1,1,2,1,A,0,2258.505,-8.4


### LinearRegression

In [5]:
X = train[["year", "day", "hour", "weekday"]]
y = train["공급량"]

for i in range(1, 10, 1) :
    X_train, X_test, y_train, y_test = train_test_split(X, y,
                                                       test_size = i / 10,
                                                       random_state = 77)

    lr_model = LinearRegression()
    lr_model.fit(X_train, y_train)
    pred = lr_model.predict(X_test)

    # 결정계수 확인
    print("학습용 : {}, 테스트용 : {}".format(10 - i, i))
    print("학습용 데이터 결정계수: {:.3f}".format(lr_model.score(X_train, y_train)))
    print("테스트 데이터 결정계수: {:.3f}".format(lr_model.score(X_test, y_test)))
    print("MSE :", mean_squared_error(y_test, pred))
    print()
    
# model.feature_importances_

학습용 : 9, 테스트용 : 1
학습용 데이터 결정계수: 0.011
테스트 데이터 결정계수: 0.012
MSE : 858995.3820678939

학습용 : 8, 테스트용 : 2
학습용 데이터 결정계수: 0.011
테스트 데이터 결정계수: 0.012
MSE : 851242.2440710816

학습용 : 7, 테스트용 : 3
학습용 데이터 결정계수: 0.012
테스트 데이터 결정계수: 0.012
MSE : 850409.6820350793

학습용 : 6, 테스트용 : 4
학습용 데이터 결정계수: 0.011
테스트 데이터 결정계수: 0.012
MSE : 848899.8309086943

학습용 : 5, 테스트용 : 5
학습용 데이터 결정계수: 0.012
테스트 데이터 결정계수: 0.012
MSE : 845726.3954807592

학습용 : 4, 테스트용 : 6
학습용 데이터 결정계수: 0.011
테스트 데이터 결정계수: 0.012
MSE : 845974.2281729488

학습용 : 3, 테스트용 : 7
학습용 데이터 결정계수: 0.011
테스트 데이터 결정계수: 0.012
MSE : 847413.3274659555

학습용 : 2, 테스트용 : 8
학습용 데이터 결정계수: 0.012
테스트 데이터 결정계수: 0.011
MSE : 849345.7263138628

학습용 : 1, 테스트용 : 9
학습용 데이터 결정계수: 0.013
테스트 데이터 결정계수: 0.011
MSE : 849408.0273866793



### xgboost

In [6]:
X = train[["year", "month", "day", "hour", "weekday"]]
y = train["공급량"]

for i in range(1, 10, 1) :
    X_train, X_test, y_train, y_test = train_test_split(X, y,
                                                       test_size = i / 10,
                                                       random_state = 77)

    xgb_model = xgb.XGBRegressor()
    xgb_model.fit(X_train, y_train)
    pred = xgb_model.predict(X_test)

    # 결정계수 확인
    print("학습용 : {}, 테스트용 : {}".format(10 - i, i))
    print("학습용 데이터 결정계수: {:.3f}".format(xgb_model.score(X_train, y_train)))
    print("테스트 데이터 결정계수: {:.3f}".format(xgb_model.score(X_test, y_test)))
    print("MSE :", mean_squared_error(y_test, pred))
    print()

학습용 : 9, 테스트용 : 1
학습용 데이터 결정계수: 0.392
테스트 데이터 결정계수: 0.373
MSE : 545231.4146168197

학습용 : 8, 테스트용 : 2
학습용 데이터 결정계수: 0.394
테스트 데이터 결정계수: 0.371
MSE : 541837.606266791

학습용 : 7, 테스트용 : 3
학습용 데이터 결정계수: 0.395
테스트 데이터 결정계수: 0.372
MSE : 540672.112172246

학습용 : 6, 테스트용 : 4
학습용 데이터 결정계수: 0.398
테스트 데이터 결정계수: 0.369
MSE : 542123.0875078768

학습용 : 5, 테스트용 : 5
학습용 데이터 결정계수: 0.403
테스트 데이터 결정계수: 0.366
MSE : 542349.567014531

학습용 : 4, 테스트용 : 6
학습용 데이터 결정계수: 0.409
테스트 데이터 결정계수: 0.364
MSE : 544750.5835508546

학습용 : 3, 테스트용 : 7
학습용 데이터 결정계수: 0.418
테스트 데이터 결정계수: 0.359
MSE : 549767.4610495147

학습용 : 2, 테스트용 : 8
학습용 데이터 결정계수: 0.435
테스트 데이터 결정계수: 0.352
MSE : 557016.9370787148

학습용 : 1, 테스트용 : 9
학습용 데이터 결정계수: 0.493
테스트 데이터 결정계수: 0.328
MSE : 577364.6406204301



### lightgbm

In [5]:
X = train[["year", "month", "day", "hour", "weekday", "구분_int"]]
y = train["공급량"]

for i in range(1, 10, 1) :
    X_train, X_test, y_train, y_test = train_test_split(X, y,
                                                       test_size = i / 10,
                                                       random_state = 77)

    hyperparameters = {'boosting_type': 'gbdt', 
                       'colsample_bytree': 0.7250136792694301, 
                       'is_unbalance': False, 
                       'learning_rate': 0.013227664889528229,
                       'min_child_samples': 20, 
                       'num_leaves': 56, 
                       'reg_alpha': 0.7543896477745794, 
                       'reg_lambda': 0.07152751159655985, 
                       'subsample_for_bin': 240000, 
                       'subsample': 0.5233384321711397, 
                       'n_estimators': 2000}

    lgb_model = lgb.LGBMRegressor(**hyperparameters)
    lgb_model.fit(X_train, y_train)
    pred = lgb_model.predict(X_test)

    # 결정계수 확인
    print("학습용 : {}, 테스트용 : {}".format(10 - i, i))
    print("학습용 데이터 결정계수: {:.3f}".format(lgb_model.score(X_train, y_train)))
    print("테스트 데이터 결정계수: {:.3f}".format(lgb_model.score(X_test, y_test)))
    print("MSE :", mean_squared_error(y_test, pred))
    print()

학습용 : 9, 테스트용 : 1
학습용 데이터 결정계수: 0.985
테스트 데이터 결정계수: 0.984
MSE : 13566.50978869286

학습용 : 8, 테스트용 : 2
학습용 데이터 결정계수: 0.985
테스트 데이터 결정계수: 0.985
MSE : 12691.385958286095

학습용 : 7, 테스트용 : 3
학습용 데이터 결정계수: 0.986
테스트 데이터 결정계수: 0.985
MSE : 13191.66543886047

학습용 : 6, 테스트용 : 4
학습용 데이터 결정계수: 0.986
테스트 데이터 결정계수: 0.985
MSE : 13296.923776267993

학습용 : 5, 테스트용 : 5
학습용 데이터 결정계수: 0.986
테스트 데이터 결정계수: 0.984
MSE : 13449.327354608511

학습용 : 4, 테스트용 : 6
학습용 데이터 결정계수: 0.986
테스트 데이터 결정계수: 0.984
MSE : 13364.652298902956

학습용 : 3, 테스트용 : 7
학습용 데이터 결정계수: 0.986
테스트 데이터 결정계수: 0.984
MSE : 13429.402018227343

학습용 : 2, 테스트용 : 8
학습용 데이터 결정계수: 0.986
테스트 데이터 결정계수: 0.984
MSE : 14056.244834544006

학습용 : 1, 테스트용 : 9
학습용 데이터 결정계수: 0.986
테스트 데이터 결정계수: 0.982
MSE : 15679.04020234382



### lightgbm_2

In [8]:
X = train[["year", "month", "day", "hour", "weekday", "구분_int"]]
y = train["공급량"]

for i in range(1, 10, 1) :
    X_train, X_test, y_train, y_test = train_test_split(X, y,
                                                       test_size = i / 10,
                                                       random_state = 77)

    lgb_model = lgb.LGBMRegressor(objective = "regression", num_leaves = 5,
                                 learning_rate = 0.05, n_estimators = 2000)
    lgb_model.fit(X_train, y_train)
    pred = lgb_model.predict(X_test)

    # 결정계수 확인
    print("학습용 : {}, 테스트용 : {}".format(10 - i, i))
    print("학습용 데이터 결정계수: {:.3f}".format(lgb_model.score(X_train, y_train)))
    print("테스트 데이터 결정계수: {:.3f}".format(lgb_model.score(X_test, y_test)))
    print("MSE :", mean_squared_error(y_test, pred))
    print()

학습용 : 9, 테스트용 : 1
학습용 데이터 결정계수: 0.963
테스트 데이터 결정계수: 0.963
MSE : 32207.77264922741

학습용 : 8, 테스트용 : 2
학습용 데이터 결정계수: 0.963
테스트 데이터 결정계수: 0.963
MSE : 31643.563019215413

학습용 : 7, 테스트용 : 3
학습용 데이터 결정계수: 0.964
테스트 데이터 결정계수: 0.963
MSE : 31619.418187959127

학습용 : 6, 테스트용 : 4
학습용 데이터 결정계수: 0.964
테스트 데이터 결정계수: 0.963
MSE : 31818.954416656

학습용 : 5, 테스트용 : 5
학습용 데이터 결정계수: 0.964
테스트 데이터 결정계수: 0.963
MSE : 31561.872235995073

학습용 : 4, 테스트용 : 6
학습용 데이터 결정계수: 0.964
테스트 데이터 결정계수: 0.963
MSE : 31345.896052470835

학습용 : 3, 테스트용 : 7
학습용 데이터 결정계수: 0.964
테스트 데이터 결정계수: 0.963
MSE : 31772.852672424007

학습용 : 2, 테스트용 : 8
학습용 데이터 결정계수: 0.965
테스트 데이터 결정계수: 0.963
MSE : 31742.676018069895

학습용 : 1, 테스트용 : 9
학습용 데이터 결정계수: 0.965
테스트 데이터 결정계수: 0.963
MSE : 31675.883753481754



### 다양한 모델 비교
* LinearRegression
* DecisionTreeRegressor
* RandomForestRegressor
* GradientBoostingRegressor

In [38]:
def nmae(true_df, pred_df):
    target_idx = true_df.iloc[:,0]
    pred_df = pred_df[pred_df.iloc[:,0].isin(target_idx)]
    pred_df = pred_df.sort_values(by=[pred_df.columns[0]], ascending=[True])
    true_df = true_df.sort_values(by=[true_df.columns[0]], ascending=[True])
    
    true = true_df.iloc[:,1].to_numpy()
    pred = pred_df.iloc[:,1].to_numpy()
    
    score = np.mean((np.abs(true-pred))/true)
    
    return score

In [39]:
start_time = time.time()

X = train[["year", "month", "day", "hour", "weekday", "구분_int"]]
y = train["공급량"]

model_list = ["LinearRegression", 
              "DecisionTreeRegressor", 
              "RandomForestRegressor", 
              "GradientBoostingRegressor", 
              "xgboost", 
              "lightgbm"]

models = [LinearRegression(), 
         DecisionTreeRegressor(), 
         RandomForestRegressor(n_jobs = -1, random_state = 37), 
         GradientBoostingRegressor(random_state = 37), 
         xgb.XGBRegressor(), 
         lgb.LGBMRegressor()]

test_size = []
train_score = []
test_score = []
MAE = []
MSE = []
RMSE = []
NMAE = []
model_name = []
    
for idx, model in enumerate(models) :
    for i in range(1, 10, 1) :
        X_train, X_test, y_train, y_test = train_test_split(X, y,
                                                           test_size = i / 10,
                                                           random_state = 77)
        print("model :", model_list[idx])
        model.fit(X_train, y_train)
        pred = model.predict(X_test)
        
        true_y = pd.DataFrame({"true_y" : y_test})
        pred_y = pd.DataFrame({"pred_y" : pred})
        
        true_y.reset_index(drop = True, inplace = True)
        true_y.reset_index(inplace = True)
        pred_y.reset_index(inplace = True)

        # 결정계수 확인
        print("학습용 : {}, 테스트용 : {}".format(10 - i, i))
        print("학습용 데이터 결정계수: {:.3f}".format(model.score(X_train, y_train)))
        print("테스트 데이터 결정계수: {:.3f}".format(model.score(X_test, y_test)))

        # 평가 지표
        print("MAE :", mean_absolute_error(y_test, pred))
        print("MSE :", mean_squared_error(y_test, pred))
        print("RMSE : ", np.sqrt(mean_squared_error(y_test, pred)))
        print("NMAE : ", nmae(true_y, pred_y))
        print()
        test_size.append(i)
        train_score.append(model.score(X_train, y_train))
        test_score.append(model.score(X_test, y_test))
        MAE.append(mean_absolute_error(y_test, pred))
        MSE.append(mean_squared_error(y_test, pred))
        RMSE.append(np.sqrt(mean_squared_error(y_test, pred)))
        NMAE.append(nmae(true_y, pred_y))
        model_name.append(model_list[idx])
        
print("실행 시간 : {:.3f}".format(time.time() - start_time))

model : LinearRegression
학습용 : 9, 테스트용 : 1
학습용 데이터 결정계수: 0.039
테스트 데이터 결정계수: 0.040
MAE : 707.5552210757643
MSE : 834591.3739462349
RMSE :  913.5597265347433
NMAE :  6.70385080543211

model : LinearRegression
학습용 : 8, 테스트용 : 2
학습용 데이터 결정계수: 0.038
테스트 데이터 결정계수: 0.039
MAE : 705.2433535386095
MSE : 827655.71380868
RMSE :  909.7558539568074
NMAE :  6.68936263663766

model : LinearRegression
학습용 : 7, 테스트용 : 3
학습용 데이터 결정계수: 0.039
테스트 데이터 결정계수: 0.038
MAE : 704.9725182162945
MSE : 827361.950932092
RMSE :  909.5943881379723
NMAE :  6.633056640417296

model : LinearRegression
학습용 : 6, 테스트용 : 4
학습용 데이터 결정계수: 0.039
테스트 데이터 결정계수: 0.038
MAE : 705.0699575883966
MSE : 826141.2171530357
RMSE :  908.9231084932519
NMAE :  6.687121294144989

model : LinearRegression
학습용 : 5, 테스트용 : 5
학습용 데이터 결정계수: 0.039
테스트 데이터 결정계수: 0.038
MAE : 704.5229605849739
MSE : 822671.7410427254
RMSE :  907.0125363205987
NMAE :  6.726914448334332

model : LinearRegression
학습용 : 4, 테스트용 : 6
학습용 데이터 결정계수: 0.038
테스트 데이터 결정계수: 0.039
MA

NMAE :  0.5161382980717666

model : xgboost
학습용 : 1, 테스트용 : 9
학습용 데이터 결정계수: 0.986
테스트 데이터 결정계수: 0.982
MAE : 78.60584606549791
MSE : 15885.149712980332
RMSE :  126.03630315500503
NMAE :  0.5222243482762099

model : lightgbm
학습용 : 9, 테스트용 : 1
학습용 데이터 결정계수: 0.972
테스트 데이터 결정계수: 0.972
MAE : 96.49411056212902
MSE : 24392.49235789638
RMSE :  156.18096029252854
NMAE :  0.5607853006364959

model : lightgbm
학습용 : 8, 테스트용 : 2
학습용 데이터 결정계수: 0.972
테스트 데이터 결정계수: 0.973
MAE : 96.21173164014911
MSE : 23675.80401510459
RMSE :  153.86943821014162
NMAE :  0.5902539184832482

model : lightgbm
학습용 : 7, 테스트용 : 3
학습용 데이터 결정계수: 0.972
테스트 데이터 결정계수: 0.972
MAE : 96.11129825794103
MSE : 24417.937930404354
RMSE :  156.26240088519168
NMAE :  0.5890415445670277

model : lightgbm
학습용 : 6, 테스트용 : 4
학습용 데이터 결정계수: 0.973
테스트 데이터 결정계수: 0.972
MAE : 95.61043720776577
MSE : 24244.302408937543
RMSE :  155.70582008691116
NMAE :  0.5532441473257359

model : lightgbm
학습용 : 5, 테스트용 : 5
학습용 데이터 결정계수: 0.974
테스트 데이터 결정계수: 0.972
MAE :

In [40]:
print("test_size length : ", len(test_size))
print("train_score length :", len(train_score))
print("test_score length :", len(test_score))
print("MAE length :", len(MAE))
print("MSE length :", len(MSE))
print("RMSE length :", len(RMSE))
print("NMAE length :", len(NMAE))
print("model_name length :", len(model_name))

test_size length :  54
train_score length : 54
test_score length : 54
MAE length : 54
MSE length : 54
RMSE length : 54
NMAE length : 54
model_name length : 54


In [41]:
data_dict = {"model" : model_name, "test_size" : test_size, "train_score" : train_score, 
            "test_score" : test_score, "MAE" : MAE, "MSE" : MSE, "RMSE" : RMSE, "NMAE" : NMAE}
df = pd.DataFrame(data_dict)

In [42]:
df["train_score"] = df["train_score"] * 100
df["test_score"] = df["test_score"] * 100
df

Unnamed: 0,model,test_size,train_score,test_score,MAE,MSE,RMSE,NMAE
0,LinearRegression,1,3.850905,3.998721,707.555221,834591.373946,913.559727,6.703851
1,LinearRegression,2,3.849325,3.929455,705.243354,827655.713809,909.755854,6.689363
2,LinearRegression,3,3.87852,3.834932,704.972518,827361.950932,909.594388,6.633057
3,LinearRegression,4,3.903318,3.807003,705.069958,826141.217153,908.923108,6.687121
4,LinearRegression,5,3.883444,3.84706,704.522961,822671.741043,907.012536,6.726914
5,LinearRegression,6,3.835931,3.884286,704.996306,822694.885956,907.025295,6.693803
6,LinearRegression,7,3.927875,3.831466,705.921989,824567.110989,908.056777,6.689059
7,LinearRegression,8,4.055309,3.809685,705.900011,826363.177704,909.045201,6.669365
8,LinearRegression,9,4.093395,3.829319,706.119927,826229.833852,908.971855,6.657797
9,DecisionTreeRegressor,1,100.0,98.704075,47.882783,11266.179675,106.142261,0.053466


In [41]:
df.describe()

Unnamed: 0,test_size,LinearRegression_score,DecisionTreeRegressor_score,RandomForestRegressor_score,GradientBoostingRegressor_score,LinearRegression_MSE,DecisionTreeRegressor_MSE,RandomForestRegressor_MSE,GradientBoostingRegressor_MSE
count,9.0,9.0,9.0,9.0,9.0,9.0,9.0,9.0,9.0
mean,5.0,0.011607,-0.112228,-0.043762,0.041081,849712.760434,955964.4,897163.3,824371.325709
std,2.738613,0.000212,0.227396,0.102888,0.001135,3953.410489,194441.7,86914.16,3219.900309
min,1.0,0.011314,-0.630663,-0.233575,0.039738,845726.395481,816575.5,817026.3,820471.026426
25%,3.0,0.011525,-0.154672,-0.101294,0.040488,847413.327466,829773.5,829472.3,822415.142175
50%,5.0,0.011571,-0.016233,-0.009848,0.040824,849345.726314,869475.4,864012.2,824308.628675
75%,7.0,0.011669,0.035546,0.035896,0.041043,850409.682035,990037.9,944270.4,825511.298092
max,9.0,0.011916,0.06071,0.060192,0.043734,858995.382068,1400949.0,1059800.0,831334.104262


### 최종 모델 선택

In [43]:
X = train[["year", "month", "day", "hour", "weekday", "구분_int"]]
y = train["공급량"]

i = 2

X_train, X_test, y_train, y_test = train_test_split(X, y,
                                                   test_size = i / 10,
                                                   random_state = 77)

model = RandomForestRegressor(n_jobs = -1, random_state = 37)
model.fit(X_train, y_train)
pred = model.predict(X_test)

true_y = pd.DataFrame({"true_y" : y_test})
pred_y = pd.DataFrame({"pred_y" : pred})

true_y.reset_index(drop = True, inplace = True)
true_y.reset_index(inplace = True)
pred_y.reset_index(inplace = True)
        
# 결정계수 확인
print("학습용 : {}, 테스트용 : {}".format(10 - i, i))
print("학습용 데이터 결정계수: {:.3f}".format(model.score(X_train, y_train)))
print("테스트 데이터 결정계수: {:.3f}".format(model.score(X_test, y_test)))

# 평가 지표
print("MAE : {:.6f}".format(mean_absolute_error(y_test, pred)))
print("MSE : {:.6f}".format(mean_squared_error(y_test, pred)))
print("RMSE : {:.6f}".format(np.sqrt(mean_squared_error(y_test, pred))))
print("NMAE : {:.6f}".format(nmae(true_y, pred_y)))
    
# model.feature_importances_

학습용 : 8, 테스트용 : 2
학습용 데이터 결정계수: 0.999
테스트 데이터 결정계수: 0.992
MAE : 39.48500401246978
MSE : 6601.293267275315
RMSE :  81.2483431663398
NMAE :  0.04928746276803263


In [31]:
submission = pd.read_csv('../CSV/가스공급량 수요예측 모델개발 data/sample_submission.csv')

In [32]:
submission.head(3)

Unnamed: 0,일자|시간|구분,공급량
0,2019-01-01 01 A,0
1,2019-01-01 02 A,0
2,2019-01-01 03 A,0


In [33]:
test_x = test[["year", "month", "day", "hour", "weekday", "구분_int"]]
pred = model.predict(test_x)
submission["공급량"] = pred

In [34]:
pred

array([1877.48499, 1754.94089, 1696.90751, ...,  236.53974,  209.2422 ,
        196.42146])

In [35]:
submission.head(3)

Unnamed: 0,일자|시간|구분,공급량
0,2019-01-01 01 A,1877.48499
1,2019-01-01 02 A,1754.94089
2,2019-01-01 03 A,1696.90751


In [36]:
submission.tail(3)

Unnamed: 0,일자|시간|구분,공급량
15117,2019-03-31 22 H,236.53974
15118,2019-03-31 23 H,209.2422
15119,2019-03-31 24 H,196.42146


In [37]:
submission.to_csv("../CSV/Submission/03_base_model.csv", index = False)