In [1]:
import pandas as pd
import numpy as np
import time

from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import mean_squared_error

from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor 
from sklearn.ensemble import RandomForestRegressor   # 앙상블(의사결정트리 확장판)
from sklearn.ensemble import GradientBoostingRegressor

import xgboost as xgb
import lightgbm as lgb

In [2]:
train = pd.read_csv("../CSV/train_data.csv")
test = pd.read_csv("../CSV/pred_test.csv")

print("train shape : {}, test shape : {}".format(train.shape, test.shape))

train shape : (368088, 12), test shape : (15120, 12)


In [3]:
train.head(3)

Unnamed: 0,연월일,시간,일시,year,month,day,hour,weekday,구분,구분_int,공급량,기온(°C)
0,2013-01-01,1,2013-01-01 00:00:00,2013,1,1,0,1,A,0,2497.129,-8.3
1,2013-01-01,2,2013-01-01 01:00:00,2013,1,1,1,1,A,0,2363.265,-8.5
2,2013-01-01,3,2013-01-01 02:00:00,2013,1,1,2,1,A,0,2258.505,-8.4


### LinearRegression

In [4]:
X = train[["year", "month", "day", "hour", "weekday", "기온(°C)", "구분_int"]]
y = train["공급량"]

for i in range(1, 10, 1) :
    X_train, X_test, y_train, y_test = train_test_split(X, y,
                                                       test_size = i / 10,
                                                       random_state = 77)

    lr_model = LinearRegression()
    lr_model.fit(X_train, y_train)
    pred = lr_model.predict(X_test)

    # 결정계수 확인
    print("학습용 : {}, 테스트용 : {}".format(10 - i, i))
    print("학습용 데이터 결정계수: {:.3f}".format(lr_model.score(X_train, y_train)))
    print("테스트 데이터 결정계수: {:.3f}".format(lr_model.score(X_test, y_test)))
    print("MSE :", mean_squared_error(y_test, pred))
    print()
    
# model.feature_importances_

학습용 : 9, 테스트용 : 1
학습용 데이터 결정계수: 0.322
테스트 데이터 결정계수: 0.321
MSE : 590491.4823538994

학습용 : 8, 테스트용 : 2
학습용 데이터 결정계수: 0.322
테스트 데이터 결정계수: 0.321
MSE : 584549.6191155387

학습용 : 7, 테스트용 : 3
학습용 데이터 결정계수: 0.322
테스트 데이터 결정계수: 0.323
MSE : 582575.4475852918

학습용 : 6, 테스트용 : 4
학습용 데이터 결정계수: 0.322
테스트 데이터 결정계수: 0.322
MSE : 582469.7143700205

학습용 : 5, 테스트용 : 5
학습용 데이터 결정계수: 0.323
테스트 데이터 결정계수: 0.322
MSE : 580411.7422423407

학습용 : 4, 테스트용 : 6
학습용 데이터 결정계수: 0.323
테스트 데이터 결정계수: 0.322
MSE : 580421.0644667256

학습용 : 3, 테스트용 : 7
학습용 데이터 결정계수: 0.321
테스트 데이터 결정계수: 0.322
MSE : 580907.4112167998

학습용 : 2, 테스트용 : 8
학습용 데이터 결정계수: 0.321
테스트 데이터 결정계수: 0.322
MSE : 582235.882776451

학습용 : 1, 테스트용 : 9
학습용 데이터 결정계수: 0.324
테스트 데이터 결정계수: 0.322
MSE : 582621.8024223659



### xgboost

In [5]:
X = train[["year", "month", "day", "hour", "weekday", "기온(°C)", "구분_int"]]
y = train["공급량"]

for i in range(1, 10, 1) :
    X_train, X_test, y_train, y_test = train_test_split(X, y,
                                                       test_size = i / 10,
                                                       random_state = 77)

    xgb_model = xgb.XGBRegressor(objective = "reg:linear", 
                            colsample_bytree = 0.3, 
                            learning_rate = 0.1, 
                            max_depth = 3, 
                            alpha = 0.1, 
                            n_estimators = 1000)
    xgb_model.fit(X_train, y_train)
    pred = xgb_model.predict(X_test)

    # 결정계수 확인
    print("학습용 : {}, 테스트용 : {}".format(10 - i, i))
    print("학습용 데이터 결정계수: {:.3f}".format(xgb_model.score(X_train, y_train)))
    print("테스트 데이터 결정계수: {:.3f}".format(xgb_model.score(X_test, y_test)))
    print("MSE :", mean_squared_error(y_test, pred))
    print()

학습용 : 9, 테스트용 : 1
학습용 데이터 결정계수: 0.978
테스트 데이터 결정계수: 0.978
MSE : 19429.419025144703

학습용 : 8, 테스트용 : 2
학습용 데이터 결정계수: 0.978
테스트 데이터 결정계수: 0.978
MSE : 18635.423363707363

학습용 : 7, 테스트용 : 3
학습용 데이터 결정계수: 0.979
테스트 데이터 결정계수: 0.978
MSE : 19232.720424837866

학습용 : 6, 테스트용 : 4
학습용 데이터 결정계수: 0.979
테스트 데이터 결정계수: 0.978
MSE : 19084.835802899775

학습용 : 5, 테스트용 : 5
학습용 데이터 결정계수: 0.978
테스트 데이터 결정계수: 0.977
MSE : 19622.689955968704

학습용 : 4, 테스트용 : 6
학습용 데이터 결정계수: 0.979
테스트 데이터 결정계수: 0.978
MSE : 18996.24741908079

학습용 : 3, 테스트용 : 7
학습용 데이터 결정계수: 0.979
테스트 데이터 결정계수: 0.978
MSE : 18942.06772576221

학습용 : 2, 테스트용 : 8
학습용 데이터 결정계수: 0.979
테스트 데이터 결정계수: 0.978
MSE : 19004.762596107706

학습용 : 1, 테스트용 : 9
학습용 데이터 결정계수: 0.979
테스트 데이터 결정계수: 0.977
MSE : 19918.98344049013



### lightgbm

In [6]:
X = train[["year", "month", "day", "hour", "weekday", "기온(°C)", "구분_int"]]
y = train["공급량"]

for i in range(1, 10, 1) :
    X_train, X_test, y_train, y_test = train_test_split(X, y,
                                                       test_size = i / 10,
                                                       random_state = 77)

    hyperparameters = {'boosting_type': 'gbdt', 
                       'colsample_bytree': 0.7250136792694301, 
                       'is_unbalance': False, 
                       'learning_rate': 0.013227664889528229,
                       'min_child_samples': 20, 
                       'num_leaves': 56, 
                       'reg_alpha': 0.7543896477745794, 
                       'reg_lambda': 0.07152751159655985, 
                       'subsample_for_bin': 240000, 
                       'subsample': 0.5233384321711397, 
                       'n_estimators': 2000}

    lgb_model = lgb.LGBMRegressor(**hyperparameters)
    lgb_model.fit(X_train, y_train)
    pred = lgb_model.predict(X_test)

    # 결정계수 확인
    print("학습용 : {}, 테스트용 : {}".format(10 - i, i))
    print("학습용 데이터 결정계수: {:.3f}".format(lgb_model.score(X_train, y_train)))
    print("테스트 데이터 결정계수: {:.3f}".format(lgb_model.score(X_test, y_test)))
    print("MSE :", mean_squared_error(y_test, pred))
    print()

학습용 : 9, 테스트용 : 1
학습용 데이터 결정계수: 0.994
테스트 데이터 결정계수: 0.993
MSE : 6206.1896848972265

학습용 : 8, 테스트용 : 2
학습용 데이터 결정계수: 0.994
테스트 데이터 결정계수: 0.994
MSE : 5410.368952236595

학습용 : 7, 테스트용 : 3
학습용 데이터 결정계수: 0.994
테스트 데이터 결정계수: 0.993
MSE : 6121.545201607564

학습용 : 6, 테스트용 : 4
학습용 데이터 결정계수: 0.994
테스트 데이터 결정계수: 0.993
MSE : 6284.886534176909

학습용 : 5, 테스트용 : 5
학습용 데이터 결정계수: 0.995
테스트 데이터 결정계수: 0.993
MSE : 6190.907656227129

학습용 : 4, 테스트용 : 6
학습용 데이터 결정계수: 0.994
테스트 데이터 결정계수: 0.993
MSE : 6056.301967605995

학습용 : 3, 테스트용 : 7
학습용 데이터 결정계수: 0.994
테스트 데이터 결정계수: 0.993
MSE : 6157.411530054328

학습용 : 2, 테스트용 : 8
학습용 데이터 결정계수: 0.994
테스트 데이터 결정계수: 0.993
MSE : 6391.914230827569

학습용 : 1, 테스트용 : 9
학습용 데이터 결정계수: 0.994
테스트 데이터 결정계수: 0.992
MSE : 7124.688636188779



### 다양한 모델 비교
* LinearRegression
* DecisionTreeRegressor
* RandomForestRegressor
* GradientBoostingRegressor

In [6]:
def nmae(true_df, pred_df):
    target_idx = true_df.iloc[:,0]
    pred_df = pred_df[pred_df.iloc[:,0].isin(target_idx)]
    pred_df = pred_df.sort_values(by=[pred_df.columns[0]], ascending=[True])
    true_df = true_df.sort_values(by=[true_df.columns[0]], ascending=[True])
    
    true = true_df.iloc[:,1].to_numpy()
    pred = pred_df.iloc[:,1].to_numpy()
    
    score = np.mean((np.abs(true-pred))/true)
    
    return score

In [28]:
start_time = time.time()

X = train[["year", "month", "day", "hour", "weekday", "구분_int", "기온(°C)"]]
y = train["공급량"]

model_list = ["LinearRegression", 
              "DecisionTreeRegressor", 
              "RandomForestRegressor", 
              "GradientBoostingRegressor", 
              "xgboost", 
              "lightgbm"]

models = [LinearRegression(), 
         DecisionTreeRegressor(), 
         RandomForestRegressor(n_jobs = -1, random_state = 37), 
         GradientBoostingRegressor(random_state = 37), 
         xgb.XGBRegressor(), 
         lgb.LGBMRegressor()]

test_size = []
train_score = []
test_score = []
MAE = []
MSE = []
RMSE = []
NMAE = []
model_name = []
    
for idx, model in enumerate(models) :
    for i in range(1, 10, 1) :
        X_train, X_test, y_train, y_test = train_test_split(X, y,
                                                           test_size = i / 10,
                                                           random_state = 77)
        print("model :", model_list[idx])
        model.fit(X_train, y_train)
        pred = model.predict(X_test)
        
        true_y = pd.DataFrame({"true_y" : y_test})
        pred_y = pd.DataFrame({"pred_y" : pred})
        
        true_y.reset_index(drop = True, inplace = True)
        true_y.reset_index(inplace = True)
        pred_y.reset_index(inplace = True)

        # 결정계수 확인
        print("학습용 : {}, 테스트용 : {}".format(10 - i, i))
        print("학습용 데이터 결정계수: {:.3f}".format(model.score(X_train, y_train)))
        print("테스트 데이터 결정계수: {:.3f}".format(model.score(X_test, y_test)))

        # 평가 지표
        print("MAE :", mean_absolute_error(y_test, pred))
        print("MSE :", mean_squared_error(y_test, pred))
        print("RMSE : ", np.sqrt(mean_squared_error(y_test, pred)))
        print("NMAE : ", nmae(true_y, pred_y))
        print()
        test_size.append(i)
        train_score.append(model.score(X_train, y_train))
        test_score.append(model.score(X_test, y_test))
        MAE.append(mean_absolute_error(y_test, pred))
        MSE.append(mean_squared_error(y_test, pred))
        RMSE.append(np.sqrt(mean_squared_error(y_test, pred)))
        NMAE.append(nmae(true_y, pred_y))
        model_name.append(model_list[idx])
        
print("실행 시간 : {:.3f}".format(time.time() - start_time))

model : LinearRegression
학습용 : 9, 테스트용 : 1
학습용 데이터 결정계수: 0.322
테스트 데이터 결정계수: 0.321
MAE : 582.7460159784652
MSE : 590491.4823538994
RMSE :  768.4344359500682
NMAE :  4.306466357254007

model : LinearRegression
학습용 : 8, 테스트용 : 2
학습용 데이터 결정계수: 0.322
테스트 데이터 결정계수: 0.321
MAE : 579.5269534039344
MSE : 584549.6191155387
RMSE :  764.5584471546558
NMAE :  4.252175862019568

model : LinearRegression
학습용 : 7, 테스트용 : 3
학습용 데이터 결정계수: 0.322
테스트 데이터 결정계수: 0.323
MAE : 578.8488702444839
MSE : 582575.4475852916
RMSE :  763.2663018798168
NMAE :  4.202850858778187

model : LinearRegression
학습용 : 6, 테스트용 : 4
학습용 데이터 결정계수: 0.322
테스트 데이터 결정계수: 0.322
MAE : 579.2466688796138
MSE : 582469.7143700205
RMSE :  763.1970350899043
NMAE :  4.2107011724089425

model : LinearRegression
학습용 : 5, 테스트용 : 5
학습용 데이터 결정계수: 0.323
테스트 데이터 결정계수: 0.322
MAE : 578.600880127177
MSE : 580411.7422423407
RMSE :  761.8475846534795
NMAE :  4.2241205042263825

model : LinearRegression
학습용 : 4, 테스트용 : 6
학습용 데이터 결정계수: 0.323
테스트 데이터 결정계수: 0.

model : xgboost
학습용 : 1, 테스트용 : 9
학습용 데이터 결정계수: 0.993
테스트 데이터 결정계수: 0.989
MAE : 60.1376596188379
MSE : 9495.712006448934
RMSE :  97.44594402256531
NMAE :  0.4974624650949261

model : lightgbm
학습용 : 9, 테스트용 : 1
학습용 데이터 결정계수: 0.987
테스트 데이터 결정계수: 0.986
MAE : 67.73681829542026
MSE : 12141.193600972847
RMSE :  110.18708454702323
NMAE :  0.5489868400593946

model : lightgbm
학습용 : 8, 테스트용 : 2
학습용 데이터 결정계수: 0.987
테스트 데이터 결정계수: 0.987
MAE : 67.46010176734315
MSE : 11436.590272051339
RMSE :  106.94199489466867
NMAE :  0.5415505280333585

model : lightgbm
학습용 : 7, 테스트용 : 3
학습용 데이터 결정계수: 0.987
테스트 데이터 결정계수: 0.986
MAE : 67.40910394997995
MSE : 12001.113129950983
RMSE :  109.54959210307898
NMAE :  0.5515241972877374

model : lightgbm
학습용 : 6, 테스트용 : 4
학습용 데이터 결정계수: 0.987
테스트 데이터 결정계수: 0.986
MAE : 67.71819700188726
MSE : 12320.997661853695
RMSE :  110.99998946780893
NMAE :  0.5518316101195799

model : lightgbm
학습용 : 5, 테스트용 : 5
학습용 데이터 결정계수: 0.987
테스트 데이터 결정계수: 0.986
MAE : 67.8042131965938
MSE : 12126

In [29]:
print("test_size length : ", len(test_size))
print("train_score length :", len(train_score))
print("test_score length :", len(test_score))
print("MAE length :", len(MAE))
print("MSE length :", len(MSE))
print("RMSE length :", len(RMSE))
print("NMAE length :", len(NMAE))
print("model_name length :", len(model_name))

test_size length :  54
train_score length : 54
test_score length : 54
MAE length : 54
MSE length : 54
RMSE length : 54
NMAE length : 54
model_name length : 54


In [30]:
data_dict = {"model" : model_name, "test_size" : test_size, "train_score" : train_score, 
            "test_score" : test_score, "MAE" : MAE, "MSE" : MSE, "RMSE" : RMSE, "NMAE" : NMAE}
df = pd.DataFrame(data_dict)

In [31]:
df["train_score"] = df["train_score"] * 100
df["test_score"] = df["test_score"] * 100
df

Unnamed: 0,model,test_size,train_score,test_score,MAE,MSE,RMSE,NMAE
0,LinearRegression,1,32.231723,32.077015,582.746016,590491.482354,768.434436,4.306466
1,LinearRegression,2,32.23269,32.148115,579.526953,584549.619116,764.558447,4.252176
2,LinearRegression,3,32.185351,32.286701,578.84887,582575.447585,763.266302,4.202851
3,LinearRegression,4,32.239283,32.179261,579.246669,582469.71437,763.197035,4.210701
4,LinearRegression,5,32.267667,32.162134,578.60088,580411.742242,761.847585,4.224121
5,LinearRegression,6,32.252351,32.189216,578.910066,580421.064467,761.853703,4.192962
6,LinearRegression,7,32.123475,32.249282,579.409683,580907.411217,762.172822,4.189123
7,LinearRegression,8,32.141789,32.226587,580.008349,582235.882776,763.043828,4.17186
8,LinearRegression,9,32.385276,32.184565,580.335669,582621.802422,763.296667,4.149284
9,DecisionTreeRegressor,1,100.0,98.319467,58.284638,14609.784299,120.870941,0.074891


In [9]:
df.describe()

Unnamed: 0,test_size,LinearRegression_score,DecisionTreeRegressor_score,RandomForestRegressor_score,GradientBoostingRegressor_score,LinearRegression_MSE,DecisionTreeRegressor_MSE,RandomForestRegressor_MSE,GradientBoostingRegressor_MSE
count,9.0,9.0,9.0,9.0,9.0,9.0,9.0,9.0,9.0
mean,5.0,0.3179,-0.0137,0.11593,0.376551,586397.063487,871199.0,759936.854768,535972.885018
std,2.738613,0.000718,0.149621,0.037465,0.001061,3229.825906,126802.3,29905.16383,2420.626911
min,1.0,0.316583,-0.250021,0.070965,0.374196,583767.273155,733506.0,706129.411126,533493.526987
25%,3.0,0.317606,-0.122826,0.083518,0.376386,584135.250889,761420.8,740388.189369,534615.396566
50%,5.0,0.317983,0.017262,0.10694,0.376483,585879.844311,840817.5,766993.393836,535276.241963
75%,7.0,0.31853,0.114993,0.140591,0.377345,586188.709652,962731.8,784129.648921,537473.987917
max,9.0,0.318728,0.156264,0.178086,0.377843,594131.699276,1073929.0,795200.338134,541157.497874


### 최종 모델 선택

In [12]:
X = train[["year", "month", "day", "hour", "weekday", "구분_int", "기온(°C)"]]
y = train["공급량"]

i = 2

X_train, X_test, y_train, y_test = train_test_split(X, y,
                                                   test_size = i / 10,
                                                   random_state = 77)

model = RandomForestRegressor(n_jobs = -1, random_state = 37)
model.fit(X_train, y_train)
pred = model.predict(X_test)

true_y = pd.DataFrame({"true_y" : y_test})
pred_y = pd.DataFrame({"pred_y" : pred})

true_y.reset_index(drop = True, inplace = True)
true_y.reset_index(inplace = True)
pred_y.reset_index(inplace = True)
        
# 결정계수 확인
print("학습용 : {}, 테스트용 : {}".format(10 - i, i))
print("학습용 데이터 결정계수: {:.3f}".format(model.score(X_train, y_train)))
print("테스트 데이터 결정계수: {:.3f}".format(model.score(X_test, y_test)))

# 평가 지표
print("MAE :", mean_absolute_error(y_test, pred))
print("MSE :", mean_squared_error(y_test, pred))
print("RMSE : ", np.sqrt(mean_squared_error(y_test, pred)))
print("NMAE : ", nmae(true_y, pred_y))
    
# model.feature_importances_

학습용 : 8, 테스트용 : 2
학습용 데이터 결정계수: 0.999
테스트 데이터 결정계수: 0.991
MAE : 44.61232698225977
MSE : 7742.093434334801
RMSE :  87.9891665737027
NMAE :  0.07338350169713619


In [13]:
submission = pd.read_csv('../CSV/가스공급량 수요예측 모델개발 data/sample_submission.csv')

In [14]:
submission.head(3)

Unnamed: 0,일자|시간|구분,공급량
0,2019-01-01 01 A,0
1,2019-01-01 02 A,0
2,2019-01-01 03 A,0


In [15]:
test_x = test[["year", "month", "day", "hour", "weekday", "구분_int", "기온(°C)"]]
pred = model.predict(test_x)
submission["공급량"] = pred

In [16]:
pred

array([1860.31467, 1747.67289, 1539.22908, ...,  255.04951,  202.48655,
        196.61685])

In [17]:
submission.head(3)

Unnamed: 0,일자|시간|구분,공급량
0,2019-01-01 01 A,1860.31467
1,2019-01-01 02 A,1747.67289
2,2019-01-01 03 A,1539.22908


In [18]:
submission.tail(3)

Unnamed: 0,일자|시간|구분,공급량
15117,2019-03-31 22 H,255.04951
15118,2019-03-31 23 H,202.48655
15119,2019-03-31 24 H,196.61685


In [19]:
submission.to_csv("../CSV/Submission/05_7_columns_RandomForest_model.csv", index = False)