In [1]:
#에너지 효율성 데이터셋
#건축 구조의 기본 요소인 건물 표면적, 벽과 지붕 면적, 높이, 사각지대, 건물 외형의 간결성,
#건물의 난방과 냉방 효율의 관계 등을 조사한 데이터
#18가지의 건축 특성을 지닌 12가지의 건축 속성, 총 768채의 주택조사

# X1 : 상대적 크기
# X2 : 건축 표면적
# X3 : 벽체 면적
# X4 : 지붕 면적
# X5 : 전체 높이
# X6 : 건물의 방위
# X7 : 유리창 면적
# X8 : 유리창 면적의 분산
# Y1 : 난방 하중
# Y2 : 냉방 하중

In [2]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats

In [3]:
df = pd.read_csv('d:/workspace/Python2/data/energy/ENB2012_data.csv')
df = df.rename(columns={'X1' : '상대적 크기', 'X2' : '건축 표면적', 
               'X3' : '벽체 면적', 'X4' : '지붕 면적', 
               'X5' : '전체 높이', 'X6' : '건물의 방위', 
               'X7' : '유리창 면적', 'X8' : '유리창 면적의 분산'})

난방 다중 회귀분석

In [4]:
train_cols = df.columns[0:8]

X = df[train_cols]
y = df["Y1"]

In [5]:
import statsmodels.api as sm

model = sm.OLS(y, X)
result = model.fit()

print("회귀계수\n",result.params)
print("R-squared\n",result.rsquared)
print("P values\n",result.pvalues)

#요약 결과 출력
print(result.summary())

# 모델의 설명력 98.5%(개선되지는 않음)
# p-value : 모든 변수가 유의함

회귀계수
 상대적 크기       -20.044164
건축 표면적        -0.003688
벽체 면적          0.032209
지붕 면적         -0.017948
전체 높이          5.296760
건물의 방위        -0.016048
유리창 면적        19.960788
유리창 면적의 분산     0.206301
dtype: float64
R-squared
 0.9854178233673888
P values
 상대적 크기        1.208838e-26
건축 표면적        3.694529e-03
벽체 면적         1.019875e-16
지붕 면적         5.043470e-13
전체 높이         5.420160e-93
건물의 방위        8.670525e-01
유리창 면적        1.400196e-96
유리창 면적의 분산    3.655121e-03
dtype: float64
                                 OLS Regression Results                                
Dep. Variable:                     Y1   R-squared (uncentered):                   0.985
Model:                            OLS   Adj. R-squared (uncentered):              0.985
Method:                 Least Squares   F-statistic:                              7347.
Date:                Thu, 09 Mar 2023   Prob (F-statistic):                        0.00
Time:                        15:49:13   Log-Likelihood:                     

냉방 다중 회귀분석

In [6]:
train_cols = df.columns[0:8]

X = df[train_cols]
y = df["Y2"]

In [7]:
import statsmodels.api as sm

model = sm.OLS(y, X)
result = model.fit()
print("회귀계수\n",result.params)
print("R-squared\n",result.rsquared)
print("P values\n",result.pvalues)

#요약 결과 출력
print(result.summary())

# 모델의 설명력 98.5%
# p-value : X2(건축 표면적),X6(건물의 방위),X8(유리창 면적의 분산)은 유의하지 않음
# 해석
# X1(상대적 크기) : 건물이 크면 냉방비용이 감소된다.
# X7(유리창 면적) : 유리창 면적이 크면 냉방비용이 증가한다.
# X5(전체 높이) : 건물 높이가 높으면 냉방비용이 증가한다.

회귀계수
 상대적 크기       -19.013495
건축 표면적         0.002107
벽체 면적          0.017989
지붕 면적         -0.007941
전체 높이          5.588124
건물의 방위         0.129937
유리창 면적        14.749602
유리창 면적의 분산     0.043625
dtype: float64
R-squared
 0.9849864771252053
P values
 상대적 크기        8.097264e-21
건축 표면적        1.283383e-01
벽체 면적         1.593725e-05
지붕 면적         3.001620e-03
전체 높이         3.534444e-88
건물의 방위        2.150330e-01
유리창 면적        6.492365e-52
유리창 면적의 분산    5.727529e-01
dtype: float64
                                 OLS Regression Results                                
Dep. Variable:                     Y2   R-squared (uncentered):                   0.985
Model:                            OLS   Adj. R-squared (uncentered):              0.985
Method:                 Least Squares   F-statistic:                              7132.
Date:                Thu, 09 Mar 2023   Prob (F-statistic):                        0.00
Time:                        15:49:13   Log-Likelihood:                     

In [8]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

#데이터셋을 나눔(학습용:검증용 = 8:2)
#random_state : 난수 발생을 위한 seed의 인자값

X_train, X_test, y_train, y_test = train_test_split(
 X, y, test_size=0.2, random_state=10)
model = LinearRegression().fit(X_train, y_train)

In [9]:
print("학습용:",model.score(X_train, y_train))
print("검증용:",model.score(X_test, y_test))

학습용: 0.882472464160759
검증용: 0.9079786235531351
