In [None]:
%config InlineBackend.figure_formats = {'png', 'retina'}
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

### 복합 화력발전소 발전량
- feature
    - AT : 온도
    - V : 배기진공
    - AP : 주위압력
    - RH : 상대습도
- target
    - PE : 시간당 전기에너지 출력량

In [None]:
# 1. 데이터 로드

In [None]:
df = pd.read_csv("datas/thermal_power_plant.csv")
df.tail(2)

In [None]:
# 2. 결정계수 확인 : df.corr() : 히트맵 시각화

In [None]:
df.corr()

In [None]:
sns.heatmap(df.corr() ** 2, annot=True)
plt.show()

In [None]:
# 3. 데이터 전처리 : feature, target

In [None]:
df.columns

In [None]:
feature = df[['AT', 'V', 'AP', 'RH']]
target = df["PE"]
# feature = df[df.columns[:-1]]
# target = df.iloc[:, -1]

In [None]:
# 4. 모델학습 : sklearn

In [None]:
from sklearn.linear_model import LinearRegression

In [None]:
model = LinearRegression().fit(feature, target)

In [None]:
# 5. 모델성능 확인 : MAE

In [None]:
from sklearn.metrics import mean_absolute_error

In [None]:
pred = model.predict(feature)
mae = np.round(mean_absolute_error(target, pred), 2)
mae

In [None]:
# 'AT', 'V', 'AP', 'RH' : 3.63
# 'AT', 'V' : 3.92
# 'AT', 'AP' : 4.28
# 'AT', 'RH' : 3.8
# 2개의 feature를 사용할때 PE를 가장 잘 설명하는 AT, V를 사용하는것보다 AT, RH를 사용하는것이 더 좋다.
# 이유는 AT에 겹치지 않는 PE의 설명영역을 V보다 RH가 더 많이 설명하고 있기 때문이다.

In [None]:
# 6. 모델학습 : statsmodels

In [None]:
import statsmodels.api as sm

In [None]:
feature = df[['AT', 'V', 'AP', 'RH']]
target = df["PE"]
sm_feature = sm.add_constant(feature)
sm_feature.tail(1)

In [None]:
model = sm.OLS(target, sm_feature).fit()

In [None]:
# 7. 요약표 확인

In [None]:
print(model.summary2())

In [None]:
# 8. 불필요한 컬럼을 제거
# (1) : 산점도 확인
# (2) : feature들 간의 상관계수 확인
# (3) : VIF 지표 사용 : feature들 간의 상관관계를 수치화 시켜준 데이터
#     : VIF 지표에서 10이상이 되는 feature는 제거 (한개씩 제거)

In [None]:
from statsmodels.stats.outliers_influence import variance_inflation_factor

In [None]:
pd.DataFrame({
    "feature": feature.columns,
    "VIF": [variance_inflation_factor(feature.values, idx)
            for idx in range(feature.shape[1])]
})

In [None]:
feature = df[['AT', 'AP', 'RH']]
pd.DataFrame({
    "feature": feature.columns,
    "VIF": [variance_inflation_factor(feature.values, idx)
            for idx in range(feature.shape[1])]
})

In [None]:
feature = df[['AT', 'RH']]
pd.DataFrame({
    "feature": feature.columns,
    "VIF": [variance_inflation_factor(feature.values, idx)
            for idx in range(feature.shape[1])]
})

In [None]:
# 9. 모델생성(feature: AT, RH), 성능 확인, 요약표 출력

In [None]:
feature = df[['AT', 'RH']]
target = df["PE"]
sm_feature = sm.add_constant(feature)

model = sm.OLS(target, sm_feature).fit()

print(model.summary2())

In [None]:
# 'AT', 'V', 'AP', 'RH' : 3.63
# 'AT', 'V' : 3.92
# 'AT', 'AP' : 4.28
# 'AT', 'RH' : 3.8
# feature를 최소화 하면서 모델 성능의 감소를 최소화 시키는 방법은 AT, RH를 feature로 사용

pred = np.dot(sm_feature, model.params)
mae = np.round(mean_absolute_error(target, pred), 2)
mae