### モデルの構築

データの性質をもとに、データや分析の目的に合致したモデルを構築する。  
ここでは、沈殿水濁度を予測するモデルを構築する。

In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import japanize_matplotlib

import warnings
warnings.filterwarnings('ignore')

---
### 1. 重回帰モデル

ここではもっとも単純な重回帰モデルを使用してモデル構築を行う。  

- データの読み込み

In [3]:
# 2_データの前処理.ipynbで作成されたデータを使用
df = pd.read_csv("./output/2/preprocessed_data.csv",
                 index_col="collectiondatetime",
                 parse_dates=True)
df.head()

Unnamed: 0_level_0,原水濁度,原水温度,原水pH,原水色度,PAC注入率,前苛性ソーダ注入率,取水流量積算,原水濁度_shift1,原水温度_shift1,原水pH_shift1,原水色度_shift1,PAC注入率_shift1,前苛性ソーダ注入率_shift1,取水流量積算_shift1,沈殿水濁度,沈殿水pH
collectiondatetime,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
2018-08-07 01:00:00,0.86,15.4,7.32,3.92,61.511628,4.186047,86.0,0.86,15.5,7.34,3.91,61.149425,4.252874,87.0,0.22,7.06
2018-08-07 02:00:00,0.81,15.3,7.35,3.92,59.655172,4.022989,87.0,0.86,15.4,7.32,3.92,61.511628,4.186047,86.0,0.23,7.06
2018-08-07 03:00:00,0.81,15.2,7.39,3.88,60.348837,4.069767,86.0,0.81,15.3,7.35,3.92,59.655172,4.022989,87.0,0.22,7.02
2018-08-07 04:00:00,0.81,15.1,7.41,3.89,59.655172,4.022989,87.0,0.81,15.2,7.39,3.88,60.348837,4.069767,86.0,0.22,7.02
2018-08-07 05:00:00,0.83,15.0,7.43,3.89,59.655172,4.137931,87.0,0.81,15.1,7.41,3.89,59.655172,4.022989,87.0,0.23,7.05


- データの前準備

1時間後の沈殿水濁度を予測するため、説明変数は1時間ずらした列を使用する

In [4]:
X_cols = [
    "原水濁度_shift1",
    "原水温度_shift1",
    "原水pH_shift1",
    "原水色度_shift1",
    "PAC注入率_shift1",
    "前苛性ソーダ注入率_shift1",
    "取水流量積算_shift1",
]

学習用データ（2018年度と2019年度）の準備  

In [5]:
# 学習用とテスト用に分割
### テスト用はモデル評価にのみ使用するので、ここでは定義しない
df_train = df[:"2020-03-31"]

# 説明変数と目的変数に分割
X_train = df_train[X_cols]
y_train = df_train[["沈殿水濁度"]]

- モデル構築

In [6]:
from sklearn import linear_model

# 重回帰モデルを構築
model = linear_model.LinearRegression()
model.fit(X_train, y_train)

LinearRegression()

- モデル保存

後で評価するために構築したモデルを保存する

In [7]:
# モデルを保存
import pickle

filename = "./output/3/Linear_Regression.pkl"
pickle.dump(model, open(filename,'wb'))