# 実習2　回帰

## 実習概要

scikit-learnライブラリを使用して、以下の操作を習得します。

- 線形回帰
- 線形回帰（Lasso）
- 線形回帰（Ridge)
- ランダムフォレスト回帰

※セルは適宜追加してください。

## データ概要

- 電力消費量.csv

    C:\PyML\exercise\2.Regression\電力消費量

    あなたは、スマートハウスにおいて、電力関連のサービスの企画を行う部署のメンバーです。スマートハウスの各部屋に設置された電力センサーから得られたデータを元に、以後１ヶ月の家電電力使用量、および、電灯電力使用量の予測値をパネルに表示させるサービスを作成しています。これにより、省エネ活動の見える化ができると考えています。

|列名|意味|
|:--|:--|
|家電使用量|スマートハウス内の、センシング以後１ヶ月の全家電電力使用総量。|
|電灯使用量|スマートハウス内の、センシング以後１ヶ月の電灯のみの電力使用総量。|
|各種温度、湿度情報|スマートハウス内の、各部屋でセンシングされた、直近の温度･湿度データ。|
|気圧、風速、視程、露点温度|スマートハウス建設地域の環境情報|
|乱数1、乱数2|無関係なデータ。|

## 事前準備

### ライブラリのインポート

※必要であれば、ライブラリを追加インポートしてください

In [1]:
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression, Lasso, Ridge
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

### ファイルの読み込み

In [2]:
df = pd.read_csv('電力消費量.csv',encoding='shift_jis',engine='python')

In [3]:
df.head(3)

Unnamed: 0,日時,家電使用量,電灯使用量,温度_キッチン,湿度_キッチン,温度_居間,湿度_居間,温度_洗濯室,湿度_洗濯室,温度_執務室,...,温度_親部屋,湿度_親部屋,温度_外気,気圧,湿度_外気,風速,視程,露点温度,乱数1,乱数2
0,2016/1/11 17:00,60,30,19.89,47.596667,19.2,44.79,19.79,44.73,19.0,...,17.033333,45.53,6.6,733.5,92.0,7.0,63.0,5.3,13.275433,13.275433
1,2016/1/11 17:10,60,30,19.89,46.693333,19.2,44.7225,19.79,44.79,19.0,...,17.066667,45.56,6.48,733.6,92.0,6.666667,59.166667,5.2,18.606195,18.606195
2,2016/1/11 17:20,50,30,19.89,46.3,19.2,44.626667,19.79,44.933333,18.926667,...,17.0,45.5,6.37,733.7,92.0,6.333333,55.333333,5.1,28.642668,28.642668


## データ加工

### 目的変数と特徴変数の抽出

In [4]:
X = df.iloc[:, 3:].values
y1 = df[['家電使用量']].values
y2 = df[['電灯使用量']].values

### ホールドアウト法で分割

In [5]:
X_train , X_test , y_train , y_test = train_test_split(X, y2, test_size = 0.5)

## 学習、評価

以下の手法を使用して予測モデルを作成し、評価してください。

- 線形回帰（正則化なし）
- 線形回帰（Lasso ※alpha=10以上）
- 線形回帰（Ridge ※alpha=10以上）
- ランダムフォレスト回帰

## 学習

### 線形回帰（正則化なし）

In [6]:
reg_lr = LinearRegression()

In [7]:
reg_lr.fit(X = X_train, y = y_train)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False)

In [8]:
reg_lr.coef_

array([[  5.10193207e-01,   4.30527522e-01,  -1.37351387e+00,
         -4.52511155e-01,   4.12556845e-02,   9.00606573e-02,
          3.23385176e+00,   1.16324066e+00,  -1.02174214e-01,
          4.11007697e-02,   3.35461236e-01,   3.13103958e-02,
         -1.04575221e-01,  -1.83722145e-01,   9.67374819e-01,
         -6.09163319e-01,  -3.13193315e+00,  -3.40569799e-01,
         -2.53191105e-01,   4.01900654e-03,   7.62934821e-02,
          1.91093073e-01,   1.83296233e-02,  -4.56179510e-02,
          5.28993921e+11,  -5.28993921e+11]])

### LASSO回帰（L1正則化）

In [9]:
reg_l1 = Lasso(alpha = 10)

In [10]:
reg_l1.fit(X = X_train, y = y_train)

Lasso(alpha=10, copy_X=True, fit_intercept=True, max_iter=1000,
   normalize=False, positive=False, precompute=False, random_state=None,
   selection='cyclic', tol=0.0001, warm_start=False)

In [11]:
reg_l1.coef_

array([ 0.        ,  0.        ,  0.        ,  0.        , -0.        ,
        0.        ,  0.        ,  0.        , -0.        ,  0.        ,
       -0.        ,  0.02604406, -0.        , -0.        ,  0.        ,
       -0.        , -0.        , -0.        , -0.        ,  0.        ,
       -0.        ,  0.        ,  0.        , -0.        ,  0.        ,  0.        ])

### リッジ回帰（L2正則化）

In [12]:
reg_l2 = Ridge(alpha = 10)

In [13]:
reg_l2.fit(X = X_train, y = y_train)

Ridge(alpha=10, copy_X=True, fit_intercept=True, max_iter=None,
   normalize=False, random_state=None, solver='auto', tol=0.001)

In [14]:
reg_l2.coef_

array([[  5.07439184e-01,   4.28461933e-01,  -1.36100559e+00,
         -4.48164699e-01,   3.91240947e-02,   9.13829464e-02,
          3.22325258e+00,   1.15969331e+00,  -1.06450670e-01,
          4.13641040e-02,   3.32469955e-01,   3.13796339e-02,
         -1.10318972e-01,  -1.82869113e-01,   9.64496023e-01,
         -6.09177246e-01,  -3.11231132e+00,  -3.41162692e-01,
         -2.49812061e-01,   4.29843896e-03,   7.62308044e-02,
          1.91343349e-01,   1.83044247e-02,  -4.72035802e-02,
         -4.19581661e-04,  -4.19581660e-04]])

### ランダムフォレスト回帰

In [15]:
reg_rf = RandomForestRegressor(n_estimators=1000, n_jobs=-1, random_state=1)

In [16]:
reg_rf.fit(X = X_train, y = y_train.ravel())

RandomForestRegressor(bootstrap=True, criterion='mse', max_depth=None,
           max_features='auto', max_leaf_nodes=None,
           min_impurity_split=1e-07, min_samples_leaf=1,
           min_samples_split=2, min_weight_fraction_leaf=0.0,
           n_estimators=1000, n_jobs=-1, oob_score=False, random_state=1,
           verbose=0, warm_start=False)

## 評価

### 評価用の関数

In [17]:
def eval(method):
    train_pred = method.predict(X_train)
    train_mse = mean_squared_error(y_true = y_train, y_pred = train_pred)
    test_pred = method.predict(X_test)
    test_mse = mean_squared_error(y_true=y_test, y_pred = test_pred)
    print('学習用データ:', np.sqrt(train_mse))
    print('テスト用データ:', np.sqrt(test_mse))

### 線形回帰（正則化なし）

In [18]:
eval(reg_lr)

学習用データ: 6.96959778792
テスト用データ: 7.04399596997


### LASSO回帰（L1正則化）

In [19]:
eval(reg_l1)

学習用データ: 7.80921696697
テスト用データ: 7.89495181953


### リッジ回帰（L2正則化）

In [20]:
eval(reg_l2)

学習用データ: 6.96956271933
テスト用データ: 7.04385352406


### ランダムフォレスト回帰

In [21]:
eval(reg_rf)

学習用データ: 1.8053671208
テスト用データ: 4.83332407012
