# 回帰(regression)

## 線形回帰

In [None]:
import numpy as np
import numpy.random as random
import scipy as sp
from pandas import Series, DataFrame
import pandas as pd
import matplotlib.pyplot as plt

%matplotlib inline


乱数を使ってデータを作成します．

In [None]:
# 同じ結果になるように乱数のシードを指定
np.random.seed(1)
# 乱数の数
N=100

X = 10*np.random.rand(N, 1)
y = 2 +  X + np.random.randn(N, 1)

散布図を作成します．

In [None]:
plt.plot(X, y, 'b.')
#save_fig('linear_regression_data')

scikit-learn で線形回帰させます．

In [None]:
from sklearn.linear_model import LinearRegression

lin_reg = LinearRegression()
lin_reg.fit(X, y)

得られた切片と傾きです．

In [None]:
lin_reg.intercept_, lin_reg.coef_

散布図に回帰直線を描画します．

In [None]:
# 回帰直線
X_new = np.array([[0], [10]])
plt.plot(X_new, lin_reg.intercept_ + lin_reg.coef_ * X_new, 'r')

plt.plot(X, y, 'b.')
#save_fig('linear_regression_result')

性能を評価します．

In [None]:
from sklearn.metrics import mean_squared_error
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import median_absolute_error

print('MSE: {}'.format(mean_squared_error(y, lin_reg.predict(X))))
print('MAE: {}'.format(mean_absolute_error(y, lin_reg.predict(X))))
print('MedAE: {}'.format(median_absolute_error(y, lin_reg.predict(X))))

## 多項式回帰

In [None]:
X = 6 * np.random.rand(N, 1) - 3
y = X**2 + X + 1 + np.random.randn(N, 1)
plt.plot(X, y, "b.")
#save_fig('poly_regression_data')

2次式を利用する準備です．

In [None]:
from sklearn.preprocessing import PolynomialFeatures
poly_features = PolynomialFeatures(degree=2, include_bias=False)
X_poly = poly_features.fit_transform(X)

scikit-learn で2次式で回帰させます．

In [None]:
lin_reg = LinearRegression()
lin_reg.fit(X_poly, y)

In [None]:
X_new=np.linspace(-3, 3, 100).reshape(100, 1)
X_new_poly = poly_features.transform(X_new)
y_new = lin_reg.predict(X_new_poly)

plt.plot(X, y, 'b.')
plt.plot(X_new, y_new, 'r')
#save_fig('poly_regression_result')

In [None]:
print('MSE: {}'.format(mean_squared_error(y, lin_reg.predict(X_poly))))
print('MAE: {}'.format(mean_absolute_error(y, lin_reg.predict(X_poly))))
print('MedAE: {}'.format(median_absolute_error(y, lin_reg.predict(X_poly))))

## 重回帰

一般にモデル構築と評価は以下となります．

1.  説明変数と目的変数の選択
1. 訓練データとテストデータの分割
1. 訓練データによる学習
1. テストデータによるテスト

scikit-learnのボストンの住宅価格データを使用します．

In [None]:
from sklearn.datasets import load_boston

boston = load_boston()

扱いやすいようDataFrame にする．

In [None]:
dataset = pd.DataFrame(data = boston['data'], columns = boston['feature_names'])
dataset['price'] = boston['target']
dataset.head()

目的変数と説明変数を決めます．

In [None]:
Y = np.array(dataset['price'])
X = np.array(dataset[['CRIM', 'RM', 'AGE', 'DIS', 'RAD','TAX']])

データを訓練データとテストデータに分けます．

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=0)

訓練データで学習します．

In [None]:
lin_reg = LinearRegression()
lin_reg.fit(X_train, Y_train)

テストデータで予測してみます．

In [None]:
Y_pred = lin_reg.predict(X_test)

真値と予測値を図示します．

In [None]:
plt.scatter(Y_test, Y_pred)

Copyright. All rights reserved. Shuichi OHNO, 2020.