### 単回帰
Boston Housing使って勉強

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import load_boston
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

In [None]:
# データセットの読み込み
boston = load_boston()
# データセットの説明
print(boston.DESCR)
# データセットの特徴量
print(boston.feature_names)
# データセットのデータ
print(boston.data)
# データセットのターゲット
print(boston.target)
# データセットのデータをDataFrameに変換
df = pd.DataFrame(boston.data, columns=boston.feature_names)
# データセットのターゲットをDataFrameに変換
df['MEDV'] = boston.target
# データセットのデータの先頭5行を表示
print(df.head())
# データセットのデータの統計量を表示
print(df.describe())
# データセットのデータの相関係数を表示
print(df.corr())
# データセットのデータの相関係数をヒートマップで表示
sns.heatmap(df.corr())
plt.show()
# データセットのデータの散布図行列を表示
sns.pairplot(df)
plt.show()
# データセットのデータの散布図を表示
plt.scatter(df['RM'], df['MEDV'])
plt.xlabel('RM')
plt.ylabel('MEDV')
plt.show()


In [None]:
# データセットのデータを特徴量とターゲットに分割
X = df[['RM']].values
y = df['MEDV'].values
# データセットのデータを訓練データとテストデータに分割
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)
# データセットのデータを訓練データで学習
slr = LinearRegression()
slr.fit(X_train, y_train)
# データセットのデータを訓練データで予測
y_train_pred = slr.predict(X_train)
# データセットのデータをテストデータで予測
y_test_pred = slr.predict(X_test)
# データセットのデータを訓練データで予測した値と実際の値の散布図を表示
plt.scatter(y_train_pred, y_train_pred - y_train, c='steelblue', marker='o', edgecolor='white', label='Training data')
# データセットのデータをテストデータで予測した値と実際の値の散布図を表示
plt.scatter(y_test_pred, y_test_pred - y_test, c='limegreen', marker='s', edgecolor='white', label='Test data')
plt.xlabel('Predicted values')
plt.ylabel('Residuals')
plt.legend(loc='upper left')
plt.hlines(y=0, xmin=-10, xmax=50, color='black', lw=2)
plt.xlim([-10, 50])
plt.show()

In [None]:
# 予測した値と実際の値の平均二乗誤差を表示
print('MSE train: %.3f, test: %.3f' % (mean_squared_error(y_train, y_train_pred), mean_squared_error(y_test, y_test_pred)))
# 予測した値と実際の値の決定係数を表示
print('R^2 train: %.3f, test: %.3f' % (slr.score(X_train, y_train), slr.score(X_test, y_test)))

### 重回帰

In [None]:
# q: 重回帰の勉強はどんなデータセットを使おう？
# a: 重回帰の勉強は、データセットの特徴量が複数あるデータセットを使うと良い。
#    例えば、以下のデータセットを使うと良い。
#    https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data

In [None]:
# kaggle house-prices datasetで重回帰を行う
# kaggle notebookで実行するため、必要なimportを行う
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

In [None]:
# データセットの読み込み
df = pd.read_csv('train.csv')
# データセットのデータの先頭5行を表示
df.head()
# データセットのデータの統計量を表示
df.describe()
# データセットのデータの相関係数を表示
df.corr()
# データセットのデータの相関係数をヒートマップで表示
sns.heatmap(df.corr())
plt.show()
# データセットのデータの散布図行列を表示
sns.pairplot(df)
plt.show()
# データセットのデータの散布図を表示
plt.scatter(df['GrLivArea'], df['SalePrice'])
plt.xlabel('GrLivArea')
plt.ylabel('SalePrice')
plt.show()

In [None]:
# データセットのデータを特徴量とターゲットに分割
X = df[['GrLivArea']].values
y = df['SalePrice'].values
# データセットのデータを訓練データとテストデータに分割
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)
# データセットのデータを訓練データで学習
slr = LinearRegression()
slr.fit(X_train, y_train)
# データセットのデータを訓練データで予測
y_train_pred = slr.predict(X_train)
# データセットのデータをテストデータで予測
y_test_pred = slr.predict(X_test)
# データセットのデータを訓練データで予測した値と実際の値の散布図を表示
plt.scatter(y_train_pred, y_train_pred - y_train, c='steelblue', marker='o', edgecolor='white', label='Training data')
# データセットのデータをテストデータで予測した値と実際の値の散布図を表示
plt.scatter(y_test_pred, y_test_pred - y_test, c='limegreen', marker='s', edgecolor='white', label='Test data')
plt.xlabel('Predicted values')
plt.ylabel('Residuals')
plt.legend(loc='upper left')
plt.hlines(y=0, xmin=-10, xmax=50, color='black', lw=2)
plt.xlim([-10, 50])
plt.show()

In [None]:
# 予測した値と実際の値の平均二乗誤差を表示
print('MSE train: %.3f, test: %.3f' % (mean_squared_error(y_train, y_train_pred), mean_squared_error(y_test, y_test_pred)))
# 予測した値と実際の値の決定係数を表示
print('R^2 train: %.3f, test: %.3f' % (slr.score(X_train, y_train), slr.score(X_test, y_test)))