## 線形回帰
- 実際のデータを使って線形回帰を行う

In [None]:
%matplotlib inline
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
import seaborn as sns
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D #3D散布図の描画

### 1. データの読み込み 

In [None]:
df_house = pd.read_csv("../1_data/kc_house_data.csv")[['price', 'sqft_living', 'sqft_lot', 'sqft_above', 'yr_built', 'sqft_living15', 'sqft_lot15']]

# 先程と似た中古住宅のデータ
display(df_house.head())
df_house.describe()

### 2. [演習] データの統計量を確認し，Scikit-learnを用いて線形回帰を実装してみましょう
- 先程は説明変数を選択しましたが，この演習ではすべての説明変数を使用しましょう
- 散布図行列を書いてみましょう
- 相関係数を確認してみましょう
- 相関係数をヒートマップで可視化してみましょう
- w0, w1, ..., w6と二乗誤差を表示してみましょう

In [None]:
# 散布図行列を書いてみる
pd.plotting.scatter_matrix(df_house, figsize=(10,10))
plt.show()

In [None]:
# 相関係数を確認
df_house.corr()

In [None]:
# 相関係数をヒートマップにして可視化
sns.heatmap(df_house.corr())
plt.show()

In [None]:
# 係数を求める
y = df_house["price"].values
X = df_house[['sqft_living', 'sqft_lot', 'sqft_above', 'yr_built', 'sqft_living15', 'sqft_lot15']].values
regr = LinearRegression(fit_intercept=True)
regr.fit(X, y)

# 重みを取り出す
w0 = regr.intercept_
w1 = regr.coef_[0]
w2 = regr.coef_[1]
w3 = regr.coef_[2]
w4 = regr.coef_[3]
w5 = regr.coef_[4]
w6 = regr.coef_[5]

In [None]:
x1 = df_house['sqft_living'].values
x2 = df_house['sqft_lot'].values
x3 = df_house['sqft_above'].values
x4 = df_house['yr_built'].values
x5 = df_house['sqft_living15'].values
x6 = df_house['sqft_lot15'].values

# 重みと二乗誤差の確認
y_est = w0 + w1 * x1 + w2 * x2 + w3 * x3 + w4 * x4 + w5 * x5 + w6 * x6
squared_error = 0.5 * np.sum((y - y_est) ** 2)
print('w0 = {:.3f}, w1 = {:.3f}, w2 = {:.3f}, w3 = {:.3f}, w4 = {:.3f}, w5 = {:.3f}, w6 = {:.3f}'.format(w0, w1, w2, w3, w4, w5, w6))
print('二乗誤差 = {:.3f}'.format(squared_error))