# 事前環境設定

・分析に利用するライブラリをインストールする

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
%matplotlib inline

・分析利用データを読込

In [None]:
df_train=pd.read_csv('./train.csv')

In [None]:
df_train.columns

今回はSalePriceに影響が強いと思われる築年、面積、管理状態の評価（物件全体と地下室）の４変数で予測
　目的変数：SalePrice <br>
　説明変数：YearBuilt、GrLivArea、OverallCond、BsmtQual

In [None]:
var = 'YearBuilt'
data = pd.concat([df_train['SalePrice'], df_train[var]], axis=1)
data.plot.scatter(x=var, y='SalePrice', ylim=(0,800000),figsize=(12,6))

var = 'GrLivArea'
data = pd.concat([df_train['SalePrice'], df_train[var]], axis=1)
data.plot.scatter(x=var, y='SalePrice', ylim=(0,800000),figsize=(12,6))

var = 'OverallCond'
data = pd.concat([df_train['SalePrice'], df_train[var]], axis=1)
f, ax = plt.subplots(figsize=(8, 6))
fig = sns.boxplot(x=var, y="SalePrice", data=data)
fig.axis(ymin=0, ymax=800000);

var = 'BsmtQual'
data = pd.concat([df_train['SalePrice'], df_train[var]], axis=1)
f, ax = plt.subplots(figsize=(8, 6))
fig = sns.boxplot(x=var, y="SalePrice", data=data)
fig.axis(ymin=0, ymax=800000);

# データクレンジング・加工

#### 外れ値の削除

In [None]:
df_train.drop(df_train[df_train['GrLivArea']>=4000].index,inplace=True)

#### 使うカラムによってデータセットを縮小

In [None]:
df_x.head()

In [None]:
df_train_shrinked=df_train.loc[:,['GrLivArea','YearBuilt','OverallCond','BsmtQual','SalePrice']]
df_x=df_train_shrinked
df_y=df_train_shrinked['SalePrice']
del df_x['SalePrice']

#### 欠損値補完

In [None]:
#欠損値のあるカラムを探し出す

for i in df_x.columns:
    if sum(df_x[i].isnull())>0:
        print(i)

In [None]:
#欠損値　-> 'NA'　に変換
df_x.loc[df_x['BsmtQual'].isnull()==True,'BsmtQual']='NA'

In [None]:
df_x['BsmtQual'].value_counts()

#### ダミー変数変換　※カテゴリカルデータをモデルの説明変数として利用する際に必要なデータ加工

In [None]:
df_x=pd.get_dummies(df_x)
df_x.head()

# モデル作成/モデル評価　※今回はシンプルに線形回帰分析を選定

・モデル作成

In [None]:
clf =LinearRegression()

In [None]:
clf.fit(df_x, df_y)

・モデル評価（モデルの精度指標と、説明変数の貢献度）

In [None]:
import statsmodels.api as sm
model = sm.OLS(df_y, df_x)
results = model.fit()
print(results.summary())

・モデル評価（予実の比較）

In [None]:
help(pd.tseries)

・参考．予実の誤差

In [None]:
from sklearn.metrics import mean_squared_error
def rmse(y_true, y_pred):
    return np.sqrt(mean_squared_error(y_true, y_pred))

In [None]:
rmse(clf.predict(df_x),df_y)

In [None]:
df_test=pd.read_csv('./test.csv')
df_test_x=df_test.loc[:,['GrLivArea','YearBuilt','OverallCond','BsmtQual']]
df_test_x.loc[df_test_x['BsmtQual'].isnull()==True,'BsmtQual']='NA'
df_test_x=pd.get_dummies(df_test_x)

y_pred = clf.predict(df_test_x)

pred_df = pd.DataFrame(y_pred, index=df_test["Id"], columns=["SalePrice"])
pred_df.to_csv('./output.csv', header=True, index_label='Id')

・モデル評価については以下を参照<br>
　いまさら聞けない機械学習の評価関数（Gunosyデータ分析ブログ）<br>
　http://data.gunosy.io/entry/2016/08/05/115345

In [None]:
sns.regplot(df_y,clf.predict(df_x))

In [None]:
df_x = df_x.copy()
df_x1, df_x2, df_x3  =　np.split(df_x, [1000,300001]) 
df_y = df_y.copy()
df_y1, df_y2, df_y3  =　np.split(df_y, [1000,300001]) 

sns.regplot(clf.predict(df_x3),df_y3)