In [None]:
%matplotlib inline
import numpy as np
import pandas as pd

In [None]:
# CSVデータの読み込み
df = pd.read_csv('housing.csv')

In [None]:
df.head(3)

# 分布の確認

In [None]:
import seaborn as sns

In [None]:
sns.distplot(df['x6'])

# 外れ値除去(3σ法)

In [None]:
col = 'x6'

In [None]:
# 平均
mean = df.mean()
mean

In [None]:
mean[col]

In [None]:
# 標準偏差（standard deviation）
sigma = df.std()
sigma

In [None]:
sigma[col]

In [None]:
low = mean[col]-3*sigma[col]
low

In [None]:
high = mean[col]+3*sigma[col]
high

In [None]:
df2 = df[(df[col]>low) & (df[col]< high)]

In [None]:
len(df)

In [None]:
len(df2)

In [None]:
# 分布の確認
sns.distplot(df['x6']) # オリジナル

In [None]:
# 分布の確認
sns.distplot(df2['x6']) # 3σ法適用版

In [None]:
cols = df.columns
cols

In [None]:
_df = df
for col in cols:
    # 3σ法の上下限値を設定
    low = mean[col]-3*sigma[col]
    high = mean[col]+3*sigma[col]
    # 条件で絞りこみ
    _df = _df[(_df[col]>low) & (_df[col]< high)]

In [None]:
# オリジナル
len(df)

In [None]:
# 3σ法適用後
len(_df)

３σ法の感覚として0.3%ぐらい減る想定だが506から415に減ったので20%くらい減っている。
対象のデータが正規分じゃないとかパラメータが多いとかで起こってる。

対処法

- 外れ値は取り除く
- 外れ値を平均もしくは中央値などで埋める
- 主成分分析などを使って、潜在変数に変換したのちに３σ法を適用 <- 高度な内容

# 入力変数と出力変数に分割

In [None]:
_df.head(3)

In [None]:
# df.iloc[行,列]
X = _df.iloc[:,:-1]
y = _df.iloc[:,-1]

# 訓練データと検証データに分割

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=1)

# 重回帰分析

In [None]:
from sklearn.linear_model import LinearRegression

In [None]:
# モデルを宣言
model = LinearRegression()

In [None]:
# モデルの学習
model.fit(X_train,y_train)

In [None]:
# 検証 <- 訓練データ
model.score(X_train, y_train)

In [None]:
# 検証 <- 検証データ
model.score(X_test, y_test)

0.6253776004329572となりの精度が落ちた。<br/>
理由は、過学習(オーバーフィティング)。
データのクレンジングまたは別の手法の採用が必要。

# スケーリング

In [None]:
from sklearn.preprocessing import StandardScaler

In [None]:
# scalerの宣言
scaler = StandardScaler()

In [None]:
# scalerの学習 <- 平均と標準偏差（）を計算
scaler.fit(X_train)

In [None]:
# scaling
X_train2 = scaler.transform(X_train)
X_test2 = scaler.transform(X_test)

In [None]:
# モデルの宣言
model = LinearRegression()

In [None]:
# モデルの学習
model.fit(X_train2, y_train)

In [None]:
# 検証 <- 訓練データ
model.score(X_train2, y_train)

In [None]:
# 検証 <- 検証データ
model.score(X_test2, y_test)

In [None]:
# 重みの確認
np.set_printoptions(precision=3, suppress=True) # 指数関数での表示をやめる
model.coef_

In [None]:
sns.distplot(_df['x13'])