線形回帰とは何か？


以下の観点をすべて含めて記述しましょう。

- 線形回帰とは何か。
- 具体的に言うと？
- 分類と何か違うのか。


１次式以上の直線を用いて、相関関係を分析する手法であり、具体的に言うと複数の変数を説明する直線はどのような傾きや切片があるかを考えることになる。
分類との違いは、分類は結果が離散であり、回帰は連続という点に違いがある。

In [125]:
from sklearn.datasets import load_boston
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

In [126]:
boston = load_boston()
X = pd.DataFrame(boston.data, columns=boston.feature_names)
y = pd.DataFrame(boston.target,columns=["MDEV"])


In [127]:
X.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT
0,0.00632,18.0,2.31,0.0,0.538,6.575,65.2,4.09,1.0,296.0,15.3,396.9,4.98
1,0.02731,0.0,7.07,0.0,0.469,6.421,78.9,4.9671,2.0,242.0,17.8,396.9,9.14
2,0.02729,0.0,7.07,0.0,0.469,7.185,61.1,4.9671,2.0,242.0,17.8,392.83,4.03
3,0.03237,0.0,2.18,0.0,0.458,6.998,45.8,6.0622,3.0,222.0,18.7,394.63,2.94
4,0.06905,0.0,2.18,0.0,0.458,7.147,54.2,6.0622,3.0,222.0,18.7,396.9,5.33


In [128]:
X = X["LSTAT"]

単回帰と重回帰についての違いを記述せよ。
⇒単回帰とは、説明変数が１つの場合であり、重回帰とは２つ以上を指す

In [129]:
from sklearn.model_selection import train_test_split

In [130]:
X_train, X_test, y_train, y_test = train_test_split(X,y,train_size=0.8)

In [131]:
X_train.shape, X_test.shape

((404,), (102,))

In [132]:
from sklearn.linear_model import LinearRegression 

In [133]:
lin_1d = LinearRegression()
lin_1d.fit(X_train[:,None], y_train)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False)

In [134]:
score_1d = lin_1d.score(X_train[:,None], y_train)
print("一次式における'LSTAT'の住宅価格への決定係数は%.2f"%(score_1d))

一次式における'LSTAT'の住宅価格への決定係数は0.53


決定係数とは？


以下の観点をすべて含めて記述しましょう。

- 決定係数とは何か
- もっとも説明変数が、目的変数を説明できる場合、決定係数は何になるか
- どのように求めることができるか


決定係数とは、説明変数を用いて、被説明変数がどれくらい説明できているかの当てはまり度合いをいう。最も、被説明変数を説明できている場合には、決定係数は１になる。
求め方は１から(各値-各被説明変数)^2/(各値-各値の平均)^2を引いたものになる

決定係数をいかなる場合も信じても良いか記述せよ(決定係数が高ければ、汎用性があるモデルと言えるか)

⇒データの数が少ない場合には、少ないデータですべてのデータに適応可能と勘違いしてしまう恐れがある。少ないデータで決定係数が大きくても、それは必ずしも汎化能力が高いとは限らない

In [135]:
from sklearn.preprocessing import PolynomialFeatures

lin_2d = LinearRegression()
lin_3d = LinearRegression()
lin_4d = LinearRegression()

degree_2 = PolynomialFeatures(degree=2)
degree_3 = PolynomialFeatures(degree=3)
degree_4 = PolynomialFeatures(degree=4)

X_train_2 = degree_2.fit_transform(X_train)
X_train_3 = degree_3.fit_transform(X_train)
X_train_4 = degree_4.fit_transform(X_train)

lin_2d.fit(X_train_2[:,None], y_train)
lin_3d.fit(X_train_3[:,None], y_train)
lin_4d.fit(X_train_4[:,None], y_train)



KeyboardInterrupt: 

In [None]:
X_test_2 = degree2.fit_transform(X_test)
X_test_3 = degree3.fit_transform(X_test)
X_test_4 = degree4.fit_transform(X_test)

score_2d = lin_2d.score(X_test_2[:,None], y_test)
score_3d = lin_3d.score(X_test_3[:,None], y_test)
score_4d = lin_4d.score(X_test_4[:,None], y_test)

print("二次式における'LSTAT'の住宅価格への決定係数は%.2f"%(score_2d))
print("三次式における'LSTAT'の住宅価格への決定係数は%.2f"%(score_3d))
print("四次式における'LSTAT'の住宅価格への決定係数は%.2f"%(score_4d))

次数が大きくなるとどうなるか記述せよ

以下の観点をすべて含めて記述しましょう。

- 説明変数をxとして、次数を増やしていくとどのように数式が変化していくか記述せよ（1次式 ax + b）
- 次数を増やすとどのようなメリットが考えられるか
- 次数を増やすとどのようなデメリットが考えられるか


説明変数をxとして、xの次数を増やしていくと1次：ax+b、２次：ax^2+bx+c、３次：ax^3+bx^2+cx+d…となっていく。次数を増やすことによって、回帰が直線から曲線になるため、決定係数が向上することが期待される。一方、計算量が増えるため、メモリの消費が大きい

In [168]:
from sklearn.datasets import load_boston
boston = load_boston()

df = pd.DataFrame(boston.data, columns=boston.feature_names)
df = df.drop("CHAS",axis=1)
X = df.values
y = boston.target

In [169]:
#from sklearn.feature_selection import SelectKBest
#from sklearn.feature_selection import chi2

In [170]:
#skb = SelectKBest(chi2, k=5)

In [171]:
#skb.fit(X,y)

In [172]:
X_train, X_test, y_train, y_test = train_test_split(X,y, train_size=0.8,random_state=2)
X_train.shape,y_train.shape

((404, 12), (404,))

In [173]:
clf = LinearRegression()
clf.fit(X_train,y_train)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False)

In [174]:
clf.score(X_test, y_test)

0.78210807021588225

重回帰について記述せよ


以下の観点をすべて含めて記述しましょう。

- 説明変数を増やすことでどのようなメリットがあるか
- 説明変数を増やすことでどのようなデメリットがあるか


重回帰は、説明変数を２つ以上使用して、回帰を行うことをいう。説明変数を増やす事で、訓練データを使った、決定係数の値が向上する可能性が高まる一方で、過学習を起こす可能性がある。