# sklearnを使った重回帰分析　課題の回答

以下の課題を解いていきましょう:
-  切片と係数を表示しましょう
-  決定係数と自由度修正済み決定係数を表示しましょう
-  決定係数の値と自由度修正済み決定係数の値を比較しましょう
-  今回の回帰と、単回帰の場合における決定係数の値を比較しましょう
-  モデルを作成し、床面積が750の場合の値を計算しましょう
-  p値を計算しましょう
-  まとめ表を作成しましょう

## ライブラリのインポート

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()

from sklearn.linear_model import LinearRegression

  import pandas.util.testing as tm


## データの読み込み

In [None]:
data = pd.read_csv('real_estate_price_size_year.csv')
data.head()

Unnamed: 0,price,size,year
0,234314.144,643.09,2015
1,228581.528,656.22,2009
2,281626.336,487.29,2018
3,401255.608,1504.75,2015
4,458674.256,1275.46,2009


In [None]:
data.describe()

Unnamed: 0,price,size,year
count,100.0,100.0,100.0
mean,292289.47016,853.0242,2012.6
std,77051.727525,297.941951,4.729021
min,154282.128,479.75,2006.0
25%,234280.148,643.33,2009.0
50%,280590.716,696.405,2015.0
75%,335723.696,1029.3225,2018.0
max,500681.128,1842.51,2018.0


## 回帰の作成

### 従属変数と独立変数の宣言

In [None]:
x = data[['size','year']]
y = data['price']

### 回帰

In [None]:
reg = LinearRegression()
reg.fit(x,y)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)

### 係数の表示

In [None]:
reg.intercept_

-5772267.017463278

### 切片の表示

In [None]:
reg.coef_

array([ 227.70085401, 2916.78532684])

### 決定係数の計算

In [None]:
reg.score(x,y)

0.7764803683276793

### 自由度修正済み決定係数の計算

In [None]:
# Let's use the handy function we created
def adj_r2(x,y):
    r2 = reg.score(x,y)
    n = x.shape[0]
    p = x.shape[1]
    adjusted_r2 = 1-(1-r2)*(n-1)/(n-p-1)
    return adjusted_r2

In [None]:
adj_r2(x,y)

0.77187171612825

### 決定係数と自由度修正済み決定係数の比較

決定係数の方が少し値が大きいが、大きな違いはないとういことから、独立変数を増やしても大きなペナルティが発生していないことが分かります。

### 単回帰分析における決定係数と自由度修正済み決定係数の比較

単回帰において決定係数と自由度修正済み決定係数を比較すると、Yearが決定にあまり大きな影響を及ぼしていないことが分かります

### 予測

面積が750の場合の値を予測します

In [None]:
reg.predict([[750,2009]])

array([258330.34465995])

### 一変量の場合におけるp値の計算

In [None]:
from sklearn.feature_selection import f_regression

In [None]:
f_regression(x,y)

(array([285.92105192,   0.85525799]), array([8.12763222e-31, 3.57340758e-01]))

In [None]:
p_values = f_regression(x,y)[1]
p_values

array([8.12763222e-31, 3.57340758e-01])

In [None]:
p_values.round(3)

array([0.   , 0.357])

### まとめ表の作成

In [None]:
reg_summary = pd.DataFrame(data = x.columns.values, columns=['Features'])
reg_summary ['Coefficients'] = reg.coef_
reg_summary ['p-values'] = p_values.round(3)
reg_summary

Unnamed: 0,Features,Coefficients,p-values
0,size,227.700854,0.0
1,year,2916.785327,0.357


Yearはモデルに大きな影響を及ぼしていないことから、取り除いても良いことが分かります