## セクション６　線形回帰の解釈
- 線形回帰モデルは精度の面では非線形モデルに劣ることが多い
- 線形回帰モデルを使う大きな理由は解釈性が高いから

### pythonで係数の有意差を確認する
- statsmodel.api.OLSクラス
 1.OLS(y,X)でインスタンス生成   
 2..fit()      
 3.summary()でレポート出力   
- statsmodels.api.add_constant(X)
 バイアス項用の列を追加

In [11]:
import pandas as pd 
import numpy as np
import statsmodels.api as sma
from sklearn.preprocessing import StandardScaler

In [12]:
df = pd.read_csv('../sample_data2 (1).csv')
y_col = 'rent'
X = df.drop(columns=[y_col]) 
y = df[y_col]

In [10]:
#バイアス項の作成
X = sma.add_constant(X)
est = sma.OLS(y,X)
est_trained = est.fit()
print(est_trained.summary())

                            OLS Regression Results                            
Dep. Variable:                   rent   R-squared:                       0.903
Model:                            OLS   Adj. R-squared:                  0.876
Method:                 Least Squares   F-statistic:                     32.66
Date:                Sun, 02 Oct 2022   Prob (F-statistic):           0.000282
Time:                        09:37:15   Log-Likelihood:                -22.687
No. Observations:                  10   AIC:                             51.37
Df Residuals:                       7   BIC:                             52.28
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          6.4150      2.043      3.140      0.0



### 標準化した場合のサマリー

In [18]:
X = df.drop(columns=[y_col])
y = df[y_col]
sc = StandardScaler()
sc_X = sc.fit_transform(X)
sc_X = sma.add_constant(sc_X)
est = sma.OLS(y,sc_X)
est_sc_trained = est.fit()
print(est_sc_trained.summary())

#標準化しているのでstd errは同じ値になる

                            OLS Regression Results                            
Dep. Variable:                   rent   R-squared:                       0.903
Model:                            OLS   Adj. R-squared:                  0.876
Method:                 Least Squares   F-statistic:                     32.66
Date:                Sun, 02 Oct 2022   Prob (F-statistic):           0.000282
Time:                        09:44:51   Log-Likelihood:                -22.687
No. Observations:                  10   AIC:                             51.37
Df Residuals:                       7   BIC:                             52.28
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const         20.6474      0.884     23.355      0.0



### 係数のF検定
- 特徴量が一つでも関連があるかを検定する    
    H(0):係数が全て０    
    H(1)：少なくとも一つの係数は０ではない 


## まとめ
### 線形回帰は解釈性が高い
### 係数を見ることで解釈することができる
### 基本的にF検定でp<0.05を確認してからt検定の結果を見るのが良い