# 回帰分析 (regression analysis)
---
- 1つの変数 $Y$ を他の変数 $X$ で説明しようとする分析である。
- $X$ が1変数だけの場合を**単回帰**分析、2変数以上の場合を**重回帰**分析という。
- 線形回帰: $y=a+b_{1}x_{1}+\dots+b_{k}x_{k}$ ( $k$ は変数の数) を扱う。

In [2]:
import pandas as pd
import statsmodels.api as sm
import statsmodels.formula.api as smf
%matplotlib inline

## 用語の整理
---
<table class="text-center border">
    <tr class="background-dark">
        <th class="border-right-bold" rowspan="2"></th>
        <th rowspan="2">概要</th>
        <th rowspan="2">$Y$</th>
        <th class="border-right-none" rowspan="2">$X$</th>
        <th class="border-bottom border-left-none" colspan="2"></th>
    </tr>
    <tr class="background-dark">
        <th>変数の数</th>
        <th>分析の名称</th>
    </tr>
    <tr class="background-bright">
        <th class="background-dark border-right-bold border-bottom" rowspan="2">回帰分析</th>
        <td class="text-left" rowspan="2">1つの変数を他の変数で説明する</td>
        <td rowspan="2">従属変数<br />目的変数</td>
        <td rowspan="2">独立変数<br />説明変数</td>
        <td>1つ</td>
        <td>単回帰分析</td>
    </tr>
    <tr class="background-bright">
        <td>複数</td>
        <td>重回帰分析</td>
    </tr>
    <tr class="background-bright">
        <th class="background-dark border-right-bold border-bottom">相関分析</th>
        <td class="text-left">変数間の関係の有無を調べる</td>
    </tr>
</table>


## データの構造式と最小二乗法
---
データの構造式(重回帰モデル)

$$
    Y_{i}=a+b_{1}X_{1i}+\dots+b_{k}X_{ki}+\epsilon_{i} \, (i=1,\ 2,\dots,\ n) \\
$$

- 独立変数: $X\ (X_{1},\ X_{2},\dots,\ X_{n})$
    - ここで、$i$が$1$のみであれば、単回帰モデルとなる。
- 従属変数: $Y\ (Y_{1},\ Y_{2},\dots,\ Y_{n})$
- $\epsilon_{i}$ は回帰方程式では説明しきれない誤差であり、互いに独立に $N (0, \sigma^2)$に従う。
    - 誤差が小さくなるように、$a,\ b_1,\dots,\ b_k$を定めることができれば、独立変数で従属変数をうまく説明できていると言える。
    - 誤差$\epsilon$の二乗をの合計を最小化するように回帰係数を最適化する。（最小二乗法）[^1] <br> ${\displaystyle S=\sum ^{n}_{i=1} \epsilon ^{2}_{i} =\sum ^{n}_{i=1}\{Y_{i} -( a+b_{1i} X_{1i} +\dots +b_{ki} X_{ki})\}^{2}}$


[^1]: 最小二乗法にも複数の種類がある。今回は、Ordinary Least Squares(OLS)を取り上げた。




## 単回帰分析 (simple regression analysis)

### 回帰方程式の評価
---
- 観測値 $Y_i$ と予測 $\hat{Y}$ との差 (残差 residual) を $e_i=Y_i-\hat{Y}_i$ とすると、以下で定義される**決定係数** $R^2$で回帰方程式が上手く当てはまっているかを評価する。
- $ R ^{2} =1-\frac{{\displaystyle \sum ^{n}_{i=1} e ^{2}_{i}} }{{\displaystyle \sum ^{n}_{i=1}\left( Y_{i} -\overline{Y}\right)^{2}} } $
- 決定係数は、**最小二乗法を使って求められた単回帰方程式の場合**には $X, Y$ 間の相関係数 $r$ との間に $R^2=r^2$ という関係が成り立つ。

### 回帰係数の標本分布
---
- **誤差項$\epsilon$が正規分布に従う**とき、回帰係数の推定量 $\hat{b}$ も正規分布に従う。
- より正確には、誤差項 $\epsilon_1,\ \epsilon_2,\dots,\ \epsilon_n$ が独立で共通の正規分布 $N(0, \sigma^2)$ に従うとすると、<br>回帰係数の推定量 $\hat{b}$ の分布は平均 $b$ 、分散 $
{\displaystyle \frac
    {\sigma ^{2}}
    {{\displaystyle \sum ^{n}_{i=1}\left( X_{i} -\overline{X}\right)^{2}} }
}
$ の正規分布 $
N\left(b,\ {\displaystyle \frac
    {\sigma ^{2}}
    {{\displaystyle \sum ^{n}_{i=1}\left( X_{i} -\overline{X}\right)^{2}} }
} \right)
$ に従う。

### 回帰係数の検定
---
- 各独立変数が、従属変数を説明できているかを確かめるために、回帰係数を検定する必要がある。
    - 検定結果が統計的に優位でない場合、変数を変形することや、取り除くことが必要である。
- 回帰係数 $b$ の推定量 $\hat{b}$ についての検定は、次の$t$値を利用して行う。
    - $
t={\displaystyle
    \frac
        {\hat{b} -b}
        {\frac
            {{\displaystyle
                \sqrt{s^{2}}
            } }
            {\sqrt{{\displaystyle
                \sum ^{n}_{i=1}\left( X_{i} -\overline{X}\right)^{2}
            } }}
        }
}
$
, ただし
$
s^{2} ={\displaystyle
    \frac
        {{\displaystyle
            \sum ^{n}_{i=1} e^{2}_{i}
        } }
        {n-2}
}
$
    - $\hat{b}$は自由度 $n-2$ の $t$ 分布 $t(n-2)$ に従う。
    - $s^2$ は誤差項 $\epsilon$ の分散 $\sigma^2$ の不偏推定量である。

### 標準誤差 (standard error)
---
- 回帰係数 (の推定量) $\hat{b}$ の標準偏差 (の推定量) は以下の通りである。
$$
SE =
\frac
    {{\displaystyle
        \sqrt{s^{2}}
    } }
    {\sqrt{{\displaystyle
        \sum ^{n}_{i=1}\left( X_{i} -\overline{X}\right)^{2}
    } }}
$$

## 重回帰分析 (multiple regression analysis)
---
- 基本的には単回帰分析と同じだが、回帰方程式の評価では**自由度調整済み決定係数**(Adjusted $R^2$)を用いる。

### 回帰方程式の評価
---
- 自由度調整済み決定係数$R_a^2$ <br> $ R_a^2 = {\displaystyle
    1-\frac
        {n-1}
        {n-k-1}
    \left( 1-R ^{2}\right)
} $
- $R^2$は単回帰と同様の決定係数である。<br> $
R ^{2} =1-\frac
    {{\displaystyle
        \sum ^{n}_{i=1} e ^{2}_{i}
    } }
    {{\displaystyle
        \sum ^{n}_{i=1}\left( Y_{i} -\overline{Y}\right)^{2}
    } }
$
- 決定係数$R^2$は説明変数の数 $k$ が増えるだけで数値が上昇してしまうため、 自由度調整済み決定係数を用いる。
- 単回帰と同様に、決定係数は、最小二乗法を使って求められた回帰方程式の場合には $X, Y$ 間の重相関係数 $R$ との間に $R^2=R^2$(決定係数=重相関係数の二乗) という関係が成り立つ。

In [3]:
from helpers.regression_analysis import r2
r2.show()

interactive(children=(IntSlider(value=2, continuous_update=False, description='変数の数', min=2), Output()), _dom_…

## 回帰方程式による区間予測
---
- 標本分布が正規分布なので、正規分布の区間推定と同様に行えば良い。
- パッケージを使う場合は信頼区間 (confidence interval) と予測区間 (prediction interval) の違いに気をつける。

<table class="border">
    <tr class="text-center background-dark">
        <th class="border-right-bold"></th>
        <th>概要</th>
        <th>回帰分析での例</th>
    </tr>
    <tr class="text-left background-bright">
        <th class="text-center background-dark border-right-bold border-bottom">信頼区間</th>
        <td>標本抽出を繰り返して母数 (母平均や母回帰係数など) を推定すると一定割合 (95%など) の予測値が収まると考えられる区間</td>
        <td>回帰係数 $a,\ b$ の推定量 $\hat{a},\ \hat{b}$ の推定区間</td>
    </tr>
    <tr class="text-left background-bright">
        <th class="text-center background-dark border-right-bold border-bottom">予測区間</th>
        <td>標本抽出を繰り返すと一定割合 (95%など) の標本が入ると考えられる区間</td>
        <td>$\epsilon$ の分散 $\sigma ^2$ の推定量 $s^2$ の推定区間</td>
    </tr>
</table>

In [4]:
from helpers.regression_analysis import interval
interval.show()

interactive(children=(FloatSlider(value=0.05, continuous_update=False, description='信頼区間の係数', max=0.5, min=0.0…

## Pythonでの実行方法
---
- statsmodels.regression.linear_model.OLS を用いる。
- $F$ 統計量 (F-statistic) は全ての係数が0であるかどうか（回帰が成立しているかどうか）の検定統計量であり、まず確認するべき項目である。
    - Prob (F-statistic)は$F$ 統計量の$p$ 値であり、それが有意水準以下であれば、回帰は成立している。
- summary にあるそれぞれの変数の P>|t| が $t$ 検定の $p$ 値である。
    - $p$ 値が有意水準以下であれば、その$\hat{b}$は統計的に優位である。

In [4]:
help(sm.OLS)

Help on class OLS in module statsmodels.regression.linear_model:

class OLS(WLS)
 |  A simple ordinary least squares model.
 |  
 |  
 |  Parameters
 |  ----------
 |  endog : array-like
 |      1-d endogenous response variable. The dependent variable.
 |  exog : array-like
 |      A nobs x k array where `nobs` is the number of observations and `k`
 |      is the number of regressors. An intercept is not included by default
 |      and should be added by the user. See
 |      :func:`statsmodels.tools.add_constant`.
 |  missing : str
 |      Available options are 'none', 'drop', and 'raise'. If 'none', no nan
 |      checking is done. If 'drop', any observations with nans are dropped.
 |      If 'raise', an error is raised. Default is 'none.'
 |  hasconst : None or bool
 |      Indicates whether the RHS includes a user-supplied constant. If True,
 |      a constant is not checked for and k_constant is set to 1 and all
 |      result statistics are calculated as if a constant is present.

In [5]:
boston = pd.read_csv('./data/boston.csv')
boston.tail()

Unnamed: 0,犯罪率,住宅地割合,非小売業種割合,河川への隣接,窒素酸化物濃度,平均部屋数,古い持ち家割合,雇用センターまでの距離,高速道路へのアクセス,固定資産税率,生徒と教師の比率,黒人比率,低所得層割合,中央価格
501,0.06263,0.0,11.93,0,0.573,6.593,69.1,2.4786,1,273,21.0,391.99,9.67,22.4
502,0.04527,0.0,11.93,0,0.573,6.12,76.7,2.2875,1,273,21.0,396.9,9.08,20.6
503,0.06076,0.0,11.93,0,0.573,6.976,91.0,2.1675,1,273,21.0,396.9,5.64,23.9
504,0.10959,0.0,11.93,0,0.573,6.794,89.3,2.3889,1,273,21.0,393.45,6.48,22.0
505,0.04741,0.0,11.93,0,0.573,6.03,80.8,2.505,1,273,21.0,396.9,7.88,11.9


- 回帰モデルが$a=0$となるような特別な制約がない場合は、まず切片を考慮した回帰分析を行う。
    - 以下で、$a \neq 0$と仮定して回帰を行なった結果、constは統計的に優位であったため、$a \neq 0$の仮定は正しかったと言える。

In [10]:
Y = boston['中央価格'] # 従属変数
X = boston.loc[:, '犯罪率':'低所得層割合'] # 独立変数
X = sm.add_constant(X) # a=0の場合、この行は不要
model = sm.OLS(Y, X)
fit = model.fit()
fit.summary()

0,1,2,3
Dep. Variable:,中央価格,R-squared:,0.741
Model:,OLS,Adj. R-squared:,0.734
Method:,Least Squares,F-statistic:,108.1
Date:,"Mon, 17 Jan 2022",Prob (F-statistic):,6.72e-135
Time:,14:09:56,Log-Likelihood:,-1498.8
No. Observations:,506,AIC:,3026.0
Df Residuals:,492,BIC:,3085.0
Df Model:,13,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,36.4595,5.103,7.144,0.000,26.432,46.487
犯罪率,-0.1080,0.033,-3.287,0.001,-0.173,-0.043
住宅地割合,0.0464,0.014,3.382,0.001,0.019,0.073
非小売業種割合,0.0206,0.061,0.334,0.738,-0.100,0.141
河川への隣接,2.6867,0.862,3.118,0.002,0.994,4.380
窒素酸化物濃度,-17.7666,3.820,-4.651,0.000,-25.272,-10.262
平均部屋数,3.8099,0.418,9.116,0.000,2.989,4.631
古い持ち家割合,0.0007,0.013,0.052,0.958,-0.025,0.027
雇用センターまでの距離,-1.4756,0.199,-7.398,0.000,-1.867,-1.084

0,1,2,3
Omnibus:,178.041,Durbin-Watson:,1.078
Prob(Omnibus):,0.0,Jarque-Bera (JB):,783.126
Skew:,1.521,Prob(JB):,8.84e-171
Kurtosis:,8.281,Cond. No.,15100.0


In [11]:
# （参考: 切片が不要の場合）
Y = boston['中央価格']
X = boston.loc[:, '犯罪率':'低所得層割合']
# X = sm.add_constant(X) # a=0の場合、この行は不要
model = sm.OLS(Y, X)
fit = model.fit()
fit.summary()

0,1,2,3
Dep. Variable:,中央価格,R-squared (uncentered):,0.959
Model:,OLS,Adj. R-squared (uncentered):,0.958
Method:,Least Squares,F-statistic:,891.3
Date:,"Mon, 17 Jan 2022",Prob (F-statistic):,0.0
Time:,14:10:35,Log-Likelihood:,-1523.8
No. Observations:,506,AIC:,3074.0
Df Residuals:,493,BIC:,3128.0
Df Model:,13,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
犯罪率,-0.0929,0.034,-2.699,0.007,-0.161,-0.025
住宅地割合,0.0487,0.014,3.382,0.001,0.020,0.077
非小売業種割合,-0.0041,0.064,-0.063,0.950,-0.131,0.123
河川への隣接,2.8540,0.904,3.157,0.002,1.078,4.630
窒素酸化物濃度,-2.8684,3.359,-0.854,0.394,-9.468,3.731
平均部屋数,5.9281,0.309,19.178,0.000,5.321,6.535
古い持ち家割合,-0.0073,0.014,-0.526,0.599,-0.034,0.020
雇用センターまでの距離,-0.9685,0.196,-4.951,0.000,-1.353,-0.584
高速道路へのアクセス,0.1712,0.067,2.564,0.011,0.040,0.302

0,1,2,3
Omnibus:,204.082,Durbin-Watson:,0.999
Prob(Omnibus):,0.0,Jarque-Bera (JB):,1374.225
Skew:,1.609,Prob(JB):,3.9e-299
Kurtosis:,10.404,Cond. No.,8500.0


- R と似たような記述ができる formula 形式を使うこともできる。
    - R との違いは [patsyのドキュメント](https://patsy.readthedocs.io/en/latest/R-comparison.html) 

In [7]:
help(smf.ols)

Help on method from_formula in module statsmodels.base.model:

from_formula(formula, data, subset=None, drop_cols=None, *args, **kwargs) method of builtins.type instance
    Create a Model from a formula and dataframe.
    
    Parameters
    ----------
    formula : str or generic Formula object
        The formula specifying the model.
    data : array_like
        The data for the model. See Notes.
    subset : array_like
        An array-like object of booleans, integers, or index values that
        indicate the subset of df to use in the model. Assumes df is a
        `pandas.DataFrame`.
    drop_cols : array_like
        Columns to drop from the design matrix.  Cannot be used to
        drop terms involving categoricals.
    *args
        Additional positional argument that are passed to the model.
    **kwargs
        These are passed to the model with one exception. The
        ``eval_env`` keyword is passed to patsy. It can be either a
        :class:`patsy:patsy.EvalEnvironm

In [8]:
# （参考： formula形式）
import statsmodels.formula.api as smf
model2 = smf.ols(formula='中央価格~{}'.format('+'.join(boston.columns[:-1])), data=boston)
fit2 = model2.fit()
fit2.summary()

0,1,2,3
Dep. Variable:,中央価格,R-squared:,0.741
Model:,OLS,Adj. R-squared:,0.734
Method:,Least Squares,F-statistic:,108.1
Date:,"Mon, 17 Jan 2022",Prob (F-statistic):,6.72e-135
Time:,13:56:42,Log-Likelihood:,-1498.8
No. Observations:,506,AIC:,3026.0
Df Residuals:,492,BIC:,3085.0
Df Model:,13,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,36.4595,5.103,7.144,0.000,26.432,46.487
犯罪率,-0.1080,0.033,-3.287,0.001,-0.173,-0.043
住宅地割合,0.0464,0.014,3.382,0.001,0.019,0.073
非小売業種割合,0.0206,0.061,0.334,0.738,-0.100,0.141
河川への隣接,2.6867,0.862,3.118,0.002,0.994,4.380
窒素酸化物濃度,-17.7666,3.820,-4.651,0.000,-25.272,-10.262
平均部屋数,3.8099,0.418,9.116,0.000,2.989,4.631
古い持ち家割合,0.0007,0.013,0.052,0.958,-0.025,0.027
雇用センターまでの距離,-1.4756,0.199,-7.398,0.000,-1.867,-1.084

0,1,2,3
Omnibus:,178.041,Durbin-Watson:,1.078
Prob(Omnibus):,0.0,Jarque-Bera (JB):,783.126
Skew:,1.521,Prob(JB):,8.84e-171
Kurtosis:,8.281,Cond. No.,15100.0
