# 単回帰分析

## 回帰分析：復習

**母集団回帰式**

データを生成する式（観測できない）と考えよう。

$$y=\beta_0+\beta_1 x + u$$

* $\beta_0$：定数項（真の値）
* $\beta_1$：スロープ係数（真の値）
* $y$： 被説明変数
* $x$： 説明変数
* $u$： 誤差項（errors)
    * 平均はゼロと仮定する

**標本**

* 大きさ$n$の無作為標本を取る。

    $$(y_i,x_i),\quad i=1,2,3...n$$

* 母集団からの標本は次式を満たす。

    $$y_i=\beta_0+\beta_1 x_i + u_i,\quad i=1,2,..n$$
    
    * $\beta_0,\;\beta_1\;u_i$は観測不可能

**最小二乗法法（Ordinary Least Squares; OLS）**

$$\sum_{i=1}^n\left(y_i-\beta_0-\beta_1 x_i\right)^2$$

を最小化する$\beta_0$と$\beta_1$を選択する。最小化の一階条件：

$$
\hat{\beta}_0=\bar{y}-\hat{\beta}_1\bar{x},\qquad\qquad
\hat{\beta}_1=\frac{\text{Cov}(x,y)}{\text{Var}(x)}
$$

* $x$のように添え字$i$を省いた場合は，$x_1$から$x_n$までの全ての観測値という意味（$y$も同じ）
* `^`（ハット）がある変数（$\hat{\beta}_0$と$\hat{\beta}_1$）を**OLS推定量**と呼ぶ
* `-`（バー）がある変数（例えば，$\bar{y}$）は平均値
* $\text{Cov}(x,y)=$ $x$と$y$の共分散
* $\text{Var}(x)=$ $x$の分散

* 次式が成立する。

    $$y_i=\hat{\beta}_0+\hat{\beta}_1 x_i + \hat{u}_i$$
    
    * $\hat{u}_i$：残差
    * 予測値 $\hat{y}_i$

$$\hat{y}_i=\hat{\beta}_0 + \hat{\beta}_1x_i$$

$$\hat{u}_i=y_i-\hat{y}_i$$

## データ

`wooldridge`のパッケージに含まれるデータを使う。使う関数は`data()`であり，引数なしで実行するとデータセットのリストが表示される。

この中にある`wage1`を使う。

オプション`description=True`を追加するとデータの説明を表示することができる。

> 教育水準は賃金にどのような影響を与えるのか

* 被説明変数：`wage`（平均時給、単位：米ドル）
* 説明変数：`educ`（教育年数、単位：年）

まず関係する変数だけを取り出してみる。

最初の3行の表示をしてみよう。


`DataFrame`の特徴を確認する。

記述統計

## 「手計算」

上で示した$\hat{\beta}_0$と$\hat{\beta}_1$の式を使い係数の推定値を計算する。まず分散共分散行列を計算する。

共分散の値を`cov_wage_edu`に割り当てる。

`wage`と`educ`の分散は次のコードで取得できる。

上の式に従って$\beta_1$の推定値 $\left(\hat{\beta}_1\right)$を計算する。

**＜結果の解釈＞**

`b1hat`は次式の推定結果である。

$$y = \beta_0+\beta_1x+u$$

$x$について微分すると

$$
\dfrac{dy}{dx}=\dfrac{y\text{の変化}}{x\text{の増加}}
=
\left(
\begin{array}{l}
    x\text{が1単位増加した}\\
    \text{場合の}yの\text{変化}
    \phantom{春}
\end{array}
\right)
=\beta_1
$$

OLS推定結果は教育年数が１年増えると賃金は約0.54ドル上昇することを示している。

同様に$\beta_0$の推定値 $\left(\hat{\beta}_0\right)$も計算する。まずそれぞれの変数の平均を計算する。

## `statsmodels`を使う

`statsmodels`を次の順番で使い方を説明する。
* `ols`サブパッケージを読み込む
* 回帰式を定義する
* 推定値の自動計算

**Step 1: サブパッケージの読み込み**

`statsmodels`には多くのサブパッケージや関数があり、回帰分析をおこなう際に色々なコードの書き方がある。ここでは最も直感的な書き方を説明する。冒頭で次のコードでインポートされている。
```
import statsmodels.formula.api as smf
```
`smf`に含まれる関数`ols`を使い計算する。

**Step 2: 回帰式の定義**

* 式を`''`で囲む（文字列）
* 定数項である（$\beta_0$）は自動的に挿入される。

```
被説明変数 ~ 説明変数
```
---
`wage`を被説明変数にし，定数項を加えて`educ`を説明変数をする場合，次のように書くことになる。

**Step 3: 自動計算**

* 自動計算の準備として計算の対象となるもの（インスタンスと呼ばれるオブジェクト）を生成し、変数`mod`（"model"の省略形）に割り当てる。
* 第１引数は上で定義した回帰式，第２引数`data`は使用するデータをを指定する。

`mod`の属性を調べてみよう。

* OLS関連の計算を一瞬で実行するメソッド`fit()`が準備されている。
* 結果を`res`に割り当てる（`res`はresultの略）。

上の２つを分けずに一行で書いても良い。
```
res = smf.ols(formula, data=df).fit()
```
`res`の属性を確認してみよう。

上のリストの中に`.params`とあるが，この属性を使い係数の推定値を取り出すことができる。

* メソッド`summary()`を使うと主な結果がまとめられた表を出力する。

上の表は３つの表から構成されており，必要な部分だけを表示することも可能である。
```
res.summary().tables[0]
res.summary().tables[1]
res.summary().tables[2]
```
例えば，係数の推定値に関する基本的な統計量だけを表示するには以下のようにすれば良い。

**＜表の説明＞**

表は3つのセクションから構成されている。
* 上段にはOLS推定の基本的な情報が表示されている。
    * 左側
        * `Dep. Variable`：被説明変数
        * `Model`：モデル
        * `Method`：手法
        * `Data`：日にち
        * `Time`：時間
        * `No. Observation`：標本の大きさ
        * `Df Residuals`：残差の自由度
        * `Df Model`：モデルの自由度（定数項以外の説明変数の数）
        * `Covariance Type`：共分散のタイプ
    * 右側
        * `R-squared`：決定係数
        * `adj. R-squared`：自由度調整済み決定係数
        * `F-statistic`：$F$統計量
        * `Prob (F-statistic)`：$F$値
        * `Log-Likelihood`：対数尤度
        * `AIC`：赤池情報量規準
        * `BIC`：ベイズ情報量規準
* 中段には主な推定結果が表示される。
    * 列ラベル
        * `coef`：係数
        * `std err`：標準誤差
        * `t`：$t$値
        * `P>|t|`：$p$値
        * `[0.025,0.975]`：信頼区間（5%)
    * 行ラベル
        * `Intercept`：定数項
        * `tfp_relative`：説明変数（選択する変数によって変わる）
* 下段には様々な検定などに関する数値が並んでいる。
    * 左側
        * `Omnibus`：オムニバス検定統計量（帰無仮説：残差は正規分布に従う）
        * `Prob(Omnibus)`：オムニバス検定$p$値（帰無仮説：残差は正規分布に従う）
        * `Skew`：残差の歪度（正規分布であれば`0`）
        * `Kurtosis`：残差の尖度（正規分布であれば`3`）
    * 右側
        * `Durbin-Watson`：ダービン・ワトソン統計量（残差の自己相関の検定）
        * `Jarque-Bera (JB)`：ジャーク・ベラ検定統計量（帰無仮説：残差は正規分布に従う）
        * `Prob(JB)`：ジャーク・ベラ検定$p$値（帰無仮説：残差は正規分布に従う）
        * `Cond. No.`：条件指数（Condition Index）の最大値（多重共線性を確認するための指標であり，単回帰分析では無視して良い。）

主な属性とメソッド：
* `nobs`：標本の大きさ（Number of OBservationS）
* `params`：推定値（PARAMeterS）
* `bse`：推定値の標準誤差（Standard Errors）
* `tvalues`：推定値の$t$値（T VALUES）
* `pvalues`：推定値の$p$値（P VALUES）
* `rsquared`：決定係数（R SQUARED）
* `rsquared_adj`：自由度調整ずみ決定係数（ADJusted R SQUARED）
* `conf_int()`：95%信頼区間（CONFidence INTerval）
* `fittedvalues`：予測値（$\hat{y}$）（FITTED VALUES）
* `resid`：残差（$\hat{u}$）（RESIDuals）

## 図示

回帰分析の結果を図示するために、まず予測値の取得する。

データの散布図と回帰直線を図示する。

## 賃金の対数化

* 上の回帰分析の問題：定数項の値は`0`
* 賃金と教育年数は非線形の関係が成り立つのでは？
* 労働経済学では賃金の対数をとり推定するのが一般的であり、そのような式を賃金方程式と呼ぶ。

**＜結果の解釈＞**

`res`は次式の推定結果である。

$$\ln y = \beta_0+\beta_1x+u$$

$x$について微分すると

$$\dfrac{d\ln y}{dx}=\dfrac{dy/y}{dx}=\dfrac{y\text{の%変化}}{dx}=\beta_1$$

* OLS推定結果は教育年数が１年増えると賃金は約8.3%増加することを示している。
* この値は教育の収益率である。

In [None]:
# 散布図と回帰曲線


