**statsmodels.formula.apiで重回帰**

statsmodels.formula.apiを使って重回帰（回帰分析）をする方法を解説します。

> 注：このノートブックは駒澤大学経済学部で開講している「経済統計a/b」で「Excel以外の手法を学ぶ意欲がある履修生向け」に**最低限の知識**だけ解説する**補助資料**です

> このノートブックでは「statsmodels.formula.apiを使う」方法を解説します（Rに慣れている人はこちらの「~」を使う表記の方が馴染みがあるはず）。以下の公式サイトを参考にしました。
<br>
https://www.statsmodels.org/
<br>
https://www.statsmodels.org/devel/example_formulas.html

> 補足：Pythonを使った回帰分析はscikit-learn(sklearn)を利用する記事をよく見かけます。sklearnはとても素晴らしいパッケージなので、興味がある人は公式サイトなどを参照してください。<br>https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html


In [1]:
# 最初に重要な呪文を唱えます。
# 初心者の間は何をしているのかわからなくても構いません。
import pandas as pd
import statsmodels.formula.api as smf
# 注釈：statsmodelsのメソッドを使う場合は、以下のように
# statsmodels.apiのimportが必要となります。
# import statsmodels.api as sm

データ分析（回帰分析）を使うため、データ（CSVファイル）をインターネットから読み込みます。ここではread_csvというメソッドを使ってインターネット上にあるデータをPythonに読み込み、dat_frという名前で保存します。head()というメソッドはデータを上から5行表示するメソッドです。

In [2]:
#古い dat_fr = pd.read_csv("https://www.dropbox.com/s/y2uvw3xv1lp3vca/toukei_multireg_data.csv?raw=1",encoding="utf_8")
dat_fr = pd.read_csv("https://raw.githubusercontent.com/koiti-yano/colab/main/data/toukei_multireg_data.csv",encoding="utf_8")
dat_fr.head()

Unnamed: 0,国名,平均寿命,一人当たりのGDP,GDPに占める医療費の割合
0,Afghanistan,42.88,2.94,5.2
1,Albania,76.209,3.73,6.5
2,Algeria,71.699,3.78,3.5
3,Angola,45.523,3.55,1.8
4,Argentina,74.773,4.04,10.2


回帰分析（最小二乗法）にはメソッドols()とfit()を使います。回帰式を指定するとき1重引用符を使って囲むのがポイントです。

In [3]:
# 回帰モデルを作成
sm_model  = smf.ols('平均寿命 ~ 一人当たりのGDP + GDPに占める医療費の割合', data=dat_fr)
# 最小二乗法で回帰モデルを推定
result = sm_model.fit()

print(result.params)

Intercept         9.678772
一人当たりのGDP        14.832364
GDPに占める医療費の割合     0.382462
dtype: float64


メソッドsummary()を使うと回帰結果をまとめて表示してくれます。

In [4]:
print(result.summary())

                            OLS Regression Results                            
Dep. Variable:                   平均寿命   R-squared:                       0.656
Model:                            OLS   Adj. R-squared:                  0.651
Method:                 Least Squares   F-statistic:                     153.2
Date:                Mon, 01 May 2023   Prob (F-statistic):           5.42e-38
Time:                        05:24:00   Log-Likelihood:                -533.52
No. Observations:                 164   AIC:                             1073.
Df Residuals:                     161   BIC:                             1082.
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
                    coef    std err          t      P>|t|      [0.025      0.975]
---------------------------------------------------------------------------------
Intercept         9.6788      3.343      2.895