**R入門（その8）**

---
**このノートブックについて**<br>
このColabのノートブック「R入門（その8）」では「Rのlm()でダミー変数を使う方法」を解説します。

方法は2つあります。

1.   factor()を使う方法（関数lm()はfactorの属性を持つ変数を自動的にダミー変数に変換する）
2.   fastdDummies等のパッケージを使う方法

どちらも一長一短があります。以下でそれぞれの方法を解説します。

<br>すでに「[R入門（その1）](https://colab.research.google.com/github/koiti-yano/colab/blob/main/経済統計_R入門_1_basic.ipynb)」を読んでいることを前提に説明します。未読の人は「R入門（その1）」を先に読んでください。
<br>
> 注：このノートブックは駒澤大学経済学部で開講している「経済統計a/b」で「Excel以外の手法を学ぶ意欲がある履修生向け」に**最低限の知識**だけ解説する**補助資料**です

**参考文献**<br>
https://stats.idre.ucla.edu/r/modules/coding-for-categorical-variables-in-regression-models/
<br>
https://www.karada-good.net/analyticsr/r-626


**最初に呪文（全オブジェクトの削除）**<br>最初にちょっとした呪文を入れましょう。<br>（補足：以下の呪文rm(list=ls())は既にあるオブジェクトを全部削除するコマンドです。必須ではありませんが、場合によってはトラブルを避けるために役立つことがあります。）


In [None]:
rm(list=ls())

最初にデータ（CSVファイル）をインターネットから読み込みます。ここではread.csv()という関数を使ってインターネット上にあるデータをRに読み込みます。



In [None]:
dummy.ex <- read.csv("https://www.dropbox.com/s/qcb63zayiryvstz/dummy_example.csv?raw=1",header=T)
dummy.ex$color.fac <- factor(dummy.ex$color_num)

用意したデータフレームdummy.exにどのようなデータが入っているかを確認してみましょう。

これは一郎君から十郎君がカレー屋さんに行ったときのデータです。nameにそれぞの名前、spicinesにそれぞれが選んだカレーの辛さ（10が一番辛く、1が一番辛くない）、colorにそれぞれが好きな色が入っています。

color_numは赤を1、黄色を2、青を3と数字（整数＝int）で表したもの、color.facはcolor_numの数字がfactorに変換されています。

このデータを使って、好きな色と選んだ辛さに相関があるかどうかを考えてみます。


In [None]:
dummy.ex

name,spiciness,color,color_num,color.fac
<chr>,<int>,<chr>,<int>,<fct>
一郎,8,赤,1,1
二郎,9,赤,1,1
三郎,5,黄,2,2
四郎,6,黄,2,2
五郎,5,黄,2,2
六郎,2,青,3,3
七郎,3,青,3,3
八郎,5,赤,1,1
九郎,5,黄,2,2
十郎,1,赤,1,1


**factorを使ってみよう**<br>
dummy.exのcolorとcolor_numを例にダミー変数を使うにはfactor()という関数を使います。

少し技術的な話になりますが、データフレームの列が「ファクター」の場合、lm()は自動的に変数をダミー変数に変換してくれます。その機能を使って、colorやcolor_numをファクターに変換して関数lm()に入力すれば良いわけです。

やり方はとても簡単で変数名を関数factor()に入力してlm()内で使います。

具体的には以下のようにします。

In [None]:
lm.result1 <- lm(spiciness ~ factor(color), data=dummy.ex)
summary(lm.result1)



Call:
lm(formula = spiciness ~ factor(color), data = dummy.ex)

Residuals:
    Min      1Q  Median      3Q     Max 
-4.7500 -0.4375 -0.2500  0.6875  3.2500 

Coefficients:
                Estimate Std. Error t value Pr(>|t|)   
(Intercept)        5.750      1.195   4.811  0.00194 **
factor(color)青   -3.250      2.070  -1.570  0.16043   
factor(color)黄   -0.500      1.690  -0.296  0.77596   
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 2.39 on 7 degrees of freedom
Multiple R-squared:  0.2714,	Adjusted R-squared:  0.06323 
F-statistic: 1.304 on 2 and 7 DF,  p-value: 0.3301


In [None]:
lm.result2 <- lm(spiciness ~ factor(color_num), data=dummy.ex)
summary(lm.result2)


Call:
lm(formula = spiciness ~ factor(color_num), data = dummy.ex)

Residuals:
    Min      1Q  Median      3Q     Max 
-4.7500 -0.4375 -0.2500  0.6875  3.2500 

Coefficients:
                   Estimate Std. Error t value Pr(>|t|)   
(Intercept)           5.750      1.195   4.811  0.00194 **
factor(color_num)2   -0.500      1.690  -0.296  0.77596   
factor(color_num)3   -3.250      2.070  -1.570  0.16043   
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 2.39 on 7 degrees of freedom
Multiple R-squared:  0.2714,	Adjusted R-squared:  0.06323 
F-statistic: 1.304 on 2 and 7 DF,  p-value: 0.3301


**パッケージfastDummiesを使ってみよう**

fastDummiesというパッケージを使うこともできます（似たようなパッケージがいくつかあります）。

In [None]:
install.packages("fastDummies")


Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)



colorの赤・黄・青をダミー変数に変換してみましょう。

dummy_cols()という関数を使い、列colorの赤・黃・青をそれぞれダミー変数に変換してみましょう。

In [None]:
library(fastDummies)
dummy.ex.new <- dummy_cols(dummy.ex, select_columns = c("color"))
dummy.ex.new

name,spiciness,color,color_num,color.fac,color_赤,color_青,color_黄
<chr>,<int>,<chr>,<int>,<fct>,<int>,<int>,<int>
一郎,8,赤,1,1,1,0,0
二郎,9,赤,1,1,1,0,0
三郎,5,黄,2,2,0,0,1
四郎,6,黄,2,2,0,0,1
五郎,5,黄,2,2,0,0,1
六郎,2,青,3,3,0,1,0
七郎,3,青,3,3,0,1,0
八郎,5,赤,1,1,1,0,0
九郎,5,黄,2,2,0,0,1
十郎,1,赤,1,1,1,0,0


color_赤は「赤のときには1、それ以外は0」、color_黃は「黃のときには1、それ以外は0」、color_青は「青のときには1、それ以外は0」が入っています。

早速、lm()に入れてみましょう。回帰式にcolor_赤が入っていないので、「変だな」と思うかもしれませんが、実は「切片がcolor_赤」の役割を果たします。この部分は少し説明が難しいので別の機会に解説します。

In [None]:
lm.result3 <- lm(spiciness ~ color_青 + color_黄, data=dummy.ex.new)
summary(lm.result3)



Call:
lm(formula = spiciness ~ color_青 + color_黄, data = dummy.ex.new)

Residuals:
    Min      1Q  Median      3Q     Max 
-4.7500 -0.4375 -0.2500  0.6875  3.2500 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)   
(Intercept)    5.750      1.195   4.811  0.00194 **
color_青      -3.250      2.070  -1.570  0.16043   
color_黄      -0.500      1.690  -0.296  0.77596   
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 2.39 on 7 degrees of freedom
Multiple R-squared:  0.2714,	Adjusted R-squared:  0.06323 
F-statistic: 1.304 on 2 and 7 DF,  p-value: 0.3301


lm.result3の結果を確認するとlm.result1とlm.result2の結果と同じであることが分かるでしょう。

factor()を使う方法とfastDummiesを使う方法のどちらも一長一短があるので、場合に応じて都合がいい方法を使うといいでしょう。