**R入門（その10）**

---
**このノートブックについて**<br>
このColabのノートブック「R入門（その10）」では「Rのパイプ演算子とplaceholderを使う方法」を解説します。

> 補足：2つのパイプ演算子：Rで使えるパイプ演算子としては%>%と|>があります。%>%はtidyverseにあるmagrittrというパッケージのパイプ演算子で広く使われてきました。しかし、R 4.1.0以降、R本体で|>というパイプ演算子が使えるようになりました。%>%と|>の機能は非常に似ているので、どちらを使っても構いませんが、今後は|>が使われるようになってくるのではないかと思います。

> これはパイプではない：ところでRでの元祖パイプ演算子である%>%はmagrittrというパッケージの機能です。magrittrは「マグリット」と読みます（多分）。実はルネ・マグリットという画家が「イメージの裏切り」という絵の中に「これはパイプではない」と書き込んだというエピソードに基づきます。たしかにパイプ演算子はパイプ（タバコを吸うための器具）ではありませんね。興味がある人は「これはパイプではない」で検索してみてください。


<br>すでに「[R入門（その1）](https://colab.research.google.com/github/koiti-yano/colab/blob/main/経済統計_R入門_1_basic.ipynb)」を読んでいることを前提に説明します。未読の人は「R入門（その1）」を先に読んでください。
<br>
> 注：このノートブックは駒澤大学経済学部で開講している「経済統計a/b」で「Excel以外の手法を学ぶ意欲がある履修生向け」に**最低限の知識**だけ解説する**補助資料**です

**参考文献**<br>
https://stats.idre.ucla.edu/r/modules/coding-for-categorical-variables-in-regression-models/
<br>
https://www.karada-good.net/analyticsr/r-626


**最初に呪文（全オブジェクトの削除）**<br>最初にちょっとした呪文を入れましょう。<br>（補足：以下の呪文rm(list=ls())は既にあるオブジェクトを全部削除するコマンドです。必須ではありませんが、場合によってはトラブルを避けるために役立つことがあります。）


In [None]:
rm(list=ls())

データ分析（回帰分析）を使うため、データ（CSVファイル）をインターネットから読み込みます。ここではread.csv()という関数を使ってインターネット上にあるデータをRに読み込み、ice_dataという名前で保存します。head()という関数はデータを上から6行表示する関数です。


In [None]:
ice_df <- read.csv("https://www.dropbox.com/s/2ky13qi387j8b05/kion_iceCream.csv?raw=1",header=T)

これでice_dfという変数にデータが入力されました。このicd_dfにどのようなデータが入っているかを確認してみましょう。View()、head()、tail()などの関数を使います。すでに解説しましたが、head()は上から6行を表示する関数です。

In [None]:
head(ice_df)

Unnamed: 0_level_0,年月,気温,アイスクリーム支出金額
Unnamed: 0_level_1,<chr>,<dbl>,<int>
1,2005年4月,15.1,541
2,2005年5月,17.7,666
3,2005年6月,23.2,801
4,2005年7月,25.6,1033
5,2005年8月,28.1,1175
6,2005年9月,24.7,737


**パイプ演算子|>を使う**<br>
次にパイプ演算子|>を使ってみましょう。パイプ演算子がどんなものかを解説するよりも実際に使ってみたほうが早いでしょう。


**パイプ演算子|>の機能**：|>の左辺のデータを、|>の右辺の関数の第一引数に入力する

言葉で書くと分かりにくいですが、
```
ice_df |> head()
```
の場合、「|>の左辺にあるice_df」が「|>の右辺の関数head()の第1引数」に入力されることを意味します。結局、
```
head(ice_df)
```
と同じ意味になります。

**単回帰をやってみよう**<br>
最後にice.dataを使って回帰分析をやってみましょう。パイプ演算子を使わずにlm()を使います。


In [None]:
fit_ice <- lm(アイスクリーム支出金額 ~ 気温, data=ice_df)

fit_iceの内容を表示するにはsummary()という関数を使います。

In [None]:
summary(fit_ice)


Call:
lm(formula = アイスクリーム支出金額 ~ 気温, data = ice_df)

Residuals:
    Min      1Q  Median      3Q     Max 
-234.06  -82.82   12.71   74.13  265.39 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   16.640     40.652   0.409    0.684    
気温          35.074      2.249  15.597   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 126.3 on 58 degrees of freedom
Multiple R-squared:  0.8075,	Adjusted R-squared:  0.8042 
F-statistic: 243.3 on 1 and 58 DF,  p-value: < 2.2e-16


sumary()にパイプ演算子|>を使ってみましょう。

In [None]:
fit_ice |> summary()


Call:
lm(formula = アイスクリーム支出金額 ~ 気温, data = ice_df)

Residuals:
    Min      1Q  Median      3Q     Max 
-234.06  -82.82   12.71   74.13  265.39 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   16.640     40.652   0.409    0.684    
気温          35.074      2.249  15.597   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 126.3 on 58 degrees of freedom
Multiple R-squared:  0.8075,	Adjusted R-squared:  0.8042 
F-statistic: 243.3 on 1 and 58 DF,  p-value: < 2.2e-16


ここまでは今までの知識を使うだけです。


でも、lm()にパイプ演算子|>を使うにはどうすればいいでしょうか？たとえばice_dfを|>を使ってlm()に入力することはできるでしょうか？

問題は、data = ice_dfが第1引数ではないことです。このような場合_（アンダーバー）を使います。この_（アンダーバー）をplaceholderといいます。

使い方は以下のようになります。

In [None]:
ice_df |> lm(アイスクリーム支出金額 ~ 気温, data=_) -> fit_ice_2

In [None]:
fit_ice_2 |> summary()


Call:
lm(formula = アイスクリーム支出金額 ~ 気温, data = ice_df)

Residuals:
    Min      1Q  Median      3Q     Max 
-234.06  -82.82   12.71   74.13  265.39 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   16.640     40.652   0.409    0.684    
気温          35.074      2.249  15.597   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 126.3 on 58 degrees of freedom
Multiple R-squared:  0.8075,	Adjusted R-squared:  0.8042 
F-statistic: 243.3 on 1 and 58 DF,  p-value: < 2.2e-16


慣れてくると、全部を1行で書くこともできます。

In [None]:
ice_df |> lm(アイスクリーム支出金額 ~ 気温, data=_) |> summary()


Call:
lm(formula = アイスクリーム支出金額 ~ 気温, data = ice_df)

Residuals:
    Min      1Q  Median      3Q     Max 
-234.06  -82.82   12.71   74.13  265.39 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   16.640     40.652   0.409    0.684    
気温          35.074      2.249  15.597   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 126.3 on 58 degrees of freedom
Multiple R-squared:  0.8075,	Adjusted R-squared:  0.8042 
F-statistic: 243.3 on 1 and 58 DF,  p-value: < 2.2e-16


全部のプログラムを1行にまとめることをone linear（ワンライナー）といいます。プログラムは読みやすいことが重要ですので、何でもワンライナーにすればいいというものではありませんが、使い捨てのプログラムはワンライナーにした方がいいこともあります。