In [1]:
library(tidyverse)

“running command 'timedatectl' had status 1”
── [1mAttaching packages[22m ─────────────────────────────────────── tidyverse 1.3.1 ──

[32m✔[39m [34mggplot2[39m 3.3.3     [32m✔[39m [34mpurrr  [39m 0.3.4
[32m✔[39m [34mtibble [39m 3.1.2     [32m✔[39m [34mdplyr  [39m 1.0.6
[32m✔[39m [34mtidyr  [39m 1.1.3     [32m✔[39m [34mstringr[39m 1.4.0
[32m✔[39m [34mreadr  [39m 1.4.0     [32m✔[39m [34mforcats[39m 0.5.1

── [1mConflicts[22m ────────────────────────────────────────── tidyverse_conflicts() ──
[31m✖[39m [34mdplyr[39m::[32mfilter()[39m masks [34mstats[39m::filter()
[31m✖[39m [34mdplyr[39m::[32mlag()[39m    masks [34mstats[39m::lag()



# 列名にスペースが含まれる場合の列の指定の仕方

たとえば、starwarsデータの列名にスペースが入っている場合を考えよう。

In [2]:
starwars2 <- starwars
colnames(starwars2)[4:7] <- c("hair color", "skin color","eye color" , "birth year")
colnames(starwars2)

このstarwars2データは、列名のいくつかにスペースが入っている。このようなとき、たとえば、hair color列はどうやったら指定できるか？

In [3]:
starwars2$hair color

ERROR: ignored

当然、そのままデータフレームに$マークのあとに列名を書いても、スペースがあるため列名として正しく認識されない

In [None]:
starwars2 %>%
    select(hair color)

もちろん、select()やpull()なども受け付けてくれない。

## スペースを含むような列名の場合は、バックチック（バッククォート） `` で囲うことで列名として認識させられる。

In [4]:
starwars2$`hair color`

また、列名が記号や日本語を含む場合にも、この方法は使える。

In [5]:
colnames(starwars2)[c(1:3, 14)] <- c("名前", "身長", "体重", "宇宙船リスト (*複数可)")
colnames(starwars2)

In [6]:
starwars2$`身長`

日本語でも、文字が連続している場合は `` がなくてもよいこともある。

In [7]:
starwars2$身長

こんな複雑な列名でも大丈夫。

In [8]:
starwars2 %>%
    select(`名前`, `宇宙船リスト (*複数可)`) %>%
    slice(1, 4, 10)

名前,宇宙船リスト (*複数可)
<chr>,<list>
Luke Skywalker,"X-wing , Imperial shuttle"
Darth Vader,TIE Advanced x1
Obi-Wan Kenobi,"Jedi starfighter , Trade Federation cruiser, Naboo star skiff , Jedi Interceptor , Belbullab-22 starfighter"


ちなみに、$マークまで打ったところでTabキーを押すことで、列名をTab補完して選択することもできる（開発環境にもよる）。

# チルダ ~ の秘密（通称、にょろ。全角だと「〜」）

## チルダ ~ が関数の前に付くときとそうでないときの違いを検討する。

説明の便宜上、scale2()という自作の関数を名前をつけて定義する。
デフォルトのscale()関数とほぼ同じだが、na.rmというオプションで欠損値NAを除去するかどうかを明示的に指定できる。

In [10]:
scale2 <- function(x, na.rm = FALSE) (x - mean(x, na.rm = na.rm)) / sd(x, na.rm = na.rm)

まずは、にょろがつかない場合

In [11]:
starwars %>% 
    select(name:mass) %>%
    mutate_at(c("height", "mass"), scale2) %>% 
    head(n = 2)

name,height,mass
<chr>,<dbl>,<dbl>
Luke Skywalker,,
C-3PO,,


ルークやC-3POなどの身長や体重がNAになってしまっている。（標準化に失敗している）

これを避けるために、scale2の引数で、na.rm = TRUE を指定する。その指定の仕方にいくつかパターンがある。

In [12]:
starwars %>% 
    select(name:mass) %>%
    mutate_at(c("height", "mass"), scale2, na.rm = TRUE) %>%
    head(n = 2)

name,height,mass
<chr>,<dbl>,<dbl>
Luke Skywalker,-0.06781696,-0.1198643
C-3PO,-0.21161731,-0.1316667


mutate_at()の３番目の引数にna.rm = TRUEを書くと、それがscale2()の引数に渡される。
しかし、この書き方だと、どの引数がどの関数のどの場所に渡されるか、不安だ（わかりにくい）。
そこで、明示的に引数を渡す方法がある。

## ここでチルダ ~ とプレースホルダー . が登場する。

In [13]:
starwars %>% 
    select(name:mass) %>%
    mutate_at(c("height", "mass"), ~scale2(., na.rm = TRUE)) %>%
    head(n = 2)

name,height,mass
<chr>,<dbl>,<dbl>
Luke Skywalker,-0.06781696,-0.1198643
C-3PO,-0.21161731,-0.1316667


scale2の()の中に引数を指定するとともに、scale2の左に　にょろ　を書く。
~scale2(.)という形で関数を指定する。

## 一番厳密に詳しく書くと、こんな感じになる。

In [14]:
starwars %>% 
    select(name:mass) %>%
    mutate_at(.tbl = ., .vars = c("height", "mass"), .funs = ~scale2(x = ., na.rm = TRUE)) %>%
    head(n = 2)

name,height,mass
<chr>,<dbl>,<dbl>
Luke Skywalker,-0.06781696,-0.1198643
C-3PO,-0.21161731,-0.1316667


厳密に書こうとしすぎると、かえってわかりづらくなる。なお、x = . の部分の"."は、".x"や"..1"でもよい。これをpurrrスタイルと呼ぶ。しかし、そのことは今は忘れて良い。

## これを略記すると、このようになる。これぐらいの省略具合がおそらく一番わかりやすい。

In [15]:
starwars %>% 
    select(name:mass) %>%
    mutate_at(c("height", "mass"), ~scale2(., na.rm = TRUE)) %>%
    head(n = 2)

name,height,mass
<chr>,<dbl>,<dbl>
Luke Skywalker,-0.06781696,-0.1198643
C-3PO,-0.21161731,-0.1316667


にょろをなくして、scale2の右側の()もなくすと、どうなるか？

In [16]:
starwars %>% 
    select(name:mass) %>%
    mutate_at(c("height", "mass"), scale2) %>%
    head(n = 2)

name,height,mass
<chr>,<dbl>,<dbl>
Luke Skywalker,,
C-3PO,,


動くには動くが、na.rm = TRUEの引数を指定していないので、ルークやC-3POの身長や体重がNAになってしまっている。それを防ぐには、mutate_at()の３番目の引数（scale2という関数名のうしろ）にna.rm = TRUEの引数を指定すれば良い。

In [17]:
starwars %>% 
    select(name:mass) %>%
    mutate_at(c("height", "mass"), scale2, na.rm = TRUE) %>%
    head(n = 2)

name,height,mass
<chr>,<dbl>,<dbl>
Luke Skywalker,-0.06781696,-0.1198643
C-3PO,-0.21161731,-0.1316667


しかし、冒頭でも述べたように、この書き方は、na.rmがどこのオプションを指定しているのかわかりにくい。ゆえに、チルダを用いた ~fun(.) のような記法が、慣れれば便利になる。

# プレースホルダー . の役割

## 引数の順番の影響を見るために、敢えて、大事な引数が２番目に来るような次の自作関数を作ってみる。

In [18]:
scale3 <- function(na.rm = FALSE, x) (x - mean(x, na.rm = na.rm)) / sd(x, na.rm = na.rm)

今度は、na.rmのデフォルトの引数のままで使おうとすると、エラーになる。

In [19]:
starwars %>% 
    select(name:mass) %>%
    mutate_at(c("height", "mass"), ~scale3(.)) %>%
    head(n = 2)

ERROR: ignored

なぜなら、na.rmという引数の中に . を入れようとしてしまうから。

## . を渡したいのは２番目の引数なので、このように書けばちゃんと動く。

In [20]:
starwars %>% 
    select(name:mass) %>%
    mutate_at(c("height", "mass"), ~scale3(TRUE, .)) %>%
    head(n = 2)

name,height,mass
<chr>,<dbl>,<dbl>
Luke Skywalker,-0.06781696,-0.1198643
C-3PO,-0.21161731,-0.1316667


scale3()関数のna.rmの引数のデフォルト設定が分からない（つまり、TRUEかFALSEか知らない）が、どちらにせよデフォルト値で計算したい場合、１番目の引数を "..." で代用もできる。しかし、それはちょっとやりすぎというもの…。

## 一番真面目に書くなら下記のように

In [21]:
starwars %>% 
    select(name:mass) %>%
    mutate_at(.tbl = ., .vars = c("height", "mass"), .funs = ~scale3(na.rm = TRUE, x = .)) %>%
    head(n = 2)

name,height,mass
<chr>,<dbl>,<dbl>
Luke Skywalker,-0.06781696,-0.1198643
C-3PO,-0.21161731,-0.1316667


## 簡略化すると、こんな感じ。

In [22]:
starwars %>% 
    select(name:mass) %>%
    mutate_at(c("height", "mass"), ~scale3(na.rm = TRUE, .)) %>%
    head(n = 2)

name,height,mass
<chr>,<dbl>,<dbl>
Luke Skywalker,-0.06781696,-0.1198643
C-3PO,-0.21161731,-0.1316667


## 引数名をあからさまに書けば、引数の与える順番は違っても良い。

In [23]:
starwars %>% 
    select(name:mass) %>%
    mutate_at(c("height", "mass"), ~scale3(x = ., na.rm = TRUE)) %>%
    head(n = 2)

name,height,mass
<chr>,<dbl>,<dbl>
Luke Skywalker,-0.06781696,-0.1198643
C-3PO,-0.21161731,-0.1316667


# 実は、最近になってbaseのR（レトロなR）にもパイプが逆輸入された。
それもずばり、 |> というちょっと変な形のパイプ。使い方は下記のような感じ。

In [24]:
iris |>
    head(n = 3)

Unnamed: 0_level_0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
Unnamed: 0_level_1,<dbl>,<dbl>,<dbl>,<dbl>,<fct>
1,5.1,3.5,1.4,0.2,setosa
2,4.9,3.0,1.4,0.2,setosa
3,4.7,3.2,1.3,0.2,setosa


In [25]:
iris |>
    select_if(is.numeric) |>
    head(n = 3)

Unnamed: 0_level_0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width
Unnamed: 0_level_1,<dbl>,<dbl>,<dbl>,<dbl>
1,5.1,3.5,1.4,0.2
2,4.9,3.0,1.4,0.2
3,4.7,3.2,1.3,0.2


In [26]:
iris |>
    mutate_at(c("Sepal.Length", "Petal.Width"), scale2) |>
    head(n = 3)

Unnamed: 0_level_0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
Unnamed: 0_level_1,<dbl>,<dbl>,<dbl>,<dbl>,<fct>
1,-0.8976739,3.5,1.4,-1.311052,setosa
2,-1.1392005,3.0,1.4,-1.311052,setosa
3,-1.3807271,3.2,1.3,-1.311052,setosa


scale2()なら一見これで動く。ではscale3()では？

In [27]:
iris |>
    mutate_at(c("Sepal.Length", "Petal.Width"), scale3, TRUE) |>
    head(n = 3)

“the condition has length > 1 and only the first element will be used”
“the condition has length > 1 and only the first element will be used”
“the condition has length > 1 and only the first element will be used”
“the condition has length > 1 and only the first element will be used”


Unnamed: 0_level_0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
Unnamed: 0_level_1,<dbl>,<dbl>,<dbl>,<dbl>,<fct>
1,,3.5,1.4,,setosa
2,,3.0,1.4,,setosa
3,,3.2,1.3,,setosa


失敗してる。また、scale2()でチルダを使えるか試してみると、

In [28]:
iris |>
    mutate_at(c("Sepal.Length", "Petal.Width"), ~scale2(.)) |>
    head(n = 3)

Unnamed: 0_level_0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
Unnamed: 0_level_1,<dbl>,<dbl>,<dbl>,<dbl>,<fct>
1,-0.8976739,3.5,1.4,-1.311052,setosa
2,-1.1392005,3.0,1.4,-1.311052,setosa
3,-1.3807271,3.2,1.3,-1.311052,setosa


In [29]:
iris |>
    mutate_at(c("Sepal.Length", "Petal.Width"), ~scale2(., TRUE)) |>
    head(n = 3)

Unnamed: 0_level_0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
Unnamed: 0_level_1,<dbl>,<dbl>,<dbl>,<dbl>,<fct>
1,-0.8976739,3.5,1.4,-1.311052,setosa
2,-1.1392005,3.0,1.4,-1.311052,setosa
3,-1.3807271,3.2,1.3,-1.311052,setosa


In [30]:
iris |>
    mutate_at(c("Sepal.Length", "Petal.Width"), ~scale2(TRUE, .)) |>
    head(n = 3)

“the condition has length > 1 and only the first element will be used”
“the condition has length > 1 and only the first element will be used”
“the condition has length > 1 and only the first element will be used”
“the condition has length > 1 and only the first element will be used”


Unnamed: 0_level_0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
Unnamed: 0_level_1,<dbl>,<dbl>,<dbl>,<dbl>,<fct>
1,,3.5,1.4,,setosa
2,,3.0,1.4,,setosa
3,,3.2,1.3,,setosa


引数名をあらわに書かない場合、プレースホルダーの順番が大事になる。

In [31]:
iris |>
    mutate_at(c("Sepal.Length", "Petal.Width"), ~scale3(., TRUE)) |>
    head(n = 3)

“the condition has length > 1 and only the first element will be used”
“the condition has length > 1 and only the first element will be used”
“the condition has length > 1 and only the first element will be used”
“the condition has length > 1 and only the first element will be used”


Unnamed: 0_level_0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
Unnamed: 0_level_1,<dbl>,<dbl>,<dbl>,<dbl>,<fct>
1,,3.5,1.4,,setosa
2,,3.0,1.4,,setosa
3,,3.2,1.3,,setosa


In [32]:
iris |>
    mutate_at(c("Sepal.Length", "Petal.Width"), ~scale3(x = ., na.rm = TRUE)) |>
    head(n = 3)

Unnamed: 0_level_0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
Unnamed: 0_level_1,<dbl>,<dbl>,<dbl>,<dbl>,<fct>
1,-0.8976739,3.5,1.4,-1.311052,setosa
2,-1.1392005,3.0,1.4,-1.311052,setosa
3,-1.3807271,3.2,1.3,-1.311052,setosa


In [33]:
iris |>
    mutate_at(c("Sepal.Length", "Petal.Width"), ~scale3(TRUE, .)) |>
    head(n = 3)

Unnamed: 0_level_0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
Unnamed: 0_level_1,<dbl>,<dbl>,<dbl>,<dbl>,<fct>
1,-0.8976739,3.5,1.4,-1.311052,setosa
2,-1.1392005,3.0,1.4,-1.311052,setosa
3,-1.3807271,3.2,1.3,-1.311052,setosa


base パイプ |>とプレースホルダー . は組み合わせられないのかと思ったが、そうではないようだ（tidyverseをロードしているからだろう）。ただし、magrittrの%>% と組み合わせるときと同様、引数の順番を気にしないといけないのは同じ。また、プレースホルダー . を用いた場合は、base パイプ |> の本来のスピードを得られない可能性がある。

# mutate_atの引数の指定の仕方を色々試してみる

vars()の中に文字列で列名を入れて見る

In [34]:
iris %>%
    mutate_at(vars("Petal.Length", "Petal.Width"), ~ scale(.)) %>%
    head(n = 3)

Unnamed: 0_level_0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
Unnamed: 0_level_1,<dbl>,<dbl>,"<dbl[,1]>","<dbl[,1]>",<fct>
1,5.1,3.5,-1.335752,-1.311052,setosa
2,4.9,3.0,-1.335752,-1.311052,setosa
3,4.7,3.2,-1.392399,-1.311052,setosa


In [35]:
iris %>%
    mutate_at(vars("Petal.Length", "Petal.Width"), ~ scale(.x)) %>%
    head(n = 3)

Unnamed: 0_level_0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
Unnamed: 0_level_1,<dbl>,<dbl>,"<dbl[,1]>","<dbl[,1]>",<fct>
1,5.1,3.5,-1.335752,-1.311052,setosa
2,4.9,3.0,-1.335752,-1.311052,setosa
3,4.7,3.2,-1.392399,-1.311052,setosa


In [36]:
iris %>%
    mutate_at(vars("Petal.Length", "Petal.Width"), .funs = ~ scale(.)) %>%
    head(n = 3)

Unnamed: 0_level_0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
Unnamed: 0_level_1,<dbl>,<dbl>,"<dbl[,1]>","<dbl[,1]>",<fct>
1,5.1,3.5,-1.335752,-1.311052,setosa
2,4.9,3.0,-1.335752,-1.311052,setosa
3,4.7,3.2,-1.392399,-1.311052,setosa


In [37]:
iris %>%
    mutate_at(vars("Petal.Length", "Petal.Width"), scale) %>%
    head(n = 3)

Unnamed: 0_level_0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
Unnamed: 0_level_1,<dbl>,<dbl>,"<dbl[,1]>","<dbl[,1]>",<fct>
1,5.1,3.5,-1.335752,-1.311052,setosa
2,4.9,3.0,-1.335752,-1.311052,setosa
3,4.7,3.2,-1.392399,-1.311052,setosa


vars()の中に列の範囲を : で区切って入れて見る

In [38]:
iris %>%
    mutate_at(vars(Petal.Length:Petal.Width), scale) %>%
    head(n = 3)

Unnamed: 0_level_0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
Unnamed: 0_level_1,<dbl>,<dbl>,"<dbl[,1]>","<dbl[,1]>",<fct>
1,5.1,3.5,-1.335752,-1.311052,setosa
2,4.9,3.0,-1.335752,-1.311052,setosa
3,4.7,3.2,-1.392399,-1.311052,setosa


vars()の中に "Petal"で始まる列を starts_with()を使って指定してみる

In [39]:
iris %>%
    mutate_at(vars(starts_with("Petal")), scale) %>%
    head(n = 3)

Unnamed: 0_level_0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
Unnamed: 0_level_1,<dbl>,<dbl>,"<dbl[,1]>","<dbl[,1]>",<fct>
1,5.1,3.5,-1.335752,-1.311052,setosa
2,4.9,3.0,-1.335752,-1.311052,setosa
3,4.7,3.2,-1.392399,-1.311052,setosa


適用する関数の引数であることを明示するために、 .funs = を加えみる

In [40]:
iris %>%
    mutate_at(vars(starts_with("Petal")), .funs = scale) %>%
    head(n = 3)

Unnamed: 0_level_0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
Unnamed: 0_level_1,<dbl>,<dbl>,"<dbl[,1]>","<dbl[,1]>",<fct>
1,5.1,3.5,-1.335752,-1.311052,setosa
2,4.9,3.0,-1.335752,-1.311052,setosa
3,4.7,3.2,-1.392399,-1.311052,setosa


vars()の中で-Species で指定してみる。

In [41]:
iris %>%
    mutate_at(vars(-Species), scale) %>%
    head(n = 3)

Unnamed: 0_level_0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
Unnamed: 0_level_1,"<dbl[,1]>","<dbl[,1]>","<dbl[,1]>","<dbl[,1]>",<fct>
1,-0.8976739,1.015602,-1.335752,-1.311052,setosa
2,-1.1392005,-0.1315388,-1.335752,-1.311052,setosa
3,-1.3807271,0.3273175,-1.392399,-1.311052,setosa


"Species"を文字列で指定しても大丈夫みたいだ

In [42]:
iris %>%
    mutate_at(vars(-"Species"), scale) %>%
    head(n = 3)

Unnamed: 0_level_0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
Unnamed: 0_level_1,"<dbl[,1]>","<dbl[,1]>","<dbl[,1]>","<dbl[,1]>",<fct>
1,-0.8976739,1.015602,-1.335752,-1.311052,setosa
2,-1.1392005,-0.1315388,-1.335752,-1.311052,setosa
3,-1.3807271,0.3273175,-1.392399,-1.311052,setosa


### mutate_atを使う代わりに、mutateを使う場合は、across()と組み合わせると複数列を選択できる

In [43]:
iris %>%
    mutate(across(c("Sepal.Width", "Petal.Width"), scale)) %>%
    head(n = 3)

Unnamed: 0_level_0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
Unnamed: 0_level_1,<dbl>,"<dbl[,1]>",<dbl>,"<dbl[,1]>",<fct>
1,5.1,1.015602,1.4,-1.311052,setosa
2,4.9,-0.1315388,1.4,-1.311052,setosa
3,4.7,0.3273175,1.3,-1.311052,setosa


## 数値列のみなどの条件で絞る場合は、mutate_ifも使える場合がある

In [44]:
iris %>%
    mutate_if(is.numeric, scale) %>%
    head(n = 3)

Unnamed: 0_level_0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
Unnamed: 0_level_1,"<dbl[,1]>","<dbl[,1]>","<dbl[,1]>","<dbl[,1]>",<fct>
1,-0.8976739,1.015602,-1.335752,-1.311052,setosa
2,-1.1392005,-0.1315388,-1.335752,-1.311052,setosa
3,-1.3807271,0.3273175,-1.392399,-1.311052,setosa


## mutateとacrossとwhereを組み合わせて条件に合う列を絞ることもできる

In [45]:
iris %>%
    mutate(across(where(is.numeric), scale)) %>% 
    head(n = 3)

Unnamed: 0_level_0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
Unnamed: 0_level_1,"<dbl[,1]>","<dbl[,1]>","<dbl[,1]>","<dbl[,1]>",<fct>
1,-0.8976739,1.015602,-1.335752,-1.311052,setosa
2,-1.1392005,-0.1315388,-1.335752,-1.311052,setosa
3,-1.3807271,0.3273175,-1.392399,-1.311052,setosa
