<a href="https://colab.research.google.com/github/sugaya-findex/platform-ex/blob/main/R%E3%81%AB%E3%82%88%E3%82%8B%E7%B5%B1%E8%A8%88%E3%83%97%E3%83%AD%E3%82%B0%E3%83%A9%E3%83%9F%E3%83%B3%E3%82%B0%E5%85%A5%E9%96%80_09_%E6%96%87%E5%AD%97%E5%88%97%E5%87%A6%E7%90%86.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# １. 文字列データの処理


これまでの講義では主に数値データを取り扱ってきましたが、ここではテキストデータのハンドリング方法を学んでいきたいと思います。
Rには文字列データを処理するための様々な関数が標準で用意されています。代表的な関数の紹介から始めていきましょう。

※`stringr`のような文字列処理に特化したパッケージも提供されています。
必要に応じてこのようなパッケージの関数を利用すると、コードが簡素になりプログラミングが楽になります。

## １.１. 文字列の結合
文字列を結合するには、関数`paste`を利用します。関数`paste`には`sep`と`collapse`のふたつのオプションが用意されていますが、
結合対象をコンマ区切りで関数に渡す場合には、`sep`のオプションを利用します。
結合対象をベクトルにまとめて関数に渡す場合には、`collapse`のオプションを利用します。


```R
############################################################
# 以下のコマンドをコードセルに入力し、実行してみてください #
############################################################
paste("AAA","BBB","CCC",sep="_")
paste(c("AAA","BBB","CCC"),collapse="_")
paste("AAA","BBB","CCC",collapse="_")　　　　　　　# 結合対象がコンマ区切りであるため、collapseのオプションは利用できません
paste(c("AAA","BBB","CCC"),sep="_")　　　　　　　　# 結合対象がベクトルであるため、sepのオプションは利用できません
```


## １.２. 文字列の分割
文字列を分割するには、関数`strsplit`を利用します。第一引数には分割対象となる文字列を与え、第二引数には分割条件を指定します。
第一引数には文字列ベクトルを与えることもでき、その場合にはベクトルの各要素が与えられた条件に基づいて分割され、リスト形式の結果が返ってきます。





```R
############################################################
# 以下のコマンドをコードセルに入力し、実行してみてください #
############################################################
strsplit("baseball","e")
strsplit(c("baseball","soccer","tennis"),"e")
strsplit(c("baseball","soccer","tennis"),"s")
```


## １.３. 文字列の抽出
文字列から部分文字列を抽出するには、関数`substr`または`substring`を利用します。
どちらの関数も第一引数には抽出対象となる文字列を与え、第二引数には抽出の開始位置、第三引数には抽出の終了位置を指定します。
関数`substring`には開始位置、終了位置をベクトルで与えることができ、その場合には２つの入力ベクトルの対応する要素ごとに文字列の抽出が行われ、ベクトル形式の結果が返ってきます。



```R
############################################################
# 以下のコマンドをコードセルに入力し、実行してみてください #
############################################################
substr("abcdef", 2, 4)
substring("abcdef", 1:6, 1:6)　　　　　　　　# 第二引数と第三引数の対応する数値ごとに文字列が抽出されます
substring("abcdef", 1:6, c(2,3,3:6))　　　　 # 第二引数と第三引数の対応する数値ごとに文字列が抽出されます
```


## １.４. 文字列の置換
文字列を置換するには、関数`sub`または`gsub`を利用します。どちらの関数も第一引数には置換したい文字列を、第二引数には置換後の文字列を与えます。第三引数には置換対象の文字列を指定します。関数`sub`を使うと置換条件に合致したもののうち初めの１つだけが置換されますが、関数`gsub`を用いると置換条件に合致するすべての文字列が置換されます。


```R
############################################################
# 以下のコマンドをコードセルに入力し、実行してみてください #
############################################################
sub("a","*","baseball")　　　　　　 # 初めのaだけが置換されます
gsub("a","*","baseball")　　　　　　# すべてのaが置換されます
```


## １.５. 文字列の検索
文字列を検索するには、関数`grep`または`grepl`を利用します。どちらの関数も第一引数には検索条件となる文字列を与え、第二引数には検索対象の文字列ベクトルを指定します。関数`grep`では条件にマッチしたベクトル要素の要素番号が返されますが、関数`grepl`では条件にマッチしたかどうかの論理値ベクトルが返されます。関数`grep`では条件にマッチするものがなかった場合、`integer(0)`が返され、何も表示されないので注意してください。


```R
############################################################
# 以下のコマンドをコードセルに入力し、実行してみてください #
############################################################
grep("ball",c("baseball","soccer","basketball"))
grepl("ball",c("baseball","soccer","basketball"))
grep("abc",c("baseball","soccer","basketball"))　　　　　　# 条件にマッチするものがないため、`integer(0)`が返されます
grepl("abc",c("baseball","soccer","basketball"))
```


## １.６. その他の文字列処理関数
上記以外にも文字列を扱うための関数がいくつも用意されています。例えば以下の３つの関数も使う頻度が高い関数ですので、覚えておくとよいでしょう。

|関数|説明|
|---|---|
|`nchar`|文字列長を求める|
|`tolower`|大文字を小文字に変換する|
|`toupper`|小文字を大文字に変換する|


```R
############################################################
# 以下のコマンドをコードセルに入力し、実行してみてください #
############################################################
x = "MiXeD cAsE 123"
nchar(x)
tolower(x)
toupper(x)
```


# ２. 正規表現
前節では代表的な文字列処理関数をご紹介しましたが、そのいくつかは、処理を実行する「条件」を与える必要がありました。しかし、例えば「a」から始まって「z」で終わる3文字の文字列を検索したいような場合はどうでしょうか？検索対象の文字列が「aaz」「abz」…といったように多く、そのすべてを列挙するのはとても非効率です。このような場合、正規表現を使って「条件」をまとめて記述すると便利です。ここでは、代表的な正規表現をご紹介します。

## ２.１. 特定の文字を表す正規表現
以下の正規表現は、特定の文字を表現します。


|正規表現|対応する文字|
|---|---|
|`.`|任意の1文字|
|`\n`|改行文字|
|`\t`|タブ|
|`\s`|空白|
|`\S`|空白以外の文字|
|`\d`|数字|
|`\D`|数字以外の文字|
|`\w`|数字、アルファベット、アンダーバー|
|`\W`|数字、アルファベット、アンダーバー以外の文字|
|`\`|直後の特殊文字をエスケープします|



```R
############################################################
# 以下のコマンドをコードセルに入力し、実行してみてください #
############################################################
grep("\\d",c("123","abc","abc123","abc 123"))　　　　　　# 数字を検索します
grep("\\D",c("123","abc","abc123","abc 123"))　　　　　　# 数字以外の文字を検索します
grep("\\s",c("123","abc","abc123","abc 123"))　　　　　　# 空白を検索します
grep("\\S",c("123","abc","abc123","abc 123"))　　　　　　# 空白以外の文字を検索します
grep("\\w",c("123","abc","abc123","abc 123"))　　　　　　# 数字、アルファベット、アンダーバーを検索します
grep("\\W",c("123","abc","abc123","abc 123"))　　　　　　# 数字、アルファベット、アンダーバー以外の文字を検索します
```


## ２.２. 繰り返しに関する正規表現
以下の正規表現は、直前の文字の繰り返し数を指定するための正規表現です。

|正規表現|繰り返し数|
|---|---|
|`*`|0回以上|
|`+`|1回以上|
|`?`|0回または1回|
|`{m}`|m回|
|`{m,}`|m回以上|
|`{m,n}`|m回以上n回以下|


```R
############################################################
# 以下のコマンドをコードセルに入力し、実行してみてください #
############################################################
google = c("ggle","gogle","google","gooogle","goooogle","gooooogle")

grepl("go*gle",google)　　　　　　　　　# oが0回以上繰り返しているものを検索
grepl("go+gle",google)　　　　　　　　　# oが1回以上繰り返しているものを検索
grepl("go?gle",google)　　　　　　　　　# oが0回または1回繰り返しているものを検索
grepl("go{3}gle",google)　　　　　　　　# oが3回繰り返しているものを検索
grepl("go{3,}gle",google)　　　　　　　 # oが3回以上繰り返しているものを検索
grepl("go{3,4}gle",google)　　　　　　　# oが3回以上4回以下繰り返しているものを検索
```


## ２.３. 文字の位置に関する正規表現

以下の正規表現は、文字の位置を表します。

|正規表現|説明|
|---|---|
|`^`|行の先頭|
|`$`|行の末端|


```R
############################################################
# 以下のコマンドをコードセルに入力し、実行してみてください #
############################################################
grep("^s",c("baseball","soccer","basketball"))
grep("l$",c("baseball","soccer","basketball"))
```


# ３. ファイル操作関数
ファイルを操作するための関数も覚えておくと便利です。R上からファイルの複製や移動などの操作を行うことができます。


|関数|説明|
|---|---|
|`file.create`,`dir.create`|ファイルを作成する|
|`file.exists`,`dir.exists`|ファイルが存在するかどうかを調べる|
|`file.remove`|ファイルを削除する|
|`file.rename`|ファイル名を変更する|
|`file.append`|ファイルを結合する|
|`file.copy`|ファイルをコピーする|
|`list.files`,`list.dirs`|ファイル名のリストを出力する|


```R
############################################################
# 以下のコマンドをコードセルに入力し、実行してみてください #
############################################################
dir.create("testdir")　　　　　　　　　　　　　　　　　　　　　# ディレクトリの作成
list.files("testdir")　　　　　　　　　　　　　　　　　　　　　# ファイルの表示
file.create("testdir//test.txt")　　　　　　　　　　　　 　　　# ファイルの作成
list.files("testdir")　　　　　　　　　　　　　　　　　　　　　# ファイルの表示
file.exists("test.txt")　　　　　　　　　　　　　　　　　　　　# ファイルが存在するか確認
file.exists("testdir//test.txt")　　　　　　 　　　　　　　　　# ファイルが存在するか確認
file.copy("testdir//test.txt","testdir//test2.txt")　　　　　　# ファイルのコピー
list.files("testdir")　　　　　　　　　　　　　　　　　　　　　# ファイルの表示
file.rename("testdir//test2.txt","testdir//test3.txt")　　　 　# ファイル名の変更 
list.files("testdir")　　　　　　　　　　　　　　　　　　　　　# ファイルの表示
file.remove("testdir//test3.txt")　　　　　　　　　　　　　　　# ファイルの削除 
list.files("testdir")　　　　　　　　　　　　　　　　　　　　　# ファイルの表示
```
