## 8.1 正規表現

In [1]:
#stringrパッケージの読み込みとサンプルオブジェクトの生成
library(stringr)
example.obj <- "1. A small sentence. - 2. Another tiny sentence."

### 8.1.1 マッチした文字列の抽出

```str_extract(string, pattern)```で定義される

In [2]:
str_extract(example.obj, "small")    

マッチする部分文字列がない場合は欠損値が返ってくる

In [3]:
str_extract(example.obj, "banana")

マッチする全ての部分文字列を抽出する場合は```str_extract_all(string, pattern)```を用いる

In [4]:
unlist(str_extract_all(example.obj, "sentence"))

```unlist()```はリストを非リスト化する関数

```str_extract_all()```は入力ベクトルと同じ長さのリストを返す

In [5]:
str_extract_all(c("text", "manipulation", "basics"), "a")

デフォルトでは, 文字列のマッチは大文字と小文字を区別する

In [6]:
str_extract(example.obj, "SMALL")

大文字と小文字を区別せずに抽出するためには```regex()```, ```fixed()```, ```coll()```のいずれかを用いる

In [7]:
str_extract(example.obj, regex("SMALL", ignore_case = TRUE))

正規表現は単語の一部分や空白にマッチすることが出来る

In [8]:
unlist(str_extract_all(example.obj, "en"))
str_extract(example.obj, "mall sent")

##### 開始と終端へのマッチ

正規表現の開始につけるキャレット記号```^```は文字列の開始を意味しており, 末尾の```$```は文字列の終端を意味する

In [9]:
str_extract(example.obj, "^2")           #先頭に'2'はないのでNAが返ってくる
str_extract(example.obj, "sentence$")    #末尾はピリオドなのでNAが返ってくる

##### パイプ演算子

正規表現において, パイプ```|```は論理演算子の```OR```のように振舞い, 関数はパイプの前後に書かれた正規表現のどちらかにマッチしたものを返す

In [10]:
unlist(str_extract_all(example.obj, "tiny|sentence"))

#### 8.1.2 正規表現の一般化

正規表現中のピリオドは任意の1文字とマッチする

In [11]:
str_extract(example.obj, "sm.ll")

文字をブラケット```[]```で囲むことで文字クラスを作成できる.  
文字クラスは, ブラケット内の文字のどれかにマッチするというパターンを示す.

In [12]:
str_extract(example.obj, "sm[abc]ll")

文字クラス内でダッシュ(-)を用いることで文字の範囲を示すこともできる.

In [13]:
str_extract(example.obj, "sm[a-p]ll")

正規表現は句読点やスペースも含むことができ, 
**文字クラス内での句読点やスペースは正規表現としての機能を失う**ので注意が必要.

In [14]:
unlist(str_extract_all(example.obj, "[uvw. ]"))    #u, v, w, ピリオド, スペースのいずれかにマッチ

##### 文字クラス

Rの正規表現であらかじめ定義されている文字クラスがあり, **文字クラスをブラケットで二重に囲む**ことで利用できる.  
([[:punct:]]などが正しく, [:punct:]だと「ブラケット内のいずれかの1文字」として認識されてしまう)

- [:digit:] 数字: 0 1 2 3 4 5 6 7 8 9
- [:lower:] 小文字のアルファベット全体
- [:upper:] 大文字のアルファベット全体
- [:alpha:] アルファベット全体(大文字・小文字は問わない)
- [:alnum:] 数字とアルファベット全体
- [:punct:] 句読点: . , ; など
- [:graph:] 図形文字: [:alnum:] [:punct:]
- [:blank:] 空白文字: スペース タブ
- [:space:] 間隔文字: スペース タブ 改行 その他の間隔文字
- [:print:] 印刷可能な文字: [:alnum:] [:punct:] [:space:]

出典: http://stat.ethz.ch/R-manual/R-patched/library/base/html/regex.html

In [15]:
#句読点にマッチする正規表現
unlist(str_extract_all(example.obj, "[[:punct:]]"))

文字クラス内に同じ文字が2回以上表れても1回しか現れない場合と同じ結果になる.

In [16]:
unlist(str_extract_all(example.obj, "[AAAAA]"))

[:alpha:]を用いると, [a-zA-Z]と違い, **&ccedil;のような特殊文字もマッチさせることが出来る**

In [17]:
#句読点とA, B, Cにマッチさせる正規表現
unlist(str_extract_all(example.obj, "[[:punct:]ABC]"))

**文字クラスの最初にキャレット記号(^)を追加することで否定の意味になる.**

In [18]:
#アルファベットと数字以外の1文字をマッチさせる
unlist(str_extract_all(example.obj, "[^[:alnum:]]"))