自然言語処理周りが弱いので、これをやる  
[素人の自然言語処理100本ノック: まとめ](https://qiita.com/segavvy/items/fb50ba8097d59475f760)

先にPython公式の[正規表現How to](https://docs.python.jp/3/howto/regex.html)を終わらせる  
Qiitaで[正規表現の使い方をまとめたサイト](https://qiita.com/wanwanland/items/ce272419dde2f95cdabc)が会ったので、使い方はそこを参考に、ここでは検索演算子を中心に説明する

# 文字のマッチング

特殊文字 | 説明 | 例・同値の表現 | 
:---: | :--- | :---
[] | 文字クラスの指定 | [a-c]: a, b, cのいずれか
^ | 否定論理記号 | [^5]: "5"を除く任意の文字
\ | 特殊シーケンスの合図や特殊文字のエスケープ | \\[: "["の検索
\w | 任意の英数字文字 | [a-zA-Z0-9_]
\W | 任意の非英数字文字 | [^a-zA-Z0-9_]
\d | 任意の10進数 | [0-9]
\D | 任意の非数字文字 | [^0-9]
\s | 任意の空白文字 | [ \t\n\r\f\v]
\S | 任意の非空白文字 | [^ \t\n\r\f\v]


これらのシーケンスは文字クラスの中に含められる 例) [\s,.]: 空白文字 or "," or "."にマッチ

# 繰り返し

特殊文字 | 説明 | 例・定義
:---: | :---: | :---:
\* | 該当文字数がいくつでも反応 | ca*t: ct, cat, caat, とかとか
\+ | 該当文字数が0の場合には反応しない | ca+t: cat, caat, とかとか
\? | 該当文字数が0, 1の場合にのみ反応する | home-?brew: homebrew, home-brew
\{m, n} | m個以上n個以下の場合に反応する | a/{1, 3}b: a/b, a//b, a///b

{m, n}は万能だが冗長なので、*や+、?が利用出来る場合はそちらを使った方がよい

* **\*の発展的な書き方**  
 a[bcd]*b をabcbdにマッチされる場合、  
 aが正規表現にマッチ  
 ⇩  
 abcbdまで読み込み  
 ⇩  
 終わりにbが無い  
 ⇩  
 abcbまで読み込み  
 ⇩  
 終わりがd  
 ⇩  
 abcまで読み込み  
 ⇩  
 終わりがb  
 ⇩  
 マッチ成功    
 というように動く

# 正規表現の使い方

## Pythonで正規表現を扱うモジュール

Pythonでは正規表現を扱うreモジュールがある

In [2]:
import re

## コンパイル方法

正規表現をコンパイルする方法は、パターンを事前にコンパイルする方法(1)と検索時にパターンを設定する方法(2)がある  
文字列内のバックスラッシュをそのまま扱えるようになるので、**パターンの最初にrを付ける**よう心がける

通常の文字列 | raw string記法
:---: | :---:
"ab\*" | r"ab\*" 
"\\\\section | r"\\section


In [3]:
# (1)
pattern = r"ca"
text = "caabsacasca"
repatter = re.compile(pattern)
matchOB = repatter.match(text)

In [7]:
# (2)
pattern = r"ca"
text = "caabsacasca"
matchOB = re.match(pattern , text)

## 検索方法

関数 | 目的
:--- | :---
match() | 文字列の先頭がマッチするか判定
search() | 文字列の中でマッチするか判定、最初の箇所しか返さない
findall() | 文字列の中でパターンとマッチする部分すべてをリストで返す
finditer() | 文字列の中でパターンとマッチする部分をiteratorとして返す

### match()

In [12]:
print(matchOB.group()) # 正規表現にマッチした文字列を返す
print(matchOB.start()) # マッチした開始位置を返す
print(matchOB.end()) # マッチした終了位置を返す
print(matchOB.span()) # マッチの位置(start, end)を含むタプルを返す
matchOB.start(), matchOB.end() # カンマ区切りはタプルになる

ca
0
2
(0, 2)


(0, 2)

### search()

In [16]:
pattern = r"ca"
text = "caabsacasca"
matchOB = re.search(pattern , text)

if matchOB:
    print(matchOB)
    print(matchOB.group()) # マッチした文字列を返す # ca
    print(matchOB.start()) # マッチの開始位置を返す # 0
    print(matchOB.end())  # マッチの終了位置を返す # 2
    print(matchOB.span())  # マッチの位置(start, end)を含むタプルを返す # (0, 2)

<_sre.SRE_Match object; span=(0, 2), match='ca'>
ca
0
2
(0, 2)


### findall()

In [15]:
pattern = r"ca"
text = "caabsacasca"
# パターンにマッチしたすべてをリストとして返す
matchedList = re.findall(pattern,text)
if matchedList:
    print(matchedList) # ['34567', '34567']

['ca', 'ca', 'ca']


In [17]:
pattern = r"ca"
text = "caabsacasca"
# パターンにマッチしたすべてをイテレータとして返す
iterator = re.finditer(pattern ,text)
for match in iterator:
    print(match.group())   # 1回目: ca      2回目: ca   
    print(match.start())    # 1回目: 0       2回目: 6      
    print(match.end())      # 1回目: 2       2回目: 8      
    print(match.span())    # 1回目: (0, 2)  2回目: (6, 8)

ca
0
2
(0, 2)
ca
6
8
(6, 8)
ca
9
11
(9, 11)


## プロパティ

正規表現で検索をかけるときに、条件を設定することが出来る  

プロパティ | 意味
:-- | :--
ASCII, A | \w, \b, \s, そして \d などをそれぞれのプロパティをもつ ASCII 文字だけにマッチさせる
DOTALL, S | . を改行を含む任意の文字にマッチするようにします
IGNORECASE, I | 大文字小文字を区別しないマッチを行います
MULTILINE, M | ^ や $ に作用して、複数行にマッチング
VERBOSE, X (for ‘extended’) | 冗長な正規表現を利用できるようにして、よりきれいで理解しやすくまとめることができます。

In [20]:
pattern = r"avSCSA"
text = "AVscsa"

#コンパイルするパターン
repatter = re.compile(pattern, re.IGNORECASE)#大文字小文字の区別をしない
matchOB = repatter.match(text)

#コンパイルしないパターン
matchOB = re.match(pattern , text, re.IGNORECASE)#大文字小文字の区別をしない

if matchOB:
    print(matchOB.group())  # ''

AVscsa


In [23]:
u = "日本語".encode("utf-8")
u

b'\xe6\x97\xa5\xe6\x9c\xac\xe8\xaa\x9e'

In [25]:
s = u.decode("utf-8")
s

'日本語'

In [32]:
type(u"日本語")

str

# 特殊文字

特殊文字 | 説明 | 例・同値の表現
:---: | :--- | :---
shift+¥(縦棒])　|  比較演算子(or) | 
^ | 行の先頭にマッチ | "^From": 文章の冒頭にFromが書いてあった場合のみ反応
$ | 行の末尾にマッチ |　"}\$": 文章の末尾に}が書いてあった場合のみ反応
\\A | 文字列の先頭にのみマッチ | 
\\Z | 文字列の末尾にのみマッチ |
\\b | 納入箇所が空白か非英数文字の場合にのみマッチ | r'\\bclass\\b':  "class"がそのものの単語だった場合のみ反応
\\B | \\bの逆 | 


* MULTILINEを指定しない場合は^と\\A、$とZは同様の動きをする
* \\bはパターンの文字列の前にrをつける、つけない場合はバックスラッシュが認識されない

In [42]:
# \bの挙動確認
p = re.compile(r'\bclass\b')
print(p.search('no class at all').span())
print(p.search('class at all').span())
print(p.search('no classes at all'))

(3, 8)
(0, 5)
None


# グルーピング