In [1]:
import re

正規表現には2パターン
- 事前に検索パターンをコンパイルする場合
    - 同じパターンで何度も検索する場合に、高速で検索可能
- コンパイルせず、検索時にパターンを設定する方法
    - 検索パターンを使い回すことがない場合に使う

rを先頭につける理由は、バックスラッシュ等の記号をそのまま扱えるから

In [2]:
pattern = r"ca"
text = "caabsacasca"
repattern = re.compile(pattern)
match = repattern.match(text)

In [3]:
pattern = r"ca"
text = "caabsacasca"
match = re.match(pattern,text)

- match(pattern, string)
    - 文字列の先頭で正規表現とマッチするか判定
- search(pattern, string)
    - 文字列を操作して、正規表現がどこにマッチするか調べる
- findall(pattern, string)
    - 正規表現にマッチする部分文字列をすべて探し出し、リストとして返す
- finditer(pattern, string)
    - 正規表現にマッチする部分文字列をすべて探し出し、iteratorとして返す
- split(pattern, string)
    - 正規表現にマッチする部分があるたびに分割
- sub(pattern, repl, string)
    - 正規表現にマッチする部分をreplに置き換える

In [4]:
pattern = r"ca"
text = "caabsacasca"
match = re.match(pattern,text)
if match:
    print(match.group())

ca


- group()
    - 正規表現にマッチした文字列を返す
- start()
    - マッチの開始位置を返す
- end()
    - マッチの終了位置を返す
- span()
    - マッチの位置を含むタプルを返す

In [5]:
pattern = r"ca"
text = "caabsacasca"
match = re.search(pattern,text)
if match:
    print(match)
    print(match.group())
    print(match.start())
    print(match.end())
    print(match.span())

<_sre.SRE_Match object; span=(0, 2), match='ca'>
ca
0
2
(0, 2)


In [6]:
pattern = r"ca"
text = "caabsacasca"
match = re.findall(pattern,text)
if match:
    print(match)

['ca', 'ca', 'ca']


In [7]:
pattern = r"ca"
text = "caabsacasca"
iterator = re.finditer(pattern,text)
if iterator:
    for match in iterator:
        print(match.group())
        print(match.start())
        print(match.end())
        print(match.span())

ca
0
2
(0, 2)
ca
6
8
(6, 8)
ca
9
11
(9, 11)


In [8]:
pattern = r"[^\d]*(\d+).*$"
text = "hello324 hoge321"
iterator = re.finditer(pattern,text)
if iterator:
    for match in iterator:
        print(match.group())
        print(match.start())
        print(match.end())
        print(match.span())

hello324 hoge321
0
16
(0, 16)


- []
    - カッコの中に示されたもののいずれか
- ^
    - 否定（[]の外で使うと、行の先頭という意味）
- ()
    - マッチには関与せず、（）の中の箇所を抽出
- .
    - なんでもいい
- $
    - 文末
- \d
    - 数字
- \s
    - 空白（タブ含む）

In [9]:
pattern = r"(\d+)\s(\d+)\s([A-z]+)\s(\d+):(\d+):(\d+)\s([A-z\s]+)"
text = "2015 10 Aug 23:01:14 Hello World"
match = re.match(pattern,text)
if match:
    print(match.group())

2015 10 Aug 23:01:14 Hello World


In [10]:
pattern = r"私は.です"
text = "私は鳥です"
match = re.match(pattern, text)
if match:
    print(match.group())

私は鳥です


In [11]:
pattern = r"^ありがとう"
text = ["今日はありがとうございました", "ずっとありがとう","ありがとうありがとう"]
iterator = [re.match(pattern,t) for t in text]
if iterator:
    for match in iterator:
        if match:
            print(match.group())
            print(match.start())
            print(match.end())
            print(match.span())

ありがとう
0
5
(0, 5)


In [12]:
pattern = r"おー*い"
text = ["おーい", "おーーーーーい","おいおい"]
iterator = [re.match(pattern,t) for t in text]
if iterator:
    for match in iterator:
        if match:
            print(match.group())
            print(match.start())
            print(match.end())
            print(match.span())

おーい
0
3
(0, 3)
おーーーーーい
0
7
(0, 7)
おい
0
2
(0, 2)


In [13]:
pattern = r"おー+い"
text = ["おーい", "おーーーーーい","おいおい"]
iterator = [re.match(pattern,t) for t in text]
if iterator:
    for match in iterator:
        if match:
            print(match.group())
            print(match.start())
            print(match.end())
            print(match.span())

おーい
0
3
(0, 3)
おーーーーーい
0
7
(0, 7)


In [14]:
pattern = r"おー?い"
text = ["おーい", "おーーーーーい","おいおい"]
iterator = [re.match(pattern,t) for t in text]
if iterator:
    for match in iterator:
        if match:
            print(match.group())
            print(match.start())
            print(match.end())
            print(match.span())

おーい
0
3
(0, 3)
おい
0
2
(0, 2)


- *
    - 直前の文字がないか、直前の文字が一個以上連続
- +
    - 最低でも一個は直前の文字があって、それが連続
- ?
    - 直前の文字が全くないか、一個だけ存在

In [15]:
pattern = r"君が好き.*です"
text = "君が好きかもしれないですけどやっぱりそうですですです。"
match = re.search(pattern,text)
if match:
    print(match.group())
    print(match.start())
    print(match.end())
    print(match.span())

君が好きかもしれないですけどやっぱりそうですですです
0
26
(0, 26)


文末まで全て検索されることに注意

In [16]:
pattern = r"(じゃ)+ーん"
text = ["じゃじゃじゃーん", "じゃじーん","じゃじゃまるーん"]
iterator = [re.match(pattern,t) for t in text]
if iterator:
    for match in iterator:
        if match:
            print(match.group())
            print(match.start())
            print(match.end())
            print(match.span())

じゃじゃじゃーん
0
8
(0, 8)
