正規表現機能は、標準モジュールのreが提供する。

In [1]:
import re

パターン：マッチング対象となる文字列
ソース：マッチングする文字列

result = re.match('You', 'Young Frankenstein')
パターン：'You'
ソース：'Young Frankenstein'

より複雑なマッチでは、先にパターンをコンパイルして、あとで行うマッチングのスピーを上げることができる。

youpattern = re.compile('You')
result = youpattern.match('Young Frankenstein')

パターンとソースを比較する方法はmatch()だけではない。<br>
・search()：最初のマッチを返す（ある場合）<br>
・findall()：重なり合わないすべてのマッチリストのリストを返す（ある場合）<br>
・split()：パターンにマッチしたところでソースを分割し、部分文字列のリストを返す。<br>
・sub()：置換文字列引数を取り、ソースのうち、パターンにマッチする全ての部分を置換文字列に置き換える。<br>

***
# match()による正確なマッチ
***

In [7]:
import re
source = 'Young Frankenstein'

m = re.match('You', source) # matchはsourceの先頭がパターン一致するかどうかを見る
if m: # matchはオブジェクトを返す。マッチした部分を確かめる
    print(m.group())

m = re.match('You', source) # パターンの先頭に^を付けても同じ意味になる
if m:
    print(m.group())

m = re.match('Frank', source)
if m: # 検索失敗
    print(m.group())

m = re.search('.*Frank', source)
if m: # matchはオブジェクトを返す
    print(m.group())

You
You
Young Frank


***
.は**任意の一文字**という意味
*は**任意の個数の直前のもの**という意味。.*全体では、任意の個数(0を含む)の任意の文字という意味になる。
Frankは、探しているフレーズである。
***

***
# search()による最初のマッチ
search()を使えば、.*というワイルドカードを使わずに、ソース文字列'Young Frankenstein'の任意の位置にあるパターン'Frank'を探せる。
***

In [9]:
import re
source = 'Young Frankenstein'

m = re.search('Frank', source)
if m: #searchはオブジェクトを返す
    print(m.group())

Frank


***
# findall()によるすべてのマッチの検索
文字列の中にある1文字の文字列が何個あるかを知る。
***

In [10]:
import re
source = 'Young Frankenstein'

m = re.findall('n.?', source)
print(m)

['ng', 'nk', 'ns', 'n']


***
# split()によるマッチを利用した分割
文字列の中にある1文字の文字列が何個あるかを知る。
***

In [11]:
import re
source = 'Young Frankenstein'

m = re.split('n', source)
print(m) # splitはリストを返す

['You', 'g Fra', 'ke', 'stei', '']


***
# sub()によるマッチした部分の置換
文字列のreplace()メソッドと似ているが、置換対象としてリテラル文字列ではなくパターンを指定する。
***

In [12]:
import re
source = 'Young Frankenstein'

m = re.sub('n','?', source)
print(m) # subは文字列を返す

You?g Fra?ke?stei?


***
Pythonのstringモジュールは、テストのために使える文字列定数をあらかじめ定義している。
***

In [16]:
import string
printable = string.printable
len(printable)
printable[0:50]
printable[50:]

'OPQRSTUVWXYZ!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~ \t\n\r\x0b\x0c'

printable の中で数字はどれか

In [17]:
re.findall('\d', printable)

['0', '1', '2', '3', '4', '5', '6', '7', '8', '9']

printableの中で数字、英字、アンダースコアのいずれかにふくまれるものはどれか。

In [19]:
re.findall('\w', printable)

['0',
 '1',
 '2',
 '3',
 '4',
 '5',
 '6',
 '7',
 '8',
 '9',
 'a',
 'b',
 'c',
 'd',
 'e',
 'f',
 'g',
 'h',
 'i',
 'j',
 'k',
 'l',
 'm',
 'n',
 'o',
 'p',
 'q',
 'r',
 's',
 't',
 'u',
 'v',
 'w',
 'x',
 'y',
 'z',
 'A',
 'B',
 'C',
 'D',
 'E',
 'F',
 'G',
 'H',
 'I',
 'J',
 'K',
 'L',
 'M',
 'N',
 'O',
 'P',
 'Q',
 'R',
 'S',
 'T',
 'U',
 'V',
 'W',
 'X',
 'Y',
 'Z',
 '_']

空白文字を検索

In [20]:
re.findall('\s',printable)

[' ', '\t', '\n', '\r', '\x0b', '\x0c']

***
# パターン：メタ文字
***

In [21]:
source = '''I wish I may, I wish I might Have a dish of fish tonight.'''

In [22]:
re.findall('wish', source)

['wish', 'wish']

In [23]:
re.findall('wish|fish', source)

['wish', 'wish', 'fish']

In [24]:
re.findall('^wish', source)

[]

In [26]:
re.findall('^I wish', source)

['I wish']

In [29]:
re.findall('^fish$', source)

[]

In [31]:
re.findall('fish tonight.$', source)

['fish tonight.']

In [34]:
re.findall('[wf]ish', source)

['wish', 'wish', 'fish']

In [35]:
re.findall('[wsh]+', source)

['w', 'sh', 'w', 'sh', 'h', 'sh', 'sh', 'h']

In [37]:
re.findall('ght\W', source)

['ght ', 'ght.']

In [38]:
re.findall('I (?=wish)', source)

['I ', 'I ']

In [39]:
re.findall('\bfish', source)

[]

In [40]:
re.findall(r'\bfish', source)

['fish']

***
# パターン：マッチした文字列の出力の指定

***

In [50]:
import re
source = '''I wish I may, I wish I might Have a dish of fish tonight.'''
m = re.search(r'(. dish\b).*(\bfish)', source)
m.group()

'a dish of fish'

In [51]:
m.groups()

('a dish', 'fish')

(?P<name> expr )という形式を使うと、exprにマッチした部分はnameという名前のグループに保存される。

In [55]:
source = '''I wish I may, I wish I might Have a dish of fish tonight.'''
m = re.search(r'(?P<DISH>. dish\b).*(?P<FISH>\bfish)', source)
m.group()

'a dish of fish'

In [56]:
m.group('DISH')

'a dish'

In [57]:
m.group('FISH')

'fish'